ما هي خوارزمية أبريوري؟ شرح خوارزمية Apriori

قبل أن نتعمق في خوارزمية Apriori، يجب أن نفهم خلفية التطبيق.
في عصر التسوق عبر الإنترنت، ما زلنا نخصص بعض الوقت لزيارة محلات السوبر ماركت لالتقاط المنتجات بسرعة.
هل تساءلت يومًا عن سبب وضع عناصر معينة معًا وهل هناك أي سبب وراء وضعها؟ فكر في الأمر، ضع البلسم بالقرب من الشامبو. يتم الاحتفاظ بالبصل والبطاطس على مقربة.
إضافة المزيد إلى القائمة هو الخبز والمربى والسكر وأكياس الشاي وما إلى ذلك. وحتى لو رأينا تخفيضات على بعض العناصر، مثل شراء صابون الأطفال، فإننا نحصل على خصم على الغسول.
يعرف صاحب المتجر مشاعر العملاء ويحقق ربحًا منها. وهذا ليس سوى تحليل لسلة السوق. أليست هذه طريقة رائعة لتحسين المبيعات؟
كل هذه هي الأمثلة المثالية لقواعد الرابطة. ويمكن تطبيقه أيضًا في المجال الطبي لتحديد الأعراض التي تميل إلى التواجد معًا والمساعدة في التشخيص والشفاء السريع. وهي إحدى طرق التنقيب عن البيانات.
البعض الآخر على النحو التالي:
- علاقة
- تصنيف
- تجمع
تعريف
تعلم قواعد الارتباط هو أسلوب تعلم آلي قائم على القواعد لاكتشاف العلاقات المثيرة للاهتمام بين المتغيرات في قواعد البيانات الكبيرة. المتغيرات هنا هي Items.
قواعد البيانات هي أماكن يتم فيها تخزين المعاملات التاريخية (أنماط شراء العملاء).
سأسلط الضوء بسرعة على بعض المفاهيم التي يجب فهمها قبل المضي قدمًا في خوارزمية Apriori.
مجموعة العناصر: تسمى مجموعة العناصر معًا مجموعة العناصر. تتكون مجموعة العناصر من عنصرين أو أكثر.
مجموعة العناصر المتكررة: مجموعة العناصر التي تحدث بشكل متكرر تسمى مجموعة العناصر المتكررة.
تسمى مجموعة العناصر متكررة إذا كانت تلبي الحد الأدنى من قيمة الدعم والثقة.
الدعم: يخبرنا بمدى شعبية مجموعة العناصر، كما يتم قياسه بنسبة المعاملات التي تظهر فيها مجموعة العناصر.
يعرض الدعم المعاملات مع العناصر التي تم شراؤها معًا في معاملة واحدة. لنفترض أن 5 معاملات قيد الدراسة ونقول إنه تم شراء الحليب في 3 معاملات.
دعم الحليب = 3/5
الثقة: يظهر المعاملات التي يتم فيها شراء العناصر واحدة تلو الأخرى. مدى احتمالية شراء العنصر Y عند شراء العنصر X، معبرًا عنه بـ {X -> Y}. لنفترض أن الحليب والخبز يتم تحليلهما معًا. يتم شراء الخبز بعد الحليب مرتين.
الثقة (الحليب->الخبز) = دعم (الحليب، الخبز) /دعم الحليب=2/دعم الحليب
عيب الثقة هو أنها تفسر فقط مدى شعبية الحليب، وليس الخبز الذي قد يسيء تمثيل أهمية الارتباط.
الرفع: مدى احتمالية شراء العنصر Y عند شراء العنصر X، وكذلك التحكم في مدى شعبية العنصر Y.
لنفترض أنه تم شراء الخبز مرتين من أصل 5 معاملات-
دعم الخبز = 2/5
رفع (الحليب->الخبز) = دعم (الحليب، الخبز) /دعم الحليب*دعم الخبز
دعونا نربط كل هذه الأمور بخوارزمية Apriori.
يجب أن يقوم تعدين قواعد الارتباط بما يلي:
- البحث عن كافة العناصر المتكررة.
- قم بإنشاء قواعد الارتباط من مجموعة العناصر المتكررة أعلاه.
تعتمد مجموعة العناصر المتكررة أو تعدين الأنماط على:
- أنماط متكررة
- أنماط متسلسلة
- العديد من مهام التنقيب عن البيانات الأخرى.
كانت خوارزمية Apriori هي الخوارزمية الأولى التي تم اقتراحها للتعدين المتكرر لمجموعة العناصر.
لماذا الاسم؟
ويستخدم المعرفة المسبقة (المسبقة) لخصائص مجموعة العناصر المتكررة.
من قدمه؟
راكيش أغراوال وراماكريشنان سريكانت في عام 1994.
الافتراضات
- يجب أن تكون جميع المجموعات الفرعية لمجموعة العناصر المتكررة متكررة (خاصية Apriori)
- إذا كانت مجموعة العناصر غير متكررة، فستكون جميع مجموعاتها الشاملة غير متكررة وبالتالي يمكن تجاهلها (خاصية الأنتيمونوتون)
كيفية اتخاذ قرار بشأن التردد؟
يتم تحديد الحد الأدنى بناءً على مشورة الخبراء أو فهم المستخدم.
خطوات:
- خطوة الانضمام: تقوم هذه الخطوة بإنشاء مجموعة عناصر (K+1) من مجموعات عناصر K عن طريق ضم كل عنصر مع نفسه.
- خطوة التقليم: تقوم هذه الخطوة بفحص عدد كل عنصر في قاعدة البيانات. إذا كان العنصر المرشح لا يستوفي الحد الأدنى من الدعم، فسيتم اعتباره نادرًا، وبالتالي يتم إزالته. يتم تنفيذ هذه الخطوة لتقليل حجم مجموعات العناصر المرشحة.
الخطوات التفصيلية:
- تعيين مستوى دعم العتبة. قل 50٪ على سبيل المثال-
رقم المعاملة | لبن | خبز | سمنة | سكر | البطاطس |
t1 | 1 | 1 | 1 | 0 | 0 |
t2 | 0 | 1 | 1 | 1 | 0 |
t3 | 0 | 1 | 0 | 1 | 1 |
t4 | 1 | 1 | 0 | 1 | 0 |
t5 | 1 | 1 | 1 | 0 | 1 |
t6 | 1 | 1 | 1 | 1 | 1 |
- قم بإنشاء جدول تكراري لجميع العناصر التي تحدث في جميع المعاملات. قم بتهذيب الجدول التكراري ليشمل فقط تلك العناصر التي لديها مستوى دعم عتبة يزيد عن 50%.
غرض | التكرار |
لبن | 4 |
خبز | 6 |
سمنة | 4 |
سكر | 4 |
- قم بعمل أزواج من كل عنصر على النحو التالي، واحسب التكرار من جدول المعاملات:
مجموعة العناصر | التكرار |
خبز الحليب | 4 |
زبدة الحليب | 3 |
سكر الحليب | 2 |
زبدة الخبز | 4 |
سكر الخبز | 4 |
سكر زبدة | 2 |
طبق نفس العتبة، وسنحصل أخيرًا على خبز الحليب وزبدة الخبز وسكر الخبز.
- الآن قم بتحليل 3 مجموعات من العناصر. لدينا زبدة خبز الحليب وسكر زبدة الخبز وسكر خبز الحليب. كرر الخطوة السابقة لحساب التكرار، وتطبيق العتبة لإزالة مجموعة العناصر غير المتكررة.
مجموعة العناصر | التكرار |
زبدة خبز الحليب | 3 |
سكر خبز الحليب | 2 |
خبز زبدة سكر | 2 |
بقي لنا الحليب والخبز والزبدة. في الوقت الفعلي، سيكون لدينا عدد كبير من المعاملات التي يتعين علينا إجراؤها للحصول على هذه النتائج. سيكون هناك مجموعات متعددة والتي تستمر للوصول إلى أفضل النتائج أو ربط العناصر.
الايجابيات:
- خوارزمية بسيطة
- من السهل التنفيذ على مجموعات العناصر الكبيرة في قواعد البيانات الكبيرة باستخدام الخطوات المشتركة والمقلمة
سلبيات:
- يتطلب الأمر إجراء عمليات حسابية عالية إذا كانت مجموعات العناصر كبيرة جدًا وكان الحد الأدنى للدعم منخفضًا جدًا
- تقوم الخوارزمية بفحص قاعدة البيانات عدة مرات، مما يقلل من الأداء الإجمالي
- تعقيد الزمان والمكان لهذه الخوارزمية مرتفع جدًا
اقرأ أيضًا: أهم أسئلة المقابلة للتعلم الآلي لعام 2020
كيفية تحسين الكفاءة؟
- التقنية القائمة على التجزئة
- تخفيض المعاملات
- التقسيم
- أخذ العينات
- عد العناصر الديناميكية:
التطبيقات:
وقد سبق ذكر بعضها في المقدمة، والبعض الآخر:
- في نظام التوصيات من قبل شركات التجارة الإلكترونية.
- ميزة الإكمال التلقائي من خلال محرك البحث.
- ابحث عن الارتباط في قاعدة بيانات الطالب، وقاعدة بيانات المرضى، وما إلى ذلك.
خاتمة
بالنسبة للمبتدئين، فهو يوفر طريقة سهلة لفهم قواعد الارتباط والتقدم بسرعة لتحليل سلة السوق.
على الرغم من وجود قيود، يمكننا أن نأخذ هذا في الاعتبار في العديد من التطبيقات.

اغتنم الفرص التي تنتظرك من خلال مجموعتنا الديناميكية من الدورات المجانية. سواء كنت مهتمًا بالأمن السيبراني، أو الإدارة، أو الحوسبة السحابية، أو تكنولوجيا المعلومات، أو البرامج، فإننا نقدم مجموعة واسعة من المجالات الخاصة بالصناعة. اكتسب المهارات والخبرات الأساسية لتزدهر في المجال الذي اخترته وتطلق العنان لإمكاناتك الكاملة.
المصدر: mygreatlearning
شاهد هنا: