ما هو التجميع الهرمي؟ مقدمة للمجموعات الهرمية

يعد التجميع أحد الأساليب الشائعة المستخدمة لإنشاء مجموعات متجانسة من الكيانات أو الكائنات.
بالنسبة لمجموعة معينة من نقاط البيانات، قم بتجميع نقاط البيانات في عدد X من المجموعات بحيث تكون نقاط البيانات المتشابهة في المجموعات قريبة من بعضها البعض.
في معظم المشاريع التحليلية، بعد تنظيف البيانات وإعدادها، غالبًا ما يتم تنفيذ تقنيات التجميع قبل النمذجة التنبؤية أو التحليلية الأخرى.
يقع التجميع ضمن فئة التعلم غير الخاضع للرقابة. بمعنى أنه لا توجد فئة مصنفة أو متغير مستهدف لمجموعة بيانات معينة. نحن مهتمون فقط بتجميع السجلات أو الكائنات المماثلة في مجموعة.

دعونا نحاول فهم التجميع في r من خلال دراسة حالة مجال البيع بالتجزئة.
لنفترض ما إذا كانت سلسلة البيع بالتجزئة الرائدة تريد تقسيم العملاء إلى 3 فئات، مجموعة الدخل المنخفض (LIG)، ومجموعة الدخل المتوسط (MIG)، ومجموعة الدخل المرتفع (HIG) بناءً على مبيعاتهم وبيانات العملاء من أجل استراتيجيات تسويق أفضل.
في هذه الحالة، تكون البيانات متاحة لجميع العملاء والهدف هو فصل أو تشكيل 3 مجموعات مختلفة من العملاء. يمكننا تحقيق ذلك بمساعدة تقنيات التجميع.
الصورة أدناه تصور نفسه. الدوائر الوردية والزرقاء والصفراء هي نقاط البيانات التي تم تجميعها في 3 مجموعات، وهي LIG وMIG وHIG التي لها نوع مماثل من العملاء أو مجموعة متجانسة من العملاء داخل المجموعات.

الآن بعد أن أصبح لدينا فكرة جيدة عن التجميع، فقد حان الوقت لفهم التجميع الهرمي.
تقوم المجموعات الهرمية بإنشاء مجموعات في بنية هرمية تشبه الشجرة (وتسمى أيضًا Dendrogram).
بمعنى أنه يتم إنشاء مجموعة فرعية من البيانات المماثلة في بنية تشبه الشجرة حيث تتوافق العقدة الجذرية مع البيانات بأكملها، ويتم إنشاء الفروع من العقدة الجذرية لتكوين عدة مجموعات.
المجموعات الهرمية هي من نوعين.
- خلافي
- المجموعات الهرمية التكتلية
يُطلق على المجموعات الهرمية المقسمة أيضًا اسم نهج التجميع من أعلى إلى أسفل.
في هذه التقنية، يتم تخصيص البيانات أو الملاحظة بأكملها لمجموعة واحدة. يتم تقسيم المجموعة أيضًا حتى تكون هناك مجموعة واحدة لكل بيانات أو ملاحظة.
يُعرف التجميع الهرمي التكتلي عمومًا بالنهج التصاعدي، حيث يتم التعامل مع كل بيانات أو ملاحظة على أنها مجموعتها.
يتم دمج زوج من المجموعات حتى يتم دمج جميع المجموعات في مجموعة واحدة كبيرة تحتوي على جميع البيانات.
كلتا الخوارزميتين متعارضتان تمامًا مع بعضهما البعض. لذلك سوف نقوم بتغطية خوارزميات التجميع الهرمية التجميعية بالتفصيل.
كيف تعمل خوارزمية التجميع الهرمي التكتلية
لتجميع مجموعة من الملاحظات N:
- ابدأ بتعيين كل ملاحظة كمجموعة نقطية واحدة، بحيث إذا كان لدينا N من الملاحظات، فلدينا N من المجموعات، تحتوي كل منها على ملاحظة واحدة فقط.
- ابحث عن أقرب زوج من العناقيد (الأكثر تشابهًا) واجعلهما في مجموعة واحدة، لدينا الآن مجموعات N-1. ويمكن القيام بذلك بطرق مختلفة لتحديد التدابير المتشابهة والمختلفة (سيتم شرحها في قسم لاحق)
- ابحث عن أقرب مجموعتين واجعلهما في مجموعة واحدة. لدينا الآن مجموعات N-2. يمكن القيام بذلك باستخدام تقنيات ربط المجموعات التكتلية (موضحة في قسم لاحق)
- كرر الخطوتين 2 و3 حتى يتم تجميع كافة الملاحظات في مجموعة واحدة بالحجم N.
تستخدم خوارزميات التجميع مقاييس مختلفة للمسافة أو الاختلاف لتطوير مجموعات مختلفة.
تشير المسافة الأقل/الأقرب إلى أن البيانات أو الملاحظة متشابهة وسيتم تجميعها في مجموعة واحدة. وتذكر أنه كلما زاد التشابه يصور الملاحظة تشابها.
يمكن القيام بالخطوة 2 بطرق مختلفة لتحديد التدابير المتشابهة والمختلفة. يسمى،
- المسافة الإقليدية
- مسافة مانهاتن
- مسافة مينكوفسكي
- معامل تشابه جاكارد
- تشابه جيب التمام
- معامل تشابه جاور
المسافة الإقليدية
المسافة الإقليدية هي مقياس المسافة الأكثر استخدامًا على نطاق واسع عندما تكون المتغيرات مستمرة (إما مقياس الفاصل الزمني أو النسبة).
المسافة الإقليدية بين نقطتين تحسب طول القطعة التي تربط النقطتين. إنها الطريقة الأكثر وضوحًا لتمثيل المسافة بين نقطتين.
يمكن استخدام نظرية فيثاغورس لحساب المسافة بين نقطتين، كما هو موضح في الشكل أدناه.
إذا كانت النقطتان (x1, y1)) و(x2, y2) في فضاء ثنائي الأبعاد،
ثم تكون المسافة الإقليدية بينهما كما هو موضح في الشكل أدناه.
مسافة مانهاتن
قد لا تكون المسافة الإقليدية مناسبة عند قياس المسافة بين المواقع المختلفة. إذا أردنا قياس المسافة بين متجرين للبيع بالتجزئة في مدينة ما، فستكون مسافة مانهاتن أكثر ملاءمة للاستخدام، بدلاً من المسافة الإقليدية.
المسافة بين نقطتين في الشبكة تعتمد على مسار أفقي ورأسي تمامًا. مسافة مانهاتن هي المجموع البسيط للمكونات الأفقية والرأسية.
باختصار، يمكننا القول إن مسافة مانهاتن هي المسافة إذا كان عليك السفر عبر الإحداثيات فقط.


مسافة مينكوفسكي
يتم تعريف مسافة Minkowski بين متغيرين X وY على أنها –
عندما تكون p = 1، فإن مسافة مينكوفسكي تعادل مسافة مانهاتن، وفي الحالة التي تكون فيها p = 2، تعادل المسافة الإقليدية.
معامل تشابه جاكارد/مؤشر جاكارد
يمكن استخدام معامل تشابه Jaccard عندما تكون بياناتك أو متغيراتك ذات طبيعة نوعية.
على وجه الخصوص، يتم استخدامها عندما يتم تمثيل المتغيرات في شكل ثنائي مثل (0، 1) أو (نعم، لا).

حيث (X n Y) هو عدد العناصر التي تنتمي إلى كل من X وY
(X u Y) هو عدد العناصر التي تنتمي إلى X أو Y
سنحاول أن نفهم بمثال، لاحظ أننا بحاجة إلى تحويل البيانات إلى شكل ثنائي قبل تطبيق Jaccard Index.
لنفترض أن المتجر 1 والمتجر 2 يبيعان العناصر أدناه ويعتبر كل عنصر بمثابة عنصر.
بعد ذلك، يمكننا ملاحظة أن كلا المتجرين يبيعان الخبز، والمربى، وفحم الكوك، والكعك.
وبالتالي، تم تعيين 1 لكلا المتجرين.
تتراوح قيمة مؤشر Jaccard من 0 إلى 1. ويزداد التشابه عندما يكون مؤشر Jaccard مرتفعًا.
تشابه جيب التمام
دع A و B يكونان متجهين للمقارنة. باستخدام مقياس جيب التمام كدالة تشابه، لدينا-
تتراوح قيم تشابه جيب التمام بين -1 و1. قم بتقليل تشابه جيب التمام، ويكون التشابه منخفضًا مع ملاحظتين.
دعونا نفهم من خلال أخذ مثال، ضع في اعتبارك تقييم العلامة التجارية للقميص من قبل عميلين بمعدل 5 مقياس-
ألين سولي | سهم | بيتر انجلترا | الولايات المتحدة بولو | فان هيوزن | الأبراج الفلكية | |
العميل 1 | 4 | 5 | 3 | 5 | 2 | 1 |
العميل 2 | 1 | 2 | 4 | 3 | 3 | 5 |

معامل تشابه جاور
إذا كانت البيانات تحتوي على متغيرات نوعية وكمية، فلا يمكننا استخدام أي من مقاييس المسافة والتشابه المذكورة أعلاه لأنها صالحة للمتغيرات النوعية أو الكمية.
يمكن استخدام معامل تشابه جاور عندما تحتوي البيانات على متغيرات نوعية وكمية.
خوارزمية ربط المجموعات التكتلية (قياس المسافة العنقودية)
تستخدم هذه التقنية للجمع بين مجموعتين. لاحظ أن هذه هي المسافة بين المجموعات، وليس الملاحظة الفردية.

كيفية العثور على العدد الأمثل للمجموعات
إحدى المهام الصعبة في التجميع التكتل هي العثور على العدد الأمثل للمجموعات.
تُعد Silhouette Score إحدى الطرق الشائعة لتلقي مكالمة بشأن العدد الأمثل للمجموعات. إنها طريقة لقياس مدى قرب كل نقطة في المجموعة من النقاط الموجودة في المجموعات المجاورة لها.
دع i تكون المسافة المتوسطة بين الملاحظة i والنقاط الأخرى في المجموعة التي قمت بتعيين الملاحظة لها.
دع b i يكون الحد الأدنى للمسافة بين نقطة المراقبة i ونقاط في مجموعات أخرى.
تتراوح نتيجة الصورة الظلية من -1 ريال عماني +1. تشير قيمة Silhouette Score الأعلى إلى أن الملاحظات مجمعة بشكل جيد.
تشير نتيجة الصورة الظلية = 1 إلى أن الملاحظة (i) مطابقة جيدًا في مهمة المجموعة.
بهذا نصل إلى نهاية المدونة، إذا وجدت هذا مفيدًا، فقم بالتسجيل في الدورة التدريبية التأسيسية المجانية للتعلم الآلي من Great Learning !
يمكنك أيضًا الالتحاق بدورة تدريبية مجانية حول التجميع الهرمي في مجال البحث وتطوير المهارات اليوم!
أثناء استكشاف التجميع الهرمي للآلة، من الضروري تعزيز معرفتك من خلال الدورات التدريبية الشاملة والمنظمة عبر الإنترنت. يقدم برنامج Great Learning مجموعة من دورات الشهادات المجانية عبر الإنترنت التي يمكن أن تساعدك على التعمق في عالم علوم البيانات والتعلم الآلي الرائع.
تغطي هذه الدورات موضوعات مختلفة مثل خوارزميات التجميع وتصور البيانات والمزيد. من خلال التسجيل في هذه الدورات، يمكنك الحصول على رؤى قيمة ومهارات عملية وخبرة عملية، كل ذلك بالسرعة التي تناسبك.
قم بتوسيع فهمك للتجميع الهرمي للآلات وفتح فرص جديدة في مجال علوم البيانات من خلال الدورات التدريبية المجانية عبر الإنترنت المقدمة من Great Learning .
المصدر: mygreatlearning
قد يهمك: