فهم منحنى ROC (خاصية تشغيل المستقبل) | ما هو روك؟

AUC – منحنى ROC هو قياس الأداء لمشاكل التصنيف عند إعدادات العتبة المختلفة. ROC هو منحنى الاحتمال، وتمثل AUC درجة أو مقياس قابلية الانفصال. إنه يخبرنا عن مدى قدرة النموذج على التمييز بين الفئات.
كلما زادت قيمة AUC، كان النموذج أفضل في التنبؤ بالأصفار كصفر والواحد كواحد. على سبيل القياس، كلما ارتفعت المساحة تحت المنحنى، كان النموذج أفضل في التمييز بين المرضى المصابين بالمرض والذين لا يعانون من المرض.
يتم رسم منحنى ROC باستخدام TPR مقابل FPR حيث يكون TPR على المحور y وFPR على المحور x.
تحديد المصطلحات المستخدمة في منحنى AUC وROC
فكر في مشكلة تنبؤ من فئتين، حيث يتم تصنيف النتائج إما على أنها إيجابية (p) أو سلبية (n).
هناك أربع نتائج محتملة من المصنف الثنائي. إذا كانت نتيجة التنبؤ هي p والقيمة الفعلية هي أأيضًا p فإنها تتسمى إيجابية حقيقية (TP)؛ ومع ذلك، إذا كانت القيمة الفعلية هي n، فيقال إنها إيجابية كاذبة (FP).
على العكس من ذلك، تحدث النتيجة السلبية الحقيقي الحقيقية (ما تكون نتيجة التنبؤ والقيمة الفعلية n، والسالبة الكاذبة (FN) تحدث عندما تكون نتيجة التنبؤ n بينما تكون القيمة الفعلية ص.
TPR (المعدل الإيجابي الحقيقي) / الاستدعاء / الحساسية

النوعية

FPR

كيفية التكهن بأداء النموذج؟
النموذج الممتاز لديه AUC بالقرب من 1، مما يعني أنه يتمتع بقدر جيد من قابلية الفصل. النموذج الضعيف لديه AUC بالقرب من 0، مما يعني أنه يحتوي على أسوأ مقياس لقابلية الفصل.
وهذا يعني أنها ترد النتيجة. إنه يتوقع 0s كـ 1s و1s كـ 0s. وعندما تكون AUC 0.5، فهذا يعني أن النموذج ليس لديه القدرة على فصل الفصل على الإطلاق.
تنتج معظم المصنفات درجة، والتي يتم تحديدها بعد ذلك لتحديد التصنيف. إذا أعطى المصنف درجة تتراوح بين 0.0 (سلبية بالتأكيد) و1.0 (إيجابية بالتأكيد)، فمن الشائع اعتبار أي شيء يزيد عن 0.5 إيجابيًا.
ومع ذلك، فإن أي عتبة يتم تطبيقها على مجموعة بيانات (حيث PP هي المجموعة السكانية الإيجابية وNP هي المجموعة السالبة) ستنتج إيجابيات حقيقية (TP)، وإيجابيات كاذبة (FP)، وسلبيات حقيقية (TN)، وسلبيات كاذبة (FN). نحن بحاجة إلى طريقة تأخذ في الاعتبار كل هذه الأرقام.
العلاقة بين الحساسية والنوعية وFPR والعتبة
الدقة = (1 – خطأ) = (TP + TN) / (PP + NP) = Pr(C)، احتمال التصنيف الصحيح.
الحساسية = TP/ (TP + FN) = TP/PP = قدرة الاختبار على اكتشاف المرض لدى مجموعة من الأفراد المرضى.
النوعية = TN/ (TN + FP) = TN / NP = قدرة الاختبار على استبعاد المرض بشكل صحيح في مجتمع خالٍ من المرض.
اختيار العتبة
من الواضح على الفور أنه يمكن استخدام منحنى ROC لتحديد عتبة للمصنف الذي يزيد من الإيجابيات الحقيقية مع تقليل الإيجابيات الخاطئة.
ومع ذلك، فإن الأنواع المختلفة من المشكلات لها عتبات تصنيف مثالية مختلفة.
بالنسبة لاختبار فحص السرطان، على سبيل المثال، قد نكون مستعدين لتحمل معدل إيجابي كاذب مرتفع نسبيًا من أجل الحصول على نتيجة إيجابية حقيقية عالية، فمن المهم تحديد مرضى السرطان المحتملين.
ومع ذلك، بالنسبة لاختبار المتابعة بعد العلاج، قد يكون هناك عتبة مختلفة مرغوبة أكثر، لأننا نريد تقليل السلبيات الكاذبة، ولا نريد أن نخبر المريض أن الأمر واضح إذا لم يكن الأمر كذلك.
اقرأ أيضًا: الانحدار اللوجستي في Python وR
تقييم الاداء
تمنحنا منحنيات ROC أيضًا القدرة على تقييم أداء المصنف عبر نطاق التشغيل بأكمله. المقياس الأكثر استخدامًا هو المساحة تحت المنحنى (AUC). كما ترون من الشكل 2، فإن AUC لمصنف بدون طاقة، وهو تخمين عشوائي بشكل أساسي، هو 0.5، لأن المنحنى يتبع القطر.
AUC لهذا الكائن الأسطوري، المصنف المثالي، هو 1.0. تحتوي معظم المصنفات على AUCs تقع في مكان ما بين هاتين القيمتين.
قد تشير المساحة تحت المنحنى (AUC) التي تقل عن 0.5 إلى حدوث شيء مثير للاهتمام. قد تشير AUC المنخفضة جدًا إلى أن المشكلة قد تم إعدادها بشكل خاطئ، وأن المصنف يعثر على علاقة في البيانات، وهي في الأساس عكس ما هو متوقع.
مقارنة المصنف
يمكن استخدام AUC لمقارنة أداء مصنفين أو أكثر. يمكن تحديد عتبة واحدة، ومقارنة أداء المصنفين عند تلك النقطة، أو يمكن مقارنة الأداء الإجمالي من خلال النظر في AUC.
تقارن معظم التقارير المنشورة بين AUCs من حيث القيمة المطلقة: ” المصنف 1 لديه AUC قدره 0.85، والمصنف 2 لديه AUC قدره 0.79، لذا فإن المصنف 1 أفضل “. ومع ذلك، من الممكن حساب ما إذا كانت الاختلافات في المساحة تحت المنحنى ذات دلالة إحصائية.
آمل أن تستمتع بهذا البرنامج التعليمي على ROC Curve! إذا كنت ترغب في تعلم المزيد من هذه المفاهيم، يمكنك الاطلاع على دوراتنا المجانية على Great Learning Academy.
المصدر: mygreatlearning
شاهد المزيد: