صورة


تقترب تكنولوجيا الذكاء الاصطناعي اليوم من " الربيع " . لقد ألهمت " جائزة Turing Award " لعام 2018 ، وأداء AlphaGo المتميز في Go ، والانجاز الكبير الذي حققته AlphaFold2 في التنبؤ بهيكل البروتين ، حماس العلماء لهذا المجال ، لدرجة أن أبحاث التعلم الآلي تم " إطلاقها " مرة واحدة . " من الدائرة. يزود التعلم الآلي الأشخاص بأداة يمكنها محاكاة " ذكاء بشري " بل وخلقه . من الطب الحيوي إلى العلوم السياسية ، يستخدم الباحثون بشكل متزايد التعلم الآلي كأداة لبناء نماذج من البيانات لعمل التنبؤات. لكن استنتاجات العديد من هذه الدراسات قد تكون " مشبوهة " بأنها مبالغ فيها ، وفقًا لباحثين في جامعة برينستون في نيوجيرسي . أطلقوا ناقوس الخطر بشأن ما أطلقوا عليه " أزمة التكاثر المتخمرة " في مجال التعلم الآلي .


ما هي أزمة التكرار؟

وهذا يعني أن نتائج إحدى التجارب يصعب تكرارها في فريق بحث آخر. في العقود الأخيرة ، كانت هناك ظواهر لا يمكن إعادة إنتاج نتائج البحوث في العديد من المجالات.في عام 2016 ، تسببت ورقة الدكتور هان تشونيو المنشورة في Nature Biotechnology في جدل كبير حول موضوع التكاثر. في نفس العام ، أشار تقرير استقصائي أجرته مجلة Nature إلى أن أكثر من 70٪ من الباحثين حاولوا إعادة إنتاج النتائج التجريبية لعالم آخر لكنهم فشلوا ، وفشل أكثر من نصف الباحثين في إعادة إنتاج تجاربهم الخاصة. الآن ، يواجه التعلم الآلي أيضًا أزمة في استنساخ نتائج البحث.


أسباب أزمة التكاثر

في عام 2020 ، اجتاح فيروس كورونا الجديد العالم ، وافتقر الناس إلى طرق الاختبار والعلاج الدقيقة في مواجهة ارتفاع أعداد المرضى. ربما يمكن للذكاء الاصطناعي أن يكتشف المرض في وقت مبكر من خلال صور الرئتين ويتنبأ بالمرضى الأكثر عرضة للإصابة بأمراض خطيرة - مع هذا التوقع ، ظهرت مئات الدراسات ، وهم يزعمون ويثبتون أن الذكاء الاصطناعي يمكنه أداء هذه المهام بدقة عالية . لكن فريقًا من الباحثين في جامعة كامبريدج في المملكة المتحدة فحصوا أكثر من 400 نموذج وتوصلوا إلى نتيجة مذهلة: كل نموذج به عيوب قاتلة. عندما يتم التشكيك في المنطق الأساسي للتصميم التجريبي ، من أين تأتي القابلية للتكرار؟ السبب الجذري لهذه الظاهرة هو أن الباحثين والمراجعين الأقران لا يفهمون بشكل كامل تكنولوجيا الذكاء الاصطناعي ، والذكاء الاصطناعي الحديث مبني على التعلم الآلي.

ما هو خرق البيانات؟

يعد تسرب البيانات هو المشكلة الأكثر شيوعًا عند تطبيق التعلم الآلي. يوجد تسرب البيانات في تطبيق التعلم الآلي نفسه ، أي أن مجموعة البيانات المستخدمة لتدريب خوارزمية التعلم الآلي تحتوي على بعض خصائص الأشياء التي يمكن توقعها ، أي أن بعض المعلومات في بيانات الاختبار يتم تسريبها إلى مجموعة التدريب . يمكن أن يؤدي الفشل في فصل البيانات التي سيتم التنبؤ بها عن مجموعة بيانات التدريب إلى نماذج تؤدي أداءً " جيداً للغاية "" رهيبًا " في العالم الحقيقي . بالإضافة إلى ذلك ، فإن نقص المعرفة حول خوارزميات التعلم الآلي ، والفهم غير الكافي لبيانات البحث ، وسوء تقدير نتائج البحث كلها عوامل قد تسبب أزمة استنساخ.

عواقب أزمة التكاثر

إن النتيجة الفورية لأزمة التكاثر هي عدم القدرة على تمييز ما إذا كانت الظواهر المرصودة حقيقية أم خيالية أم صدفة بحتة. الغرض من العلم هو إثبات الحقائق بأكبر قدر ممكن من الدقة ، وعندما لا تستطيع قول الحقيقة من المزيف ، هل يمكن أن تظل نتائج البحث علمًا؟ وإلى جانب نقاشات الناس حول " الصواب والخطأ " ، تُطبع العلامات المزيفة بهدوء على الباحثين الذين ينشرون نتائج مثيرة للجدل ، وحتى في تخصصاتهم ، مما سيؤدي إلى أزمة مصداقية ضخمة. تمامًا مثل حادثة تزوير أبحاث مرض الزهايمر التي صدمت مجال علم الأعصاب الشهر الماضي ، حتى لو اشتملت الصور المزيفة فقط على Aβ * 56 (وهو ليس السائد في البحث في هذا المجال) ، وهو شكل قليل من Aβ ، فإنه لا يزال مهمًا للغاية تعرضت فرضية Aβ ، إلى صدمة ، وبدأ الناس حتى في التشكيك في نتائجها دون تمييز.

الحل الممكن

غالبًا ما يقول الناس أنه عندما يتم تحديد مشكلة ، يجب حلها. يقترح ساياش كابور ، باحث التعلم الآلي في جامعة برينستون ، وزملاؤه ثمانية أنواع رئيسية من تسريبات البيانات التي يجب الانتباه إليها. يمكن أن تساعد " قائمة مراجعة البيانات " التي يقترحونها الباحثين في اكتشاف انتهاكات البيانات المحتملة في أقرب وقت ممكن. شياو ليو ، طبيب عيون إكلينيكي في جامعة برمنغهام بالمملكة المتحدة ، وضع مبادئ توجيهية لإعداد التقارير للبحوث التي تتضمن الذكاء الاصطناعي. يساعد هذا الدليل المنظمين في تمييز جودة عمل الباحث (سواء كانت جيدة أو رديئة). في مقال نُشر في Nature Computational Science ، أشارت مجلة Nature Computational Science إلى أن إتاحة الكود والبيانات للجمهور لأبحاث التعلم الآلي أمر بالغ الأهمية لتحسين إمكانية استنساخ طرق البحث ، بما في ذلك رمز التدريب والتحقق من صحة واختبار النماذج وجمع البيانات ، تنظيف وكود لإنهاء الخطوات. في الوقت نفسه ، عندما لا نعرف ما إذا كانت هناك علاقة سببية أو ارتباط بين الميزة والمتغير المستهدف في عملية النمذجة الفعلية ، يمكننا إجراء المزيد من استكشاف البيانات ، باستخدام خريطة حرارة مصفوفة معامل الارتباط ، وتحليل توزيع الميزات طرق نوع مربع التجميع مثل الرسوم البيانية لمنع تسرب البيانات الذي قد يحدث في النمذجة. 

لخص

من الماضي إلى المستقبل - يُستخدم التعلم الآلي في عدد كبير من المجتمعات العلمية لمزايا إمكانية التنبؤ. حتى إذا كانت أزمة التكاثر ستلقي بظلالها على السحابة ، حيث يواصل الباحثون اقتراح استجابات للأزمة ، فمن المعتقد أن التعلم الآلي سيظل أداة تطبيق " ساخنة " في المجتمع العلمي.

مراجع:

1. https://www.nature.com/articles/d41586-022-02035-w

2. https://www.hpcwire.com/2019/02/19/machine-learning-reproducability-crisis-science/

3. https://blogs.nvidia.com/blog/2019/03/27/how-ai-machine-learning-are-advancing-academic-research/

4. https://www.statnews.com/2021/06/02/machine-learning-ai-methodology-research-flaws/

5. https://thegradient.pub/independently-reproducible-machine-learning/

6. https://machinelearningmastery.com/data-preparation-without-data-leakage/

7. https://blog.csdn.net/lomodays207/article/details/87607569

8. https://zhuanlan.zhihu.com/p/246482947

9. https://new.qq.com/omn/20220802/20220802A07Z3V00.html

10. https://www.nature.com/articles/s43588-021-00152-6

إذا كنت بحاجة إلى تقليل معدل التكرار للمخطوطة الخاصة بك ، أو لديك المزيد من احتياجات التلميع ، فيمكنك تحميل مخطوطتك إلى نظام تقديم Metroiden (الكمبيوتر) :

online.medjaden.com

صورة

أنت ونشرت SCI

واحد فقط

قم بالتركيز على