الذكاء الاصطناعي تحت الاختبار: أفضل النماذج لا تتجاوز دقة 69%
الترند العربي – متابعات
كشفت شركة “غوغل ديب مايند”، التابعة لشركة “غوغل”، عن نتائج مقلقة نسبيًا بشأن موثوقية نماذج الذكاء الاصطناعي، بعدما أظهرت معايير جديدة أن أفضل النماذج الحالية لا تزال بعيدة عن تقديم إجابات دقيقة بشكل كامل.
معايير FACTS لاختبار الموثوقية
أطلقت “غوغل ديب مايند” مجموعة معايير جديدة تحمل اسم “FACTS Benchmark Suite”، وتهدف إلى قياس مدى قدرة نماذج الذكاء الاصطناعي على إنتاج معلومات صحيحة وموثوقة.
وتختبر هذه المعايير النماذج في أربعة مجالات رئيسية:
- الإجابة عن الأسئلة المعلوماتية اعتمادًا على المعرفة الداخلية
- استخدام البحث عبر الإنترنت بفعالية
- دعم الإجابات بوثائق طويلة والتحقق منها
- تفسير الصور بدقة
جيميني 3 برو يتصدر.. لكن بنسبة محدودة
وبحسب تقرير نشره موقع “بيزنس إنسايدر”، واطلعت عليه “العربية Business”، سجّل أفضل نموذج في الاختبار، وهو “جيميني 3 برو” من “غوغل”، نسبة دقة بلغت 69% فقط، بينما جاءت نتائج النماذج الرائدة الأخرى أقل من ذلك.
مخاطر حقيقية في قطاعات حساسة
تعكس هذه النتائج فجوة واضحة بين سرعة وطلاقة نماذج الذكاء الاصطناعي، وبين موثوقيتها في تقديم معلومات واقعية، خاصة في المهام التي تتطلب معرفة متخصصة أو تفكيرًا معقدًا أو توثيقًا دقيقًا بالمصادر.
وتزداد خطورة هذه الأخطاء في قطاعات حساسة مثل “المالية” و”الرعاية الصحية” و”القانون”، حيث قد تؤدي حتى الأخطاء البسيطة إلى عواقب جسيمة.
أخطاء واقعية بعواقب قانونية
وسلّط التقرير الضوء على واقعة حديثة، قامت فيها إحدى الشركات بفصل موظف بعد تقديم مستند قانوني تضمن قضايا وهمية، تم اختلاقها بواسطة “شات جي بي تي”، عقب اعتماد محامٍ على روبوت الدردشة في إعداد الملف.
تحذير وخارطة طريق في آن واحد
وتُعد معايير “FACTS” بمثابة جرس إنذار، لكنها في الوقت نفسه تمثل خارطة طريق لتطوير النماذج مستقبلًا، إذ تسعى “غوغل” من خلالها إلى تحديد نقاط الضعف وتسريع وتيرة التحسين.
ورغم التطور المتسارع، تظل الحقيقة الأبرز أن الذكاء الاصطناعي لا يزال يخطئ في نحو ثلث الحالات.
ما الهدف من معايير “FACTS”؟
قياس مدى موثوقية نماذج الذكاء الاصطناعي في تقديم معلومات صحيحة ومدعومة بالأدلة.
ما أفضل نموذج وفق النتائج الحالية؟
نموذج “جيميني 3 برو” من غوغل، بنسبة دقة بلغت 69%.
هل يمكن الاعتماد على الذكاء الاصطناعي في المهام الحساسة؟
بحذر شديد، خاصة في المجالات القانونية والطبية والمالية.
هل تتحسن دقة النماذج بمرور الوقت؟
نعم، لكنها لا تزال بحاجة إلى تطوير كبير للوصول إلى مستوى الثقة البشرية.



