DecodingTrust: كشف ثغرات موثوقية نماذج اللغة الكبيرة

2025-07-14 03:51:55

إنشاء الملخص قيد التقدم

تقييم موثوقية نماذج اللغة الكبيرة: نتائج بحث DecodingTrust

أصدرت مجموعة مكونة من عدة جامعات ومؤسسات بحثية مؤخرًا منصة تقييم شامل لموثوقية نماذج اللغة الكبيرة (LLMs). تهدف هذه الدراسة إلى تقييم شامل لمدى موثوقية نماذج التحويل المدربة مسبقًا التوليدية (GPT).

أظهرت الأبحاث وجود بعض الثغرات المتعلقة بالموثوقية والتي لم يتم الكشف عنها سابقًا. على سبيل المثال، من السهل على نموذج GPT إنتاج نتائج ضارة ومت偏لة، وقد يكشف عن معلومات خاصة من بيانات التدريب وتاريخ المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعايير القياسية، إلا أنه يتعرض لهجمات بشكل أسهل عند مواجهة تلميحات مصممة بشكل خبيث. قد يكون ذلك بسبب أن GPT-4 يتبع التعليمات المضللة بشكل أكثر صرامة.

قامت فريق البحث بتقييم شامل لنموذج GPT من ثمانية جوانب مختلفة، بما في ذلك أداء النموذج في بيئات معادية. على سبيل المثال، قاموا بتقييم متانة النموذج ضد هجمات النصوص المعادية، باستخدام معايير قياسية ومجموعات بيانات تحدي مصممة ذاتيًا.

أظهرت الأبحاث أيضًا أن نماذج GPT قد تُضلل في بعض الحالات لتوليد محتوى متحيز، خاصةً عند مواجهة مطالبات نظام مضللة مصممة بعناية. غالبًا ما يعتمد مستوى تحيز النموذج على الفئات السكانية وموضوعات الصور النمطية المذكورة في مطالبات المستخدم.

فيما يتعلق بالخصوصية، كشفت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة من بيانات التدريب، مثل عناوين البريد الإلكتروني. بشكل عام، يُعتبر GPT-4 أكثر قوة من حيث حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلا النموذجين يظهران أداءً جيدًا في بعض أنواع المعلومات. ومع ذلك، عندما تظهر أمثلة على تسرب الخصوصية في تاريخ المحادثة، قد يكشف كلا النموذجين عن جميع أنواع المعلومات الشخصية.

تقدم هذه الدراسة رؤى مهمة لتقييم وتحسين موثوقية نماذج اللغة الكبيرة. يأمل فريق البحث أن تدفع هذه العمل المزيد من الأبحاث، وأن تساعد في النهاية في تطوير نماذج ذكاء اصطناعي أقوى وأكثر موثوقية.

GPT-6.75%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 12