DecodingTrust: Mengungkap Kerentanan Keandalan Model Bahasa Besar

2025-07-14 03:51:55

Pembuatan abstrak sedang berlangsung

Menilai Keandalan Model Bahasa Besar: Temuan Penelitian DecodingTrust

Sebuah tim yang terdiri dari beberapa universitas dan lembaga penelitian baru-baru ini meluncurkan sebuah platform untuk menilai secara komprehensif keandalan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh keandalan model transformer pra-latih generatif (GPT).

Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya belum dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih andal dibandingkan GPT-3.5, namun saat dihadapkan pada prompt yang dirancang dengan niat jahat, GPT-4 malah lebih rentan diserang. Hal ini mungkin disebabkan oleh fakta bahwa GPT-4 lebih ketat dalam mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk kinerja model dalam lingkungan yang bersifat antagonis. Misalnya, mereka mengevaluasi ketahanan model terhadap serangan adversarial pada teks, menggunakan tolok ukur standar dan kumpulan data tantangan yang dirancang sendiri.

Penelitian juga menemukan bahwa model GPT dalam beberapa kasus dapat disesatkan untuk menghasilkan konten yang bias, terutama ketika dihadapkan dengan petunjuk sistem yang menyesatkan yang dirancang dengan cermat. Tingkat bias model sering kali bergantung pada kelompok populasi dan tema stereotip yang disebutkan dalam petunjuk pengguna.

Dalam hal privasi, penelitian menemukan bahwa model GPT dapat mengungkapkan informasi sensitif dalam data pelatihan, seperti alamat email. GPT-4 secara keseluruhan lebih robust dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kinerja yang baik pada beberapa jenis informasi. Namun, ketika ada contoh kebocoran privasi dalam riwayat percakapan, kedua model dapat mengungkapkan semua jenis informasi pribadi.

Penelitian ini memberikan wawasan penting untuk mengevaluasi dan meningkatkan keandalan model bahasa besar. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak penelitian, dan akhirnya membantu mengembangkan model AI yang lebih kuat dan lebih dapat diandalkan.

GPT-6.69%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

12 Suka