Evaluasi Keandalan Model GPT: Penelitian DecodingTrust Mengungkap Risiko dan Tantangan Potensial

Menilai Keandalan Model GPT: Penelitian "DecodingTrust" Mengungkap Risiko yang Potensial

Universitas Illinois di Urbana-Champaign bekerja sama dengan beberapa universitas dan lembaga penelitian meluncurkan platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Tim peneliti memperkenalkan platform ini dalam makalah "DecodingTrust: Evaluasi Komprehensif Kredibilitas Model GPT".

Penelitian telah menemukan beberapa masalah potensial yang terkait dengan kredibilitas model GPT. Misalnya, model GPT cenderung salah arah menghasilkan output yang berbahaya dan bias, serta dapat mengungkapkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 umumnya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, namun dalam menghadapi prompt yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan. Ini mungkin disebabkan oleh fakta bahwa GPT-4 lebih akurat mengikuti instruksi yang menyesatkan.

Penelitian ini melakukan evaluasi komprehensif terhadap model GPT dari 8 dimensi, termasuk kinerja model dalam berbagai situasi dan lingkungan yang menantang. Misalnya, tim penelitian merancang tiga skenario untuk menilai ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat antagonis.

Penelitian juga menemukan beberapa fenomena menarik. Misalnya, model GPT tidak akan terpengaruh oleh contoh kontrafaktual yang ditambahkan dalam demonstrasi, tetapi akan terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT umumnya tidak menunjukkan bias besar terhadap sebagian besar tema stereotip, tetapi dapat menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. Bias model juga terkait dengan populasi dan tema yang disebutkan.

Dalam hal privasi, model GPT mungkin akan mengungkapkan informasi sensitif dari data pelatihan, terutama dalam konteks prompt tertentu. GPT-4 lebih kuat dalam melindungi informasi pribadi dibandingkan dengan GPT-3.5, tetapi dalam beberapa kasus justru lebih mudah untuk mengungkapkan privasi.

Tim penelitian berharap pekerjaan ini dapat mendorong penelitian lebih lanjut di kalangan akademisi dan membantu mencegah risiko potensial. Mereka menekankan bahwa ini hanya merupakan titik awal, dan masih diperlukan lebih banyak upaya untuk menciptakan model yang lebih dapat diandalkan. Untuk mendorong kolaborasi, tim penelitian telah membagikan kode tolok ukur evaluasi, memudahkan peneliti lain untuk menggunakannya.

GPT-0.05%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Posting ulang
  • Bagikan
Komentar
0/400
DegenRecoveryGroupvip
· 08-12 20:32
Semakin cerdas semakin mudah tertipu, kan?
Lihat AsliBalas0
GasFeeWhisperervip
· 08-12 20:26
Melihat sambil mengantuk, ini adalah makalah tentang air.
Lihat AsliBalas0
MidnightGenesisvip
· 08-12 20:23
Saya telah menemukan kelemahan GPT... sistem pemantauan saya sudah lama menemukan celah serupa.
Lihat AsliBalas0
TokenSleuthvip
· 08-12 20:17
Semakin tinggi levelnya, semakin mudah tertipu. Rasanya sangat familiar.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)