Menilai Keandalan Model GPT: Penelitian "DecodingTrust" Mengungkap Risiko yang Potensial
Universitas Illinois di Urbana-Champaign bekerja sama dengan beberapa universitas dan lembaga penelitian meluncurkan platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Tim peneliti memperkenalkan platform ini dalam makalah "DecodingTrust: Evaluasi Komprehensif Kredibilitas Model GPT".
Penelitian telah menemukan beberapa masalah potensial yang terkait dengan kredibilitas model GPT. Misalnya, model GPT cenderung salah arah menghasilkan output yang berbahaya dan bias, serta dapat mengungkapkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 umumnya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, namun dalam menghadapi prompt yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan. Ini mungkin disebabkan oleh fakta bahwa GPT-4 lebih akurat mengikuti instruksi yang menyesatkan.
Penelitian ini melakukan evaluasi komprehensif terhadap model GPT dari 8 dimensi, termasuk kinerja model dalam berbagai situasi dan lingkungan yang menantang. Misalnya, tim penelitian merancang tiga skenario untuk menilai ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat antagonis.
Penelitian juga menemukan beberapa fenomena menarik. Misalnya, model GPT tidak akan terpengaruh oleh contoh kontrafaktual yang ditambahkan dalam demonstrasi, tetapi akan terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT umumnya tidak menunjukkan bias besar terhadap sebagian besar tema stereotip, tetapi dapat menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. Bias model juga terkait dengan populasi dan tema yang disebutkan.
Dalam hal privasi, model GPT mungkin akan mengungkapkan informasi sensitif dari data pelatihan, terutama dalam konteks prompt tertentu. GPT-4 lebih kuat dalam melindungi informasi pribadi dibandingkan dengan GPT-3.5, tetapi dalam beberapa kasus justru lebih mudah untuk mengungkapkan privasi.
Tim penelitian berharap pekerjaan ini dapat mendorong penelitian lebih lanjut di kalangan akademisi dan membantu mencegah risiko potensial. Mereka menekankan bahwa ini hanya merupakan titik awal, dan masih diperlukan lebih banyak upaya untuk menciptakan model yang lebih dapat diandalkan. Untuk mendorong kolaborasi, tim penelitian telah membagikan kode tolok ukur evaluasi, memudahkan peneliti lain untuk menggunakannya.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
9 Suka
Hadiah
9
4
Posting ulang
Bagikan
Komentar
0/400
DegenRecoveryGroup
· 08-12 20:32
Semakin cerdas semakin mudah tertipu, kan?
Lihat AsliBalas0
GasFeeWhisperer
· 08-12 20:26
Melihat sambil mengantuk, ini adalah makalah tentang air.
Lihat AsliBalas0
MidnightGenesis
· 08-12 20:23
Saya telah menemukan kelemahan GPT... sistem pemantauan saya sudah lama menemukan celah serupa.
Lihat AsliBalas0
TokenSleuth
· 08-12 20:17
Semakin tinggi levelnya, semakin mudah tertipu. Rasanya sangat familiar.
Evaluasi Keandalan Model GPT: Penelitian DecodingTrust Mengungkap Risiko dan Tantangan Potensial
Menilai Keandalan Model GPT: Penelitian "DecodingTrust" Mengungkap Risiko yang Potensial
Universitas Illinois di Urbana-Champaign bekerja sama dengan beberapa universitas dan lembaga penelitian meluncurkan platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Tim peneliti memperkenalkan platform ini dalam makalah "DecodingTrust: Evaluasi Komprehensif Kredibilitas Model GPT".
Penelitian telah menemukan beberapa masalah potensial yang terkait dengan kredibilitas model GPT. Misalnya, model GPT cenderung salah arah menghasilkan output yang berbahaya dan bias, serta dapat mengungkapkan informasi pribadi dari data pelatihan dan riwayat percakapan. Menariknya, meskipun GPT-4 umumnya lebih dapat diandalkan daripada GPT-3.5 dalam pengujian standar, namun dalam menghadapi prompt yang dirancang secara jahat, GPT-4 justru lebih rentan terhadap serangan. Ini mungkin disebabkan oleh fakta bahwa GPT-4 lebih akurat mengikuti instruksi yang menyesatkan.
Penelitian ini melakukan evaluasi komprehensif terhadap model GPT dari 8 dimensi, termasuk kinerja model dalam berbagai situasi dan lingkungan yang menantang. Misalnya, tim penelitian merancang tiga skenario untuk menilai ketahanan GPT-3.5 dan GPT-4 terhadap serangan teks yang bersifat antagonis.
Penelitian juga menemukan beberapa fenomena menarik. Misalnya, model GPT tidak akan terpengaruh oleh contoh kontrafaktual yang ditambahkan dalam demonstrasi, tetapi akan terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT umumnya tidak menunjukkan bias besar terhadap sebagian besar tema stereotip, tetapi dapat menghasilkan konten yang bias di bawah petunjuk yang menyesatkan. Bias model juga terkait dengan populasi dan tema yang disebutkan.
Dalam hal privasi, model GPT mungkin akan mengungkapkan informasi sensitif dari data pelatihan, terutama dalam konteks prompt tertentu. GPT-4 lebih kuat dalam melindungi informasi pribadi dibandingkan dengan GPT-3.5, tetapi dalam beberapa kasus justru lebih mudah untuk mengungkapkan privasi.
Tim penelitian berharap pekerjaan ini dapat mendorong penelitian lebih lanjut di kalangan akademisi dan membantu mencegah risiko potensial. Mereka menekankan bahwa ini hanya merupakan titik awal, dan masih diperlukan lebih banyak upaya untuk menciptakan model yang lebih dapat diandalkan. Untuk mendorong kolaborasi, tim penelitian telah membagikan kode tolok ukur evaluasi, memudahkan peneliti lain untuk menggunakannya.