Оценка доверия к модели GPT: Исследование DecodingTrust выявляет потенциальные риски и вызовы

Оценка надежности модели GPT: Исследование «DecodingTrust» выявляет потенциальные риски

Университет Иллинойс в Урбана-Шампейн в сотрудничестве с несколькими университетами и исследовательскими учреждениями выпустил комплексную платформу оценки надежности для крупных языковых моделей (LLMs). Исследовательская группа представила эту платформу в своей статье «DecodingTrust: Полная оценка надежности моделей GPT».

Исследования выявили некоторые потенциальные проблемы, связанные с надежностью моделей GPT. Например, модели GPT легко могут быть введены в заблуждение, что приводит к созданию вредного и предвзятого контента, а также может привести к утечке личной информации из обучающих данных и истории диалогов. Интересно, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных тестах, он может оказаться более уязвимым к атакам в случае злонамеренно разработанных подсказок. Это может быть связано с тем, что GPT-4 более точно следует вводящим в заблуждение указаниям.

Данное исследование проводит всестороннюю оценку модели GPT по восьми измерениям, включая ее производительность в различных сценариях и противостоящих средах. Например, команда исследователей разработала три сценария для оценки устойчивости GPT-3.5 и GPT-4 к текстовым атакам.

Исследование также выявило несколько интересных явлений. Например, модель GPT не поддается заблуждениям, добавленным в демонстрацию, но может быть введена в заблуждение демонстрацией противодействия мошенничеству. В отношении токсичности и предвзятости, модель GPT в общем случае показывает незначительные отклонения по большинству тем стереотипов, но может генерировать предвзятое содержание под воздействием вводящих в заблуждение подсказок. Предвзятость модели также связана с упоминаемыми группами и темами.

В отношении конфиденциальности модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в ответ на определенные подсказки. GPT-4 более надежен в защите личной информации по сравнению с GPT-3.5, но в некоторых случаях он может даже легче раскрываться.

Исследовательская команда надеется, что эта работа будет способствовать дальнейшим исследованиям в академической среде и поможет предотвратить потенциальные риски. Они подчеркивают, что это всего лишь отправная точка, и потребуется больше усилий для создания более надежных моделей. Для содействия сотрудничеству исследовательская команда открыла код оценки, чтобы другие исследователи могли им пользоваться.

GPT-2.81%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Репост
  • Поделиться
комментарий
0/400
DegenRecoveryGroupvip
· 21ч назад
Чем умнее, тем легче обмануть, верно?
Посмотреть ОригиналОтветить0
GasFeeWhisperervip
· 21ч назад
Смотрю и засыпаю, опять научная работа по воде.
Посмотреть ОригиналОтветить0
MidnightGenesisvip
· 22ч назад
Поймал уязвимость GPT... Моя система мониторинга давно обнаружила подобные дыры.
Посмотреть ОригиналОтветить0
TokenSleuthvip
· 22ч назад
Чем выше уровень, тем легче обмануть. Такое знакомое ощущение.
Посмотреть ОригиналОтветить0
  • Закрепить