Avaliação da Confiabilidade do Modelo GPT: A pesquisa DecodingTrust revela riscos e desafios potenciais

2025-08-12 20:12:01

Avaliando a Credibilidade do Modelo GPT: O estudo "DecodingTrust" revela riscos potenciais

A Universidade de Illinois em Urbana-Champaign, em colaboração com várias outras universidades e instituições de pesquisa, lançou uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs). A equipe de pesquisa apresentou esta plataforma no artigo "DecodingTrust: Avaliação abrangente da confiabilidade dos modelos GPT."

A pesquisa encontrou algumas questões potenciais relacionadas à confiabilidade dos modelos GPT. Por exemplo, os modelos GPT podem ser facilmente induzidos a produzir saídas prejudiciais e tendenciosas, além de poderem vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, ele é mais suscetível a ataques quando confrontado com prompts maliciosamente projetados. Isso pode ser devido ao fato de que o GPT-4 segue com mais precisão as instruções enganosas.

Este estudo avaliou o modelo GPT de forma abrangente a partir de 8 dimensões, incluindo o desempenho do modelo em diferentes cenários e ambientes adversos. Por exemplo, a equipe de pesquisa projetou três cenários para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto.

A pesquisa também descobriu alguns fenômenos interessantes. Por exemplo, o modelo GPT não é enganado por exemplos contrafactuais adicionados na demonstração, mas pode ser enganado por demonstrações de combate à fraude. Em termos de toxicidade e preconceito, o modelo GPT geralmente apresenta pouca viés em relação à maioria dos temas estereotipados, mas pode gerar conteúdo tendencioso sob sugestões enganosas. O viés do modelo também está relacionado aos grupos e temas mencionados.

Em termos de privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treino, especialmente sob certos prompts. O GPT-4 é mais robusto na proteção de informações pessoais do que o GPT-3.5, mas em algumas situações pode vazar privacidade mais facilmente.

A equipe de pesquisa espera que este trabalho possa promover mais investigações na academia e ajudar a prevenir riscos potenciais. Eles enfatizam que este é apenas um ponto de partida e que mais esforços são necessários para criar modelos mais confiáveis. Para promover a colaboração, a equipe de pesquisa publicou o código de referência de avaliação, facilitando o uso por outros pesquisadores.

GPT-2.81%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

9 gostos

Recompensa
9
4
Republicar
Partilhar

Comentar

0/400

DegenRecoveryGroup

· 21h atrás

Quanto mais inteligente, mais fácil é ser enganado, não é?

Ver originalResponder0

GasFeeWhisperer

· 21h atrás

Olhando, olhando, começo a sentir sono. É mais um artigo de água.

Ver originalResponder0

MidnightGenesis

· 22h atrás

Peguei o ponto fraco do GPT... o meu sistema de monitoramento já tinha detectado vulnerabilidades semelhantes.

Ver originalResponder0

TokenSleuth

· 22h atrás

Quanto mais alto o nível, mais fácil é ser enganado. Que sensação familiar.

Ver originalResponder0

Tópico
#Show My Alpha Points
112k Popularidade
#ETH Breaks $4,600
20k Popularidade
#CPI Data Coming
27k Popularidade
#TOKEN OF LOVE IS BACK
25k Popularidade
#Circle Launches ARC
3k Popularidade

Pino