DecodingTrust: Revelando las vulnerabilidades de confiabilidad de los grandes modelos de lenguaje

2025-07-14 03:51:55

Generación de resúmenes en curso

Evaluación de la confiabilidad de los grandes modelos de lenguaje: Resultados de la investigación DecodingTrust

Un equipo compuesto por varias universidades e instituciones de investigación ha lanzado recientemente una plataforma para la evaluación integral de la credibilidad de los modelos de lenguaje de gran escala (LLMs). Este estudio tiene como objetivo evaluar de manera integral la fiabilidad de los modelos generativos de transformadores preentrenados (GPT).

La investigación ha descubierto algunas vulnerabilidades relacionadas con la credibilidad que no se habían hecho públicas anteriormente. Por ejemplo, los modelos GPT tienden a generar salidas dañinas y sesgadas, y pueden filtrar información de privacidad contenida en los datos de entrenamiento y el historial de conversaciones. Aunque en las pruebas de referencia estándar, GPT-4 es generalmente más confiable que GPT-3.5, al enfrentar indicaciones diseñadas maliciosamente, GPT-4 es más susceptible a ataques. Esto puede deberse a que GPT-4 sigue más estrictamente las instrucciones engañosas.

El equipo de investigación realizó una evaluación integral del modelo GPT desde ocho ángulos diferentes, incluyendo el rendimiento del modelo en entornos adversariales. Por ejemplo, evaluaron la robustez del modelo contra ataques adversariales en texto, utilizando estándares de referencia y conjuntos de datos desafiantes diseñados por ellos mismos.

La investigación también ha encontrado que el modelo GPT puede ser engañado para producir contenido sesgado en ciertos casos, especialmente cuando se enfrenta a indicaciones engañosas diseñadas cuidadosamente. El grado de sesgo del modelo a menudo depende de los grupos demográficos y los temas de estereotipos mencionados en las indicaciones del usuario.

En términos de privacidad, los estudios han encontrado que los modelos GPT pueden revelar información sensible de los datos de entrenamiento, como direcciones de correo electrónico. GPT-4 es en general más robusto en la protección de información personal identificable que GPT-3.5, pero ambos modelos funcionan bien en ciertos tipos de información. Sin embargo, cuando aparecen ejemplos de filtración de privacidad en el historial de conversación, ambos modelos pueden revelar todo tipo de información personal.

Este estudio proporciona información importante para evaluar y mejorar la credibilidad de los grandes modelos de lenguaje. El equipo de investigación espera que este trabajo impulse más investigaciones y, en última instancia, ayude a desarrollar modelos de IA más potentes y confiables.

GPT-6.75%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

12 me gusta