Jin10 datos 3 de abril, hoy a la 1 de la mañana, OpenAI lanzó un nuevo indicador de referencia para la evaluación de AI Agents: PaperBench. Este indicador evalúa principalmente las capacidades de búsqueda, integración y ejecución de los agentes, y requiere la replicación de los mejores trabajos en la Conferencia Internacional de Aprendizaje Automático de 2024, incluyendo la comprensión del contenido del trabajo, la escritura de código y la ejecución de experimentos. Según los datos de prueba publicados por OpenAI, actualmente los agentes creados por modelos grandes conocidos aún no pueden superar a los doctores en aprendizaje automático de primer nivel. Pero son muy útiles para el aprendizaje asistido y para comprender el contenido de la investigación.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
OpenAI Código abierto PaperBench, reconfigurando la evaluación de los mejores agentes de IA.
Jin10 datos 3 de abril, hoy a la 1 de la mañana, OpenAI lanzó un nuevo indicador de referencia para la evaluación de AI Agents: PaperBench. Este indicador evalúa principalmente las capacidades de búsqueda, integración y ejecución de los agentes, y requiere la replicación de los mejores trabajos en la Conferencia Internacional de Aprendizaje Automático de 2024, incluyendo la comprensión del contenido del trabajo, la escritura de código y la ejecución de experimentos. Según los datos de prueba publicados por OpenAI, actualmente los agentes creados por modelos grandes conocidos aún no pueden superar a los doctores en aprendizaje automático de primer nivel. Pero son muy útiles para el aprendizaje asistido y para comprender el contenido de la investigación.