La capacidad de los grandes modelos para manejar textos largos está mejorando rápidamente, 400,000 tokens quizás sea solo el comienzo
La capacidad de los grandes modelos para procesar textos largos está mejorando a una velocidad asombrosa. Desde los primeros 4000 tokens hasta los actuales 400,000 tokens, el crecimiento de esta capacidad es evidente a simple vista.
La capacidad de texto largo parece haberse convertido en un nuevo "estándar" para los fabricantes de modelos grandes. A nivel internacional, OpenAI ha aumentado la longitud del contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens, respectivamente, a través de múltiples actualizaciones. Anthropic, por su parte, ha ampliado la longitud del contexto de su modelo Claude a 100,000 tokens de un solo golpe. LongLLaMA ha llevado este número a 256,000 tokens e incluso más alto.
En el ámbito nacional, Kimi Chat, lanzado por la startup de grandes modelos "Lado Oscuro de la Luna", admite la entrada de 200,000 caracteres chinos, equivalentes a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, puede ampliar la longitud del texto del modelo de 7B a 100,000 tokens, mientras que el modelo de 70B puede alcanzar hasta 32,000 tokens.
Actualmente, numerosas empresas y organizaciones de investigación de modelos grandes de primer nivel, incluyendo OpenAI, Anthropic, Meta y Moon Shadow, están enfocando la expansión de la longitud del contexto como una dirección de actualización clave. Estas empresas son, sin excepción, las favoritas del mercado de capitales. OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones, se espera que la valoración de Anthropic alcance los 30 mil millones de dólares, y Moon Shadow completó varias rondas de financiación en solo seis meses, con una valoración superior a los 300 millones de dólares.
¿Qué significa el aumento de cien veces en la longitud del contexto? A primera vista, esto amplía el rango de lectura del modelo. Desde poder leer solo un artículo corto, ahora puede leer fácilmente una novela larga. A un nivel más profundo, la tecnología de texto largo está impulsando la aplicación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor. Los estudios han demostrado que no se puede igualar directamente la capacidad de los modelos para manejar entradas de contexto más largas con una mejora en los resultados. La clave está en cómo el modelo utiliza de manera efectiva el contenido del contexto.
A pesar de eso, la exploración actual sobre la longitud del texto parece no haber alcanzado aún el "punto crítico". Las empresas de modelos grandes, tanto nacionales como internacionales, siguen rompiendo barreras, y 400,000 tokens pueden ser solo un comienzo.
El desarrollo de la tecnología de textos largos no solo ha resuelto algunos problemas de los modelos grandes en sus primeras etapas, sino que también ha allanado el camino para impulsar aún más las aplicaciones industriales. Esto marca la entrada del desarrollo de modelos grandes en una nueva etapa, de LLM a Long LLM.
En el futuro, los asistentes de IA que se alejan de los simples ciclos de diálogo están avanzando hacia direcciones de especialización, personalización y profundización. Esto podría convertirse en una nueva palanca para impulsar aplicaciones industriales y crear super aplicaciones.
Sin embargo, la tecnología de texto largo todavía enfrenta el dilema del "triángulo imposible": es difícil equilibrar la longitud del texto, la atención y la potencia de cálculo. Actualmente, se busca un avance principalmente a través de la optimización del mecanismo de autoatención, el uso de herramientas externas para ayudar en el procesamiento y la optimización del modelo.
La dirección futura del desarrollo radica en encontrar el mejor equilibrio entre los tres, para manejar suficiente información al mismo tiempo que se considera el cálculo de atención y las limitaciones de costo de computación. La mejora continua de la capacidad de texto largo abrirá perspectivas de aplicación más amplias para los grandes modelos.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
5 me gusta
Recompensa
5
5
Compartir
Comentar
0/400
DefiPlaybook
· hace10h
Otra vez subiendo RAM, parece que el TVL también ha subido.
400,000 tokens se convierten en el nuevo estándar para modelos grandes; la capacidad de texto largo podría desencadenar una revolución industrial.
La capacidad de los grandes modelos para manejar textos largos está mejorando rápidamente, 400,000 tokens quizás sea solo el comienzo
La capacidad de los grandes modelos para procesar textos largos está mejorando a una velocidad asombrosa. Desde los primeros 4000 tokens hasta los actuales 400,000 tokens, el crecimiento de esta capacidad es evidente a simple vista.
La capacidad de texto largo parece haberse convertido en un nuevo "estándar" para los fabricantes de modelos grandes. A nivel internacional, OpenAI ha aumentado la longitud del contexto de GPT-3.5 y GPT-4 a 16,000 y 32,000 tokens, respectivamente, a través de múltiples actualizaciones. Anthropic, por su parte, ha ampliado la longitud del contexto de su modelo Claude a 100,000 tokens de un solo golpe. LongLLaMA ha llevado este número a 256,000 tokens e incluso más alto.
En el ámbito nacional, Kimi Chat, lanzado por la startup de grandes modelos "Lado Oscuro de la Luna", admite la entrada de 200,000 caracteres chinos, equivalentes a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada conjuntamente por la Universidad China de Hong Kong y el MIT, puede ampliar la longitud del texto del modelo de 7B a 100,000 tokens, mientras que el modelo de 70B puede alcanzar hasta 32,000 tokens.
Actualmente, numerosas empresas y organizaciones de investigación de modelos grandes de primer nivel, incluyendo OpenAI, Anthropic, Meta y Moon Shadow, están enfocando la expansión de la longitud del contexto como una dirección de actualización clave. Estas empresas son, sin excepción, las favoritas del mercado de capitales. OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones, se espera que la valoración de Anthropic alcance los 30 mil millones de dólares, y Moon Shadow completó varias rondas de financiación en solo seis meses, con una valoración superior a los 300 millones de dólares.
¿Qué significa el aumento de cien veces en la longitud del contexto? A primera vista, esto amplía el rango de lectura del modelo. Desde poder leer solo un artículo corto, ahora puede leer fácilmente una novela larga. A un nivel más profundo, la tecnología de texto largo está impulsando la aplicación de grandes modelos en campos profesionales como las finanzas, la justicia y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor. Los estudios han demostrado que no se puede igualar directamente la capacidad de los modelos para manejar entradas de contexto más largas con una mejora en los resultados. La clave está en cómo el modelo utiliza de manera efectiva el contenido del contexto.
A pesar de eso, la exploración actual sobre la longitud del texto parece no haber alcanzado aún el "punto crítico". Las empresas de modelos grandes, tanto nacionales como internacionales, siguen rompiendo barreras, y 400,000 tokens pueden ser solo un comienzo.
El desarrollo de la tecnología de textos largos no solo ha resuelto algunos problemas de los modelos grandes en sus primeras etapas, sino que también ha allanado el camino para impulsar aún más las aplicaciones industriales. Esto marca la entrada del desarrollo de modelos grandes en una nueva etapa, de LLM a Long LLM.
En el futuro, los asistentes de IA que se alejan de los simples ciclos de diálogo están avanzando hacia direcciones de especialización, personalización y profundización. Esto podría convertirse en una nueva palanca para impulsar aplicaciones industriales y crear super aplicaciones.
Sin embargo, la tecnología de texto largo todavía enfrenta el dilema del "triángulo imposible": es difícil equilibrar la longitud del texto, la atención y la potencia de cálculo. Actualmente, se busca un avance principalmente a través de la optimización del mecanismo de autoatención, el uso de herramientas externas para ayudar en el procesamiento y la optimización del modelo.
La dirección futura del desarrollo radica en encontrar el mejor equilibrio entre los tres, para manejar suficiente información al mismo tiempo que se considera el cálculo de atención y las limitaciones de costo de computación. La mejora continua de la capacidad de texto largo abrirá perspectivas de aplicación más amplias para los grandes modelos.