400,000 токенів стають новим стандартом для великих моделей, здатність працювати з довгими текстами може спричинити промислову революцію.

2025-07-13 01:30:39

Генерація анотацій у процесі

Здатність великих моделей до роботи з довгими текстами швидко зростає, 400 тисяч токенів, можливо, лише початок

Здатність великих моделей обробляти довгі тексти зростає з вражаючою швидкістю. Від початкових 4000 токенів до сьогоднішніх 400 000 токенів, це зростання помітне неозброєним оком.

Здається, що здатність до обробки довгих текстів стала новим "стандартом" для постачальників великих моделей. На міжнародній арені OpenAI кілька разів оновлював GPT-3.5 та GPT-4, збільшивши їхню довжину контексту до 16 000 та 32 000 токенів відповідно. Anthropic навіть розширив довжину контексту своєї моделі Claude до 100 000 токенів. LongLLaMA підвищив цю цифру до 256 000 токенів і навіть більше.

Внутрішньо, стартап у сфері великих моделей "Місяць темряви" випустив Kimi Chat, який підтримує введення 200 тисяч ієрогліфів, що приблизно відповідає 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Гонконгським університетом та MIT, може розширити довжину тексту для моделі 7B до 100 тисяч токенів, а для моделі 70B - до 32 тисяч токенів.

Наразі багато провідних компаній та дослідницьких установ у сфері великих моделей, включаючи OpenAI, Anthropic, Meta, та Місячну темряву, зосереджують свої зусилля на розширенні довжини контексту як на ключовому напрямі оновлення. Ці компанії без винятку є улюбленцями ринку капіталу. OpenAI отримала інвестиції близько 12 мільярдів доларів, оцінка Anthropic може досягти 30 мільярдів доларів, а Місячна темрява, заснована всього через півроку, завершила кілька раундів фінансування з оцінкою понад 300 мільйонів доларів.

Що означає стократне зростання довжини контексту? На перший погляд, це розширює межі читання моделі. Від спочатку здатності прочитати лише коротку статтю до теперішньої можливості легко читати довгий роман. На більш глибокому рівні технології довгих текстів стимулюють впровадження великих моделей у професійних сферах, таких як фінанси, юстиція, наука.

Однак, довжина тексту не завжди є перевагою. Дослідження показують, що підтримка моделью довшого контекстного вводу не завжди призводить до покращення результатів. Ключовим є те, як модель ефективно використовує контекстний зміст.

Однак, наразі дослідження довжини тексту, здається, ще не досягло "критичної точки". Вітчизняні та зарубіжні компанії з великими моделями продовжують робити прориви, 400 тисяч токенів може бути лише початком.

Розвиток технології довгих текстів не тільки вирішив деякі проблеми ранніх великих моделей, але й проклав шлях для подальшого просування промислових застосувань. Це означає, що розвиток великих моделей вступає в нову стадію від LLM до Long LLM.

У майбутньому, AI-помічники, які виходять за межі простих діалогових циклів, розвиваються в напрямку професіоналізації, персоналізації та поглиблення. Це може стати новим важелем для впровадження в промислові застосування та створення супер-додатків.

Однак технології довгих текстів все ще стикаються з труднощами "неможливого трикутника": важко поєднати довжину тексту, увагу та обчислювальну потужність. Наразі основними методами для досягнення прориву є оптимізація механізму самостійної уваги, використання зовнішніх інструментів для допоміжної обробки та оптимізація моделей.

Майбутній напрямок розвитку полягає у пошуку оптимального балансу між трьома аспектами, щоб обробляти достатню кількість інформації, одночасно враховуючи обчислення уваги та обмеження вартості обчислювальних потужностей. Постійне підвищення здатності до роботи з довгими текстами відкриє ширші можливості для застосування великих моделей.

TOKEN7.38%

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

5 лайків