Büyük model uzun metin yeteneği hızla artıyor, 400.000 token belki de sadece başlangıç.
Büyük modellerin uzun metin işleme yeteneği şaşırtıcı bir hızla artıyor. İlk başta 4000 token'dan günümüzde 400.000 token'a kadar bu yeteneğin büyümesi gözle görülür şekilde.
Uzun metin yeteneği, büyük model üreticilerinin yeni "standartı" haline gelmiş gibi görünüyor. Uluslararası alanda, OpenAI, GPT-3.5 ve GPT-4'ün bağlam uzunluğunu sırasıyla 16.000 ve 32.000 token'a yükseltti. Anthropic, Claude modelinin bağlam uzunluğunu 100.000 token'a kadar genişletti. LongLLaMA ise bu rakamı 256.000 token'a ve hatta daha yükseğe çıkardı.
Ülke içinde, büyük model girişimi Ay'ın Karanlığı tarafından piyasaya sürülen Kimi Chat, 200.000 Çince karakter girişi desteklemektedir, bu da yaklaşık 400.000 token'a denk gelmektedir. Hong Kong Çincisi Üniversitesi ve MIT tarafından ortaklaşa geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar uzatabilir.
Şu anda, OpenAI, Anthropic, Meta ve Ay'ın Karanlık Yüzü gibi birçok üst düzey büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi önemli bir yükseltme yönü olarak belirliyor. Bu şirketlerin hepsi, sermaye piyasalarının gözdesi konumunda. OpenAI yaklaşık 12 milyar dolar yatırım aldı, Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor, Ay'ın Karanlık Yüzü altı ay içinde çok sayıda finansman turu tamamlayarak 300 milyon doların üzerinde bir değerlemeye ulaştı.
Bağlam uzunluğundaki yüz kat artış ne anlama geliyor? Görünüşte, bu modelin okuma alanını genişletiyor. İlk başta sadece kısa bir makaleyi okuyabilen model, şimdi rahatlıkla bir roman okuyabiliyor. Daha derin bir düzlemde, uzun metin teknolojisi, büyük modellerin finans, yargı, bilimsel araştırma gibi uzmanlık alanlarındaki uygulamalarını ileriye taşıyor.
Ancak, metin uzunluğunun her zaman daha iyi olmadığı gerçeği vardır. Araştırmalar, modellerin daha uzun bağlam girdilerini desteklemesi ile performans artışı arasında doğrudan bir eşitlik kurulamayacağını göstermektedir. Anahtar, modelin bağlam içeriğini nasıl etkili bir şekilde kullanabileceğidir.
Buna rağmen, mevcut metin uzunluğu keşfi "kritik nokta" ya henüz ulaşmamış gibi görünüyor. Yurt içi ve yurt dışındaki büyük model şirketleri hala sürekli olarak sınırları zorluyor, 400.000 token belki de sadece bir başlangıç.
Uzun metin teknolojisinin gelişimi, büyük modellerin erken dönemlerindeki bazı sorunları çözmekle kalmadı, aynı zamanda sanayi uygulamalarını daha ileriye taşımak için de bir yol açtı. Bu, büyük modellerin gelişiminin LLM'den Long LLM'ye yeni bir aşamaya girdiğini göstermektedir.
Gelecekte, basit diyalog döngülerinden uzaklaşan AI asistanları, profesyonelleşme, kişiselleşme ve derinleşme yönünde gelişim göstermektedir. Bu, sanayi uygulamalarını tetiklemek ve süper uygulamalar oluşturmak için yeni bir araç haline gelebilir.
Ancak, uzun metin teknolojisi hâlâ "imkânsız üçgen" zorluğuyla karşı karşıya: metin uzunluğu, dikkat ve hesaplama gücü arasında denge sağlamak zor. Şu anda, başlıca olarak kendiliğinden dikkat mekanizmasını optimize etmek, dış araçlar kullanarak destek sağlamak ve model optimizasyonu gibi yöntemlerle bir atılım arayışındadır.
Gelecekteki gelişim yönü, yeterli bilgi işlemek için dikkat hesaplama ve hesaplama maliyeti sınırlamalarını dikkate alırken, üçü arasında en iyi denge noktasını bulmaktır. Uzun metin yeteneğinin sürekli gelişimi, büyük modeller için daha geniş uygulama olanakları açacaktır.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
5 Likes
Reward
5
5
Share
Comment
0/400
DefiPlaybook
· 1h ago
Yine RAM'da bir yükseliş var, bu da TVL'nin yükseldiği gibi görünüyor.
400 bin token, büyük modelin yeni standart yapı taşları. Uzun metin yetenekleri, endüstriyel devrimi tetikleyebilir.
Büyük model uzun metin yeteneği hızla artıyor, 400.000 token belki de sadece başlangıç.
Büyük modellerin uzun metin işleme yeteneği şaşırtıcı bir hızla artıyor. İlk başta 4000 token'dan günümüzde 400.000 token'a kadar bu yeteneğin büyümesi gözle görülür şekilde.
Uzun metin yeteneği, büyük model üreticilerinin yeni "standartı" haline gelmiş gibi görünüyor. Uluslararası alanda, OpenAI, GPT-3.5 ve GPT-4'ün bağlam uzunluğunu sırasıyla 16.000 ve 32.000 token'a yükseltti. Anthropic, Claude modelinin bağlam uzunluğunu 100.000 token'a kadar genişletti. LongLLaMA ise bu rakamı 256.000 token'a ve hatta daha yükseğe çıkardı.
Ülke içinde, büyük model girişimi Ay'ın Karanlığı tarafından piyasaya sürülen Kimi Chat, 200.000 Çince karakter girişi desteklemektedir, bu da yaklaşık 400.000 token'a denk gelmektedir. Hong Kong Çincisi Üniversitesi ve MIT tarafından ortaklaşa geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar uzatabilir.
Şu anda, OpenAI, Anthropic, Meta ve Ay'ın Karanlık Yüzü gibi birçok üst düzey büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi önemli bir yükseltme yönü olarak belirliyor. Bu şirketlerin hepsi, sermaye piyasalarının gözdesi konumunda. OpenAI yaklaşık 12 milyar dolar yatırım aldı, Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor, Ay'ın Karanlık Yüzü altı ay içinde çok sayıda finansman turu tamamlayarak 300 milyon doların üzerinde bir değerlemeye ulaştı.
Bağlam uzunluğundaki yüz kat artış ne anlama geliyor? Görünüşte, bu modelin okuma alanını genişletiyor. İlk başta sadece kısa bir makaleyi okuyabilen model, şimdi rahatlıkla bir roman okuyabiliyor. Daha derin bir düzlemde, uzun metin teknolojisi, büyük modellerin finans, yargı, bilimsel araştırma gibi uzmanlık alanlarındaki uygulamalarını ileriye taşıyor.
Ancak, metin uzunluğunun her zaman daha iyi olmadığı gerçeği vardır. Araştırmalar, modellerin daha uzun bağlam girdilerini desteklemesi ile performans artışı arasında doğrudan bir eşitlik kurulamayacağını göstermektedir. Anahtar, modelin bağlam içeriğini nasıl etkili bir şekilde kullanabileceğidir.
Buna rağmen, mevcut metin uzunluğu keşfi "kritik nokta" ya henüz ulaşmamış gibi görünüyor. Yurt içi ve yurt dışındaki büyük model şirketleri hala sürekli olarak sınırları zorluyor, 400.000 token belki de sadece bir başlangıç.
Uzun metin teknolojisinin gelişimi, büyük modellerin erken dönemlerindeki bazı sorunları çözmekle kalmadı, aynı zamanda sanayi uygulamalarını daha ileriye taşımak için de bir yol açtı. Bu, büyük modellerin gelişiminin LLM'den Long LLM'ye yeni bir aşamaya girdiğini göstermektedir.
Gelecekte, basit diyalog döngülerinden uzaklaşan AI asistanları, profesyonelleşme, kişiselleşme ve derinleşme yönünde gelişim göstermektedir. Bu, sanayi uygulamalarını tetiklemek ve süper uygulamalar oluşturmak için yeni bir araç haline gelebilir.
Ancak, uzun metin teknolojisi hâlâ "imkânsız üçgen" zorluğuyla karşı karşıya: metin uzunluğu, dikkat ve hesaplama gücü arasında denge sağlamak zor. Şu anda, başlıca olarak kendiliğinden dikkat mekanizmasını optimize etmek, dış araçlar kullanarak destek sağlamak ve model optimizasyonu gibi yöntemlerle bir atılım arayışındadır.
Gelecekteki gelişim yönü, yeterli bilgi işlemek için dikkat hesaplama ve hesaplama maliyeti sınırlamalarını dikkate alırken, üçü arasında en iyi denge noktasını bulmaktır. Uzun metin yeteneğinin sürekli gelişimi, büyük modeller için daha geniş uygulama olanakları açacaktır.