400 ribu token menjadi standar baru untuk model besar, kemampuan teks panjang dapat mendorong revolusi industri

robot
Pembuatan abstrak sedang berlangsung

Kemampuan teks panjang model besar meningkat pesat, 400.000 token mungkin baru permulaan

Kemampuan pemrosesan teks panjang dari model besar sedang meningkat dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, pertumbuhan kemampuan ini terlihat jelas.

Kemampuan teks panjang tampaknya telah menjadi "standar" baru bagi produsen model besar. Di tingkat internasional, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah memperluas panjang konteks modelnya, Claude, hingga 100.000 token. LongLLaMA bahkan telah mendorong angka ini hingga 256.000 token atau lebih.

Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Bulan Gelap, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Cina di Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, sementara model 70B dapat mencapai 32.000 token.

Saat ini, banyak perusahaan dan lembaga penelitian model besar teratas, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang penting. Perusahaan-perusahaan ini tanpa kecuali adalah kesayangan pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar dolar, valuasi Anthropic diperkirakan mencapai 30 miliar dolar, dan Bulan Gelap telah menyelesaikan beberapa putaran pendanaan dalam waktu enam bulan setelah didirikan, dengan valuasi lebih dari 300 juta dolar.

Apa arti pertumbuhan panjang konteks seratus kali lipat? Secara permukaan, ini memperluas jangkauan bacaan model. Dari awal yang hanya bisa membaca sebuah artikel pendek, sekarang bisa dengan mudah membaca sebuah novel panjang. Di tingkat yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, yurisprudensi, dan penelitian ilmiah.

Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak selalu berbanding lurus dengan peningkatan kinerja. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.

Meskipun demikian, eksplorasi panjang teks saat ini tampaknya belum menyentuh "titik kritis". Perusahaan model besar di dalam dan luar negeri masih terus melakukan terobosan, 400.000 token mungkin hanya merupakan awal.

Perkembangan teknologi teks panjang tidak hanya menyelesaikan beberapa masalah awal dari model besar, tetapi juga membuka jalan untuk mendorong aplikasi industri lebih lanjut. Ini menandai bahwa perkembangan model besar memasuki tahap baru dari LLM ke Long LLM.

Di masa depan, asisten AI yang terlepas dari siklus percakapan sederhana akan berkembang ke arah profesionalisasi, personalisasi, dan kedalaman. Ini mungkin akan menjadi penggali baru untuk aplikasi industri dan menciptakan super APP.

Namun, teknologi teks panjang masih menghadapi dilema "segitiga tidak mungkin": sulit untuk mengakomodasi panjang teks, perhatian, dan daya komputasi secara bersamaan. Saat ini, terobosan dicari terutama melalui pengoptimalan mekanisme perhatian mandiri, menggunakan alat eksternal untuk membantu pemrosesan, serta pengoptimalan model.

Arah pengembangan di masa depan terletak pada mencari titik keseimbangan terbaik antara ketiga faktor tersebut, untuk menangani informasi yang cukup sambil tetap memperhatikan perhitungan perhatian dan batasan biaya komputasi. Peningkatan kemampuan teks panjang yang berkelanjutan akan membuka prospek aplikasi yang lebih luas untuk model besar.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 5
  • Bagikan
Komentar
0/400
DefiPlaybookvip
· 10jam yang lalu
Sekali lagi menggulung RAM, seolah-olah TVL naik.
Lihat AsliBalas0
HorizonHuntervip
· 20jam yang lalu
Apakah 40w juga akan meluap memori?
Lihat AsliBalas0
SelfStakingvip
· 20jam yang lalu
Menambahkan hingga 400 ribu, benar-benar hebat
Lihat AsliBalas0
StablecoinAnxietyvip
· 20jam yang lalu
Menghabiskan 400.000 token, kepala botak
Lihat AsliBalas0
TideRecedervip
· 20jam yang lalu
Token saya semua naik gila.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)