Дані як активи: DataFi відкриває новий блакитний океан

Автор: основний співробітник Biteye @anci_hu49074

"Ми живемо в еру глобальної конкуренції за створення найкращих базових моделей. Обчислювальна потужність та архітектура моделей важливі, але справжнім захистом є навчальні дані"

—Сандіп Чінчалі, головний AI-офіцер, Story

Давайте поговоримо про потенціал AI Data track з точки зору Scale AI

Найбільший плітка в колі ШІ цього місяця - це демонстрація фінансових можливостей Meta. Цукерберг найняв таланти скрізь і сформував розкішну команду Meta AI, яка складається в основному з китайських наукових дослідників. Лідер команди - Олександр Ванг, якому всього 28 років, він заснував Scale AI. Він заснував Scale AI, яка наразі оцінюється в 29 мільярдів доларів США. Об'єктами обслуговування є військові США, а також OpenAI, Anthropic, Meta та інші конкурентні гіганти ШІ, всі з яких покладаються на дані послуги, надані Scale AI. Основний бізнес Scale AI полягає у наданні великої кількості точно маркованих даних.

Чому Scale AI може виділитися з групи єдинорогів?

Причина в тому, що вона рано виявила важливість даних в індустрії штучного інтелекту.

Обчислювальна потужність, моделі та дані є трьома стовпами моделей штучного інтелекту. Якщо великий модель порівняти з людиною, то модель є тілом, обчислювальна потужність є їжею, а дані є знаннями/інформацією.

За роки з моменту виникнення LLM акцент розвитку індустрії також змістився з моделей на обчислювальну потужність. Сьогодні більшість моделей встановили трансформери як модельну структуру, час від часу з'являються інновації, такі як MoE або MoRe. Великі гіганти або побудували власні Супер Кластери для завершення Великої стіни обчислювальної потужності, або підписали довгострокові угоди з потужними хмарними сервісами, такими як AWS. Як тільки базова обчислювальна потужність буде забезпечена, важливість даних поступово стає помітною.

Дані є активом: DataFi відкриває новий блакитний океан

На відміну від традиційних компаній To B у сфері великих даних з помітною репутацією на вторинному ринку, таких як Palantir, Scale AI, як випливає з назви, прагне створити надійний інформаційний фундамент для AI-моделей. Її бізнес не обмежується видобутком існуючих даних, а також зосереджується на довгостроковій генерації даних. Вона також намагається сформувати команду AI-тренерів через штучних експертів у різних областях, щоб забезпечити кращу якість навчальних даних для тренування AI-моделей.

Якщо ви не згодні з цим бізнесом, давайте подивимося, як навчається модель.

Навчання моделі поділяється на дві частини - попереднє навчання та доопрацювання.

Попередня частина навчання трохи нагадує процес, коли людські діти поступово вчаться говорити. Те, що нам зазвичай потрібно, це забезпечити модель штучного інтелекту великою кількістю тексту, коду та іншої інформації, отриманої з онлайн-краулерів. Модель сама вивчає ці матеріали, вчиться говорити людською мовою (, академічно називаною природною мовою ), і має базові комунікативні навички.

Частина налаштування моделі схожа на навчання в школі, де зазвичай чітко визначені правильні та неправильні відповіді та напрямки. Школи навчають студентів різним талантам на основі їхнього відповідного позиціонування. Ми також будемо використовувати деякі попередньо оброблені та цілеспрямовані набори даних для навчання моделі, щоб вона мала очікувані нами можливості.

Дані є активом: DataFi відкриває новий блакитний океан

На даний момент ви, можливо, зрозуміли, що дані, які нам потрібні, також поділяються на дві частини.

  • Деякі дані не потребують надмірної обробки, достатньо лише трохи, зазвичай з даних краулера великих платформ UGC, таких як Reddit, Twitter, Github, публічні літературні бази даних, корпоративні приватні бази даних тощо.
  • Інша частина, така як професійні підручники, вимагає ретельного дизайну та відбору, щоб забезпечити можливість розвитку специфічних відмінних якостей моделі. Це вимагає від нас виконання деяких необхідних робіт, таких як очищення даних, відбір, маркування та ручний зворотний зв'язок.

Ці два набори даних становлять основну частину треку даних AI. Не варто недооцінювати ці на перший погляд низькотехнологічні набори даних. Теперішня загальноприйнята думка полягає в тому, що в міру того, як перевага обчислювальної потужності в законах масштабування поступово стає неефективною, дані стануть найважливішою опорою для різних виробників великих моделей у підтриманні їх конкурентної переваги.

Оскільки можливості моделей продовжують поліпшуватися, більш складні та професійні навчальні дані стануть ключовими чинниками впливу на можливості моделей. Якщо ми ще більше порівняємо навчання моделей з вихованням майстрів бойових мистецтв, то високоякісні набори даних є найкращими секретами бойових мистецтв (, щоб завершити цю метафору, ми також можемо сказати, що обчислювальна потужність є панацеєю, а модель — це сама кваліфікація ).

З вертикальної точки зору, AI Data також є довгостроковим напрямком з можливістю сніжкового ефекту. Завдяки накопиченню попередньої роботи, дані активи також матимуть можливість складатися, і з часом вони стануть все популярнішими.

Web3 DataFi: Обрана родюча земля для даних штучного інтелекту

У порівнянні з віддаленою командою ручного маркування Scale AI з сотень тисяч людей на Філіппінах, у Венесуелі та інших місцях, Web3 має природну перевагу в галузі даних штучного інтелекту, і виник новий термін DataFi.

В ідеалі переваги Web3 DataFi виглядають наступним чином:

  1. Суверенітет даних, безпека та конфіденційність, гарантовані смарт-контрактами

На етапі, коли існуючі публічні дані мають бути розроблені та вичерпані, важливим напрямком отримання та розширення джерел даних є подальше видобування неоприлюднених даних, навіть приватних. Це стикається з важливим питанням вибору довіри - чи обираєте ви централізовану систему викупу контрактів великої компанії та продаєте свої дані; чи обираєте ви метод блокчейн, продовжуєте тримати IP даних у своїх руках та чітко розумієте через смарт-контракти: хто використовує ваші дані, коли і з якою метою.

Водночас, для чутливої інформації ви можете використовувати zk, TEE та інші методи, щоб гарантувати, що ваші приватні дані обробляються лише машинами, які тримають рот на замку та не будуть витікати.

  1. Природна географічна арбітражна перевага: безкоштовна розподілена архітектура для залучення найбільш підходящої робочої сили

Можливо, настав час кинути виклик традиційним трудовим відносинам. Замість того щоб шукати дешеву працю по всьому світу, як це робить Scale AI, краще скористатися розподіленими характеристиками блокчейну і дозволити робочій силі, що розпорошена по всьому світу, брати участь у внесках даних через відкриті та прозорі стимули, гарантовані смарт-контрактами.

Для трудомістких завдань, таких як маркування даних та оцінка моделей, використання Web3 DataFi є більш сприятливим для різноманіття учасників, ніж централізований підхід до створення фабрик даних, що також має довгострокове значення для уникнення упередженості даних.

  1. Ясні переваги стимулювання та розрахунків блокчейну

Як уникнути трагедії "Шкіряного заводу Цзяннань"? Природно, ми повинні використовувати систему стимулів із чіткими цінниками в смарт-контрактах, щоб замінити темряву людської природи.

У контексті неминучої деглобалізації, як ми можемо продовжувати досягати низьковартісного географічного арбітражу? Очевидно, що відкривати компанії по всьому світу стає складніше, тож чому б не обійти бар'єри старого світу і не прийняти метод розрахунків на блокчейні?

  1. Це сприяє створенню більш ефективного та відкритого "одного вікна" для ринку даних

"Посередники, які отримують прибуток від цінової різниці" є вічним болем як для сторони пропозиції, так і для сторони попиту. Замість того, щоб дозволяти централізованій компанії з обробки даних діяти як посереднику, краще створити платформу на блокчейні, через відкритий ринок, такий як Taobao, щоб сторони пропозиції та попиту на дані могли з'єднуватися більш прозоро та ефективно.

З розвитком екосистеми штучного інтелекту на блокчейні попит на дані в ланцюгу стане більш інтенсивним, сегментованим і різноманітним. Тільки децентралізований ринок може ефективно перетворити цей попит на екологічне процвітання.

Для роздрібних інвесторів DataFi також є найбільш децентралізованим AI проектом, який найбільше сприяє участі звичайних роздрібних інвесторів.

Хоча поява інструментів ШІ знизила навчальний поріг до певної міри, а первинна мета децентралізованого ШІ полягає в тому, щоб зламати нинішню монополію бізнесу ШІ великими компаніями; однак необхідно визнати, що багато нинішніх проектів не є дуже доступними для роздрібних інвесторів без технічного фону - участь у видобутку в децентралізованій обчислювальній мережі часто супроводжується дорогими початковими інвестиціями в обладнання, а технічний поріг ринку моделей завжди може легко відлякувати звичайних учасників.

На відміну від цього, це одна з небагатьох можливостей, які звичайні користувачі можуть використати в революції ШІ. Web3 дозволяє вам брати участь у цьому, виконуючи різні прості завдання, включаючи надання даних, маркування та оцінку моделей на основі інтуїції та інстинкту людського мозку, або подальше використання інструментів ШІ для виконання деяких простих творчих завдань, участі в транзакціях даних тощо. Для старих водіїв партії Мао рівень складності в основному нульовий.

Потенційні проекти Web3 DataFi

Де гроші течуть, там і напрямок. На додаток до того, що Scale AI отримала інвестицію в 14,3 мільярда доларів від Meta, а акції Palantir зросли більше ніж в 5 разів за рік у світі Web2, DataFi також дуже добре себе зарекомендувала у фінансуванні Web3. Тут ми надаємо короткий огляд цих проектів.

Дані – це актив: DataFi відкриває новий блакитний океан

Sahara AI, @SaharaLabsAI, залучила 49 мільйонів доларів

Головна мета Sahara AI - створити децентралізовану суперінфраструктуру штучного інтелекту та торгівельний ринок. Першим сектором, який буде протестовано, є AI Данні. Публічна бета-версія його DSP (Платформи Послуг Даних) буде запущена 22 липня. Користувачі можуть отримувати токен-нагороди, вносячи дані, беручи участь у маркуванні даних та інших завданнях.

Посилання: app.saharaai.com

Так, @yupp_ai, залучили 33 мільйони доларів

Yupp – це платформа для зворотного зв'язку з моделлю штучного інтелекту, яка збирає відгуки користувачів про виходи моделей. Поточне основне завдання полягає в тому, що користувачі можуть порівнювати виходи різних моделей для одного й того ж запиту, а потім вибрати той, який вони вважають кращим. Виконуючи завдання, можна заробити бали Yupp, які можна далі обміняти на фіатні стейблкоїни, такі як USDC.

Посилання:

Vana, @vana, залучила 23 мільйони доларів

Vana зосереджується на перетворенні особистих даних користувачів (, таких як активність у соціальних мережах, історія переглядів тощо ) на монетизовані цифрові активи. Користувачі можуть уповноважити завантаження своїх особистих даних до відповідного пулу ліквідності даних (DLP) в DataDAOs. Ці дані будуть об'єднані та використовуватимуться для участі в завданнях, таких як навчання AI-моделей, а користувачі також отримуватимуть відповідні токен-нагороди.

Посилання:

Chainbase, @ChainbaseHQ, залучає 16,5 мільйона доларів

Бізнес Chainbase зосереджений на даних блокчейну і наразі охоплює понад 200 блокчейнів, перетворюючи активності в блокчейні на структуровані, перевіряємi та монетизовані активи даних для розробки dApp. Бізнес Chainbase в основному отримується через багаточасове індексування та інші методи, а дані обробляються за допомогою його системи Manuscript та моделі Theia AI. Звичайні користувачі наразі не дуже залучені.

Sapien, @JoinSapien, зібрав 15,5 мільйона доларів

Sapien має на меті перетворити людське знання на високоякісні дані для навчання ШІ в масштабах. Будь-хто може виконувати анотацію даних на платформі та забезпечити якість даних через перевірку колегами. У той же час користувачів заохочують будувати довгострокову репутацію або робити зобов'язання через стекинг, щоб заробити більше винагород.

Посилання:

Prisma X, @PrismaXai , залучила 11 мільйонів доларів

Prisma X хоче стати відкритим координаційним шаром для роботів, де ключовим є збір фізичних даних. Цей проект наразі на ранніх стадіях. Відповідно до нещодавно випущеного білого паперу, участь може включати інвестування в роботів для збору даних, дистанційне керування даними роботів тощо. Наразі відкритий вікторина на основі білого паперу, і ви можете брати участь, щоб заробити бали.

Посилання:

Маса, @getmasafi, зібрав 8,9 мільйона доларів

Masa є одним із провідних підпроектів у екосистемі Bittensor і наразі керує даними підмережею № 42 та агентською підмережею № 59. Дані підмережа прагне забезпечити доступ до даних у реальному часі. Наразі шахтарі в основному отримують дані в реальному часі з X/Twitter через апаратне забезпечення TEE. Для звичайних користувачів складність і витрати на участь є відносно високими.

Irys, @irys_xyz, зібрала 8,7 мільйона доларів

Irys зосереджується на програмованому зберіганні даних та обчисленнях, намагаючись забезпечити ефективні та низькозатратні рішення для ШІ, децентралізованих додатків (dApps) та інших додатків, що вимагають великої кількості даних. Щодо внеску в дані, звичайні користувачі наразі не можуть брати участь значною мірою, але є кілька заходів для участі на поточному етапі тестової мережі.

Посилання:

ORO, @getoro_xyz, залучив 6 мільйонів доларів

Що ORO хоче зробити, так це наділити звичайних людей можливістю брати участь у внесках в AI. Методи підтримки включають: 1. Підключіть свій особистий акаунт для внесення особистих даних, включаючи соціальні акаунти, дані про здоров'я, електронну комерцію та фінансові акаунти; 2. Виконайте завдання з даними. Тестова мережа вже в онлайн-режимі, і ви можете брати участь.

Посилання: app.getoro.xyz

Gata, @Gata_xyz, залучила 4 мільйони доларів

Позиціонуючи себе як децентралізований рівень даних, Gata наразі має три ключові продукти для участі: 1. Data Agent: серія AI-агентів, які можуть автоматично запускати та обробляти дані, поки користувач відкриває веб-сторінку; 2. AII-in-one Chat: механізм, подібний до моделювання оцінки Yupp для отримання винагород; 3. GPT-to-Earn: плагін для браузера, який збирає дані розмов користувачів на ChatGPT.

Посилання:

Як ви оцінюєте ці поточні проекти?

На даний момент бар'єри для входу в ці проекти зазвичай не є високими, але потрібно визнати, що як тільки накопичуються користувачі та екологічна стійкість, переваги платформи швидко накопичуються. Тому на ранніх етапах зусилля повинні бути зосереджені на винагородах та досвіді користувачів. Лише залучивши достатню кількість користувачів, можна зробити бізнес з великими даними.

Однак, як трудомісткі проекти, ці платформи даних також повинні враховувати, як управляти працею та забезпечити якість виходу даних, залучаючи робочу силу. Врешті-решт, поширеною проблемою багатьох проектів Web3 є те, що більшість користувачів на платформі - це лише безжальні наживці. Вони часто жертвують якістю заради короткострокових вигод. Якщо їм дозволити стати основними користувачами платформи, погані гроші неминуче витіснять хороші гроші, і, врешті-решт, якість даних не може бути гарантована, і покупців не можна залучити. Наразі ми бачимо, що такі проекти, як Sahara та Sapien, підкреслювали якість даних і прагнули встановити довгострокові та здорові партнерські відносини з робочою силою на платформі.

Крім того, відсутність прозорості є ще однією проблемою сучасних проєктів на блокчейні. Дійсно, неможливий трикутник блокчейну змусив багато проєктів обрати шлях "централізація веде до децентралізації" на етапі стартапу. Але зараз все більше і більше проєктів на блокчейні справляють враження "старих Web2 проєктів у Web3 обгортці" - є дуже мало публічних даних, які можна відстежити на ланцюзі, і навіть дорожня карта важко демонструє довгострокову рішучість щодо відкритості та прозорості. Це, безсумнівно, токсично для довгострокового здорового розвитку Web3 DataFi, і ми також сподіваємося, що більше проєктів завжди зберігатимуть свої первісні наміри та прискорюватимуть темпи відкритості та прозорості.

Нарешті, шлях масового впровадження DataFi також слід поділити на дві частини: перша — це залучення достатньої кількості учасників доC для приєднання до мережі, формуючи нову силу для збору/генерації даних та споживачів економіки ШІ, формуючи екологічну замкнуту петлю; інша — це отримання визнання від нинішніх основних компаній до B. Адже в короткостроковій перспективі вони є основним джерелом великих замовлень на дані завдяки своїм глибоким кишеням. У цьому плані ми також бачили, що Sahara AI, Vana тощо досягли хороших результатів.

Висновок

Більш фаталістично, DataFi полягає в використанні людського інтелекту для розвитку машинного інтелекту в довгостроковій перспективі, одночасно використовуючи смарт-контракти як контракт для забезпечення того, щоб праця людського інтелекту була прибутковою і в кінцевому підсумку отримувала зворотний зв'язок від машинного інтелекту.

Якщо ви тривожитеся через невизначеність ери штучного інтелекту, і якщо у вас все ще є блокчейн-ідеали на фоні злетів і падінь світу криптовалют, то слідувати за групою капітальних гігантів і приєднатися до DataFi - це хороший вибір, щоб йти в ногу з часом.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити