Оглавление

Эпоха «бесплатного» интернета как бездонного источника для обучения нейросетей подошла к концу. Публичные ресурсы закрываются от парсинга, а разработчики больших языковых моделей (LLM) столкнулись с дефицитом качественных текстов. Как сообщает издание qz.com, индустрия переходит к освоению закрытых архивов: от персональных цифровых следов до специфических данных с дронов и корпоративных хранилищ.

Для качественного скачка ИИ-системам недостаточно открытых данных из Wikipedia или Reddit. Будущее отрасли зависит от проприетарной информации, которая никогда не находилась в открытом доступе. Это требует создания новых рынков и инфраструктуры для извлечения ценности из того, что раньше считалось «цифровым мусором» или узкоспециализированным контентом.

Личные данные как новый актив

Пользовательский контент в Google Docs, история прослушиваний в Spotify и метаданные социальных сетей — это колоссальный массив информации, юридически принадлежащий пользователям. Стартап Vana разрабатывает платформу, позволяющую индивидам объединять свои данные в пулы для обучения ИИ, создавая альтернативу общедоступным датасетам.

Масштаб потенциала впечатляет: если 100 миллионов человек предоставят экспорт своих данных всего с пяти платформ, объем выборки составит около 450 триллионов токенов. Это в 30 раз больше, чем набор данных Common Crawl, на котором обучалась Llama 3 от Meta. Такой подход может привести к созданию по-настоящему персонализированных ИИ-ассистентов.

«Если вы паркуете машину на стоянке, владелец стоянки не становится собственником вашего автомобиля. Тот же принцип применим к данным: вы владеете ими, даже если они хранятся на чужом сервере», — говорит Анна Казлаускас, CEO Vana

Геопространственные модели и физический мир

Для развития робототехники и автономного транспорта требуются сверхточные карты, которые невозможно получить из обычных спутниковых снимков. Компания Spexi решает эту проблему через краудсорсинг: более 10 000 операторов дронов выполняют стандартизированные полеты на высоте 80 метров, оцифровывая города с беспрецедентным разрешением.

За последние полтора года проект охватил более 6 миллионов акров в 300 городах Северной Америки. Эти данные критически важны для таких компаний, как Niantic, создающих геопространственные модели. Основным вызовом здесь остается динамичность мира: дороги и здания меняются быстрее, чем модели успевают переобучаться.

Попытка скормить нейросетям терабайты накопленного корпоративного «силоса» без жесткой гигиены данных — это путь к созданию дорогостоящего генератора галлюцинаций. Рынок наконец-то избавляется от иллюзий, что LLM магическим образом структурируют хаос из легаси-систем. Без внятной семантики и контроля происхождения данных корпоративный ИИ останется лишь игрушкой для презентаций, неспособной отличить пожизненную ценность клиента от случайной транзакции.

Инвентаризация корпоративного хаоса

Крупный бизнес годами накапливал данные в «озерах» (data lakes), надеясь на их будущую полезность. Однако на практике эти массивы часто оказываются фрагментированными и непригодными для обучения без глубокой предобработки. По словам Сачина Дхармапурикара из The Modern Data Company, руководители часто сталкиваются с «проклятием ChatGPT», ожидая мгновенных инсайтов от необработанных архивов.

Для внедрения ИИ в бизнес-процессы корпорациям необходимо решить четыре фундаментальные задачи: обеспечить масштабируемое качество данных, прослеживаемость их происхождения (lineage), управление для предотвращения галлюцинаций и создание контекстных метаданных. Пока данные заперты в изолированных отделах продаж или производства, синергия, необходимая для продвинутого ИИ, остается недостижимой.