Оглавление
В индустрии искусственного интеллекта происходит фундаментальный сдвиг: компании отказываются от массового скрапинга данных в пользу целенаправленного ручного сбора качественных наборов информации. Эта тенденция меняет сам подход к обучению нейросетей и создает новые конкурентные преимущества.
Искусство сбора данных
Этим летом Тейлор и ее соседка по комнате неделю носили камеры GoPro, прикрепленные ко лбу, пока занимались живописью, скульптурой и домашними делами. Они тренировали модель компьютерного зрения, тщательно синхронизируя отснятый материал, чтобы система могла получить несколько ракурсов одного и того же поведения.
«Мы просыпались, выполняли обычные утренние ритуалы, затем крепили камеры на голову и синхронизировали время», — рассказала Тейлор. «Потом мы готовили завтрак и мыли посуду. Затем расходились по своим делам и работали над искусством».
Их наняли для создания пяти часов синхронизированного видео ежедневно, но Тейлор быстро поняла, что ей нужно выделять семь часов в день на эту работу, чтобы оставить достаточно времени на перерывы и физическое восстановление.
«Это вызывало головные боли», — сказала она. «Снимаешь камеру — и на лбу остается красный квадрат».
Тейлор работала фрилансером по сбору данных для компании Turing, которая связывает ее с TechCrunch. Целью Turing было не научить ИИ создавать масляные картины, а развить более абстрактные навыки в области последовательного решения проблем и визуального мышления.
Новый подход к обучению
В отличие от больших языковых моделей, модель компьютерного зрения Turing обучается исключительно на видео — и большая его часть собирается непосредственно самой компанией.
Наряду с художниками вроде Тейлор, Turing заключает контракты с шеф-поварами, строительными рабочими и электриками — со всеми, кто работает руками. Главный директор по AGI компании Сударшан Сивараман рассказал TechCrunch, что ручной сбор — единственный способ получить достаточно разнообразный набор данных.
«Мы делаем это для многих различных видов физического труда, чтобы обеспечить разнообразие данных на этапе предварительного обучения», — сказал Сивараман. «После того как мы соберем всю эту информацию, модели смогут понять, как выполняется определенная задача».
Качество против количества
Работа Turing над моделями компьютерного зрения является частью растущего сдвига в том, как компании ИИ работают с данными. Если раньше обучающие наборы свободно собирались из интернета или собирались низкооплачиваемыми аннотаторами, то теперь компании платят большие деньги за тщательно отобранные данные.
Компания Fyxer, которая использует модели ИИ для сортировки электронных писем и составления ответов, служит ярким примером.
После некоторых ранних экспериментов основатель Ричард Холлингсворт обнаружил, что лучший подход — использовать набор небольших моделей с узконаправленными обучающими данными.
«Мы поняли, что качество данных, а не их количество, действительно определяет производительность», — рассказал Холлингсворт.
На практике это означало нетрадиционные кадровые решения. В первые дни инженеры и менеджеры Fyxer иногда уступали по численности исполнительным помощникам, необходимым для обучения модели, в соотношении один к четырем.
Это классический случай, когда рынок наконец-то осознал простую истину: мусор на входе — мусор на выходе. Пока все гонялись за терабайтами данных, умные игроки поняли, что несколько часов качественного видео с реальными профессионалами стоят дороже, чем тысячи часов случайного контента из интернета. Ирония в том, что в эпоху автоматизации именно ручной труд становится главным конкурентным преимуществом.
Синтетические данные и их ограничения
Темп сбора данных никогда не замедлялся, но со временем Холлингсворт стал более требовательным к наборам данных, предпочитая меньшие наборы более тщательно отобранных данных при пост-обучении.
Это особенно актуально при использовании синтетических данных, которые увеличивают как масштаб возможных сценариев обучения, так и влияние любых недостатков в исходном наборе данных. Со стороны компьютерного зрения Turing оценивает, что от 75% до 80% ее данных являются синтетическими, экстраполированными из оригинальных видео GoPro.
«Если сами данные предварительного обучения не являются качественными, то все, что вы делаете с синтетическими данными, также не будет качественным», — говорит Сивараман.
Конкурентное преимущество
Помимо проблем качества, существует мощная конкурентная логика сохранения сбора данных внутри компании. Для Fyxer тяжелая работа по сбору данных является одним из лучших барьеров против конкуренции.
По мнению Холлингсворта, любой может встроить модель с открытым исходным кодом в свой продукт — но не каждый может найти экспертов-аннотаторов, чтобы обучить ее до рабочего состояния.
«Мы считаем, что лучший способ сделать это — через данные», — сказал он TechCrunch, «через создание пользовательских моделей, через высококачественное обучение на данных под руководством человека».
Эта стратегия создает интересный парадокс: в эпоху автоматизации именно человеческий труд становится ключевым конкурентным преимуществом в развитии ИИ.
По материалам TechCrunch
Оставить комментарий