Оглавление

LinkedIn запускает поиск людей на основе искусственного интеллекта — спустя три года после появления ChatGPT и шесть месяцев после внедрения аналогичной функции для поиска работы. Для технических лидеров эта временная шкала иллюстрирует ключевой урок для корпоративного сектора: развертывание генеративного ИИ в реальных условиях — сложный процесс, особенно при масштабе в 1,3 миллиарда пользователей.

Как работает новый поиск

Пользователь теперь может вводить естественно-языковые запросы вроде «Кто разбирается в лечении рака?» в поисковую строку LinkedIn. Старая система на основе ключевых слов справилась бы плохо — она искала бы только упоминания «рака». Для сложного поиска пришлось бы выполнять отдельные запросы по «раку» и «онкологии», а затем вручную собирать результаты.

Новая система с ИИ понимает намерение поиска благодаря языковой модели, которая распознает семантическое значение. Она определяет, что «рак» концептуально связан с «онкологией» и даже менее прямо — с «геномными исследованиями». В результате выдается более релевантный список людей, включая лидеров в области онкологии и исследователей, даже если их профили не содержат точного слова «рак».

Система также балансирует релевантность с полезностью. Вместо того чтобы показывать только ведущих мировых онкологов (которые могут быть недостижимыми контактами третьей степени), она также учитывает, кто в вашей ближайшей сети — например, контакт первой степени — является «довольно релевантным» и может служить важным мостом к этому эксперту.

Кулинарная книга LinkedIn для масштабирования ИИ

Более важный урок для корпоративных практиков — это «кулинарная книга», которую разработал LinkedIn: воспроизводимый многоэтапный конвейер дистилляции, совместного проектирования и непрерывной оптимизации. Компании пришлось отточить этот подход на одном продукте, прежде чем применять его к другому.

«Не пытайтесь сделать слишком много сразу», — пишет Вэньцзин Чжан, вице-президент по инжинирингу LinkedIn, в посте о запуске продукта. Она отмечает, что более ранняя «расплывчатая амбиция» построить унифицированную систему для всех продуктов LinkedIn «затормозила прогресс».

Вместо этого LinkedIn сосредоточился на победе в одном вертикальном сегменте. Успех ранее запущенного ИИ-поиска работы — который привел к тому, что соискатели без четырехлетнего образования стали на 10% чаще получать работу, по словам вице-президента по продуктовому инжинирингу Эррана Бергера — предоставил готовый план.

Три года на разработку поиска людей в LinkedIn — это не медлительность, а прагматизм. Масштабирование ИИ до миллиарда пользователей требует не столько прорывных моделей, сколько инженерной дисциплины: дистилляции, оптимизации и отказа от хайпа в пользу работающих решений. Пока все гонятся за агентами, LinkedIn показывает, что реальная ценность сегодня — в совершенствовании рекомендательных систем.

Новый вызов: граф из 1,3 миллиарда участников

Продукт поиска работы создал надежный рецепт, на котором мог построить новый поиск людей, объяснил Бергер.

Рецепт начался с «золотого набора данных» всего из нескольких сотен или тысячи реальных пар запрос-профиль, тщательно оцененных по детальному документу «политики продукта» объемом 20-30 страниц. Чтобы масштабировать это для обучения, LinkedIn использовал этот небольшой золотой набор для промптинга большой базовой модели для генерации огромного объема синтетических обучающих данных. Эти синтетические данные использовались для обучения модели с 7 миллиардами параметров — высокоточному судье релевантности, который был слишком медленным для живого производства, но идеальным для обучения меньших моделей.

Однако команда столкнулась с препятствием на раннем этапе. В течение шести-девяти месяцев они пытались обучить единую модель, которая могла бы балансировать строгое соблюдение политики (релевантность) с сигналами вовлеченности пользователей. «Момент озарения» наступил, когда они поняли, что нужно разбить проблему на части. Они дистиллировали 7B модель политики в учительскую модель на 1,7B, ориентированную исключительно на релевантность. Затем они объединили ее с отдельными учительскими моделями, обученными предсказывать конкретные действия участников, такие как подача заявок на вакансии для продукта поиска работы или подключение и подписка для поиска людей.

Дистилляция для 10-кратного увеличения пропускной способности

С решением проблемы извлечения команда столкнулась с проблемой ранжирования и эффективности. Именно здесь кулинарная книга была адаптирована с новыми агрессивными методами оптимизации.

Одной из наиболее значительных оптимизаций был размер ввода. Чтобы накормить модель, команда обучила еще одну LLM с обучением с подкреплением (RL) для единственной цели: резюмировать входной контекст. Эта модель «суммаризатора» смогла уменьшить размер ввода модели в 20 раз с минимальной потерей информации.

Комбинированный результат модели на 220 миллионов параметров и 20-кратного сокращения ввода? 10-кратное увеличение пропускной способности ранжирования, позволяющее команде эффективно обслуживать модель своей огромной пользовательской базе.

Прагматизм вместо хайпа

На протяжении всех обсуждений Бергер настаивал на том, что реальная ценность для предприятий сегодня заключается в совершенствовании рекомендательных систем, а не в погоне за «агентским хайпом». Он также отказался говорить о конкретных моделях, которые компания использовала для поиска, предположив, что это почти не имеет значения. Компания выбирает модели на основе того, какую она считает наиболее эффективной для задачи.

Новый ИИ-поиск людей является проявлением философии Бергера о том, что лучше сначала оптимизировать систему рекомендаций. Архитектура включает новый «интеллектуальный уровень маршрутизации запросов», который сам по себе работает на LLM. Этот маршрутизатор прагматично решает, должен ли запрос пользователя — например, «эксперт по доверию» — перейти в новый семантический, естественно-языковой стек или в старый, надежный лексический поиск.

Вся эта сложная система предназначена для того, чтобы быть «инструментом», который будет использовать будущий агент, а не самим агентом.

По материалам VentureBeat.