Оглавление

Технологический гигант Google продолжает интегрировать генеративные модели в поисковую выдачу, и, кажется, делает это весьма успешно, по крайней мере, с точки зрения статистики. Согласно результатам исследования, проведенного ИИ-стартапом Oumi по заказу The New York Times, обновленные AI Overviews демонстрируют точность на уровне 91%. Издание The Decoder отмечает, что этот показатель заметно вырос после перехода поисковика на новую модель Gemini 3.

Методология исследования включала анализ 4 326 поисковых запросов с использованием бенчмарка SimpleQA. Если в октябре прошлого года версия на базе Gemini 2 давала верные ответы в 85% случаев, то февральские тесты показали качественный скачок. Однако для системы с миллиардной аудиторией даже оставшиеся 9% ошибок превращаются в миллионы недостоверных сообщений, транслируемых пользователям ежечасно. В Google результаты встретили прохладно, указав на серьезные пробелы в самом методе тестирования.

Парадокс верификации и сомнительные источники

Самое любопытное в отчете Oumi — это обратная корреляция между правильностью ответа и возможностью его проверить. Пока точность росла, проверяемость (verifiability) стремительно падала. У Gemini 3 доля правильных, но «необоснованных» ответов — тех, что нельзя подтвердить по ссылкам в самом блоке ИИ — подскочила до 56%. Для сравнения: у предыдущей итерации этот показатель составлял 37%. Получается, что система чаще говорит правду, но все реже может объяснить, откуда она ее взяла.

Анализ ссылочной массы также преподносит сюрпризы. В списке из пяти тысяч источников второе и четвертое места по частоте упоминаний заняли Facebook и Reddit. Социальные платформы стали фундаментом для ответов Google, что выглядит иронично на фоне недавних сделок по обучению моделей на данных этих площадок. Возможно, алгоритм отдает предпочтение ресурсам, которые с меньшей вероятностью подадут в суд за использование контента, даже если качество информации там оставляет желать лучшего.

Примеры ошибок, приведенные в исследовании, напоминают классические галлюцинации: ИИ находит верный сайт о Зале славы классической музыки, но утверждает, что записи о Йо-Йо Ма там нет, хотя виолончелист указан в списке. Или путает реки в Северной Каролине, правильно определив туристический портал, но выбрав не то название из текста. Эти мелкие сбои в интерпретации контекста остаются ахиллесовой пятой даже самых продвинутых LLM.

Достижение 91% точности в динамической среде поиска — это впечатляющий инженерный подвиг, однако за ним скрывается опасная стратегическая иллюзия. Google фактически строит «черный ящик», где правильный ответ соседствует с невозможностью его верификации через предложенные источники. Использование соцсетей как авторитетных баз знаний лишь подчеркивает дефицит качественных данных. В итоге мы получаем инструмент, который достаточно хорош, чтобы разучить людей кликать по ссылкам, но недостаточно надежен, чтобы ему можно было верить на слово без оглядки.

Критика бенчмарка и будущее открытого веба

Представители Google, в частности Нед Адрианс, называют исследование предвзятым. Основная претензия касается SimpleQA — инструмента, разработанного OpenAI. Этот бенчмарк изначально сфокусирован на каверзных вопросах, на которых пасуют многие модели, и предназначен для проверки внутренних знаний системы без доступа к интернету. В реальных условиях поиска Gemini 3.1 Pro опирается на актуальный веб-индекс, что, по заверению компании, значительно снижает риск галлюцинаций.

Тем не менее, за спорами о процентах скрывается более масштабная проблема трансформации интернета. Превращаясь из навигатора по ссылкам в конечную точку потребления информации, Google подрывает экономику издателей. Если пользователь получает ответ прямо на странице поиска, мотивация переходить на первоисточник исчезает. Открытый веб, годами строившийся на принципах свободного обмена трафиком, рискует превратиться в закрытую экосистему, где ИИ-интерфейс становится единственным посредником между знанием и человеком.