LLM

Последние новости о больших языковых моделях (LLM): GPT, Claude, Gemini, LLaMA и другие. Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка. Практические кейсы применения, туториалы и экспертные мнения.

Бенчмарк GDPval от OpenAI

Бенчмарк GDPval от OpenAI для оценки ИИ в реальных задачах: кто в лидерах

OpenAI представила GDPval — бенчмарк для оценки ИИ в реальных профессиональных задачах. Модели GPT-5 и Claude Opus 4.1 показывают результаты, сравнимые с экспертами, но сильно зависят от формата файлов.

ChatGPT переключается на строгий режим

ChatGPT автоматически переключается на строгий режим при эмоциональных запросах

OpenAI внедрила скрытую систему в ChatGPT, которая автоматически переключается на строгую модель при эмоциональных запросах без уведомления пользователей.

KT представила корейскую языковую модель SOTAK

KT представила корейскую языковую модель SOTAK на базе GPT-4o с улучшенной локализацией

KT выпустила корейскую языковую модель SOTAK на базе GPT-4o с улучшенной обработкой местного языка и культурного контекста, превосходящую оригинал в специализированных тестах.

Juicebox привлек $30 миллионов

Juicebox привлек $30 миллионов для революции в подборе персонала с помощью ИИ-моделей

Стартап Juicebox привлек 30 млн долларов от Sequoia для развития AI-поиска кандидатов. Сервис использует языковые модели для анализа профилей и уже обслуживает 2500 клиентов.

Microsoft Researcher

Microsoft представила новый ИИ-агент для глубокого анализа рабочих данных

Microsoft представила Researcher — ИИ-агент для глубокого анализа рабочих данных и внешних источников. Инструмент автоматизирует подготовку комплексных отчетов для стратегического планирования, продаж и клиентской поддержки.

PrediBench оценивает ИИ для ставок

Бенчмарк PrediBench оценивает, как LLM предсказывают события для ставок на Polymarket

Новый бенчмарк PrediBench тестирует способность ИИ-моделей предсказывать реальные события через прогнозные рынки Polymarket. Модели ежедневно делают ставки на актуальные события.