LLM

Последние новости о больших языковых моделях (LLM): GPT, Claude, Gemini, LLaMA и другие. Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка. Практические кейсы применения, туториалы и экспертные мнения.

TextQuests оценил, насколько эффективны языковые модели в текстовых играх

Новый бенчмарк TextQuests на классических текстовых играх вскрыл слабости LLM в долгосрочном планировании и пространственном мышлении. Модели галлюцинируют в длинных сессиях и неэффективно тратят вычислительные ресурсы.

Claude теперь обрабатывает целые проекты за один запрос: революция для разработчиков

Claude Sonnet 4 теперь обрабатывает 1 млн токенов, позволяя анализировать целые кодобазы. Но рост возможностей сопровождается ценовыми и бизнес-рисками для Anthropic.

OpenAI добавляет интеграции ChatGPT с Dropbox и Teams, Альтман уточняет приоритеты GPT-5

OpenAI добавила интеграции ChatGPT с Dropbox, Teams и другими сервисами, а Сэм Альтман уточнил приоритеты GPT-5: лимиты сообщений, расширение API и удвоение вычислительных мощностей.

Экс-инженер Google привлек $8 млн на AI-агентов для групповых чатов

Стартап Continua привлек $8 млн на внедрение AI-агентов в групповые чаты. Основанный экс-инженером Google, сервис автоматизирует планирование встреч и напоминания, но сталкивается с проблемой «социального интеллекта» ИИ.

Ограничения рейтинга Elo для сравнения языковых моделей и пути их преодоления

Исследователи выявили фундаментальные ограничения рейтинговой системы Elo при оценке языковых моделей и предложили комбинированный подход для более точного сравнения.

GPT-5 превзошел GPT-4o в пяти тестовых заданиях

Сравнительное тестирование GPT-5 и GPT-4o в пяти областях показало превосходство новой модели. Детали тестов и экспертная оценка.