AutoBench запускает третий раунд масштабного тестирования LLM
Третий раунд AutoBench протестировал 33 языковые модели с рекордными 300,000 оценок. Запущена платформа autobench.org для прозрачного benchmarking.
Последние новости о больших языковых моделях (LLM): GPT, Claude, Gemini, LLaMA и другие. Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка. Практические кейсы применения, туториалы и экспертные мнения.
Третий раунд AutoBench протестировал 33 языковые модели с рекордными 300,000 оценок. Запущена платформа autobench.org для прозрачного benchmarking.
Google заявил о минимальном экологическом следе Gemini, но эксперты обвиняют компанию в манипуляции данными и сокрытии полной картины потребления ресурсов ИИ-системами.
DeepSeek представила гибридную модель V3.1 с двумя режимами работы, которая превзошла собственную модель рассуждений R1 в тестах при радикально низких ценах.
Google впервые раскрыла данные об энергопотреблении ИИ-системы Gemini. Модели потребляют 10-15% энергии дата-центров компании, но эффективность улучшилась на 40%.
ByteDance выпустила open-source языковую модель SEED OSS 36B с контекстом 512к токенов, усилив конкуренцию на рынке открытых ИИ-решений.
Anthropic запустила корпоративную версию Claude с инструментами администрирования, но сохранила оплату за использование вместо безлимитных тарифов.