ИИ провалил тесты по финансам и юриспруденции в новом реалистичном бенчмарке
Новый бенчмарк PRBench показывает, что ИИ проваливается в реальных профессиональных задачах финансов и юриспруденции, несмотря на высокие академические показатели.
Последние новости о больших языковых моделях (LLM): GPT, Claude, Gemini, LLaMA и другие. Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка. Практические кейсы применения, туториалы и экспертные мнения.
Новый бенчмарк PRBench показывает, что ИИ проваливается в реальных профессиональных задачах финансов и юриспруденции, несмотря на высокие академические показатели.
Новая модель GPT-5.1 от OpenAI научилась соблюдать пользовательские инструкции по форматированию текста, включая запрет на использование длинных тире.
Perplexity обновил Comet Assistant с акцентом на прозрачность, контроль пользователя и безопасность. Ассистент теперь показывает все действия, запрашивает разрешение для важных операций и позволяет настраивать уровень автономности.
Google добавила в NotebookLM инструмент Deep Research для автоматизации сложных онлайн-исследований и расширила поддержку файловых форматов.
PyTorch представляет фреймворк разреженного вывода для LLM, обещающий ускорение в 2-6 раз. Технология использует кэширование весов и новые методы порогового отсечения для современных моделей.
Google DeepMind использует игру Goat Simulator 3 для обучения ИИ-агентов на основе Gemini в хаотичных условиях. Необычный подход помогает тестировать адаптивность алгоритмов.