Новый бенчмарк BullshitBench проверяет способность ИИ распознавать абсурдные задачи
Бенчмарк BullshitBench выявил неспособность ведущих ИИ-моделей распознавать абсурдные и логически противоречивые запросы, заставляя их галлюцинировать.
Новости о нейросетях для программирование с AI, кодинг-ассистенты, AI для разработчиков, инструменты и фреймворки
Бенчмарк BullshitBench выявил неспособность ведущих ИИ-моделей распознавать абсурдные и логически противоречивые запросы, заставляя их галлюцинировать.
Исследование Sonatype выявило новую проблему ИИ в безопасности: вместо галлюцинаций модели теперь выбирают бездействие, оставляя уязвимости в коде.
Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.
Бывшая сотрудница Amazon была уволена, несмотря на активное использование ИИ-инструментов в работе. Почему индивидуальные навыки владения ИИ не гарантируют защиту от массовых корпоративных сокращений.
Простое внедрение ИИ часто создает лишнее трение в рабочих процессах. Исследователи предлагают модель когнитивного выравнивания для синхронизации человека и машины.
Элли Миллер продемонстрировала использование Claude Code для создания автономных рабочих процессов, включая управление почтой и генерацию контента.