Сбор данных для обучения языковых моделей: новое поколение инструментов

Обзор эволюции инструментов для сбора данных для обучения языковых моделей: от классических скребков вроде Scrapy до новых AI-решений, их сравнение, юридические аспекты и практический подход к построению системы.

Дата-центры вредят окружающей среде

Дата-центры Amazon в Орегоне могут быть связаны с ростом заболеваемости раком

Дата-центры Amazon в Орегоне усугубляют загрязнение питьевой воды нитратами, что связывают с ростом заболеваемости раком и выкидышей среди местных жителей.

Представлен проект MCP Blockly

MCP Blockly открывает визуальное программирование для создания серверов ИИ

MCP Blockly представляет визуальную среду разработки для создания серверов Model Context Protocol с ИИ-ассистентом, который работает как гид, а не замена программисту.

Hugging Face представляет Jobly

Hugging Face представляет Jobly: семантический поиск вакансий с использованием RAG

Hugging Face представила Jobly — систему семантического поиска вакансий на основе RAG, которая использует векторные эмбеддинги для точного соответствия навыков кандидатов требованиям позиций.

DeepSeek выпустил математическую модель

DeepSeek выпустил открытую математическую модель уровня победителя олимпиады

Китайская компания DeepSeek выпустила открытую математическую модель, решающую задачи Международной олимпиады на уровне золотой медали, бросив вызов закрытым системам OpenAI и Google.

ChatGPT исполняется 3 года

ChatGPT исполняется 3 года: как прошел путь от технологического прорыва до этических дилемм

За три года ChatGPT прошел путь от экспериментального чат-бота до глобального феномена с 800 млн пользователей, столкнувшись с серьезными этическими и техническими вызовами.