Обзор эволюции инструментов для сбора данных для обучения языковых моделей: от классических скребков вроде Scrapy до новых AI-решений, их сравнение, юридические аспекты и практический подход к построению системы.
Дата-центры Amazon в Орегоне усугубляют загрязнение питьевой воды нитратами, что связывают с ростом заболеваемости раком и выкидышей среди местных жителей.
MCP Blockly представляет визуальную среду разработки для создания серверов Model Context Protocol с ИИ-ассистентом, который работает как гид, а не замена программисту.
Hugging Face представила Jobly — систему семантического поиска вакансий на основе RAG, которая использует векторные эмбеддинги для точного соответствия навыков кандидатов требованиям позиций.
Китайская компания DeepSeek выпустила открытую математическую модель, решающую задачи Международной олимпиады на уровне золотой медали, бросив вызов закрытым системам OpenAI и Google.
За три года ChatGPT прошел путь от экспериментального чат-бота до глобального феномена с 800 млн пользователей, столкнувшись с серьезными этическими и техническими вызовами.