Magpie метод для синтеза речевых данных в TTS на основе LLM

Метод синтеза данных Magpie адаптирован для создания речевых датасетов TTS-моделей, что позволяет генерировать 125k образцов без человеческого участия.

Оглавление

Суть метода Magpie
Применение к речевым данным
Техническая реализация
Практический результат

Исследователи продолжают находить неожиданные применения методов, изначально разработанных для языковых моделей. Очередной пример — адаптация техники синтеза данных Magpie для создания речевых датасетов, что открывает новые возможности для обучения TTS-систем.

Суть метода Magpie

Magpie — это метод синтеза пар «инструкция-ответ» для тонкой настройки LLM, который работает полностью с нуля, без исходных данных. Техника состоит из двух ключевых шагов:

Синтез инструкции — модель генерирует текст инструкции, продолжая шаблон чата до момента, где должна появиться пользовательская реплика
Синтез ответа — та же модель создает ответ на только что сгенерированную инструкцию

Схема процесса синтеза инструкция-ответ по методу Magpie для TTS-моделей — Источник: huggingface.co

Как отмечает Hugging Face, поскольку инструкции Magpie создаются продолжением собственного шаблона чата модели, они остаются близкими к распределению обучающих данных модели, что обеспечивает более качественные ответы.

Применение к речевым данным

Авторегрессивные TTS-модели на основе LLM, такие как Llasa и Orpheus-TTS, работают по схожему с текстовыми LLM принципу: они предсказывают аудиотокены на основе текстовых токенов. Это сходство позволило применить Magpie для синтеза речевых данных.

Вместо текстовых инструкций и ответов метод теперь генерирует:

Текст (входные данные)
Аудиотокены (выходные данные)

Для Orpheus-TTS, который обучается без маскирования потерь на текстовом входе, метод оказался особенно эффективным.

Техническая реализация

Процесс синтеза включает строгую фильтрацию сгенерированных текстов через ряд проверок:

Проверка длины символов и слов
Обнаружение контрольных символов и специальных токенов
Выявление повторяющихся символов и слов
N-gram анализ для определения уникальности
Проверка завершенности предложений

Используемый код на Python демонстрирует практическую реализацию с vLLM для эффективной генерации:

import re
from collections import Counter

import torch
from datasets import Dataset
from tqdm import tqdm
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

# ... код генерации и фильтрации текста

Адаптация Magpie для речевых данных — умный ход, который демонстрирует универсальность методов синтеза данных. Хотя качество синтетической речи может уступать человеческой записи, такой подход значительно снижает барьер для создания специализированных TTS-моделей, особенно для языков с ограниченными данными. Это особенно ценно для сообщества open-source, где доступ к большим размеченным датасетам часто ограничен.

Практический результат

В результате применения метода был создан и опубликован синтетический речевой датасет Magpie-Speech-Orpheus-125k объемом примерно 125 тысяч образцов. Датасет доступен для исследовательских целей и может быть использован для обучения и улучшения TTS-моделей.

Этот подход открывает интересные возможности для сообщества — теперь можно генерировать специализированные речевые данные без трудоемкого процесса записи и разметки, что особенно актуально для нишевых применений или языков с ограниченными ресурсами.

Новости

Метод Magpie адаптирован для синтеза речевых данных в TTS-моделях на основе LLM

Суть метода Magpie

Применение к речевым данным

Техническая реализация

Практический результат

Еще интереснее

В Google придумали, обновлять убеждения LLM при получении новой информации

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

Оставить комментарий