Оглавление

Исследователи продолжают находить неожиданные применения методов, изначально разработанных для языковых моделей. Очередной пример — адаптация техники синтеза данных Magpie для создания речевых датасетов, что открывает новые возможности для обучения TTS-систем.

Суть метода Magpie

Magpie — это метод синтеза пар «инструкция-ответ» для тонкой настройки LLM, который работает полностью с нуля, без исходных данных. Техника состоит из двух ключевых шагов:

  1. Синтез инструкции — модель генерирует текст инструкции, продолжая шаблон чата до момента, где должна появиться пользовательская реплика
  2. Синтез ответа — та же модель создает ответ на только что сгенерированную инструкцию
Схема процесса синтеза инструкция-ответ по методу Magpie для TTS-моделей
Источник: huggingface.co

Как отмечает Hugging Face, поскольку инструкции Magpie создаются продолжением собственного шаблона чата модели, они остаются близкими к распределению обучающих данных модели, что обеспечивает более качественные ответы.

Применение к речевым данным

Авторегрессивные TTS-модели на основе LLM, такие как Llasa и Orpheus-TTS, работают по схожему с текстовыми LLM принципу: они предсказывают аудиотокены на основе текстовых токенов. Это сходство позволило применить Magpie для синтеза речевых данных.

Вместо текстовых инструкций и ответов метод теперь генерирует:

  • Текст (входные данные)
  • Аудиотокены (выходные данные)

Для Orpheus-TTS, который обучается без маскирования потерь на текстовом входе, метод оказался особенно эффективным.

Техническая реализация

Процесс синтеза включает строгую фильтрацию сгенерированных текстов через ряд проверок:

  • Проверка длины символов и слов
  • Обнаружение контрольных символов и специальных токенов
  • Выявление повторяющихся символов и слов
  • N-gram анализ для определения уникальности
  • Проверка завершенности предложений

Используемый код на Python демонстрирует практическую реализацию с vLLM для эффективной генерации:

import re
from collections import Counter

import torch
from datasets import Dataset
from tqdm import tqdm
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

# ... код генерации и фильтрации текста

Адаптация Magpie для речевых данных — умный ход, который демонстрирует универсальность методов синтеза данных. Хотя качество синтетической речи может уступать человеческой записи, такой подход значительно снижает барьер для создания специализированных TTS-моделей, особенно для языков с ограниченными данными. Это особенно ценно для сообщества open-source, где доступ к большим размеченным датасетам часто ограничен.

Практический результат

В результате применения метода был создан и опубликован синтетический речевой датасет Magpie-Speech-Orpheus-125k объемом примерно 125 тысяч образцов. Датасет доступен для исследовательских целей и может быть использован для обучения и улучшения TTS-моделей.

Этот подход открывает интересные возможности для сообщества — теперь можно генерировать специализированные речевые данные без трудоемкого процесса записи и разметки, что особенно актуально для нишевых применений или языков с ограниченными ресурсами.