Google делает DeepMind AI-Powered облачным сервисом Text-to-Speech доступным для разработчиков

0
265


Компания Google, в среду, запустила синтезатор голоса под названием «Cloud Text-to-Speech», который работает от британского подразделения Infinity Intelligence (AI) DeepMind.

Теперь, услуга доступна для разработчиков, чтобы добавить ее в свои приложения.

Текстово-речевое обслуживание — это форма синтеза речи, которая преобразовывает текст в голос. Текст в речь Google преобразовывает в таких сервисах, как Google Assistant, Поиск и Карты.

«Cloud Text-to-Speech» позволяет разработчикам выбирать 32 разных голоса из 12 языков и вариантов» — сказал Дэн Аарон, менеджер по продуктам Cloud AI, в блоге.

«Cloud Text-to-Speech» правильно произносит сложный текст, такой как имена, даты, время и адреса для аутентичной речи, как заявила компания.

Он, также позволяет разработчикам настраивать подачу тона, скорость голоса и громкость, а также поддерживает различные аудиоформаты, включая MP3 и WAV.

Согласно Google, «Cloud Text-to-Speech» может использоваться различными способами, в том числе для управления системами голосового ответа, для центров обработки вызовов (IVR) и обеспечения возможности разговоров естественного языка в реальном времени, чтобы включить Internet of Things (IoT) устройства для разговора и преобразования текстовых носителей в устный формат.

Google сказал, что «Cloud Text-to-Speech» включает в себя набор высокоточных голосов, созданных с использованием WaveNet — нейронной сети, обученной с большим объемом речевых сэмплов, который способен создавать необработанные звуковые сигналы с нуля.

Компания DeepMind представила первую версию WaveNet, в конце 2016 года.

WaveNet синтезирует более естественно звучащую речь и, в среднем, производит речевой звук, который люди предпочитают другим технологиям преобразования текста в речь.

Во время обучения, сеть извлекает структуру речи, включая тоны и какую форму должна иметь реалистичная форма речи.

При заданном вводе текста, обучаемая модель WaveNet генерирует соответствующие речевые сигналы, по одному образцу за раз, достигая более высокой точности, чем альтернативные подходы.

Сегодняшняя, улучшенная модель WaveNet генерирует необработанные сигналы в 1000 раз быстрее, чем исходная модель и может генерировать одну секунду речи всего за 50 миллисекунд.

Модель, также имеет более высокую точность и способна создавать волны с 24 000 выборок в секунду.

«Мы, также увеличили разрешение каждого образца с 8 бит до 16 бит, создавая звук более высокого качества для более человеческого звучания» — добавил Аарон.

Благодаря этим настройкам, последняя модель WaveNet производит более естественную звуковую речь, и люди присвоили новому (американскому) английскому WaveNet голосу средний балл (MOS) 4.1 по шкале от одного до пяти.

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here