Сверточная нейросеть WaveNet сделала речь Google Assistant более естественной



На днях британская компания DeepMind (приобретенная американским гигантом Google) поделилась достижениями WaveNet, разработанной ею сверточной нейросети. Выложенные примеры звучания Google Assistant до и после обучения  с помощью WaveNet показывают явный прогресс в степени естественности звучания английской речи (помимо японской, оценивать которую я не берусь). Формальные оценки по пятибалльной школе выглядят куда скромнее:

  • Голос 1 (обучение на 65 ч записанной речи) — с 4.186 до 4.347 (3.8%)
  • Голос 2 (21 ч) — с 4.089 до 4.314 (5.5%)
  • Голос 3 (9 ч) — с 3.418 до 4.326 (26.6%)
  • Голос 4 (японский, 28 ч) — c 4.072 до 4.236 (4%).


Не считая Голоса 3, в численном выражении разница может показаться незначительной, но для сравнения голос живого человека оценивается в 4.667 — всего на 7.4% больше наилучшего из нынешних результатов (4.347).

Полученный результат особенно впечатляет с учетом того, что он был получен за год. Помимо заметного улучшения в качестве, в тысячу раз выросла скорость генерации — если изначально WaveNet за одну секунду производил 0.02 секунд речи, то теперь — 20 секунд.



Значимость качества генерирования устной речи трудно переоценить. Помимо улучшенного взаимодействия с голосовыми помощниками, такая технология позволит значительно расширить применение функции текст-голос для более комфортного прослушивания новостей и даже книг. Возможно даже голосами давно умерших людей, если сохранились записи их выступлений (вообразите новости РБК, зачитываемые дорогим Леонидом Ильичом).

С образцами звучания Google Assistant до и после обучения на WaveNet можно ознакомиться по ссылке ниже.

DeepMind