На главную страницу ЗАО Софткей
 Главная   Новости   Статьи   Пресс-релизы   Рассылки 
 
Movavi

Русскоязычный синтез речи

24.01.2005 / Программы / Наталья Сергеева

Обилие книг в электронном виде, доступных для скачивания в Интернете или распространяемых на CD-дисках серии "Библиотека в кармане", подводит пользователя к необходимости поиска новых способов восприятия подобной информации. Если читать эти книги с экрана, то рано или поздно можно посадить зрение и украсить нос "унитазами для глаз" (такое название дал очкам Норбеков). Печатать тексты на принтере для последующего прочтения - довольно затратное и хлопотное дело, увеличивающее горы макулатуры. Отличной альтернативой традиционным способам прочтения текстов является их озвучивание с помощью компьютерных чтецов - и зрение не портится, и руки во время прослушивания можно занять полезным делом. А если записать синтезированную речь в аудиофайл и "кинуть" на переносной MP3-плеер, появится возможность слушать книги вдали от дома, например в поездках. Чем же можно озвучивать книги?

Для озвучивания текстов в электронном виде служат программы для синтеза речи, включающие как сами синтезаторы (голосовые движки), так и программы-оболочки, организовывающие пользовательский интерфейс для работы с этими движками. В нашей статье речь пойдет о доступных движках для синтеза речи, которые можно каким-то образом достать - скачать бесплатно в Интернете или купить за умеренную цену.

Стандарт SAPI

Чтобы компьютер мог синтезировать речь, прежде всего нужен сам синтезатор - движок для синтеза речи (Text-To-Speech (TTS) Engine). Движок - это набор программных средств, выполняющих строго определенную задачу (в нашем случае - задачу синтеза речи) и предоставляющих интерфейс для использования его возможностей. Для удобства взаимодействия различных прикладных программ с разработанными речевыми продуктами компания Microsoft предложила использовать стандарт SAPI (Speech Application Programming Interface). Большинство речевых движков поддерживают одну из версий этого стандартного программного интерфейса для платформы Windows: MS SAPI 4.x или MS SAPI 5.x. Исключение составляют крупные и преуспевающие компании (AT&T, Nuance, ScanSoft), которые стараются выдвинуть свои стандарты и не поддерживать MS SAPI.

Панель управления SAPI 4

В Windows XP SAPI 5.1 установлен по умолчанию. В Windows 2000 по умолчанию идет SAPI 4.0. Windows 98/ME не имеет установленного SAPI, поэтому его нужно устанавливать отдельно.

Русскоязычные голосовые движки

Интерактивный синтез на сайте ScanSoftСоздание хорошего речевого движка - чрезвычайно сложная, трудоемкая и затратная задача. Поэтому не многие компании берутся за разработку подобных продуктов. Если англоязычными движками в настоящее время занимаются около десятка иностранных компаний, причем весьма успешно, то русскоязычных движков в буквальном смысле - раз, два и обчелся. Разработки в области синтеза русской речи ведутся как в России, так и в странах ближнего зарубежья, но они или являются предметом научных исследований (как в минской лаборатории "Распознавания и синтеза речи"), или находят коммерческое применение - встраиваются в системы управления бытовой техникой, автоматизированные телефонные справочные службы, сотовые телефоны, системы доступа и тому подобное (петербургский Центр речевых технологий). Областью применения некоторых других речевых технологий стала разработка голосового управления различными приложениями, работающими в среде Windows (компания "ИстраСофт"). Однако услышать голос этих движков все же можно - некоторые компании могут по вашему тексту сгенерировать речь и переслать ее вам в виде аудиофайла. Такие же файлы, демонстрирующие голоса движков, можно найти на сайтах некоторых разработчиков, например AT&T, а речь движков компании ScanSoft можно даже сгенерировать в интерактивном режиме по небольшому фрагменту произвольного текста.

Пример синтезированной фразы

Синтез речи в России, по словам его разработчиков, нужен в основном крупным организациям, предоставляющим информационные услуги. Всю мотивацию (кто, как, где это использует) оставим за кадром. Один пример: компания Elan Informatique распространяет систему синтеза речи, созданную на кафедре фонетики Санкт-Петербургского Государственного Университета. Система является упрощенной моделью синтеза, созданной на кафедре для компании France Telecom, и ориентирована на частного пользователя. А вот профессиональную версию (под UNIX) вы нигде не найдете и, более того, не купите - она в принципе не продается, а передается для использования под довольно серьезное royalty, которое рассчитывается в каждом конкретном случае.

Доступные русскоязычные движки

L&H TTS3000 Russian - создан компанией Lernout & Hauspie, поддерживает MS SAPI 4.x и имеет два голоса - мужской и женский. Распространяется бесплатно корпорацией Microsoft в составе компонентов Microsoft Agent. Синтезированная движком речь заметно отличается от человеческой, но вполне понятна. Оба голосовых модуля имеют сильный американский акцент. Выговор их можно сравнить с произношением иностранных актеров, озвучивающих русский текст в фильмах. Еще одно сравнение - так говорят внуки русских эмигрантов, ни разу не бывавшие в России.

Установка параметров движка L&H TTS3000 Russian

Digalo Russian Nikolai - разработан в соответствии со стандартом MS SAPI 4 и является собственностью французской компании Elan Informatique. Высокое качество синтезированной речи движка, разговаривающего довольно внятным баритоном и, главное, без иностранного акцента даже при озвучивании ненормативной лексики, может кого-то удивить: "И как это французам удалось так хорошо натренировать "Коляна"?" Однако это вполне объясняется тем, что создан голос русскими людьми на той же кафедре экспериментальной фонетики Санкт-Петербургского Государственного Университета. Информация эта мало кому известна и уж тем более не афишируется владельцами движка.

DigIt Clipboard Reader

Скачать "Николая" можно свободно в Интернете, но без регистрации за 29 долларов он будет работать только 15 дней. Есть, правда, и абсолютно бесплатный вариант получения русского движка Digalo, но он имеет сразу два недостатка: вместе с русским качать придется и другие совершенно ненужные иноязычные движки общим "весом" около 40 Мб; управлять работой бесплатного движка можно только с помощью встроенной в него интерфейсной утилиты. (В последнее время этот же недостаток появился и в полной версии синтезатора, имеющейся на сайте Digalo, вот почему лучше скачать этот движок, например, с сайта программы "Говорилка".)

Движок Клуба голосовых технологий при научном парке МГУ использует собственные библиотеки для воспроизведения голоса, поэтому не требует установки MS SAPI. Говорит на русском и английском языке (с русским акцентом) десятью голосами. Синтезированная речь звучит приемлемо, но слишком монотонно-механически. Лучшим голосом из всех персонажей обладает Диктор, слегка напоминающий Digalo Nikolai. Остальные голоса, особенно такие, как Гремлин, Эльф и Кинг-Конг, оригинальны и забавны, но вряд ли эту нечисть можно использовать для чтения серьезных текстов. Приобрести движок можно на дисках вместе с программой "Говорящая мышь".

Мышь поет голосом Гремлина

Sakrament TTS Engine - разработан белорусской компанией "Сакрамент" на основе уникальной акустической базы с использованием собственных алгоритмов обработки звука. Представленная для обзора третья версия синтезатора полностью соответствует MS SAPI 5.1 и поддерживает синтез русской и английской речи. Услышать удалось только самый отлаженный для последней версии движка голос Ирины.

Настройки движка Sakrament TTS Engine

Говорит Ирина весьма приятным голосом, озвученные ею тексты воспринимаются на слух хорошо. Интересно, что дополнительно к поставляемым вместе с движком от "Сакрамента" голосам можно создать и свой собственный голосовой модуль (с помощью программы Sakrament Personal Voice Master) и затем подключить его к системе синтеза. Приобрести движок можно лишь вместе с продуктами компании, например за 32 доллара в комплекте с Sakrament TTS Engine Home Edition - многокомпонентным продуктом для персонального использования. Демоверсии подобных продуктов частным пользователям не предоставляются, исключительно корпоративным клиентам после подписания соглашения о неразглашении.

Для удобного озвучивания текстов с помощью рассмотренных выше голосовых движков нужны хорошие программы-оболочки, аналогичные упомянутой "Говорилке". Такая программная оболочка поставляется в составе Sakrament TTS Engine Home Edition, у других движков она отсутствует или является примитивной. Однако комфортная работа с речевыми движками - это отдельная тема, заслуживающая такой же отдельной статьи.


Ссылки по теме:

Автор статьи: Наталья Сергеева


Рубрики статей
Все статьи
Аналитика
Программы
Игры
Интернет
Авторские права
Интервью
События в мире ПО
Рассылки
Новости мира ПО
Статьи: Мир ПО
Статьи: Программы
Статьи: Игры
Архив выпусков
  «   Январь 2017   »  
Пн Вт Ср Чт Пт Сб Вс
      1
2345678
9101112131415
16171819202122
23242526272829
3031     
Поиск в архиве

Логин / пароль:
запомнить




Наши партнеры:

 САПР и графика



Написать редактору  | RSSЭкспорт новостей и обзоров


Rambler's
Top100 Rambler's Top100

Разработка компании «Битрикс»
Разработано
«Битрикс»


Copyright © 2001-2017 ЗАО «Софткей»