Обилие книг в электронном виде, доступных для скачивания в Интернете или распространяемых на CD-дисках серии "Библиотека в кармане", подводит пользователя к необходимости поиска новых способов восприятия подобной информации. Если читать эти книги с экрана, то рано или поздно можно посадить зрение и украсить нос "унитазами для глаз" (такое название дал очкам Норбеков). Печатать тексты на принтере для последующего прочтения - довольно затратное и хлопотное дело, увеличивающее горы макулатуры. Отличной альтернативой традиционным способам прочтения текстов является их озвучивание с помощью компьютерных чтецов - и зрение не портится, и руки во время прослушивания можно занять полезным делом. А если записать синтезированную речь в аудиофайл и "кинуть" на переносной MP3-плеер, появится возможность слушать книги вдали от дома, например в поездках. Чем же можно озвучивать книги?
Для озвучивания текстов в электронном виде служат программы для синтеза речи, включающие как сами синтезаторы (голосовые движки), так и программы-оболочки, организовывающие пользовательский интерфейс для работы с этими движками. В нашей статье речь пойдет о доступных движках для синтеза речи, которые можно каким-то образом достать - скачать бесплатно в Интернете или купить за умеренную цену.
Стандарт SAPI
Чтобы компьютер мог синтезировать речь, прежде всего нужен сам синтезатор - движок для синтеза речи (Text-To-Speech (TTS) Engine). Движок - это набор программных средств, выполняющих строго определенную задачу (в нашем случае - задачу синтеза речи) и предоставляющих интерфейс для использования его возможностей. Для удобства взаимодействия различных прикладных программ с разработанными речевыми продуктами компания Microsoft предложила использовать стандарт SAPI (Speech Application Programming Interface). Большинство речевых движков поддерживают одну из версий этого стандартного программного интерфейса для платформы Windows: MS SAPI 4.x или MS SAPI 5.x. Исключение составляют крупные и преуспевающие компании (AT&T, Nuance, ScanSoft), которые стараются выдвинуть свои стандарты и не поддерживать MS SAPI.

В Windows XP SAPI 5.1 установлен по умолчанию. В Windows 2000 по умолчанию идет SAPI 4.0. Windows 98/ME не имеет установленного SAPI, поэтому его нужно устанавливать отдельно.
Русскоязычные голосовые движки
Создание хорошего речевого движка - чрезвычайно сложная, трудоемкая и затратная задача. Поэтому не многие компании берутся за разработку подобных продуктов. Если англоязычными движками в настоящее время занимаются около десятка иностранных компаний, причем весьма успешно, то русскоязычных движков в буквальном смысле - раз, два и обчелся. Разработки в области синтеза русской речи ведутся как в России, так и в странах ближнего зарубежья, но они или являются предметом научных исследований (как в минской лаборатории "Распознавания и синтеза речи"), или находят коммерческое применение - встраиваются в системы управления бытовой техникой, автоматизированные телефонные справочные службы, сотовые телефоны, системы доступа и тому подобное (петербургский Центр речевых технологий). Областью применения некоторых других речевых технологий стала разработка голосового управления различными приложениями, работающими в среде Windows (компания "ИстраСофт"). Однако услышать голос этих движков все же можно - некоторые компании могут по вашему тексту сгенерировать речь и переслать ее вам в виде аудиофайла. Такие же файлы, демонстрирующие голоса движков, можно найти на сайтах некоторых разработчиков, например AT&T, а речь движков компании ScanSoft можно даже сгенерировать в интерактивном режиме по небольшому фрагменту произвольного текста.

Синтез речи в России, по словам его разработчиков, нужен в основном крупным организациям, предоставляющим информационные услуги. Всю мотивацию (кто, как, где это использует) оставим за кадром. Один пример: компания Elan Informatique распространяет систему синтеза речи, созданную на кафедре фонетики Санкт-Петербургского Государственного Университета. Система является упрощенной моделью синтеза, созданной на кафедре для компании France Telecom, и ориентирована на частного пользователя. А вот профессиональную версию (под UNIX) вы нигде не найдете и, более того, не купите - она в принципе не продается, а передается для использования под довольно серьезное royalty, которое рассчитывается в каждом конкретном случае.
Доступные русскоязычные движки
L&H TTS3000 Russian - создан компанией Lernout & Hauspie, поддерживает MS SAPI 4.x и имеет два голоса - мужской и женский. Распространяется бесплатно корпорацией Microsoft в составе компонентов Microsoft Agent. Синтезированная движком речь заметно отличается от человеческой, но вполне понятна. Оба голосовых модуля имеют сильный американский акцент. Выговор их можно сравнить с произношением иностранных актеров, озвучивающих русский текст в фильмах. Еще одно сравнение - так говорят внуки русских эмигрантов, ни разу не бывавшие в России.

Digalo Russian Nikolai - разработан в соответствии со стандартом MS SAPI 4 и является собственностью французской компании Elan Informatique. Высокое качество синтезированной речи движка, разговаривающего довольно внятным баритоном и, главное, без иностранного акцента даже при озвучивании ненормативной лексики, может кого-то удивить: "И как это французам удалось так хорошо натренировать "Коляна"?" Однако это вполне объясняется тем, что создан голос русскими людьми на той же кафедре экспериментальной фонетики Санкт-Петербургского Государственного Университета. Информация эта мало кому известна и уж тем более не афишируется владельцами движка.

Скачать "Николая" можно свободно в Интернете, но без регистрации за 29 долларов он будет работать только 15 дней.
Есть, правда, и абсолютно бесплатный вариант получения русского движка Digalo, но он имеет сразу два недостатка: вместе с русским качать придется и другие совершенно ненужные иноязычные движки общим "весом" около 40 Мб; управлять работой бесплатного движка можно только с помощью встроенной в него интерфейсной утилиты. (В последнее время этот же недостаток появился и в полной версии синтезатора, имеющейся на сайте Digalo, вот почему лучше скачать этот движок, например, с сайта программы "Говорилка".)
Движок Клуба голосовых технологий при научном парке МГУ использует собственные библиотеки для воспроизведения голоса, поэтому не требует установки MS SAPI. Говорит на русском и английском языке (с русским акцентом) десятью голосами. Синтезированная речь звучит приемлемо, но слишком монотонно-механически. Лучшим голосом из всех персонажей обладает Диктор, слегка напоминающий Digalo Nikolai. Остальные голоса, особенно такие, как Гремлин, Эльф и Кинг-Конг, оригинальны и забавны, но вряд ли эту нечисть можно использовать для чтения серьезных текстов. Приобрести движок можно на дисках вместе с программой "Говорящая мышь".

Sakrament TTS Engine - разработан белорусской компанией "Сакрамент" на основе уникальной акустической базы с использованием собственных алгоритмов обработки звука. Представленная для обзора третья версия синтезатора полностью соответствует MS SAPI 5.1 и поддерживает синтез русской и английской речи. Услышать удалось только самый отлаженный для последней версии движка голос Ирины.

Говорит Ирина весьма приятным голосом, озвученные ею тексты воспринимаются на слух хорошо. Интересно, что дополнительно к поставляемым вместе с движком от "Сакрамента" голосам можно создать и свой собственный голосовой модуль (с помощью программы Sakrament Personal Voice Master) и затем подключить его к системе синтеза. Приобрести движок можно лишь вместе с продуктами компании, например за 32 доллара в комплекте с Sakrament TTS Engine Home Edition - многокомпонентным продуктом для персонального использования. Демоверсии подобных продуктов частным пользователям не предоставляются, исключительно корпоративным клиентам после подписания соглашения о неразглашении.
Для удобного озвучивания текстов с помощью рассмотренных выше голосовых движков нужны хорошие программы-оболочки, аналогичные упомянутой "Говорилке". Такая программная оболочка поставляется в составе Sakrament TTS Engine Home Edition, у других движков она отсутствует или является примитивной. Однако комфортная работа с речевыми движками - это отдельная тема, заслуживающая такой же отдельной статьи.