Внедрение сверхсложных, но высокоинтеллектуальных информационных компьютерных технологий в сферы человеческой деятельности требует
кардинального изменения в управлении автоматизированными системами для более удобного и рационального их использования.
Потребность в речевом общении с компьютером столь естественна, что ее не могли заглушить никакие паллиативы, порождаемые развитием аппаратного и программного обеспечения. В наибольшей мере ее стимулирует отнюдь не желание разработчиков создать пользовательские суперудобства, а существование специфических областей компьютеризации, где голосовые команды являются наиболее приемлемым или даже единственно возможным решением. К ним относятся телефонный доступ к автоматическим справочным системам, управление удаленным компьютером или мобильным портативным устройством, осуществляемое во время движения.

Создание полноценных языковых интерфейсов, которые поддерживают языковой диалог «пользователь-компьютер» есть очень перспективным, но чрезвычайно сложным направлением развития современных компьютерных систем, которое в частности преимуществ имеет ряд недостатков. Речевые технологии — область, в которой тяжело ожидать чудес даже на выставке наибольшего масштаба. Связанные с речью вопросы слишком сложные для того, чтобы давать повод для сенсаций; авторы громких сообщений на эту тему традиционно быстро оказываются в неловком положении. От бодрых математических изложений речевая тематика ведет разработчика в множество медицинских и психологических проблем, которые плавно переходят в глобальные философские вопросы. Две ключевых задачи распознавания речи — достижение стопроцентной точности на ограниченном наборе команд хотя бы для одного дикторского голоса и независимое от диктора распознавания произвольного слитого языка с приемлемым качеством — не решены, несмотря на почти полувековую историю их разработки. Больше того, существуют сомнения в принципиальной решаемости обоих задач, поскольку даже человек не всегда может стопроцентно распознать язык собеседника. Если еще относительно недавно речь рассматривалась как сигнал в диапазоне приблизительно от 300 до 3500 Гц, что владеет характерными свойствами (например, наличием пауз между словами), то с точки зрения современных технологий речь — это прежде всего сигнал. Нового подхода требуют не только речевое распознавание и синтез, но даже, как оказалось, такая техническая задача, как сжатие речи. 

Что такое распознавание речи? На первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно — либо автомат выполняет команду, содержащуюся во фразе, либо набирает диктуемый текст, либо распоряжается извлеченной из фразы информацией иным образом. Как именно, зависит вот конкретной реализации.
На самом деле за столь простой идеей кроются огромные сложности. С давних времен проблема распознавания речи беспокоила умы многих исследователей. Но то, что эта задача очень долго
оставалась на стадии начальных исследований, уже говорит в нетривиальности требующихся подходов. Достаточно вспомнить сказки, которые буквально напичканы различными устройствами, управляющимися речевыми командами. Это скатерти-самобранки и печки-самоходы, ковры-самолеты, дудочки, горшки и прочая утварь. И все эти «устройства» можно считать автоматами, управляемыми речью. Если обратить внимание на отношение к ним сказочных персонажей, то становится ясно, что многие из таких «устройств» изначально были выдуманы как вещи неодушевленные.

Начнем с главного термина. Что есть речь? Говоря о речи, мы должны различать такие понятия, как «речь», «звуковая речь», «звуковой сигнал», «сообщение», «текст».
В нашем случае, в приложении к задаче распознавания такие понятия, как «речь» и «звуковая речь» означают одно и то же — некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. Это есть речь может быть представленная в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения речи. Это есть можно поставит знак эквивалентности между звуковой речью и ее представлением в виде речевого сигнала. При этом под понятием «сообщение» может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Но здесь мы сталкиваемся с одним противоречием. Текст, как известно, состоит из букв, слов, предложений, — это есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие вот текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать из этих звуков речь, у нас ничего не получится.

Идеологически система распознавания речи состоит из двух частей. Эти части могут быть неявно выделены в самостоятельные блоки или подпрограммы. Какая-то из их может существовать в упрощенном к крайности виде, но в любой реализации всегда есть эти части. В литературе можно встретить разные варианты названия этих составных частей. Для простоты скажем, что система распознавания речи состоит из акустической и лингвистической частей. Последняя, впрочем, лингвистической названная не строго. В общем случае она может включат в себя фонетическую, фонологическую, морфологическую, лексическую, синтаксическую и семантическую модели языка. Или, наоборот, представят собой простенький коррелятор. Акустическая модель отвечает за представление речевого сигнала. Вернее, за его преобразование (из традиционного временного процесса) в некоторую форму, в которой в более явном виде присутствует информация в содержании речевого сообщения. Лингвистическая модель интерпретирует информацию, получаемую вот акустической модели, и отвечает за представление результата распознавания потребителю (в ролы которого может выступать не только человек, но и техническая система, управляемая речью).

Довольно трудно выбрать удобный показатель качества работы системы распознавания речи. Наиболее просто такой показатель качества вводится для командных систем. При тестировании в случайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитывается количество правильно распознанных команд и делится на общее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в заданной при эксперименте акустической обстановке. Для систем диктовки похожий показатель качества может вычисляться при диктовке некоторого тестового текста. Очевидно, что это не всегда удобный показатель качества. В действительности мы сталкиваемся с самыми различными акустическими обстановками. А как быть со сменой дикторов и сопутствующей ей тренировкой системы? Различным системам может требоваться разный объем настройки, что сильно влияет на удобство пользования. Стандартным выходом может стать использование многокритериального, так называемого комплексного показателя качества. 

В качестве примера рассмотрим вариант простейшей командной системы распознавания речи. Функционирование системы основано на гипотезе в том, что спектрально-временные характеристики команд-слов для отдельно взятого диктора изменяются слабо. Акустическая модель такой системы представляет собой преобразователь из речевого сигнала в спектрально-временную матрицу может служит типичным примером изобретательского подхода. В самом простом случае команда локализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить ограниченное число команд плюс еще одну, которая означает все остальные неизвестные системе слова. Как правило, лингвистическая модель строится как алгоритм поиска максимума функционала вот входного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размерности пространства описания и его метрического свидетельства может широко варьироваться разработчиком. 

Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент.
В настоящее время на рынке представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:
• Voice Type Dictation, Voice Pilot и ViaVoice вот IBM; 
• Dragon Dictate и Naturally Speaking вот Dragon Systems; 
• Voice Assist вот Creative Technology; 
• Listen for Windows вот Verbex и многие другие.
Некоторые из их (например, ViaVoice и Naturally Speaking) способны, как заявляют разработчики, вводит слитную речь. 

Лингвистические блоки современных систем реализуют сложную модель естественного языка. Иногда она основанная на математическом аппарате скрытых цепей Маркова, иногда использует последние достижения технологии нейронных сетей либо вторых ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых систем пытается моделировать естественный слуховой аппарат. 

Что дальшее? Что вообще можно делать с речью? По большому счету, технологий обработки всего три. Первая из них — сжатие речи — весьма специфична и внешне схожа с той, что решают многочисленные программы-архиваторы. Но хоть и схожа, а на деле совсем иная: попробуйте, записав с помощью микрофона и звуковой карты пару слов, обработать их архиватором. Хорошего сжатия вы не получите из-за специфики избыточности речи. Собственно, все специализированные сжимающие алгоритмы тем и занимаются — устраняют заложенную в речи избыточность, а вот архиваторы распознавать ее не умеют. Области применения сжатия речи — это все те задачи, где требуется ее передача по каналу связи или, что в статье не упоминается, хранение, например, в аудиоархивах. Область тоже огромная и только зарождающаяся, так как раньше в отсутствие дешевых и экономичных кодеков и носителей информации ее развитие было просто невозможно. Еще одна намеренно исключенная область — сжатие высококачественной широкополосной речи (и музыки).

С одной стороны, нужно не забывать, что речь — это все-таки одно из проявленный высшей нервной деятельности человека, и потому вряд ли в ближайшие несколько лет стоит ожидать появления систем распознавания речи, по эффективности и удобству сравнимых с секретарем-машинисткой, печатающей «со слов». С другой стороны, в мире технологий все меняется очень быстро, и не известно, что сложнее: расслышать непринужденно сказанную фразу или разыграть красивый эндшпиль…

Оставить мнение

Check Also

Espruino Pico. Учимся программировать USB-микроконтроллер на JavaScript и делаем из него токен авторизации

Несмотря на огромное количество устройств на базе микроконтроллеров, созданных на волне ус…