ПОИСК
ВЫБЕРИТЕ НОМЕР
         
Показать все
статьи из этой
рубрики
Показать все
статьи этого
автора
Показать все
статьи по этой теме
НАШИ ИЗДАНИЯ
Connect! Мир Связи
Каталог-справочник
НАШИ ПРОЕКТЫ
Наши авторы о важном
СОТРУДНИЧЕСТВО
Выставки и конференции
Connect Conferences
РЕКЛАМА



Яндекс Цитирования





Rambler's Top100 Rambler's Top100


Бизнес-практикум
Надежность систем распознавания речи – актуальная задача или мода   Валентин Смирнов

Введение
Задача технологии автоматического распознавания речи – предоставить пользователю естественный интерфейс взаимодействия с компьютером или механическим устройством. Первыми о такой возможности задумались писатели-фантасты, которые наделили роботов будущего способностью понимать людей. Начиная с середины прошлого столетия ученые приложили немало усилий для того, чтобы это будущее стало реальностью. И пусть машины по-прежнему не наделены полноценным искусственным интеллектом, технология распознавания речи уже сегодня способна решать повседневные задачи не менее эффективно, чем человек.

Технология распознавания речи: составные элементы и методы
Процесс разработки технологии распознавания речи ученые начали с освоения методики выделения информативных признаков, описывающих речевой сигнал (спектральный анализ Фурье, метод линейного предсказания). Затем приступили к решению задачи распознавания фиксированного набора голосовых команд путем попарного сравнения входящего звукового сигнала с базой данных эталонов, хранящихся в памяти компьютера. (Кстати, именно такая технология сейчас применяется в большом количестве «бюджетных» мобильных телефонов: вы заранее записываете в память телефона команды, а затем, повторяя их, можете вызвать ту или иную функцию.) В силу своей простоты описанный метод хорошо подходил только для распознавания команд, произнесенных голосами ученых, ее создававших, т. е. был дикторозависимым. К тому же большое количество сравнений существенно повышало ресурсоемкость данного подхода.
Решение проблемы зависимости от диктора, конечно, было найдено. На первый план вышли статистические алгоритмы, основанные на обработке большого количества звуковых данных – записей голосов десятков и сотен дикторов.
Ученые предложили несколько подходов, среди которых широкое распространение получили нейронные сети и скрытые марковские модели. Нейронные сети обладают большой статистической силой, поскольку позволяют автоматически настроить систему для эффективного различения набора распознаваемых слов, однако цепочки слов, а также слова, произносимые с разным темпом, нейронные сети идентифицируют плохо. Скрытые марковские модели, напротив, успешно моделируют последовательность из нескольких слов и практически не зависят от темпа произнесения. Другой плюс марковских моделей – высокое быстродействие. Кроме того, они позволили ученым подойти к решению более сложной задачи – распознавание произвольной слитной речи. Из науки о языке известно, что наша речь строится из ограниченного набора минимальных звуковых составляющих – фонем (фонов, трифонов), а значит, каждое слово можно представить в виде последовательности из нескольких фонем. Таким образом, не нужно хранить записи каждого слова – достаточно создать значительный корпус записей речи немалого количества дикторов, который бы позволил получить статистически достоверное описание всех звуков, встречающихся в речи. В 1980-х – 1990-х гг. были накоплены огромные речевые корпусы, однако в основном для английского языка.
На сегодняшний день большинство коммерческих систем распознавания речи опираются именно на описанную выше технологию. Есть также удачные примеры объединения марковских моделей с нейронными сетями.
Было бы весьма опрометчиво утверждать, что статистическая модель – единственно необходимый компонент системы распознавания речи. Структура системы распознавания подразумевает наличие многих других важных составляющих, в частности, грамматики или языковой модели, определяющей допустимые последовательности слов и их вероятность. Неотъемлемая часть любой системы распознавания – это словарь, в котором содержатся транскрипции распознаваемых слов.
С другой стороны, необходимы процедуры, которые бы помогали распознавать речь в сложных условиях (помехи в канале связи, внешние шумы, невысокое качество телефонного аппарата).
Создание технологии распознавания речи – достаточно кропотливая работа, включающая в себя, с одной стороны, детальный анализ звуковых явлений конкретного языка, создание словарей и языковых моделей, с другой – глубокое знание математических алгоритмов анализа и обработки звуковых сигналов, а также построения статистической модели на базе обширных речевых корпусов.

Продолжение читайте в печатной версии журнала




Заказать полную PDF-версию свежего номера Connect!



Показать все статьи по теме УПАТС

Поставьте свою оценку:
   1   2   3   4   5   

< Предыдущая статья

  
Следующая статья >

НАШИ ПРОЕКТЫ
ПРОСМОТР ПО ТЕМАМ
IP-телефония
Беспроводная связь
Бизнес-аналитика
Биллинг и OSS/BSS решения
Видеоконференцсвязь
Измерительная техника
Инфокоммунникации регионов
Информационная безопасность
ИТ-услуги
КИС (Корпоративные информационные системы)
Контакт-центры
КСПД (Корпоративные сети передачи данных)
Мобильная связь
Облачные технологии
Профессиональная радиосвязь
Серверные решения
Системы бесперебойного питания
Системы хранения данных
Ситуационные центры
Спутниковая связь
УПАТС
Фиксированная связь
Цифровое телевидение
TOP 20 СТАТЕЙ
Роль государства в обеспечении информационной безопасности
Консолидация телекоммуникационных ресурсов отраслей топливно-энергетического комплекса
Реквием по SoftSwitch
Трехсайтовая архитектура – реальная защита от катастроф
В Тулу за кальяноваром, или Что такое адаптивный call-центр
Ненадежность IP-телефонии: мифы и реальность
Четвертым будешь?
Путеводитель по рынку OSS-решений
В жизни все бывает, поэтому сделайте резервную копию…
Оптимизация энергопотребления в современном ЦОД
VSATизация России – промежуточные итоги
Современные программные телефоны
Аккумуляторные батареи для современных ИБП
Особенности информатизации телекоммуникационных компаний в России
Отечественные производители телекоммуникационного оборудования
Проблемы нормативно-правового, организационно-технического и программного обеспечения защиты информационных систем
Смена поколений в стандартизации СКС
Проблемы и перспективы формирования мобильной медиасреды в России
Принципы организации сетевой инфраструктуры ООО «ЛУКОЙЛ-ИНФОРМ»
Модульные отказоустойчивые системы бесперебойного питания: за и против
Все ТОПовые статьи >>