Ученые ТУСУРа изучают шепот для усовершенствования алгоритмов распознавания речи

Опубликовано 08.02.2018 г.

Научные сотрудники ТУСУРа исследуют малоизученную шепотную речь человека для создания алгоритмов по распознаванию речи человека с высокой точностью.


На кафедре комплексной информационной безопасности электронно-вычислительных систем (КИБЭВС) с помощью созданного здесь уникального математического аппарата проводятся исследования по распознаванию речи человека на уровне параметров речевого сигнала. Их результатом может стать создание новых алгоритмов, принципиально отличающихся от существующих, для корректного и более точного распознавания речи человека.

Исследование томичей направлено на решение из главных задач разработчиков во всем мире – добиться полностью автоматического перевода устного текста любого объема в письменный с высокой точностью, без искажений.

«Пока эта цель не достигнута, в том числе из-за подхода, который чаще всего используется в уже работающих человеко-машинных интерфейсах: голосовом поиске, чат-ботах, где распознаваемый максимум – это отдельные словосочетания, например, поисковые запросы или голосовой набор смс-сообщений», - рассказывает сотрудник КИБЭВС Антон Конев.

Основой распространенных алгоритмов является обучение на большом количестве примеров произнесенных звуков, слов, словосочетаний. При распознавании система вероятностным способом определяет, к какому из заложенных примеров ближе произнесенное. Определение параметров звуков с высокой точностью, свойственной слуховой системе человека, при создании не прорабатывается.

«Поэтому, как только человек начинает произносить не самые часто употребляемые слова, аббревиатуры, редкие имена, сокращения, распознавание ухудшается и существующие системы ошибаются очень часто, - подчеркивает Конев. – Кроме того, такие системы не учитывают вариативность окончаний и других особенностей спонтанной устной речи, а не отдельных коротких словосочетаний – особенна высока вариативность в русском языке, где «съедается» большой процент звуков, если мы говорим в привычном быстром темпе».

Своей задачей ученые кафедры КИБЭВС ТУСУР называют определение более точных параметров звуков, в том числе, с помощью изучения шепотной речи.

«Есть классический термин – форманта – максимум звука в спектре, параметры которой нам необходимы, но в звучной речи на формантную структуру накладываются колебания и искажают картину форманты. Именно поэтому мы исследуем шепотную речь, которая отделена от голосового источника и лишена этих искажений.

Исследования показали, что распознавание ударных звуков шепотной речи на основе общепринятых параметров возможно с надежностью не менее 70 %.

Точное распознавание речи, которое станет доступно в результате исследований, будет полезно для создания усовершенствованных инструментов в сфере искусственного интеллекта, человеко-машинных интерфейсов.