Что такое ASR: автоматическое распознавание речи

ASR (от англ. Automatic Speech Recognition) — это технология автоматического распознавания речи, которая превращает звучащую речь в текст. Когда вы диктуете сообщение голосом, получаете расшифровку звонка или текстовую версию подкаста — за этим стоит ASR. По-русски эту технологию называют распознаванием речи или транскрибацией.

Задача ASR — ответить на вопрос «что было сказано». За то, кто именно говорил, отвечает отдельная технология — диаризация; вместе они превращают запись разговора в подписанный по спикерам диалог.

Что такое ASR простыми словами

Микрофон фиксирует звук как непрерывную волну. Человек на слух легко превращает её в слова, но для компьютера это сложная задача: одни и те же слова звучат по-разному у разных людей, на разной скорости, с акцентом и фоновым шумом. ASR-система учится на больших объёмах размеченных аудиозаписей и выдаёт наиболее вероятную текстовую расшифровку того, что прозвучало.

Современные сервисы распознавания речи работают как API: вы отправляете аудиофайл или поток, а в ответ получаете текст с таймкодами, готовый для поиска, аналитики и хранения.

Как работает распознавание речи

Исторически ASR строили из нескольких отдельных блоков, и понимание их помогает разобраться в технологии:

Предобработка звука. Сигнал очищается и превращается в набор акустических признаков (например, спектрограмму или MFCC).
Акустическая модель. Сопоставляет участки звука с фонемами — элементарными звуками языка.
Языковая модель. Оценивает, какие последовательности слов вероятны в данном языке, и помогает выбрать между похоже звучащими вариантами («поток» или «по току»).
Декодер. Объединяет подсказки акустической и языковой моделей и выдаёт финальный текст.

Современные end-to-end нейросети (на основе трансформеров) часто объединяют эти шаги в одну модель, которая напрямую переводит звук в текст. Это упрощает систему и заметно повышает точность, особенно на сложной речи.

Потоковое и пакетное распознавание

ASR работает в двух основных режимах:

Пакетное (офлайн) распознавание. Загружается готовый файл целиком — запись совещания, интервью, звонка. Подходит для расшифровки архивов и аналитики, где важна максимальная точность.
Потоковое (онлайн, streaming) распознавание. Текст появляется в реальном времени по мере того, как человек говорит. Нужно для голосовых ассистентов, субтитров в прямом эфире и live-расшифровки звонков.

Что такое WER и как оценивают точность

Главная метрика качества распознавания речи — WER (Word Error Rate), доля слов, распознанных с ошибкой. Она считает три типа ошибок: замены, вставки и пропуски слов. Чем ниже WER, тем точнее система: WER 10% означает, что в среднем ошибочно каждое десятое слово.

Важная оговорка: WER зависит от данных, на которых измеряется. Сравнивать системы корректно только на одном и том же наборе записей. По независимому бенчмарку точности распознавания русской речи (опубликованному на Habr) Nexara показывает один из лучших результатов для русского языка — WER около 39% на сложном «диком» датасете, где большинство систем заметно слабее.

Что влияет на точность для русского языка

Акценты и дикция — речь с сильным акцентом или нечёткой артикуляцией распознаётся хуже.
Фоновый шум — улица, опенспейс, музыка.
Телефонное сжатие — узкая полоса частот в звонках уменьшает информацию о звуке.
Доменная лексика — имена, термины, бренды, аббревиатуры, которых не было в обучающих данных.
Перекрывающаяся речь — когда говорят одновременно несколько человек.

Поэтому ASR для русского языка стоит тестировать на записях, максимально близких к вашим реальным сценариям, а не на «чистой» студийной речи.

ASR и диаризация

Распознавание речи и диаризация — взаимодополняющие технологии. ASR даёт слова, диаризация — границы говорящих. В связке они превращают сырую запись в структурированный диалог:

[00:00–00:06] Спикер 1: Какой у нас бюджет на квартал?
[00:06–00:12] Спикер 2: Двести тысяч, плюс резерв десять процентов.

Именно так работают протоколы встреч и речевая аналитика колл-центров.

Распознавание речи в Nexara

Nexara — это API распознавания речи, заточенное под русский язык: пакетная и потоковая обработка, диаризация по спикерам и тарификация по факту использования. На старте доступно 200 бесплатных минут, а актуальные ставки есть на странице цен.

Хотите попробовать на своих записях? Посмотрите, как устроено распознавание речи в Nexara, и сравните точность на собственных данных.