ASR (от англ. Automatic Speech Recognition) — это технология автоматического распознавания речи, которая превращает звучащую речь в текст. Когда вы диктуете сообщение голосом, получаете расшифровку звонка или текстовую версию подкаста — за этим стоит ASR. По-русски эту технологию называют распознаванием речи или транскрибацией.
Задача ASR — ответить на вопрос «что было сказано». За то, кто именно говорил, отвечает отдельная технология — диаризация; вместе они превращают запись разговора в подписанный по спикерам диалог.
Что такое ASR простыми словами
Микрофон фиксирует звук как непрерывную волну. Человек на слух легко превращает её в слова, но для компьютера это сложная задача: одни и те же слова звучат по-разному у разных людей, на разной скорости, с акцентом и фоновым шумом. ASR-система учится на больших объёмах размеченных аудиозаписей и выдаёт наиболее вероятную текстовую расшифровку того, что прозвучало.
Современные сервисы распознавания речи работают как API: вы отправляете аудиофайл или поток, а в ответ получаете текст с таймкодами, готовый для поиска, аналитики и хранения.
Как работает распознавание речи
Исторически ASR строили из нескольких отдельных блоков, и понимание их помогает разобраться в технологии:
- Предобработка звука. Сигнал очищается и превращается в набор акустических признаков (например, спектрограмму или MFCC).
- Акустическая модель. Сопоставляет участки звука с фонемами — элементарными звуками языка.
- Языковая модель. Оценивает, какие последовательности слов вероятны в данном языке, и помогает выбрать между похоже звучащими вариантами («поток» или «по току»).
- Декодер. Объединяет подсказки акустической и языковой моделей и выдаёт финальный текст.
Современные end-to-end нейросети (на основе трансформеров) часто объединяют эти шаги в одну модель, которая напрямую переводит звук в текст. Это упрощает систему и заметно повышает точность, особенно на сложной речи.
Потоковое и пакетное распознавание
ASR работает в двух основных режимах:
- Пакетное (офлайн) распознавание. Загружается готовый файл целиком — запись совещания, интервью, звонка. Подходит для расшифровки архивов и аналитики, где важна максимальная точность.
- Потоковое (онлайн, streaming) распознавание. Текст появляется в реальном времени по мере того, как человек говорит. Нужно для голосовых ассистентов, субтитров в прямом эфире и live-расшифровки звонков.
Что такое WER и как оценивают точность
Главная метрика качества распознавания речи — WER (Word Error Rate), доля слов, распознанных с ошибкой. Она считает три типа ошибок: замены, вставки и пропуски слов. Чем ниже WER, тем точнее система: WER 10% означает, что в среднем ошибочно каждое десятое слово.
Важная оговорка: WER зависит от данных, на которых измеряется. Сравнивать системы корректно только на одном и том же наборе записей. По независимому бенчмарку точности распознавания русской речи (опубликованному на Habr) Nexara показывает один из лучших результатов для русского языка — WER около 39% на сложном «диком» датасете, где большинство систем заметно слабее.
Что влияет на точность для русского языка
- Акценты и дикция — речь с сильным акцентом или нечёткой артикуляцией распознаётся хуже.
- Фоновый шум — улица, опенспейс, музыка.
- Телефонное сжатие — узкая полоса частот в звонках уменьшает информацию о звуке.
- Доменная лексика — имена, термины, бренды, аббревиатуры, которых не было в обучающих данных.
- Перекрывающаяся речь — когда говорят одновременно несколько человек.
Поэтому ASR для русского языка стоит тестировать на записях, максимально близких к вашим реальным сценариям, а не на «чистой» студийной речи.
ASR и диаризация
Распознавание речи и диаризация — взаимодополняющие технологии. ASR даёт слова, диаризация — границы говорящих. В связке они превращают сырую запись в структурированный диалог:
[00:00–00:06] Спикер 1: Какой у нас бюджет на квартал?
[00:06–00:12] Спикер 2: Двести тысяч, плюс резерв десять процентов.
Именно так работают протоколы встреч и речевая аналитика колл-центров.
Распознавание речи в Nexara
Nexara — это API распознавания речи, заточенное под русский язык: пакетная и потоковая обработка, диаризация по спикерам и тарификация по факту использования. На старте доступно 200 бесплатных минут, а актуальные ставки есть на странице цен.
Хотите попробовать на своих записях? Посмотрите, как устроено распознавание речи в Nexara, и сравните точность на собственных данных.