Speech-to-Text API
Распознавание русской речи
API распознавания речи, заточенное под русский язык: пакетная и потоковая обработка, диаризация по спикерам и серверы в России. Один из лучших показателей точности (WER) для русского языка по независимым тестам.
Новичкам в теме — короткий разбор: что такое ASR.
Возможности
-
Пакетное распознавание
Загрузка файлов целиком — расшифровка совещаний, интервью и архивов звонков.
-
Потоковое распознавание
Текст в реальном времени для субтитров, ассистентов и live-расшифровки (Beta).
-
Диаризация по спикерам
Разделение реплик говорящих — нейронное и поканальное.
-
Серверы в России
Хостинг в РФ, работа по ЭДО и опция on-premise для чувствительных данных.
Лучшая точность для русского языка
По независимому бенчмарку распознавания русской речи на Habr Nexara показывает WER около 39% на сложном «диком» датасете — один из лучших результатов среди доступных систем. Что означает метрика WER, разбираем в статье что такое ASR.
Как начать
- 01
Получите ключ
Зарегистрируйтесь и заберите API-ключ — 200 минут бесплатно.
- 02
Отправьте аудио
POST-запрос с файлом или ссылкой; параметром включается диаризация.
- 03
Заберите текст
В ответ — расшифровка с таймцами и разметкой по спикерам.
Частые вопросы
- Насколько точно Nexara распознаёт русскую речь?
- По независимому бенчмарку точности русской речи (опубликован на Habr) Nexara показывает один из лучших результатов для русского языка — WER около 39% на сложном датасете, где большинство систем заметно слабее. Точность стоит проверять на собственных записях.
- Что такое WER?
- WER (Word Error Rate) — доля слов, распознанных с ошибкой. Чем ниже значение, тем точнее система. Подробнее — в статье «Что такое ASR».
- Поддерживается ли разделение по спикерам?
- Да. Диаризация подключается одним параметром к запросу на распознавание и доступна в нейронном и поканальном режимах.
- Как тарифицируется распознавание?
- По факту использования, посекундно, без абонентской платы. Актуальные ставки — на странице цен.