Что такое диаризация: разделение речи по спикерам

Диаризация (от англ. speaker diarization) — это автоматическое определение того, кто и когда говорил в аудиозаписи. Система делит непрерывный поток речи на фрагменты и приписывает каждый фрагмент отдельному говорящему: «Спикер 1», «Спикер 2» и так далее. Если коротко, диаризация отвечает на вопрос «who spoke when» — кто говорил в каждый момент времени.

Сама по себе диаризация не распознаёт слова — она только размечает границы реплик и группирует их по голосам. В связке с распознаванием речи (ASR) она превращает сырую запись разговора в структурированный диалог с подписанными репликами.

Что такое диаризация простыми словами

Представьте запись совещания на четыре человека одним микрофоном. Обычное распознавание речи вернёт сплошную «простыню» текста без указания, где чья реплика. Диаризация добавляет к этому тексту разметку говорящих — и расшифровка становится читаемым диалогом:

[00:00–00:08] Спикер 1: Давайте начнём с итогов спринта.
[00:08–00:15] Спикер 2: По бэкенду всё закрыли, остался один баг.
[00:15–00:19] Спикер 1: Когда планируете релиз?

Именно эту разметку дальше используют для протоколов встреч, аналитики звонков в колл-центрах, расшифровки интервью и подготовки субтитров с указанием реплик.

Чем диаризация отличается от распознавания речи

Это два разных, но дополняющих друг друга процесса:

Распознавание речи (ASR) переводит звук в текст — отвечает на вопрос «что было сказано». Подробнее — в статье что такое ASR.
Диаризация определяет «кто это сказал и когда» — работает с акустикой голоса, а не со смыслом слов.

На практике их запускают вместе: ASR даёт слова с таймкодами, диаризация — границы говорящих, а финальный шаг сопоставляет одно с другим, чтобы каждое слово получило своего спикера.

Как работает диаризация

Классический конвейер диаризации состоит из нескольких этапов:

Детекция речи (VAD). Из записи убираются паузы, музыка и шум — остаются только участки с голосом.
Сегментация. Речевой поток режется на короткие однородные отрезки, внутри которых предположительно говорит один человек.
Извлечение голосовых эмбеддингов. Для каждого отрезка нейросеть строит «отпечаток голоса» — числовой вектор (например, x-vector или d-vector), который кодирует тембр и манеру речи независимо от произнесённых слов.
Кластеризация. Похожие эмбеддинги объединяются в группы — каждая группа соответствует одному говорящему.
Присвоение меток и сглаживание границ. Кластеры превращаются в «Спикер 1, 2, 3…», а границы реплик уточняются.

Самая сложная часть — перекрывающаяся речь, когда говорящие перебивают друг друга, и определение числа спикеров, если оно заранее неизвестно.

Нейронная и поканальная диаризация

Способ зависит от того, как записан звук:

Нейронная диаризация работает с одной общей дорожкой (один микрофон, телефонный звонок в моно) и разделяет голоса по их акустическим признакам. Это универсальный вариант для совещаний, интервью и подкастов.
Поканальная диаризация применяется, когда каждый участник записан в свой канал (например, оператор и клиент — в разные стороны стереозаписи звонка). Здесь спикеры уже физически разделены по каналам, поэтому разметка получается максимально точной.

Nexara поддерживает оба режима, что позволяет выбирать оптимальную точность под конкретный сценарий записи.

Где применяется диаризация

Колл-центры и продажи. Разделение реплик оператора и клиента для оценки качества, контроля скриптов и речевой аналитики.
Протоколы встреч. Автоматические саммари совещаний с указанием, кто что предложил.
Медицина. Расшифровка приёма с разделением реплик врача и пациента.
Юристы и комплаенс. Стенограммы допросов, переговоров и заседаний.
Медиа и подкасты. Субтитры и текстовые версии интервью с подписанными участниками.

Как измеряют качество диаризации

Основная метрика — DER (Diarization Error Rate), доля времени записи, размеченного неверно. Она складывается из трёх типов ошибок: пропущенная речь, ложно размеченная речь и перепутанные спикеры. Чем ниже DER, тем точнее система. Для русскоязычной речи на качество дополнительно влияют акценты, телефонное сжатие и фоновый шум — поэтому важно тестировать диаризацию на данных, близких к вашим реальным записям.

Диаризация в Nexara

В API распознавания речи Nexara диаризация подключается одним параметром к запросу на транскрибацию: на выходе вы получаете текст, уже разбитый по спикерам с таймкодами. Доступны и нейронный, и поканальный режимы, а тарифицируется диаризация как надбавка к базовому распознаванию — актуальные ставки есть на странице цен.

Готовы разделять речь по спикерам автоматически? Посмотрите, как устроена диаризация в Nexara, или сразу начните распознавать свои записи.