Транскрибація

За останні десять років системи розпізнавання мови на базі штучного інтелекту стали частиною нашого повсякдення – від голосового пошуку до віртуальних асистентів у контакт-центрах, автомобілях, лікарнях і ресторанах.

Технологія розпізнавання мови здатна перетворювати усне мовлення (аудіосигнал) на текст.

Audio input

Audio Feature Extractor and Preprocessor

Spectogram

Neural Acoustic Model

Базова схема процесу транскрибації

Decoder With Language Model

Output Transcript

Розпізнавання мови в реальному часі

Субтитри для онлайн-заходів

Надання субтитрів для прямих трансляцій і запису.
Діаризація

Визначення та розрізнення голосів кількох мовців.
Оцінка вимови

Аналіз точності вимови зі зворотним зв'язком.
Допомога операторам колл-центрів

Автоматична розшифровка розмов для спрощення роботи.
Диктування

Перетворення усного мовлення на текст для документації.
Термінове розшифрування аудіо або відео

Швидке створення субтитрів для аудіо- та відеозаписів.
Переклад відео іншими мовами

Генерація субтитрів для відеозаписів різними мовами.

Пакетна транскрибація

Створення субтитрів для записаних заходів

Перетворення аудіоконтенту на текст.
Аналітики дзвінків у кол-центрах

Аналіз аудіозаписів для виявлення ключових тем.
Діаризації

Визначення різних мовців у записаному аудіо

Сценарій

Субтитри для живих трансляцій

Підтримка операторів кол-центрів

Створення субтитрів для відео

Освітні інструменти

Документація у медичній сфері

Медіа та розваги

Маркетингові дослідження

Приклади застосування

Платформа для вебінарів хоче показувати
субтитри в реальному часі.

Кол-центр хоче розшифровувати дзвінки
для допомоги операторам.

Відеохостинг хоче автоматично створювати субтитри.

Платформа онлайн-курсів хоче надати
розшифровку лекцій.

Лікарі хочуть диктувати записи консультацій.

Кінокомпанія хоче створити субтитри для архіву відео.

Компанія хоче аналізувати відгуки з аудіозаписів.

Рішення

Інтеграция API для миттєвого
відображення субтитрів.

Використання для розшифровки дзвінків
у реальному часі.

Використання для швидкої розшифровки відео.

Використання API для обробки лекцій.

Реальна транскрипція з користувацькою моделлю
для точності медичної термінології.

Пакетна транскрипція для масової
обробки відеозаписів.

Використання пакетної транскрипції
для перетворення аудіо в текст для аналізу.

Після постобробки результатів транскрибації за допомогою систем розуміння природної мови (NLP), отриманий текст використовується для подальших завдань мовного аналізу:

Резюмування
текстів

Відповіді на запитання

Аналіз
тональності

Текстова аналітика