система распознавания голоса по телефону
Обзор технологий распознавания голоса и способы его применения
Небезызвестная IT-корпорация предлагает протестировать свой продукт Google Cloud Platform в режиме онлайн. Опробовать работу сервиса может бесплатно любой желающий. Сам продукт удобен и понятен в работе.
Плюсы:
Минусы:
Yandex
Распознавание речи от Yandex предоставляется в нескольких вариантах:
Но будем объективными. Нас, в первую очередь, интересует не разнообразие возможностей использования, а качество распознавания речи. Поэтому, мы воспользовались пробной версией SpeechKit.
Azure
Система Azure разработана компанией Microsoft. На фоне аналогов она сильно выделяется за счёт цены. Но, будьте готовы столкнуться с некоторыми трудностями. Инструкция, представленная на официальном сайте то ли неполная, то ли устаревшая. Адекватно запустить сервис нам так и не удалось, поэтому пришлось воспользоваться сторонним окном запуска. Однако, даже здесь для тестирования вам понадобится ключ от сервиса Azure.
Итоги обзора:
Взвесив все плюсы и минусы мы остановились на Яндексе. SpeechKit дороже чем Azure, но дешевле чем Google Cloud Platform. В программе от Google было замечено постоянное улучшение качества и точности распознавания. Сервис самосовершенствуется за счет технологий машинного обучения. Однако, распознавание русскоязычных слов и фраз у Яндекса на уровень выше.
Как использовать распознавание голоса в бизнесе?
Вариантов использования распознавания масса, но мы остановим ваше внимание на том, который, в первую очередь, повлияет на продажи вашей компании. Для наглядности разберём процесс работы распознавания на реальном примере.
Не так давно, нашим клиентом стал один, известный всем SaaS сервис (по просьбе компании, имя сервиса не разглашается). С помощью F1Golos они записали два аудиоролика, один из которых был нацелен на продление жизни тёплых клиентов, другой – на обработку запросов клиентов.
Как продлить жизнь клиентов с помощью распознавания голоса?
Звонки пользователей, которые произнесли кодовые слова: ДА, ПРОДЛИТЬ, ХОЧУ, ПОДРОБНЕЕ; были автоматически переведены на операторов компании. Так, порядка 18% пользователей продлили регистрацию благодаря лишь одному звонку.
Как упростить систему обработки данных с помощью распознавание речи?
Второй аудиоролик, запущенный той же компанией, носил другой характер. Они использовали голосовую рассылку для того, чтобы снизить издержки на верификацию номеров телефона. Ранее они проверяли номера пользователей с помощью звонка-роботом. Робот просил пользователей нажать определенные клавиши на телефоне. Однако с появлением технологий распознавания, компания сменила тактику. Текст нового ролика звучал следующим образом: «Вы зарегистрировались на портале ХХХ, если вы подтверждаете свою регистрацию, скажите да. Если вы не направляли запрос на регистрацию, скажите нет». Если клиент произносил слова: ДА, ПОДТВЕРЖДАЮ, АГА или КОНЕЧНО, данные об этом моментально переводились в CRM-систему компании. И запрос на регистрацию подтверждался автоматически за пару минут. Внедрение технологий распознавания снизило время одного звонка с 30 до 17 секунд. Тем самым, компания снизила издержки почти в 2 раза.
Если вам интересны другие способы использования распознавания голоса, или вы хотите узнать подробнее о голосовых рассылках, переходите по ссылке. На F1Golos вы сможете оформить первую рассылку бесплатно и узнать на себе, как работают новые технологии распознавания.
Freeform распознавание речи в реальном времени и распознавание записей звонков
Freeform — это сложно
Начнем с того, что freeform распознавание — это очень сложная техническая задача. Если на ограниченном словаре (например, адреса) получить качество распознавания в 90+% реально, то в случае freeform это уже практически недостижимая на сегодняшний день планка. Одно дело, когда человек что-то диктует, то есть на выходе получается структурированный текст. И совсем другое – телефонный разговор, где при общении возникает миллион дополнительных моментов, ухудшающих качество распознавания: от банальных междометий, кашля и индивидуальных особенностей речи до шумов, потерь пакетов и других, имеющих самую разную природу. К тому же распознавание в реальном времени требует достаточно приличных вычислительных мощностей, а нам нужно, чтобы все это хорошо масштабировалось и было доступно из облака. Можем вас заверить, что мы много и долго тестировали самые разнообразные решения для freeform распознавания. Каждый раз где-то чего-то не хватало, поэтому когда коллеги из Google анонсировали свое распознавание, мы с радостью побежали его тестировать.
Возможности Google Cloud Speech API
В настоящий момент Google Cloud Speech API находится в состоянии открытой беты. Существует ряд ограничений по количеству и скорости запросов, которые можно ему скармливать. Предлагается несколько вариантов работы с API: синхронный режим, асинхронный режим и стриминг. Синхронный режим позволяет отправлять куски аудио данных длительностью до минуты и на запрос возвращает ответ с результатом распознавания. Асинхронный режим позволяет обрабатывать большие файлы, но для этого их нужно загружать в Google Cloud Storage. Стриминг позволяет передавать данные частями и получать результат распознавания в реальном времени, то есть хорошо подходит для dictation и IVR. По аудио формату — 8/16 KHz. Поддерживается ряд разных кодеков в зависимости от режима: ulaw, flac, amr или просто PCM. Вендор рекомендует использовать 16 KHz и не использовать дополнительную обработку сигнала – это только ухудшает качество распознавания. Наш опыт показал, что нюансов, на самом деле, сильно больше. Например, лучше не пытаться распознавать куски длительностью более 20 секунд, если кусок слишком маленький, то можно на выходе не получить результат и т.д. Многие из этих проблем – следствие бета-версии. Думаем, что их поправят к релизу.
Кейс №1: Транскрибирование
Одним из самых востребованных кейсов является распознавание записей разговоров. Наверное, не нужно долго объяснять, почему это такая полезная функция. Поиск в тексте сильно проще поиска в аудио, поэтому любого рода анализ будет после преобразования в текст ускорен и упрощен. Для включения транскрибирования необходимо в функцию записи передать дополнительный параметр transcribe:
Все сценарии обработки вызовов в Voximplant пишутся на JavaScript, поэтому тут все достаточно прозрачно. Данный код говорит, что после окончания записи будет необходимо отправить данные в специальную подсистему, которая займется взаимодействием с Google Speech API. И через какое-то время в истории звонков в дополнение к записи появится текстовый файл с результатами распознавания. Результат будет выглядеть так:
К сожалению, пока API не выдает timestamps при распознавании, поэтому нельзя максимально точно разбить по времени, что и когда было сказано. Но даже так это очень хорошо.
Кейс №2. IVR
Ключевое слово «автоматизация». Сейчас только ленивый не пишет и не рассказывает про то, как изменится мир благодаря machine learning, AI и так далее. Наверное, мы не со всем согласны в этих рассказах. Особенно про AI. Но то что автоматизация позволяет ускорить и улучшить ряд процессов, мы отлично знаем, так как активно предлагаем нашим клиентам автоматизировать процессы взаимодействия с их клиентами, на которые нужно раньше было тратить дорогое время сотрудников. Интеллектуальные IVRы с распознаванием речи будут лавинообразно распространяться в ближайшем будущем именно благодаря прогрессу в machine learning и в распознавании речи. В США, если вы позвоните в Department of Motor Vehicles, вас ждет долгое и увлекательное общение с их IVR, где попасть на живого человека практически невозможно. Максимум – можно попросить перезвонить вам позже. Если повезет, где-нибудь на следующей неделе. Мы не считаем, что такой уж крайний вариант – это правильно. Все-таки нужно давать возможность людям попасть на живого человека, если общение не складывается. Но тренд уже давно понятен.
В случае Voximplant у нас уже давно есть возможность такие сценарии реализовывать. Раньше точность распознавания в отдельных случаях была недостаточной. В случае API от Google можно задавать speech_context, что позволяет реализовывать сценарий с выбором из заранее заданного списка фраз и вариантов. Причем если человек скажет что-то не из контекста, то распознавание все равно сработает. Но если он скажет что-то из контекста, то оно сработает с гораздо более высокой точностью. Воспользоваться этой функцией в сценарии VoxEngine можно следующим образом:
Кейс №3. Стриминг
По некоторым техническим причинам, связанным с работой самого бэкенда от Google, нам пришлось прилично пошаманить для реализации стриминг-режима. Надеемся, в ближайшем будущем такая необходимость отпадет. Итак, чтобы распознавать целый разговор в реальном времени (или просто большие части речи) потребуется модифицировать сценарий:
Хочется отметить один нюанс: событие CaptureStarted возникает на основании фидбэка от API Google. Там сейчас VAD достаточно добрый, и эти события могут возникать не только на речь, но и на фоновый шум. Для того чтобы точно знать, когда пора останавливать распознавание в стриминг режиме при молчании, можно в дополнение использовать наш встроенный VAD:
Распознавание русской речи для колл-центров и параноиков
Когда вы звоните в колл-центр, вас внимательно слушает, а иногда и отвечает, не только оператор и товарищ майор, но и робот-аналитик. Этот хитрый робот умеет распознавать нужные ключевые слова в вашей речи, но и производить полнотекстовое распознавание речи, и на основании этого всего, делать далеко идущие выводы.
Анализировать записи можно как «на лету» (что делается редко), так и постфактум, например, разыскивая конкретные звонки для анализа живым человеком. Я работал с несколькими программно-аппаратными решениями для этого, и сейчас поделюсь опытом.
Автоматическое распознавание уже начинает справляться с русским языком, за исключением некоторых особо сложных случаев
Сразу отмечу — да, эти решения могут сочетаться с определением конкретного человека по «голосовому отпечатку пальца», но это немного другая история и подробно останавливаться на этом здесь я не буду.
4 основных направления
Здесь всё достаточно знакомо. Вы звоните авиаперевозчику. Там женщину вынули, автомат засунули. Автомат спрашивает вас, из какого вы города. Вы отвечаете, софт пробует сделать транскрипцию по звукам и по морфемам. И сравнивает результат с базой возможных ответов.
Робот: Скажите, в каком городе вы находитесь?
Пользователь: Москва.
//Что распознал робот: маасква.
//В базе есть голосовой синоним: Масква.
//Результат «маасква» по расстоянию Дамерау-Левенштейна наиболее близок к синониму «Масква». Расширение выборки не требуется.
//В базе город, соответствующий этому синониму: Москва.
Робот, радостно: Вы в Москве!
Робот: Скажите, в каком городе вы находитесь?
Пользователь: Пошёл-ка.
//Что распознал робот: пшолка.
//В базе есть голосовые синонимы к городам Пушкин и Пущино.
//Результат «пшолка» далёк ото всех вариантов. Выборка расширяется до расширенных топонимов.
//Выборка расширяется до стандартных вопросов автоответчику независимо от вопроса.
//В расширенной выборке нет варианта под такое слово.
//История общения пока пустая.
Робот, грустно: Пожалуйста, повторите город, где вы находитесь.
Робот: Скажите, в каком городе вы находитесь?
Пользователь: На Урале.
//Что распознал робот: нау рале.
//В базе стандартной выборки подходящих вариантов нет.
//Первая часть похожа на предлог или междометие, в работу параллельно запускается синоним «у рале» и его производные.
//В базе стандартной выборки подходящих вариантов нет.
//Выборка расширяется до топонимов.
//В расширенной выборке есть «Урал» и его производные голосовые синонимы.
Робот, грустно: Пожалуйста, повторите город, где вы находитесь.
Пользователь: Завьялиха, брат.
//Робот разбивает длинное сообщение на части и начинает искать каждую.
//Находятся города: Завьялиха, Братск, Брат-Ньиве.
//Робот заглядывает в историю: там есть Урал. Делается предположение, что один топоним соответствует расположению другого. Урал сравнивается с каждым городом, ближе всего — Завьялиха. Теория отмечается как наиболее вероятная.
Робот, озадаченно: Вы в Завьялихе?
Пользователь: Однозначно!
//Это разделительный вопрос. Мы ищем синонимы к «да» и «нет». Затем каждое слово-синоним оценивается по своим голосовым синонимам вроде «адназдачна». Поиск по выборке показывает, что клиент согласен с теорией робота.
Робот, удовлетворённо: В какой город вы направляетесь?
Пользователь: А куда сегодня можно улететь?
Итак, как вы видите, в основе — система синонимов к основным словам-ответам, а также некий набор мета-слов, которые отвечают за управление диалогом. Каждое слово имеет множество голосовых синонимов: «ага», «ога», «аха» и так далее. В зависимости от конкретной используемой системы логики (их несколько различных) робот так или иначе оценивает контекст, делает оценку правдоподобности ответа из базовой выборки, при необходимости расширяет выборку и пробует строить гипотезы на основании истории общения. В более сложном случае используется анализ предложений, чтобы определить, какие слова что означают. Например, на вопрос, куда летим, пользователь может ответить: «Из Москвы в солнечный Магадан». Здесь найдётся минимум три города — Москва, Солнечный и Магадан. Разбор предложения на основе распознанных предлогов поможет предсказать, что Солнечный и Магадан важнее. Дальше робот может, например, сделать запрос во внешнюю базу и попробовать дополниться контекстом: если нет прямых рейсов Москва — Солнечный, то будет выбран Магадан. Но учитывая погрешности всех этих методов, робот всё-таки переспросит, точно ли туда.
Наиболее успешно такие IVR используются банками. Например, возможен подобный диалог:
Робот: Чем могу помочь?
Пользователь: Здравствуйте. А где тут у вас ближайший банкомат к озеру Смолино?
Робот: Уточните, пожалуйста, вы находитесь в Челябинске?
Пользователь: Ага, на Новороссийской.
Робот: Ближайший к вам банкомат находится на улице такой-то, дом такой-то.
Идентификация по голосу
За примерно минуту записи вашего голоса можно составить уникальный «отпечаток», соответствующий вашему ID в базе данных. Распознавание выполняется по первой-второй фразе, около 8–15 секунд вашей речи. Кроме верификации того факта, что вы – это вы, также может выполняться поиск по базе отпечатков.
Крупные банки почти поголовно используют этот метод и как средство дополнительной идентификации пользователя для некритичных операций, и как фильтр фродеров. По хорошему у банка должны быть записи фрод-звонков, и если звонит один из известных злоумышленников, оператор видит специальное предупреждение на основе сопоставления его голоса с отметками в базе. Возможен ретроспективный анализ всех записей колл-центра для поиска записей конкретного человека (точность, правда, невысокая, в базе из 1000 звонков придётся слушать около 30, чтобы найти нужный). Все детали есть вот здесь.
Аналитика эмоций
В зависимости от вашего эмоционального состояния меняется фактически частота тех или иных звуков в речи (ударных, носовых и так далее), а также высота произнесения некоторых гласных. По большей части алгоритмы определения эмоционального состояния закрыты. Точность у них не очень высокая, поэтому, повторюсь, одно из немногих практических применений — это знать, в каком состоянии клиент звонил 10 раз до этого. На российском рынке анализ эмоций используют в дополнение к аналитике речи, для более точного определения эмоциональных — «плохих» или «хороших» вызовов.
Аналитика речи
Первая задача – разбить диалог на два канала: входящий и исходящий. Это может решаться средствами колл-центра (писать из двух разных источников) или же постобработкой, например, по технологии Speaker Separation. После такой подготовки уже можно рассматривать каждую из частей отдельно.
Допустим, на входе — 400 тысяч записей звонков за этот месяц. До этого руками оценивалось менее 1% звонков.
Итак, для первого случая достаточно просто занести «форточки» во всех вариациях произношения в базу поиска. Робот будет разбирать речь и искать такие вхождения. Точно так же решается задача слов-паразитов, ищем и считаем. Аналогично — новый счётчик на название товара, уровень вопросов по которому нам нужно оценить. Выявление тишины — базовый функционал, тут даже настраивать почти ничего не нужно.
Уровень удовлетворённости клиента — чуть более сложная тема. Есть словарь на примерно 500 «плохих» и столько же хороших слов. Бывают слова, которые могут попасть в обе категории в зависимости от контекста, к примеру — русский мат и производные. Им можно как восторженно похвалить, так и поругать, при этом слова будут одинаковые. В зависимости от системы робот начинает оценивать контекст разными способами. Например, если рядом было слово «спасибо», скорее всего, будет присвоена общая положительная оценка. Даже если это был сарказм.
Примерно похожим образом работает выявление трендов. Робот может искать те или иные формализуемые закономерности на основе аналитики речи.
Иллюстрация того, как может руководитель видеть звонки по типам. Синий — стандартные звонки. Жёлтый — проблемы с качеством работы сотрудника. Красный — упущенная продажа. Зелёный — позитивный отзыв. Фиолетовый — клиент в зоне риска.
Что касается последнего пункта, то операторам настраиваются индивидуальные KPI, по которым производится контроль. В случае если значение одного из таких показателей отклоняется в «плохую» сторону или зону, то это может служить индикатором того, что оператор плохо разбирается в одной из тематик. Или, например, можно выявлять лучшие практики и методики (например, по продаже или коллекторской деятельности). А на основании этой информации корректировать существующие механизмы обучения. При грамотно выстроенной работе с KPI, операторы могут «соревноваться» в продуктивности (как с другими операторами, так и с самим собой). По моему опыту, операторы, которые видят свою работу в цифрах, стремятся работать лучше.
Погрешности
Если 75% звонков с оценкой уровня удовлетворённости клиента были отобраны правильно при не более чем 5% ложных срабатываний, это считается за большой успех в ряде категорий, например, когда нужно выявить какие-то сложные эмоциональные задачи. На некоторых сегментах вроде поиска одного конкретного слова точность будет 85%-95% при минимуме ложных. В условиях зашумлённых линий статистика может быть и такой: около 60% истинных звонков попадает в выборку, из них около 5–10% ложных срабатываний. Но с учётом, что у вас 400 000 звонков, для статистики это всё равно достаточно точно. Собственно, даже если система будет отбирать всего 30% интересующих вас звонков и пропускать остальные 70%, вы получите возможность и найти оператора с любовью к жаргону, и составить соотношение негативных-позитивных отзывов по конкретным товарам.
Конкретная погрешность зависит от оборудования колл-центра, точности постановки задач для нечёткого поиска, класса системы распознавания и аудитории звонящих.
Реальное применение
Одним из производителей систем заявлено вот что:
• Автоматизация процесса поиска обращения по заданным параметрам и ключевым словам.
• Воспроизведение обращения с возможностью перехода к моменту ключевой фразы.
• Выявление причин обращений и жалоб клиентов.
• Выявление операторов, требующих дополнительного обучения.
• Выявление лучших практик, используемых операторами.
• Получение оповещений в случае появления обращений с заданными условиями отбора.
Общий принцип поиска ключевых слов
И категоризация по ним
Когда имеет смысл внедрять такие системы?
Когда колл-центр не менее чем на 100 операторов — иначе проще перебирать звонки руками.
При этом пост-аналитика не требовательна к инфраструктуре — можно хоть на FTP выкладывать, откуда робот будет забирать записи для анализа и выдавать результат в веб-интерфейсе. Тем не менее есть ряд требований к кодекам и качеству сохранения записей.
Оценку окупаемости дать не могу, потому что задачи у всех разные и разнесены по разным направлениям от безопасности до маркетинга. По отзывам заказчиков и оценкам некоторых вендоров для сферического КЦ в вакууме — от года до двух.
Тонкая настройка одной из систем
Пример результата по ретроспективному анализу звонков 2008 года
Инструментарий систем аналитики речи (всех известных мне вендоров) позволяет выделять слова и фразы, которые чаще всего употребляются в рассматриваемом срезе звонков. Напомню, используя подобные системы, у нас есть возможность рассматривать весь объем звонков под разными углами: сделать выборку по группе операторов, по длительности звонков, по теме звонка, по количеству тишины, по объему речи клиента и многим другим разрезам данных. Таким образом, мы можем выделять существенные тренды в различных областях работы КЦ.
При этом есть дополнительные инструменты, позволяющие понять причины звонков и разобраться, что к чему — это инструменты выстраивающие корреляцию между словами. Проще говоря, я выбираю интересующее меня слово, а система мне показывает, с какими другими словами и фразами оно чаще всего употребляется. В отдельных случаях система ищет не только статистические совпадения, но и старается, и, соответственно, можно понимать причины обращений в КЦ и сортировать по ним подобрать правильный смысл, то есть выстроить внятные предложения. А пользователь системы может легко определять причины обращений в КЦ и осуществлять дальнейший анализ (Root Cause Analysis).
Пример определения причины звонков для уточнения ежемесячного платежа по кредиту:
Или вот тут видно, что у пользователей какие-то проблемы с осуществлением платежей:
Внедрение
Для IVR и аналитики речи в большинстве случаев требуется установка ПАК на месте. Железо и софт настраиваются в среднем за 2 недели. Ещё около месяца-двух подписываются документы, формулируются правила, согласовываются юридические моменты обработки голоса, интегрируются системы – например, с CRM и так далее.
Этот же сервис для пост-аналитики доступен в нашей облачной среде. Можно загружать записи в наш ЦОД, где робот будет их обрабатывать и выдавать отчёты. Сроки те же, только минус две недели на железо. Новые задачи (с уже решёнными организационными вопросами) обычно загоняются в аналитику за день-два.
По языкам – в среднем современными системами поддерживаются около 10 самых популярных языков мира, плюс основные европейские языки не вошедшие в этот список. Русский, естественно, тоже.
Как работает распознавание речи и где его можно использовать
Голосовой поиск в Google или голосовое управление в машине уже никого не удивляют — мы привыкли к этим технологиям. Они экономят время и делают жизнь комфортнее. Но технология распознавания речи включает гораздо больше возможностей: оптимизацию бизнес-процессов, анализ маркетинговых кампаний и повышение продаж. Как работает распознавание речи и как применить его в бизнесе — читайте в статье.
Что такое распознавание речи
Это технология, с помощью которой речь человека возможно трансформировать в текст. Система распознавания речи может работать автономно, а может обучаться особенностям произношения конкретного пользователя.
Распознавание голоса — часть технологии распознавания речи. Идентификацию говорящего используют при биометрической проверке, для ограничения доступа к личным файлам. Система запоминает голос человека и отличает его от других голосов.
Технология распознавания речи или Speech-to-Text появилась еще в конце прошлого столетия, но качественно преобразовывать человеческую речь в текст программы научились только в 2000-х — по мере развития IT-технологий и машинного обучения на Западе, а потом и в России. Сегодня системы распознавания речи массово используют в повседневной жизни и в бизнесе, ведь это здорово экономит ресурсы.
Как работает технология
Это сложный многоступенчатый алгоритм, поэтому постараемся описать общий принцип действия. Если сказать голосовому поиску «Александр Пушкин», то телефон услышит не имя известного писателя, а звуковой сигнал без четких границ. Система восстанавливает по этому непрерывному сигналу воспроизведенную человеком фразу следующим образом:
Сначала устройство записывает голосовой запрос, а нейросеть анализирует поток речи. Волна звука делится на фрагменты — фонемы.
Затем нейросеть обращается к своим шаблонам и сопоставляет фонемы с буквой, слогом или словом. Далее образуется порядок из известных программе слов, а неизвестные слова она вставляет по контексту. В результате объединения информации с этих двух этапов получается речь, превращенная в текст.
На заре развития процесс работы Speech-to-Text заключался в элементарной акустической модели — речь человека сопоставлялась с шаблонами. Но количества словарей в системе было недостаточно для точного распознавания, программа часто ошибалась.
Благодаря обучаемости нейронных сетей качество распознавания речи значительно выросло. Алгоритм знает типичную последовательность слов в живой речи и может воспринимать структуру языка — так работает языковая модель. А каждая новая обработанная голосовая информация влияет на качество обработки следующей, уменьшая количество погрешностей.
Где применяют алгоритм
Технология распознавания речи позволяет нам искать нужную информацию, составлять маршрут по навигатору. Вот еще несколько сфер, где применение Speech-to-Text сделало жизнь проще:
Телефония. Технология экономит не только время звонящего, но и ресурсы компании. С помощью голосового набора и робота клиенты могут без участия менеджеров заказывать товары, отвечать на опросы и получать консультации.
Бытовая техника. Сегодня можно управлять голосом различными устройствами: выключателями в доме, системами освещения и гаджетами.
Медицина. В 2020 году российские разработчики создали Voice2Med — систему на основе искусственного интеллекта, которая заполняет медицинские документы, пока врач диктует информацию во время осмотра.
Как распознавание речи используется в бизнесе
Распознавание речи позволяет автоматизировать многие процессы в бизнесе, от продаж и контроля клиентского сервиса, до защиты от мошенников.
Благодаря этой технологии аналитика телефонных разговоров с клиентами стала проще и дешевле: система автоматически записывает звонки и собирает данные для повышения конверсии.
Например, система речевой аналитики MANGO OFFICE помогает узнать, с какими конкурентами клиенты чаще всего сравнивают ваш продукт. Вы создаете теги для упоминаний о конкурентах, анализируете отчеты разговоров и понимаете, как нужно улучшить маркетинговую стратегию. Также можно анализировать работу сотрудников — отмечайте стоп-слова, следите за соблюдением скриптов продаж.
Еще одно направление, где речевая аналитика помогает развитию бизнеса — интерактивные голосовые системы (IVR). Это незаменимый инструмент в управлении колл-центром. Speech-to-Text распознает речь клиента, а голосовой робот автоматически подбирает нужную информацию для ответа или переводит звонок на оператора. Технология уменьшает количество потерянных звонков, так как многие люди не успевают или не могут нажимать на кнопки в голосовом меню.
Службам контроля сервиса не обязательно проводить дополнительные опросы: это можно сделать автоматически, а потом проанализировать отчеты. Службы безопасности в банках используют речевую аналитику, чтобы защитить личные данные клиентов.
Заключение
Технология преобразования голоса в текст упрощает повседневные задачи и помогает развивать многие профессиональные сферы. В бизнесе Speech-to-Text используют для эффективного взаимодействия с клиентами и быстрой обработки большого объема данных. Аналитика телефонных звонков и голосовые роботы уменьшают затраты, повышают средний чек и изучают реальные потребности клиентов.