maj 25, 2023, Infrastructure, Innovations

Jak wykorzystać Voice AI do automatyzacji zadań i procesów

Adrian Głażewski .NET Developer
how to use a voicebot in business processes
AI, czyli sztuczna inteligencja to jedna z najdynamiczniej rozwijających się technologii, która zajmuje się tworzeniem systemów komputerowych zdolnych do przetwarzania informacji i podejmowania decyzji w sposób podobny do człowieka. Dzięki niej jesteśmy w stanie zwiększyć produktywność i efektywność naszych działań, zoptymalizować procesy, mieć dostęp do niezbędnych informacji i analizy danych, udoskonalić obsługę klienta i zwiększyć konkurencyjność swojej firmy na rynku.

Czym jest Voice AI?

Voice AI to technologia wykorzystująca sztuczną inteligencję, która pozwala urządzeniom komunikować się z ludźmi za pomocą mowy. Umożliwia interakcję z urządzeniami w sposób intuicyjny, bez potrzeby pisania tekstu czy korzystania z klawiatury, co sprawia, że jest bardziej przystępna i inkluzywna.

Zanim jednak rozłożymy tę technologię na części, przyjrzyjmy się liczbom i trendom, które świadczą o jej niewątpliwie rosnącej popularności:

  • Wartość rynku voicebotów w 2022 roku wyniosła 2,3 mld dolarów i szacuje się, że do 2028 roku wzrośnie do ponad 30 miliardów (Grand View Research)

  • 80% firm planuje wdrożyć rozwiązania botów głosowych oparte na sztucznej inteligencji do końca 2025 roku (Oracle)

  • Wydajność pracy poprzez automatyzację procesów za pomocą voicebotów i sztucznej inteligencji może wzrosnąć aż do 40% (Forrester)

  • 85% przedsiębiorstw uważa, że implementacja automatyzacji procesów biznesowych za pomocą technologii voice AI pozwala na osiągnięcie lepszych wyników finansowych i zwiększenie konkurencyjności na rynku (Accenture)

  • Liderami w wykorzystywaniu sztucznej inteligencji w automatyzacji procesów w kanałach głosowych są bankowość, ubezpieczenia i usługi (Deloitte)

Komponenty Voice AI

Przejdźmy zatem do kwestii technicznych i przyjrzyjmy się komponentom Voice AI, skupiającym wiele różnych technologii, które umożliwiają maszynom i komputerom przetwarzanie, rozumienie i generowanie ludzkiej naturalnej mowy. 

NLP: przetwarzanie języka naturalnego

NLP (Natural Language Processing) wykorzystuje techniki uczenia maszynowego, które pozwalają na wyuczenie systemów komputerowych przetwarzania języka naturalnego w taki sposób, aby uzyskać pożądane wyniki. Techniki, jakie obejmuje NLP to m.in. rozpoznawanie mowy, rozpoznawanie tekstu, tłumaczenie maszynowe, analiza sentymentu, rozumienie języka naturalnego, czy generowanie tekstu. Innymi słowy, dzięki NLP oprogramowanie komputerowe potrafi przetwarzać nasz ludzki sposób porozumiewania się, a następnie zamieniać go na dane, które są procesowane w kolejnych etapach.

Elementy wchodzące w skład NLP:

  • rozumienie tekstu

  • generowanie tekstu

  • zamiana mowy na tekst

  • zamiana tekstu na mowę

  • tłumaczenie mowy

  • rozpoznawanie mówcy

  • rozpoznawanie emocji

  • głosowy interfejs użytkownika

NLU: rozumienie języka naturalnego

NLU (Natural Language Understanding) zajmuje się próbą zrozumienia języka naturalnego przy użyciu technik uczenia maszynowego. Jest to niezwykle ważny element,  ponieważ pozwala sztucznej inteligencji zrozumieć kontekst tego, co zostało wypowiedziane przez człowieka – rozpoznać intencję oraz wyodrębnić encje.

Rozpoznawanie intencji

Rozpoznawanie intencji polega na określeniu intencji użytkownika na podstawie jego wypowiedzi lub zapytania. Innymi słowy, silnik rozumienia języka naturalnego próbuje zrozumieć, co użytkownik chce osiągnąć, jakie jest jego zamierzenie lub cel.

Na przykład, jeśli użytkownik pyta o godziny otwarcia restauracji, intencją jest uzyskanie informacji na temat godzin, kiedy lokal jest otwarty. 

Ekstrakcja encji

Ekstrakcja encji to proces identyfikowania istotnych elementów wypowiedzi lub zapytania użytkownika – nazw miejsc, czasu, daty, numerów telefonów, itp. Jeśli np. użytkownik pyta o rezerwację pokoju w hotelu, ekstrakcja encji może pomóc w identyfikacji daty, liczby gości czy długości pobytu.

Na rynku istnieje wiele dostawców narzędzi do rozpoznawania intencji oraz ekstrakcji encji – Google Cloud Natural Language Processing, Microsoft Azure Cognitive Services, IBM Watson Natural Language Understanding, czy nasze autorskie rozwiązanie Vosito.

Potencjalne zagrożenia związane z rozpoznawaniem intencji:

  • Złożoność i niejednoznaczność języka

  • Słownictwo i wymowa

  • Ubogie dane treningowe

NLG: generowanie języka naturalnego

NLG (Natural Language Generation) to oprogramowanie, które potrafi wytworzyć tekst w języku naturalnym. Na rynku dostępne są zarówno bardzo skomplikowane rozwiązania, jak słynny chat GPT, ale również te mniej złożone, które potrafią wytworzyć teksty na podstawie szablonu, np. podstawić słowa w odpowiednim miejscu. Jeśli np. tworzymy asystenta zamawiania taksówki, to w potwierdzaniu takie oprogramowanie potrafi wytworzyć tekst, który może brzmieć następująco: “Dziękuję za zamówienie. Twoje taxi z {lokalizacja początkowa} do {lokalizacja docelowa} będzie zrealizowane w dniu {data} o godzinie {czas}”.

Choć wraz z postępami w dziedzinie NLP, również NLG stało się bardziej wydajne i efektywne, i ono mierzy się z pewnymi wyzwaniami i trudnościami:

  • Tworzenie naturalnego języka – Generowanie naturalnych i zrozumiałych dla człowieka tekstów wymaga od systemów NLG zrozumienia kontekstu i reguł gramatycznych języka naturalnego. Złożoność języka naturalnego, wieloznaczność słów i ich znaczeń oraz niestandardowe użycie języka naturalnego przez różnych użytkowników, stanowią wyzwanie dla systemów NLG.

  • Zwięzłość i spójność – Teksty wygenerowane przez systemy NLG muszą być zwięzłe, spójne i jednoznaczne, aby były łatwe do przeczytania i zrozumienia dla użytkowników.

  • Odpowiedniość treści – Teksty wygenerowane przez systemy NLG muszą być odpowiednie do kontekstu, w którym są wykorzystywane, dostosowane do różnych sytuacji i wymagań użytkowników.

Speaker Recognition

Kolejnym komponentem Voice AI jest system rozpoznawania mówcy zwany Speaker Recognition. Jest to proces, który polega na analizie cech mowy, takich jak ton, tempo, modulacja czy intonacja, a następnie porównanie tych cech z wcześniej zarejestrowanym profilem mówcy. 

 

Komponent ten jest coraz bardziej powszechny, znajdując zastosowanie w wielu dziedzinach, takich jak bezpieczeństwo, monitorowanie wizyjne, telekomunikacja, a nawet gry wideo. 

Możemy go użyć do dwóch podstawowych celów: identyfikacji oraz weryfikacji. Identyfikacja to próba dopasowania rozmówcy 1:N, czyli wskazania, która osoba aktualnie mówi z jakiejś grupy osób. Weryfikacja, lub inaczej uwierzytelnienie, to próba dopasowania rozmówcy 1:1, którą stosuje się przy zabezpieczeniu dostępu do danego systemu. 

Gdzie wykorzystać techniki NLP?

Z czasem prowadzenie biznesu bez wykorzystania technik NLP będzie coraz trudniejsze, droższe oraz mniej efektywne. 

Gdzie możemy zatem wykorzystać oprogramowanie implementujące techniki NLP?

  • Obsługa klienta w formie Chatbota lub Voicebota – umożliwia przeprowadzenie wybranego procesu z klientem bez konieczności angażowania pracownika.

  • Świat finansów – analiza artykułów finansowych pod względem jakościowym

  • Świat medycyny – np. ulepszanie dokumentacji medycznej, poprzez automatyczne uzupełnianie np. objawów chorobowych przy rejestracji do lekarza.

  • Świat prawników – pomoc w analizie dokumentacji pod kątem przeszukiwania kontekstu, czy analizy zapisanych aktów prawnych.

Oczywiście NLP to nie recepta na całe zło, a czasami nawet samo w sobie może stać się problemem, dlatego na co dzień możemy spotkać się z następującymi wyzwaniami:

  • Ludzie porozumiewają się w barwny sposób, stosując wiele konstrukcji językowych, które mogą być niezrozumiałe dla komputera.

  • Słownictwo i wymowa mogą znacznie się różnić w zależności od regionu, kultury i stylu użytkownika.

  • Skuteczność systemów NLU zależy od jakości danych treningowych, które są używane do ich nauki. Brak odpowiednich danych lub ich niewystarczająca ilość może wpłynąć negatywnie na jakość rozpoznawania intencji oraz ekstrakcji encji.

  • Język naturalny jest dynamicznym medium, a ludzie cały czas wprowadzają nowe słowa, zwroty i skróty. Aplikacje do rozpoznawania intencji oraz ekstrakcji encji muszą być stale aktualizowane, aby nadążać za zmieniającymi się trendami w języku naturalnym.

Kategorie rozwiązań Voice AI

TTS - Text to Speech

TTS to technologia służąca do zamiany tekstu na mowę, wykorzystująca zaawansowane modele umożliwiające wygenerowanie ludzkiego głosu. Budowa takiego syntezatora jest bardzo skomplikowana, ponieważ wymaga wielu danych oraz dużej mocy obliczeniowej w celu wygenerowania naturalnie brzmiącego głosu. 

Usługi związane z TTS stały się jednak jednymi z najbardziej atrakcyjnych na całym świecie, a wiele badań naukowych wskazuje na to, że treści audio są lepiej odbierane przez użytkowników niż treści pisane.

Generowanie dźwięku w czasie rzeczywistym

Istnieją rozwiązania udostępniające API, które umożliwiają generowanie takiego dźwięku w czasie rzeczywistym. Wśród wiodących dostawców możemy wyróżnić Google, Amazon, IBM, Microsoft czy Nuance. Warto wspomnieć również, że różni dostawcy mają różny poziom rozwoju syntezatora głosu. 

Jedną z ciekawszych firm jest m.in. ElevenLabs – w moim odczuciu najbardziej rozwinięty syntezator, z głosami niemalże niemożliwymi do rozróżnienia dla przeciętnego człowieka. Sam producent poleca swoje rozwiązania do generowania głosów do krótkich materiałów video np. YouTube, jako lektor, reklamy, itd. Niestety na chwilę obecną marka nie wspiera języka polskiego.

Potencjalne rozwiązania softwarowe 

Jakie są przykłady użycia TTS w świecie softwaru? Może to być np. aplikacja czytająca tekst znajdujący się na ekranie, prowadzącą narrację głosową do treści wyświetlanych na ekranie, czytająca ogłoszenia np. na dworcu kolejowym, lotnisku w restauracji, czy też aplikacja GPS. Poza tym TTS może być stosowane w robotyce i pozwolić robotowi porozumiewać się za pomocą mowy.

SSML

Mówiąc o TTS nie sposób pominąć temat SSML, czyli języka znaczników wykorzystywanego do uszczegółowienia tekstu, który ma być przetworzony na mowę przez syntezator. Znaczniki te umożliwiają programistom i użytkownikom wprowadzanie szczegółowych informacji dotyczących wymowy, akcentu, intonacji czy innych elementów mowy, aby uzyskać bardziej naturalne i ludzkie brzmienie. Niestety nie wszystkie syntezatory uwzględniają te znaczniki, co może doprowadzić do nieprawidłowego przetwarzania tekstu.

Zagrożenia związane z TTS

TTS nie zawsze zapewnia jakość mowy porównywalną z ludzką – czasami syntezator mowy może wydawać się sztuczny lub trudny do zrozumienia. TTS może mieć również trudności z dostosowaniem tonu i intonacji do znaczenia zdania.

ASR - Automatic speech recognition

Innym komponentem jest ASR – technologia próbująca przekształcić ludzką mowę na tekst, wykorzystująca wiele elementów sztucznej inteligencji oraz uczenia maszynowego. 

Podstawą działania ASR jest zawsze stworzenie i wytrenowanie modelu akustycznego, który analizuje zbiór słów i fraz, aby określić, które są najbardziej prawdopodobne na podstawie kontekstu i poprzednich wypowiedzi. 

Wiodącymi dostawcami ASR są Amazon Web Services, Google Cloud Speech-to-Text, Microsoft Azure Speech Services czy IBM Watson Speech to Text.

Potencjalne trudności

Przetwarzanie mowy na tekst jest skomplikowanym zagadnieniem, dlatego z procesem wiąże się wiele trudności:

  • Warunki akustyczno-techniczne czyli otoczenie i dźwięki z niego pochodzące, odbicia głosu, źle dobrany mikrofon

  • Słowa bardzo podobnie brzmiące: 3 – czy, 6 – cześć

  • Źle dopasowany model językowy w jakim odbywają się rozmowy – skomplikowane słownictwo używane przez rozmówcę niemożliwe do transkrypcji przez ASR

  • Prędkość oraz dialekt wykorzystywany przez mówiącego – każdy z nas mówi w inny sposób i czasami sami mamy problem, aby zrozumieć drugą osobę. Tym większym problemem będzie poprawna transkrypcja przez ASR

Gdzie można wdrożyć ASR?

Automatyczne rozpoznawanie mowy można wdrożyć w takich sytuacjach jak:

 

  1. Automatyczna transkrypcja, w ramach której można wyróżnić kilka scenariuszy, np. generowane napisów do istniejącego już materiału głosowego i wyświetlenie ich razem z materiałem wideo np. gry komputerowe, programy TV, filmy.

  2. Generowanie transkrypcji po zakończonych eventach – jako że w internecie wyszukujemy raczej słowa pisanego, tworzenie transkrypcji dla materiału głosowego może zwiększyć do niego dostęp.

  3. Tworzenie transkrypcji na żywo – dzięki temu, że usługodawcy ASR bardzo często udostępniają interfejs API, istnieje możliwość strumieniowego przesyłania materiału audio i zwrotne otrzymane transkrypcji.

  4. Usprawnienie procesu wsparcia poprzez automatyczne rozumienie klienta – systemy ASR mogą usprawnić proces wsparcia klienta np. poprzez automatyczne kategoryzowanie sprawy lub zbieranie podstawowych informacji. Mogą również zbierać opinię na temat satysfakcji klienta poprzez analizę słów.

  5. Monitorowanie agentów – dzięki automatycznej transkrypcji istnieje możliwość oceniania tego, w jaki sposób agenci w call center przekazują klientom kluczowe informacje.

  6. Usprawnione generowanie treści – dzięki ASR możemy usprawnić korzystanie z aplikacji np. do pisania SMS-ów, lub maili.

Interfejs głosowy

Mówiąc o Voice AI nie sposób pominąć aplikacji z kategorii NLUI (Neural Language User Interface), które łączą przedstawione powyżej technologie.  

Interfejs użytkownika w języku naturalnym to rodzaj komputerowego interfejsu, w którym zjawiska językowe, takie jak czasowniki, frazy i klauzule, działają jako kontrolki do tworzenia, wybierania i modyfikowania danych w aplikacjach.

NLUI stosuje technologie NLP, NLU i ASR, aby umożliwić użytkownikom łatwe i intuicyjne korzystanie z urządzeń., dzięki czemu mogą oni wydawać polecenia, zadawać pytania i przeprowadzać interakcje za pomocą naturalnego języka, a nie poprzez specjalistyczne komendy i interfejsy graficzne.

Zastosowania NLUI

NLUI można stosować bardzo szeroko – technologia wciąż się rozwija i jest poddawana coraz to nowszym innowacjom. Przykładami są m.in.:

  • Asystent głosowy – możliwość łatwego i intuicyjnego korzystania z urządzeń (Siri, Alexa i Google Assistant)

  • Systemy automatyzacji domu – sterowanie systemami automatyzacji domu, takimi jak oświetlenie, klimatyzacja czy zamki drzwi.

  • Systemy bankowości elektronicznej – umożliwienie użytkownikom łatwego i szybkiego wykonywania transakcji i sprawdzania salda.

  • Systemy medyczne – umożliwienie pacjentom łatwego i intuicyjnego korzystania z aplikacji związanych z opieką zdrowotną.

Hellobot - nasze autorskie rozwiązanie

Hellobot zalicza się do aplikacji z kategorii NLUI. Dzięki integracji wielu komponentów – ASR, TTS i NLP – może stworzyć rozwiązanie, które będzie wspomagać i automatyzować procesy klienta za pomocą głosu.

Rozwiązanie integruje się z innymi źródłami danych i aplikacjami, dlatego może w sposób aktywny współdziałać z platformami wskazanymi przez klienta.

Jak wygląda proces wdrożenia bota?

1. Proces budowania automatyzacji głosem rozpoczynamy od dokładnej analizy potrzeb klienta. Jeszcze przed etapem ostatecznego podpisania umowy, rozmawiamy z klientem analizując aktualny przebieg jego procesów biznesowych, a następnie proponując mu potencjalne rozwiązanie. 

2. Następnie realizujemy kilka spotkań warsztatowych z klientem, w trakcie których ustalamy szczegółowy zakres, w jakim wdrożymy bota. Jasno określamy wizję, cele strategiczne oraz efekty po zakończeniu procesu wdrażania. 

3. Kolejnym krokiem jest przygotowywanie rozwiązania. Korzystamy z własnych narzędzi, które służą do dokładnego budowania scenariusza z uwzględnieniem najdrobniejszych szczegółów i niuansów. Dzięki temu eliminujemy do minimum możliwość wystąpienia błędu lub zachowania bota w sposób uniemożliwiający realizację wyznaczonych celów. Jest to również etap, w którym, obok wytworzenia działającego scenariusza, przygotowujemy również interfejsy służące do integracji voicebota z systemami klienta.

4. Bardzo ważnym etapem jest przygotowanie naszego autorskiego rozwiązania NLU – Vosito do rozpoznawania intencji oraz ekstrakcji encji z rozmów. Po odpowiednim procesie wyuczenia narzędzie pozwala rozpoznawać intencje oraz encje w języku polskim oraz języku angielskim.

-Proces rozpoczynamy od wskazania miejsc, w których będziemy potrzebowali skorzystać z rozumienia tekstu. Zbieramy informacje o potencjalnych możliwych wypowiedziach i segregujemy je wskazując najczęściej pojawiające się intencje. 

-Następnie analizujemy sugerowane intencje, które muszą być konkretne i nie mogą być bliskoznaczne. Po wskazaniu możliwych do rozpoznania w danym momencie encji wraz z klientem segregujemy potencjalne możliwe wypowiedzi, na podstawie których uczymy Vosito. Warto podkreślić, że nauczanie sztucznej inteligencji jest procesem bardzo długim i ciągłym. Bardzo rzadko zdarza się, że wyuczymy sztuczną inteligencję tak, aby rozpoznawała intencje już od początku działania produkcyjnego. To właśnie ten moment, jest najlepszy do udoskonalania narzędzia. Nigdy nie osiągniemy również 100% skuteczności rozpoznania intencji. 

5. Proces tworzenia scenariusza wiąże się również z rozpoczęciem testów manualnych. Posiadamy kilka różnych środowisk – w tym środowisko 1:1 zgodne ze środowiskiem produkcyjnym, w którym nasi testerzy mogą testować scenariusze już w trakcie ich wytwarzania. Oczywiście, nie zawsze jest to możliwe – zwłaszcza jeśli klient nie jest nam w stanie dostarczyć swojego środowiska w wersji testowej. Po pozytywnych testach rozpoczynamy proces wdrożenia. Na każdym etapie kontaktujemy się z klientem w celu doboru najbardziej optymalnych rozwiązań. Po zakończonym procesie klient jest szkolony z obsługi systemu oraz otrzymuje dane dostępowe do naszego panelu.

Voicebot kontra ChatGPT

Choć Chat GPT jest bardzo zaawansowanym narzędziem, które rozumie tekst naturalny, potrafi go przetwarzać oraz generować wypowiedzi zrozumiałe dla człowieka, a więc jest wręcz stworzony do prowadzenia rozmowy, to jednak na tę chwilę nie jest on w stanie zastąpić voicebota.

Przede wszystkim nie jesteśmy w stanie zmusić Chata GPT do prowadzenia rozmów zgodnie z naszym oczekiwaniem, co uniemożliwia realizację procesu biznesowego zgodnego z konkretnym planem biznesowym. Poza tym Chat GPT nie może, ale również nie powinien, uzyskać dostępu do wewnętrznych systemów ze względów bezpieczeństwa.

Inne ograniczenia, pomijając fakt, że ma chat ma dostęp tylko do danych z 2021 roku, to generowanie treści, które czasami, choć wydają się prawidłowe, mogą rozmijać się z prawdą lub nie dostarczać żadnej jakości. Z drugiej strony, Chat GPT może być efektywnym wsparciem bota głosowego. 

Jakie procesy wspiera voicebot?

  • Voicebot z dużym powodzeniem realizuje proces NPS, czyli zbierania opinii na temat przebiegu np. wizyty serwisowej czy rozmowy telefonicznej. W takim procesie możemy zadać dowolną liczbę różnego rodzaju pytań np. z prośbą o wyrażenie oceny w skali liczbowej od 1 – 5, z odpowiedzią tak/nie, a także pytania otwarte.

  • Realizujemy również procesy związane z potwierdzeniem wizyty np. w serwisie samochodowym, przychodni lekarskiej, salonie beauty, czy urzędzie. Hellobot jest w stanie poprowadzić rozmowę tak, aby móc wywnioskować czy klient potwierdza wizytę czy nie, a jeśli nie, to dalszymi etapami realizacji scenariusza może być proces uzgadniania przyszłego terminu.

  • Kolejnym scenariuszem, który jesteśmy w stanie zrealizować jest bot windykacyjny, który wykonuje połączenie do potencjalnego dłużnika w celu przedstawienia stanu zadłużeniu oraz pobrania informacji o potencjalnej dacie spłaty należności.

  • Potrafimy również przygotować scenariusz związany z zamawianiem jedzenia, np. pizzy, w którym voicebot, słysząc wymieniane przez klienta składniki, potrafi zidentyfikować rodzaj pizzy oraz wygenerować zamówienie. Pizzabot potrafi również obsłużyć płatność.

  • Voicebot nie musi być koniecznie związany bezpośrednio z rozmową telefoniczną. Rozmowę możemy zrealizować również z poziomu przeglądarki WWW.

  • Poza tym jesteśmy również w stanie obsłużyć infokioski umożliwiając sterowanie nimi z wykorzystaniem głosu.

Podsumowanie

Voice AI to technologia, która odgrywa coraz ważniejszą rolę w biznesie i która znajduje zastosowanie w różnych branżach, od obsługi klienta po edukację i opiekę zdrowotną. To technologia z dużym potencjałem, która może znacznie poprawić procesy biznesowe i interakcję z klientami. Kluczem do sukcesu jest jednak ciągłe doskonalenie i adaptacja do zmieniających się potrzeb klientów.

Share