Detekce frází je jen součástí procesu.

Křičet „Ok Google“ z druhé strany místnosti, aby se změnila hudba nebo zhasla světla v místnosti, je to opravdu cítit neuvěřitelné, ale tento zdánlivě jednoduchý proces je poháněn komplikovanou sítí technologií fungujících za ním scény.

Téměř každý velký virtuální asistent na trhu má volací frázi, kterou používáte k probuzení asistenta a konverzaci. Jak ale hlasoví asistenti poznají, když s nimi mluvíte?

Jak funguje detekce frází?

Jak již bylo zmíněno výše, každý hlasový asistent má „spouštěcí frázi“ neboli budící slovo, které používáte k probuzení asistenta a zadávání dalších příkazů. Proces detekce této fráze je až na drobné nuance víceméně stejný u každého asistenta. To znamená, že tyto nuance mohou znamenat rozdíl mezi náhodným vyslovením příkazu k probuzení a jeho opakovaným zakřičením čas jen pro asistenta, aby dál spal, což může být někdy opravdu nepříjemné, zvláště pokud jste vy pomocí hlasového asistenta, který vám pomůže uklidnit se.

Image Credit: graphicsstudio/Vecteezy
instagram viewer

Obecně platí, že většina „chytrých“ reproduktorů má malý obvod, jehož jediným úkolem je detekovat povel probuzení a poté uvést do činnosti zbytek hardwaru. Většina zpracování se provádí v cloudu, ale detekce fráze je ze zřejmých důvodů ochrany soukromí na zařízení. Detekce frází na telefonech funguje víceméně stejně.

Specifika jsou většinou pod pokličkou, ale tyto detekční systémy využívají strojové učení a hluboké neuronové sítě (DNN) k trénování modelů umělé inteligence, aby detekovaly váš hlas a vytvořily klíč. Tento klíč se pak používá k ověření, kdy jste řekli konkrétní frázi, a vše ostatní je odesláno do cloudu k dalšímu zpracování.

Google Assistant

Telefony, které podporují detekci „OK Google“, se obvykle dodávají se systémem rozpoznávání klíčových slov (KWS), který detekuje frázi a poté opraví zbytek vašeho dotazu do cloudu. Vzhledem k tomu, že mobilní zařízení mají omezený výpočetní výkon a také omezenou výdrž baterie, nejsou tyto systémy obvykle tak dobré jako ty, které byste našli na reproduktorech Google Nest.

Tento systém KWS na zařízení nepřetržitě snímá zvuk z mikrofonů zařízení a zahajuje připojení k serveru, když detekuje spouštěcí frázi. Google také používá server-side Contextual Automatic Speech Recognition (ASR) ke zlepšení celkové přesnosti svého systému KWS. Více si o tom můžete přečíst v Výzkumný dokument Google [PDF].

Siri

Siri funguje stejně jako Google Assistant, pokud jde o detekci „Hey Siri“. Apple byl překvapivě otevřený ohledně toho, jak systém funguje, což zahrnuje „velmi malý“ rozpoznávač řeči, který běží na pozadí a poslouchá pouze tato dvě slova. Tento detektor používá DNN k převodu akustického vzoru vašeho hlasu zaznamenaného v každém případě na rozdělení pravděpodobnosti mezi zvuky řeči, což v podstatě vytváří skóre spolehlivosti.

Váš iPhone nebo Apple Watch to dělá tak, že mění váš hlas na proud vzorků křivek rychlostí 16 000 za sekundu. To se pak zkrátí na sekvenci snímků pokrývajících zvukové spektrum asi 0,01 sekundy. Poté je celkem 20 těchto snímků přivedeno do detekčního modelu, který tyto vzory převede na pravděpodobnost.

Kredit obrázku: Jablko

Pokud systém s dostatečnou jistotou určí, že jste řekli „Ahoj Siri“, Siri se probudí a pošle zbytek dotazu do cloudu, kde probíhá další analýza a kde se provede jakákoli požadovaná akce provedeno.

K zajištění účinnosti paměti a baterie jsou samozřejmě přidána další opatření. Always On Processor (AOP) vašeho iPhonu má přístup k mikrofonům zařízení (na iPhonu 6S a novějších) právě z tohoto důvodu a malá část jeho výpočetního výkonu je vyhrazena pro provoz DNN. Apple se hluboce ponoří do celého systému na svém webu strojového učení, strojové učení.apple.

Alexa

Stejně jako Google Assistant a Siri, Alexa také neuchovává většinu svého výpočetního výkonu na žádném z reproduktorů Echo, které si můžete koupit. Místo toho reproduktory používají to, co Amazon nazývá automatické rozpoznávání řeči (ASR), které v podstatě převádí mluvená slova na text, což umožňuje základnímu systému je interpretovat a podle toho jednat.

ASR tvoří základní základ toho, jak Alexa funguje. Opět je tu palubní systém, který poslouchá slova probuzení, v tomto případě „Alexa“, „Amazon“, „Echo“ nebo „Computer“ a spouští zbytek systému, když je probuzení předem určené uživatelem zjištěno. Můžete dokonce probuďte zařízení Alexa pomocí „Hey Disney“ jestli chceš.

Stejně jako Google Assistant můžete trénovat základní model umělé inteligence Alexa, aby lépe detekoval váš hlas. Tento proces zahrnuje vytvoření základního „klíče“, se kterým se porovnává mluvené budící slovo, a když je nalezena shoda, zařízení odpovídajícím způsobem zareaguje.

Poslouchají hlasoví asistenti vždy?

Jak už asi tušíte, ano, jsou. Neexistuje způsob, jak by jinak byli schopni detekovat slova probuzení. Kvůli obavám o soukromí však zatím nemusíte vyhazovat všechny chytré reproduktory.

Naslouchat všemu, co uživatelé říkají, posílat to zpět na vzdálený server a analyzovat (nebo uložit). vyžaduje obrovské hardwarové a finanční zdroje do té míry, že to z praktického hlediska nedává smysl perspektivní. Když se k tomu přidají obrovské obavy o soukromí, které již řeší společnosti jako Google, Apple a Amazon, nápad nedává smysl.

To také výrazně ovlivňuje výkon telefonů a výdrž baterie díky funkcím detekce slov probuzení, zejména Google Pixel a iPhone. Pokud váš telefon nepřetržitě poslouchá, co říkáte, a posílá tento zvuk zpět na vzdálený server, vybije vám baterii a sníží výkon zařízení.

Kdo má nejúčinnější detekci frází a proč?

Není snadné objektivně porovnat, který virtuální asistent má nejlepší objektivní detekci frází, protože všichni používají mírně odlišné implementace stejného celkového konceptu. Zdá se však, že Google má konzistentnější detekci frází díky náskoku Google Assistant ve srovnání se Siri a Alexou.

Navzdory tomu, že se aplikace využívající velké jazykové modely (LLM), jako je ChatGPT a Bing Chat, staly mainstreamovými, Asistent Google si udržuje pozici jedné z nejvíce oblíbení virtuální asistenti jednoduše proto, že jsou na klepnutí na každém zařízení Android, od chytrých televizorů až po autorádia a samozřejmě chytré telefony.

Siri a Alexa mají v tomto oddělení co dohánět, ale pokud jde o detekci frází, nejsou tak daleko. Přesto budete mít větší šanci probudit Asistenta Google na vašem Pixelu z celé místnosti, než kdybyste se Siri na iPhonu, i když rozšiřte možnosti Siri pomocí režimu Super Siri. Vzhledem k tomu, že Alexa se většinou používá na řadě reproduktorů Amazon Echo, má zde mírnou výhodu, vezmeme-li v úvahu, že tyto reproduktory jsou navrženy tak, aby dokázaly zachytit hlas uživatele.

Umělá inteligence je tak strašidelná, jako je pohodlná

Přivolání asistenta umělé inteligence pouhým hlasem může přijít docela vhod. U funkce, která se hladce integruje do našich životů, se v zákulisí děje mnoho, o čem většina z nás často nepřemýšlí.

To znamená, že toto pohodlí s sebou také přináší neklid, že vaše zařízení vždy poslouchá, co říkáte. Mezi tím, co váš virtuální asistent slyší, a tím, co říkáte, zatím stojí rozpoznávače řeči na zařízení a slova probuzení.