reklama

Nyní můžeme mluvit s téměř všemi našimi gadgety, ale jak přesně to funguje? Když se zeptáte „Co je to za píseň?“ nebo řekněte „Call Mom“, děje se zázrak moderní techniky. A i když to vypadá jako na špičce, tato myšlenka mluvení se zařízeními sahá až po desetiletí - téměř pokud jde o jetpacky ve sci-fi!

V dnešní době je velká část pozornosti věnovaná hlasové práci na chytrých telefonech. Apple, Amazon, Microsoft a Google jsou na vrcholu řetězce, z nichž každý nabízí svůj vlastní způsob, jak mluvit s elektronikou. Věděli jste, kdo jsou: Siri, Alexa, Cortana a bezejmenná bytost „Ok, Google“. Což vyvolává velkou otázku…

Jak zařízení přijímá mluvená slova a mění je v příkazy, kterým rozumí? V podstatě jde o přizpůsobování vzorů a vytváření předpovědí na základě těchto vzorců. Přesněji řečeno, rozpoznávání hlasu je složitý úkol Akustické modelování a Jazykové modelování.

Akustické modelování: vlnové formy a telefony

průběh

Akustické modelování je proces pořizování průběhu řeči a jeho analýza pomocí statistických modelů. Nejběžnější metoda je

instagram viewer
Skryté Markov modelování, který se používá v tzv výslovnost modelování rozdělit řeč na součásti nazývané telefony (nezaměňovat se skutečnými telefonními zařízeními). Společnost Microsoft je po mnoho let předním vědcem v této oblasti.

Skryté Markovovy modelování: Pravděpodobnostní stavy

Skryté Markovovy modelování je prediktivní matematický model, ve kterém je aktuální stav určen analýzou výstupu. Wikipedia má skvělý příklad pomocí dvou přátel.

Představte si dva přátele - místního přítele a vzdáleného přítele - kteří žijí v různých městech. Místní přítel chce zjistit, jaké je počasí, kde bydlí Remote Friend, ale Remote Friend chce pouze mluvit o tom, co v ten den udělal: chodit, nakupovat nebo čistit. Pravděpodobnost každé aktivity v závislosti na denním počasí.

Skryté Markov modelování

Předstírejte, že toto jsou jediné dostupné informace. Díky tomu může místní přítel najít trendy v tom, jak se počasí mění ze dne na den, a pomocí těchto trendů, ona může začít učit dohady o tom, jaké dnešní počasí bude založeno na včerejší činnosti její přítelkyně. (Schéma systému můžete vidět výše.)

Pokud chcete složitější příklad, podívejte se tento příklad na Matlabu. Při rozpoznávání hlasu tento model v podstatě porovnává každou část tvaru vlny s tím, co přijde dříve a co přijde, a se slovníkem vln, aby zjistil, co se říká.

V podstatě, pokud vydáte „th“ zvuk, zkontroluje tento zvuk proti nejpravděpodobnějším zvukům, které obvykle přicházejí před a po něm. Možná to znamená kontrolu proti zvuku „e“, zvuku „at“ atd. Když vzor odpovídá správně, pak má celé vaše slovo. To je příliš zjednodušené, ale vidíte Celé vysvětlení společnosti Microsoft zde.

Jazykové modelování: více než zvuk

Akustické modelování pomáhá vašemu počítači pochopit vás dlouhou cestu, ale co homonymní a regionální variace výslovnosti? Zde přichází do hry jazykové modelování. Google vedl v této oblasti mnoho výzkumů, zejména pomocí N-gramové modelování.

Když se Google pokouší porozumět vaší řeči, činí tak na základě modelů odvozených od rozsáhlé banky hlasového vyhledávání a přepisů YouTube. Všechny tyto vesele špatné video titulky skutečně pomohly Googlu vyvinout jejich slovníky. Také použili odešel GOOG-411 shromažďovat informace o tom, jak lidé mluví.

shutterstock_70757203

Celá tato sbírka jazyků vytvořila obrovskou škálu výslovností a dialektů, což vytvořilo robustní slovník slov a jak znějí. To umožňuje shody, které mají výrazně sníženou chybovost než přizpůsobení hrubou silou na základě hrubých pravděpodobností. Můžete si přečíst krátký příspěvek popisuje jejich metody zde.

Zatímco Google je v této oblasti lídrem, vyvíjejí se i další matematické modely, včetně nepřetržitého prostoru modely a poziční jazykové modely, což jsou pokročilejší techniky zrozené z výzkumu umělé inteligence. Tyto metody jsou založeny na replikaci toho, co lidé dělají, když si navzájem naslouchají. Jsou mnohem pokročilejší jak z hlediska technologie za nimi, ale také z matematiky a programování potřebného pro zmapování těchto modelů.

N-Gram Modelování: Pravděpodobnost setkává paměť

N-gramové modelování funguje na základě pravděpodobností, ale používá existující slovník slov k vytvoření větvícího se stromu možností, který je pak vyhladěn kvůli efektivitě. Svým způsobem to znamená, že N-gramové modelování odstraňuje spoustu nejistoty ve výše uvedeném skrytém Markovově modelování.

Jak je uvedeno výše, síla této metody vychází z velkého slovníku slova a používání, nejen primitivní zvuky. To dává programu schopnost rozeznat rozdíl mezi homofony, jako „beat“ a „řepa“. Je to kontextové, což znamená, že když mluvíte o skóre minulé noci, program netahá slova o borščovi.

Tyto modely však ve skutečnosti nejsou pro jazyk nejlepší, hlavně kvůli problémům s pravděpodobností slov v delších frázích. Když do věty přidáte další slova, tento model se trochu ztratí, protože je nepravděpodobné, že by vaše počáteční slova načítala vše potřebné pro vaši úplnou myšlenku.

Implementace je však jednoduchá a snadná, díky čemuž se skvěle hodí pro společnost, jako je Google, která rád hází servery s výpočetními problémy. Další čtení si můžete přečíst na N-gram Modelieng na University of Washington, nebo můžete sledovat a přednáška na Coursera.

Křičí v oblacích: aplikace a zařízení

Každý, kdo použil Siri, zná frustrace z pomalého síťového připojení. Je to proto, že vaše příkazy Siri jsou zasílány přes síť, aby je Apple dekódoval. Cortana pro Windows phone také vyžaduje síťové připojení, aby správně fungoval. Naproti tomu Amazon's Echo je pouze reproduktor Bluetooth bez jakéhokoli internetu.

Proč ten rozdíl? Protože Siri a Cortana potřebují pro dekódování vaší řeči těžké servery. Mohlo by se to provést na telefonu nebo tabletu? Jistě, ale během tohoto procesu byste zabili svůj výkon a výdrž baterie. Jen má větší smysl přenést zpracování na vyhrazené stroje.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Přemýšlejte o tom tímto způsobem: vaším příkazem je auto uvízlé v bahně. Pravděpodobně byste to mohli vytlačit sami s dostatečným časem a námahou, ale bude to trvat hodiny a necháte se vyčerpaní. Místo toho zavoláte silniční pomoc a oni vytáhnou vaše auto ven během několika minut. Nevýhodou je, že musíte zavolat a čekat na ně, ale je to stále rychlejší a méně zdanitelné.

Modely stolních počítačů, jako je Nuance, mají tendenci využívat místní zdroje kvůli výkonnějšímu hardwaru. Koneckonců, slovy Steve Jobs, vaše desktop je kamion. (Což dělá to trochu hloupé, že OS X používá servery pro jeho zpracování.) Pokud tedy potřebujete zpracovat jazyk a hlas, je již dostatečně dobře vybaven, aby s ním bylo možné pracovat samostatně.

Na druhé straně Android umožňuje vývojářům zahrnout do svých aplikací rozpoznávání řeči offline. Google se ráda dostává do popředí s technologií a můžete vsadit, že ostatní platformy získají tuto schopnost, protože jejich hardware bude výkonnější. Nikdo nemá rád, když špatné pokrytí nebo špatný příjem lobotomizují své zařízení.

Začněte používat hlasové příkazy nyní

Nyní, když znáte základní pojmy, měli byste si hrát s různými zařízeními. Vyzkoušejte nové hlasové psaní v Dokumentech Google Jak je hlasové psaní novou nejlepší funkcí Dokumentů GoogleRozpoznání hlasu se v posledních letech zlepšilo mílovými kroky. Začátkem tohoto týdne Google konečně zavedl hlasové psaní do Dokumentů Google. Ale je to dobré? Pojďme to zjistit! Přečtěte si více . Jako by sada webových kanceláří již nebyla dostatečně výkonná, hlasové ovládání vám umožňuje zcela diktovat a formátovat dokumenty. Rozšiřuje se o výkonnou technologii, kterou již navrhli pro Chrome a Android.

Mezi další nápady patří nastavení Mac používá hlasové příkazy Jak používat hlasové příkazy v počítači Mac Přečtěte si více a nastavení vašeho Amazon Echo s automatickou pokladnou Jak Amazon Echo může z vašeho domova udělat inteligentní domovInteligentní domácí technologie je stále v počátcích, ale nový produkt z Amazonu nazvaný „Echo“ může pomoci přivést jej do hlavního proudu. Přečtěte si více . Žijte v budoucnu a přijímejte rozhovory se svými miniaplikacemi - i když si právě objednáváte více papírových ručníků. Pokud jste závislí na smartphonu, máme pro vás také návody Siri 8 věcí, které jste si pravděpodobně neuvědomiliSiri se stal jednou z definujících funkcí iPhone, ale pro mnoho lidí to není vždy nejužitečnější. Zatímco některé z toho je kvůli omezením rozpoznávání hlasu, zvláštnost používání ... Přečtěte si více , Cortana 6 nejlepších věcí, které můžete ovládat pomocí Cortany ve Windows 10Cortana vám může pomoci se systémem handsfree v systému Windows 10. Můžete jí nechat prohledávat vaše soubory a web, provádět výpočty nebo zvyšovat předpověď počasí. Zde se zabýváme některými z jejích chladnějších schopností. Přečtěte si více , a Android OK, Google: 20 užitečných věcí, které můžete ve svém telefonu Android říciAsistent Google vám může pomoci udělat hodně na telefonu. Zde je celá řada základních, ale užitečných příkazů OK Google, které můžete vyzkoušet. Přečtěte si více .

Jaké je vaše oblíbené používání hlasového ovládání? Dejte nám vědět v komentářích.

Obrazové kredity: T-flex prostřednictvím Shutterstocku, Terencehonles prostřednictvím Wikimedia Foundation, Arizonský stát, Cienpies Design přes Shutterstock

Michael nepoužíval Mac, když byli odsouzeni k zániku, ale může kódovat v Applescript. Vystudoval informatiku a angličtinu; už nějakou dobu píše o Mac, iOS a videohrách; a už přes deset let je denní IT opicí, specializující se na skriptování a virtualizaci.