Rozpoznávání hlasu je úžasné, ale jak se stalo tak dobrým?

Technologie rozpoznávání hlasu má bohatou historii vývoje, která ji dovedla k tomu, čím je dnes. Je to jádro moderního života a dává nám schopnost dělat úkoly pouhým rozhovorem se zařízením. Jak se tedy tato úžasná technologie za ta léta vyvinula? Podívejme se.

1952: Systém Audrey

K prvnímu kroku v rozpoznávání hlasu došlo na počátku 50. let minulého století. Společnost Bell Laboratories vyvinula první stroj, který dokázal porozumět lidskému hlasu, v roce 1952 a dostal jméno Audrey System. Jméno Audrey bylo jakýmsi zkrácením fráze Automatické rozpoznávání číslic. I když se jednalo o zásadní inovaci, měla několik zásadních omezení.

Nejvýrazněji Audrey rozeznávala pouze číslice 0-9, žádná slova. Audrey by poskytla zpětnou vazbu, když mluvčí řekl číslo rozsvícením 1 z 10 žárovek, z nichž každá odpovídá číslici.

Uznání: metamorworks/Shutterstock.com

Ačkoli to dokázalo porozumět číslům s 90% přesností, Audrey byla omezena na konkrétní typ hlasu. To je důvod, proč jediný člověk, který by to opravdu použil, byl HK Davis, jeden z vývojářů. Když bylo vysloveno číslo, mluvčí musel počkat nejméně 300 milisekund, než řekl další.

instagram viewer

Nejenže byla omezena funkčnost, ale byla omezena také užitečnost. Stroj, který rozuměl pouze číslům, moc nevyužil. Jedním z možných použití bylo vytáčení telefonních čísel, ale bylo mnohem rychlejší a snazší volit čísla ručně. Ačkoli Audrey neměla půvabnou existenci, stále je to velký milník v lidských úspěších.

Příbuzný: Jak používat hlasové zadávání v aplikaci Microsoft Word

1962: Shoebox společnosti IBM

Deset let po Audrey se IBM pokusila vyvinout systém rozpoznávání hlasu. Na světové výstavě v roce 1962 IBM předvedla systém rozpoznávání hlasu s názvem Showbox. Stejně jako Audrey bylo jeho hlavním úkolem porozumět číslicím 0-9, ale rozumělo také šesti slovům: plus, mínus, nepravda, součet, mezisoučet a vypnuto.

Shoebox byl matematický stroj, který uměl jednoduché aritmetické úlohy. Pokud jde o zpětnou vazbu, místo světel dokázal Shoebox vytisknout výsledky na papír. Díky tomu byl užitečný jako kalkulačka, i když mluvčí by se stále musel mezi jednotlivými čísly/slovy pozastavovat.

1971: Automatická identifikace volání IBM

Po Audrey a Shoebox vyvinuly další laboratoře po celém světě technologii rozpoznávání hlasu. Vzlétlo však až v 70. letech minulého století, kdy v roce 1971 uvedla společnost IBM na trh první vynález svého druhu. Říkalo se mu systém automatické identifikace hovorů. Jednalo se o první systém rozpoznávání hlasu, který byl použit v telefonním systému.

Inženýři zavolali a byli připojeni k počítači v Raleighu v Severní Karolíně. Volající by poté vyslovil jedno z 5 000 slov ve svém slovníku a jako odpověď by dostal „mluvenou“ odpověď.

Příbuzný: Jak používat hlasové diktování na počítačích Mac

1976: Harpyje

Na začátku 70. let se americké ministerstvo obrany zajímalo o rozpoznávání hlasu. DARPA (Defense Advanced Research Projects Agency) vyvinula program Speech Understanding Research (SUR) v roce 1971. Tento program poskytl financování několika společnostem a univerzitám na podporu výzkumu a vývoje pro rozpoznávání hlasu.

V roce 1976, kvůli SUR, Carnegie Mellon University vyvinula Harpy System. To byl velký skok v technologii rozpoznávání hlasu. Systémy do té doby byly schopné porozumět slovům a číslům, ale Harpyje byla jedinečná v tom, že rozuměla plným větám.

Měl slovní zásobu asi 1 011 slov, což podle publikace od B. Lowerre a R. Reddy, což odpovídá více než bilionu různých možných vět. Publikace pak uvádí, že Harpy porozuměl slovům s přesností 93,77%.

Osmdesátá léta byla klíčovým časem pro technologii rozpoznávání hlasu, protože toto je desetiletí, kdy hlas rozpoznávací technologie, protože to bylo desetiletí, kdy jsme byli seznámeni se skrytou Markovovou metodou (HMM). Hlavní hybnou silou HMM je pravděpodobnost.

Kdykoli systém zaregistruje foném (nejmenší prvek řeči), existuje určitá pravděpodobnost toho, co bude další. HMM používá tyto pravděpodobnosti k určení, který foném s největší pravděpodobností přijde jako další, a vytvoří nejpravděpodobnější slova. Většina systémů rozpoznávání hlasu dnes stále používá HMM k porozumění řeči.

Devadesátá léta: Hlasové rozpoznávání zasahuje na spotřebitelský trh

Od koncepce technologie rozpoznávání hlasu je na cestě najít prostor na spotřebitelském trhu. V 80. letech představila společnost IBM prototyp počítače, který uměl diktovat řeč na text. Až na začátku devadesátých let však lidé začali vidět takové aplikace ve svých domovech.

V roce 1990 Dragon Systems představil první software pro diktování řeči na text. Říkalo se mu Dragon Dictate a původně vyšlo pro Windows. Tento program za 9 000 $ byl revoluční v tom, že přinesl technologii rozpoznávání hlasu masám, ale měla jednu chybu. Použitý software diskrétní diktát, což znamená, že uživatel musí mezi jednotlivými slovy pozastavit, aby je program vyzvedl.

V roce 1996 IBM opět přispěla do průmyslu Medspeak. Byl to také program diktování řeči na text, ale netrpěl diskrétní identifikací jako Dragon Dictate. Místo toho tento program mohl diktovat souvislou řeč, což z něj činilo přesvědčivější produkt.

Příbuzný: Jak používat Google Assistant se sluchátky

2010: Dívka jménem Siri

Skrz 2000s, technologie rozpoznávání hlasu explodovala v popularitě. Byl implementován do více softwaru a hardwaru než kdykoli předtím a jedním z klíčových kroků ve vývoji rozpoznávání hlasu byl Siri, digitální asistent. V roce 2010 společnost jménem Siri představila virtuálního asistenta jako aplikaci pro iOS.

V té době byla Siri působivým softwarovým vybavením, které dokázalo diktovat, co mluvčí říká, a poskytnout vzdělanou a vtipnou odpověď. Tento program byl tak působivý, že ve stejném roce získala společnost společnost Apple a Siriho trochu přepracovala a posunula směrem k digitálnímu asistentovi, kterého dnes známe.

Právě prostřednictvím společnosti Apple získal Siri svůj ikonický hlas (hlas Susan Benett) a řadu nových funkcí. Používá zpracování přirozeného jazyka ovládat většinu funkcí systému.

2010s: The Big 4 Digital Assistants

V současné době dominují rozpoznávání hlasu a další software čtyři velcí digitální asistenti.

Siri je přítomen téměř ve všech produktech společnosti Apple: iPhony, iPody, iPady a počítače řady Mac.
Google Assistant je k dispozici na většině ze 3 miliard zařízení Android + na trhu. Kromě toho mohou uživatelé používat příkazy v mnoha službách Googlejako Google Home.
Amazon Alexa nemá mnoho vyhrazené platformy, kde bydlel, ale stále je to prominentní asistent. Je k dispozici ke stažení a použití na zařízeních Android a zařízeních Apple. a dokonce i vybrané notebooky Lenovo
Bixby je nejnovějším záznamem v seznamu digitálních asistentů. Je to domácí digitální asistent společnosti Samsung a je přítomen mezi telefony a tablety společnosti.

Mluvená historie

Rozpoznávání hlasu ušlo od dob Audrey dlouhou cestu. Bylo to velké zisky ve více oblastech; například podle Clear Bridge Mobile„Lékařská oblast během pandemie v roce 2020 těžila z hlasově ovládaných chatbotů. Od schopnosti porozumět číslům až po pochopení různých variací celých vět se rozpoznávání hlasu ukazuje jako jedna z nejužitečnějších technologií naší moderní doby.

PodíltweetE-mailem

Jak funguje rozpoznávání hlasu?

Rozpoznávání hlasu používáme neustále, ale jak to funguje?

Číst dále

Související témata

Technologie vysvětlena
Siri
Google Assistant
Alexa
Bixby
Hlasové příkazy

O autorovi

Arthur Brown (31 článků zveřejněno)

Arthur je technologický novinář a hudebník žijící v Americe. V oboru působí téměř deset let, psal pro online publikace, jako jsou Android Headlines. Má hluboké znalosti systému Android a ChromeOS. Spolu s psaním informačních článků je také zběhlý v hlášení technických novinek.

Více od Arthura Browna

Přihlaste se k odběru našeho zpravodaje

Připojte se k našemu zpravodaji a získejte technické tipy, recenze, bezplatné elektronické knihy a exkluzivní nabídky!

Kliknutím sem se přihlásíte k odběru

About Technology - denizatm.com

Rozpoznávání hlasu je úžasné, ale jak se stalo tak dobrým?

1952: Systém Audrey

1962: Shoebox společnosti IBM

1971: Automatická identifikace volání IBM

1976: Harpyje

Devadesátá léta: Hlasové rozpoznávání zasahuje na spotřebitelský trh

2010: Dívka jménem Siri

2010s: The Big 4 Digital Assistants

Mluvená historie

Přihlaste se k odběru našeho zpravodaje

kategorie

Recent Post

Proč se moje komentáře na stránkách Facebooku zobrazují jako anonymní?

Měl by být kovový kryt PC uzemněn?

Mohu tento soubor bezpečně smazat ze svého počítače se systémem Windows XP?