Alexa, cum funcționează Siri? Controlul vocal este explicat
Putem vorbi acum aproape cu toate gadget-urile noastre, dar exact cum funcționează? Când întrebi “Ce cântec este acesta?” sau spune “Sun-o pe mama”, un miracol de tehnologie modernă se întâmplă. Și în timp ce se simte ca și cum ar fi pe marginea de taiere, această idee de a vorbi cu dispozitive merge înapoi decenii - aproape în măsura în care jetpacks în science fiction!
Astăzi, cea mai mare parte a atenției acordate calculatoarelor bazate pe voce este pe telefoanele inteligente. Apple, Amazon, Microsoft și Google sunt în partea de sus a lanțului, fiecare oferind un mod propriu de a vorbi cu electronica. Știți cine sunt: Siri, Alexa, Cortana și cei fără nume “Ok, Google” fiind. Care ridică o mare întrebare ...
Cum poate un dispozitiv să ia cuvinte vorbite și să le transforme în comenzi pe care le poate înțelege? În esență, este vorba despre potrivirea modelului și despre realizarea predicțiilor pe baza acestor modele. Mai exact, recunoașterea vocii este o sarcină complexă Modelarea acustică și Modelarea lingvistică.
Modelarea acustică: forme de undă și telefoane
Modelarea acustică este procesul de luare a unei forme de undă a vorbirii și de analiză a acesteia utilizând modele statistice. Cea mai obișnuită metodă pentru acest lucru este Hidden Markov Modeling, care este folosit în ceea ce se numește modelare a pronunției pentru a rupe vorbirea în părți componente numite telefoane (pentru a nu fi confundată cu dispozitivele telefonice reale). Microsoft a fost un cercetător de frunte în acest domeniu de mulți ani.
Modelul ascuns de Markov: Probabilitatea statelor
Hidden Markov Modeling este un model matematic predictiv în care starea curentă este determinată prin analiza rezultatelor. Wikipedia are un exemplu excelent folosind doi prieteni.
Imaginați-vă doi prieteni - prietenul local și prietenul de la distanță - care locuiesc în diferite orașe. Prietenul local dorește să-și dea seama ce vreme este ca în cazul în care trăiește prietenul de la distanță, dar prietenul de la distanță vrea doar să vorbească despre ceea ce a făcut în acea zi: mergeți, cumpărați sau curățați. Probabilitatea fiecărei activități depinde de vremea zilei.
Pretindeți că aceasta este singura informație disponibilă. Cu aceasta, prietenul local poate găsi tendințe în modul în care s-a schimbat vremea din zi în zi și, folosind aceste tendințe, poate începe să facă presupuneri educate despre ceea ce vremea de astăzi se va baza pe activitatea prietenului ei ieri. (Puteți vedea o diagramă a sistemului de mai sus.)
Dacă doriți un exemplu mai complex, verificați acest exemplu pe Matlab. În recunoașterea vocii, acest model compară în esență fiecare parte a formei de undă cu ceea ce se întâmplă înainte și ce urmează și împotriva unui dicționar de forme de undă pentru a afla ce se spune.
În esență, dacă faci a “lea” sunet, va verifica sunetul împotriva sunetelor cele mai probabile care apar de obicei înainte și după. Poate că asta înseamnă verificarea împotriva “e” sunetul, “la” sunet și așa mai departe. Atunci când modelul se potrivește corect, atunci are întregul cuvânt. Aceasta este o simplificare exagerată, dar puteți vedea întreaga explicație a Microsoft aici.
Modelarea lingvistică: mai mult decât sunetul
Modelarea acustică merge mult în a vă ajuta computerul să vă înțeleagă, dar ce este vorba despre omonimele și variațiile regionale în pronunție? Acesta este modul în care lanțul de modelare intră în joc. Google a condus o mulțime de cercetări în acest domeniu, în principal prin utilizarea Modelare N-gram.
Atunci când Google încearcă să înțeleagă discursul tău, se bazează pe modele derivate din banca sa masivă de căutare voce și transcrieri YouTube. Toate aceste subtitrări video greșite au ajutat Google să-și dezvolte dicționarele. De asemenea, au folosit GOOG-411 plecat pentru a colecta informații despre modul în care vorbesc oamenii.
Această colecție de limbi a creat o gamă largă de pronunții și dialecte, ceea ce a dus la un dicționar robust de cuvinte și la modul în care acestea au sunat. Acest lucru permite potriviri care au o rată de eroare mult redusă decât potrivirea forței brute bazată pe probabilități brute. Puteți citi o scurtă lucrare care descrie metodele lor aici.
În timp ce Google este lider în acest domeniu, există și alte modele matematice dezvoltate, inclusiv modele de spațiu continuu și modele de limbă pozițională, care sunt tehnici mai avansate provenite din cercetarea în domeniul inteligenței artificiale. Aceste metode se bazează pe replicarea felului raționamentului pe care îl fac oamenii atunci când se ascultă reciproc. Acestea sunt mult mai avansate atât în ceea ce privește tehnologia din spatele lor, cât și matematica și programarea necesare pentru a identifica aceste modele.
Modelarea N-Gram: Probabilitatea întâlnește memoria
N-gram Modeling funcționează pe baza probabilităților, dar utilizează un dicționar de cuvinte existent pentru a crea un arbore de posibilități ramificate, care este apoi netezit din motive de eficiență. Într-un fel, acest lucru înseamnă că modelarea N-gramelor îndepărtează cu multă incertitudine modelul ascuns Markov Modeling.
După cum sa menționat mai sus, puterea acestei metode provine de la a avea un dicționar mare cuvinte și folosire, nu doar primitiv sunete. Acest lucru oferă programului posibilitatea de a spune diferența dintre homofone, cum ar fi “bate” și “Sfeclă”. Este contextual, ceea ce înseamnă că atunci când vorbești despre scorurile de seara trecută, programul nu trage cuvintele despre borscht.
Dar aceste modele nu sunt de fapt cele mai bune pentru limbă, în principal din cauza problemelor cu probabilități de cuvinte în fraze mai lungi. Pe măsură ce adăugați mai multe cuvinte într-o propoziție, acest model devine puțin, deoarece este puțin probabil ca cuvintele voastre timpurii să fi încărcat tot ceea ce este necesar pentru a vă gândi complet.
Cu toate acestea, este simplu și ușor de implementat, făcându-l o potrivire excelentă pentru o companie ca Google care se bucură de aruncarea serverelor la probleme de calcul. Poți să faci o lectură suplimentară pe N-gram Modelieng la Universitatea din Washington sau poți viziona o cursă la Coursera.
Shouting at Clouds: Aplicații și dispozitive
Oricine a folosit Siri știe frustrarea legăturii de rețea lentă. Acest lucru se datorează faptului că comenzile dvs. către Siri sunt trimise prin rețea pentru a fi decodificate de Apple. Telefonul Cortana pentru Windows necesită, de asemenea, o conexiune de rețea pentru a funcționa corect. În contrast, cu toate acestea, Echo Amazon este doar un difuzor Bluetooth fără nici un Internet.
De ce diferența? Deoarece Siri și Cortana au nevoie de servere grele pentru a vă decoda discursul. Ar putea fi făcută pe telefon sau pe tabletă? Sigur, dar ți-ai ucide performanța și durata de viață a bateriei în acest proces. Pur și simplu are mai mult sens pentru a descărca procesarea pe mașini dedicate.
Gândește-te în felul acesta: comanda ta este o mașină blocată în noroi. Probabil că ați putea să vă împingeți cu suficient timp și efort, dar va dura ore întregi și vă va lăsa epuizați. În schimb, numiți asistență rutieră și vă trag mașina în doar câteva minute. Dezavantajul este că trebuie să faceți apelul și să îl așteptați, dar este încă mai rapid și mai puțin impozabil.
Modelele desktop precum Nuance tind să utilizeze resurse locale datorită hardware-ului mai puternic. La urma urmei, în cuvintele lui Steve Jobs, desktopul dvs. este un camion. (Ceea ce face un pic prostie că OS X folosește serverele pentru procesarea acestuia.) Deci, atunci când trebuie să procesați limba și vocea, este deja echipată suficient de bine pentru a se descurca singur.
Pe de altă parte, Android permite dezvoltatorilor să includă recunoașterea vocală offline în aplicațiile lor. Google îi place să câștige mai mult decât tehnologia și puteți să pariați că celelalte platforme vor câștiga această abilitate deoarece hardware-ul lor devine mai puternic. Nimănui nu-i place când o acoperire slabă sau o recepție proastă lobotează dispozitivul.
Începeți să utilizați comenzile vocale acum
Acum, că cunoașteți conceptele fundamentale, ar trebui să jucați cu diferitele dvs. dispozitive. Încercați noua tastare vocală în Google Docs Cum este tastarea prin voce este cea mai bună caracteristică a Google Docs Cum este tastarea prin voce este cea mai bună caracteristică a Google Docs Recunoașterea vocii sa îmbunătățit prin salturi și limite în ultimii ani. La începutul acestei săptămâni, Google a introdus în cele din urmă tastarea de voce în Google Docs. Dar este ceva bun? Să aflăm! Citeste mai mult . Ca și cum suita de birouri Web nu era deja suficient de puternică, controlul vocii vă permite să dictați și să vă formatați complet documentele. Acest lucru se extinde pe tehnologia puternică pe care deja au proiectat-o pentru Chrome și Android.
Alte idei includ setarea unui Mac pentru a folosi comenzi vocale Cum se utilizează comenzile de vorbire pe Mac Cum se utilizează comenzile de vorbire pe Mac Citiți mai multe și configurarea dvs. Echo Amazon cu checkout automatizat Cum Amazon Echo poate face acasă o Smart Home Cum Amazon Echo poate face casa ta o locuință inteligentă Tehnologia smart home este încă în primele sale zile, dar un nou produs de la Amazon numit "Echo" poate ajuta să-l aducă în mainstream. Citeste mai mult . Vii în viitor și îmbrățișează-ți vorbirea cu gadgeturile tale - chiar dacă vrei să comandi mai mult prosoape de hârtie. Dacă sunteți un dependent de smartphone, am primit și tutoriale pentru Siri 8 lucruri pe care probabil că nu le-ați realizat Siri ar putea face 8 lucruri pe care probabil nu le-ați realizat Siri ar putea face Siri a devenit una dintre trăsăturile definitorii ale iPhone-ului, mulți oameni, nu este întotdeauna cel mai util. În timp ce o parte din acest lucru se datorează limitărilor de recunoaștere a vocii, ciudățenia de a folosi ... Citește mai mult, Cortana 6 lucruri mai tari pe care le poți controla cu Cortana în Windows 10 6 Cele mai tari lucruri pe care le poți controla cu Cortana în Windows 10 Cortana te poate ajuta să mergi pe mâini -free pe Windows 10. Puteți să-i lăsați să caute fișierele și web-ul, să facă calcule sau să ridice prognozele meteo. Aici acoperim unele dintre abilitățile ei mai reci. Citiți mai multe și Android OK, Google: 20 Lucruri utile pe care le puteți spune telefonului dvs. Android OK, Google: 20 lucruri utile puteți spune la telefonul dvs. Android Asistentul Google vă poate ajuta să obțineți o mulțime de făcut pe telefon. Iată o grămadă de comenzi Google de bază, dar utile pentru a încerca. Citeste mai mult .
Care este utilizarea preferată a controlului vocal? Spuneți-ne în comentariile.
Credite de imagine: T-flex prin Shutterstock, Terencehonles prin Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock
Explorați mai multe despre: Amazon Echo, Microsoft Cortana, OK Google, Siri, Comenzi vocale.