AI voi varata ravintolan tai hiusten nimittämisen, mutta älä odota koko keskustelua Oletko varma, että AI-avustaja voi varata ajanvarauksen sinulle, mutta entä merkityksellinen keskustelu? Shutterstock / Bas Nastassia

Google äskettäin paljastettiin sen viimeisin puhuva AI, nimeltään Duplex. Kaksipuolinen ääni kuulostaa oikealta henkilöltä, ja siinä on taukoja, umms ja ahhs.

Teknologia jättiläinen sanoo, että se voi puhua ihmisille puhelimitse sopiakseen tapaamisia ja tarkistaaksesi aukioloajat.

Kaksipuolinen aikataulu kampaamo aikataulusta. Google445 KB (Lataa)

Tallennetuissa keskusteluissa, joita pelattiin Googlen paljastamisessa, se keskusteli saumattomasti vastaanottavan pään ihmisten kanssa, jotka näyttivät olevan täysin tietämättömiä siitä, että he eivät puhu toisen henkilön kanssa.

Duplex kutsuu ravintolaa. Google399 KB (Lataa)

Nämä puhelut jättivät teknologiakeskeinen yleisö Googlessa näyttää ahkeruutta ja hurraa. Yhdessä esimerkissä AI jopa ymmärsi, kun puhuttava henkilö oli sekoittunut, ja pystyi jatkamaan keskustelua ja vastaamaan asianmukaisesti, kun kerrottiin, ettei sen tarvitse tehdä varausta.


sisäinen tilausgrafiikka


AI-avustajien nousu

Jos olet käyttänyt jotakin tällä hetkellä saatavilla olevista äänenapulaisista, kuten Google Home, Applen Siri tai Amazon Echo, tämä joustavuus saattaa yllättää sinut. Nämä avustajat ovat tunnetusti vaikeaa käyttää muuhun kuin tavallisiin pyyntöihin, kuten soittaa yhteystiedolle, toistaa kappaleita, tehdä yksinkertainen verkkohaku tai asettaa muistutus.

Kun puhumme näiden nykyisen sukupolven avustajien kanssa, tiedämme aina, että puhumme AI: n kanssa ja räätälöimme usein vastaavasti sanomamme tavalla, jonka toivomme maksimoivan mahdollisuutesi saada se toimimaan.

Mutta Duplexin kanssa puhuvilla ihmisillä ei ollut aavistustakaan. He epäröivät, peruuttivat, ohittivat sanat ja muuttivat tosiasioita jopa osittain lauseen kautta. Duplex ei huomannut lyöntiä. Tuntui todella ymmärtävän mitä tapahtui.


Lue lisää: Älykkäät kaiuttimet voisivat olla kodin automaation kärkipaikka


Joten tulevaisuus on saapunut aikaisemmin kuin kukaan odotti? Onko maailma pian täynnä verkossa (ja puhelimitse) toimivia AI-avustajia, jotka keskustelevat onnellisina ja tekevät kaiken meidän puolestamme? Tai vielä pahempaa: ympäröivätkö meidät yhtäkkiä älykkäät AI: t, joilla on omat ajatuksensa ja ideansa, jotka voivat sisältää meidät ihmiset?

Vastaus on selvä "ei". Ymmärtääksesi miksi, se auttaa katsomaan nopeasti konepellin alla sitä, mikä ajaa tämänkaltaista AI: ta.

Kaksipuolinen: miten se toimii

Tämä on mitä Kaksipuolinen AI-järjestelmä näyttää.

Saapuva ääni prosessoidaan ASR-järjestelmän kautta. Tämä tuottaa tekstiä, jota analysoidaan kontekstidatan ja muiden syötteiden kanssa, jotta saadaan vastausteksti, joka luetaan ääneen tekstin puheeksi (TTS) -järjestelmän kautta. Google

Järjestelmä ottaa ”tulon” (näkyy vasemmalla), joka on sen henkilön ääni, jonka kanssa hän puhuu puhelimessa. Ääni käy läpi automaattisen puhetunnistuksen (ASR) ja muuttuu tekstiksi (kirjoitetut sanat). ASR on itsessään edistynyt AI-järjestelmä, mutta tyyppi, joka on jo yleisesti käytössä nykyisissä puheavustajissa.

Sitten teksti skannataan sen lauseen tyypin määrittämiseksi (kuten tervehdys, lausunto, kysymys tai ohje) ja poistetaan kaikki tärkeät tiedot. Tärkeimmistä tiedoista tulee sitten osa kontekstiä, joka on ylimääräinen syöttö, joka pitää järjestelmän ajan tasalla keskustelussa toistaiseksi sanotun kanssa.

ASR: n ja kontekstin teksti lähetetään sitten Duplexin sydämeen, jota kutsutaan keinotekoiseksi hermoverkoksi (ANN).

Yllä olevassa kaaviossa ANN on esitetty ympyröillä ja niitä yhdistävillä viivoilla. ANNs on mallinnettu löysästi aivoihimme, joilla on miljardeja neuroneja kytkettynä valtavaan verkkoon.

Ei vielä aivot

ANN ovat kuitenkin paljon yksinkertaisempia kuin aivomme. Ainoa asia, mitä tämä yrittää tehdä, on yhdistää syötesanat asianmukaiseen vastaukseen. ANN oppii näyttämällä kopioita tuhansista keskusteluista ihmisistä, jotka tekevät varauksia ravintoloihin.

Riittävinä esimerkein se oppii, millaisia ​​syöttölauseita voi odottaa henkilöltä, jonka kanssa puhutaan, ja millaisia ​​vastauksia antaa jokaiselle.

ANN: n generoima tekstivastaus lähetetään sitten tekstistä puheeksi (TTS) -syntetisaattoriin, joka muuntaa sen puhuttuiksi sanoiksi, jotka soitetaan sitten puhelimessa olevalle henkilölle.

Jälleen kerran, tämä TTS-syntetisaattori on edistyksellinen AI - tässä tapauksessa se on edistyneempi kuin puhelimesi, koska se kuulostaa melkein erottamattomalta kaikesta normaalista äänestä.

Siinä kaikki siinä on. Siitä huolimatta, että järjestelmä on huipputeknologiaa, järjestelmän ydin on oikeastaan ​​vain tekstinsovitusprosessi. Mutta voit kysyä - jos se on niin yksinkertaista, miksi emme voineet tehdä sitä ennen?

Oppinut vastaus

Tosiasia on, että ihmisen kieli ja useimmat muut tosiasiassa ovat liian vaihtelevia ja epäjärjestysisiä, jotta normaaleissa tietokoneissa niitä voidaan käsitellä hyvin, mutta tällainen ongelma on täydellinen AI: lle.

Huomaa, että AI: n tuottama tulos riippuu täysin niistä keskusteluista, joita se näytettiin oppimisen aikana.

Tämä tarkoittaa, että erilaiset AI: t on koulutettava tekemään erityyppisiä varauksia - joten esimerkiksi yksi AI voi varata ravintoloita ja toinen voi varata hiusvarauksia.

Tämä on välttämätöntä, koska kysely- ja vastaustyypit voivat vaihdella niin paljon erityyppisten varausten yhteydessä. Näin myös kaksipuolinen tulostus voi olla paljon parempi kuin yleiset äänenopettajat, joiden on käsiteltävä monenlaisia ​​pyyntöjä.

Joten nyt pitäisi olla ilmeistä, ettemme aio käydä satunnaisia ​​keskusteluja AI-avustajien kanssa milloin tahansa pian. Itse asiassa kaikki nykyiset AI-tietomme ovat oikeastaan ​​muuta kuin kuviohakut (tässä tapauksessa vastaavat tekstikuviot). He eivät ymmärrä mitä he kuulevat tai mitä he katsovat tai mitä he sanovat.

Kuvioiden yhteensovittaminen on yksi asia, jota aivomme tekevät, mutta he tekevät myös paljon enemmän. Avain tehokkaamman AI: n luomiseen voi olla useamman aivojen salaisuuden avaaminen. Haluammeko? No, se on toinen kysymys.Conversation

Author

Peter Stratton, tutkijatohtori, Queenslandin yliopisto

Tämä artikkeli julkaistaan ​​uudelleen Conversation Creative Commons -lisenssin alla. Lue alkuperäinen artikkeli.