Oletko varma, että AI-avustaja voi varata ajanvarauksen sinulle, mutta entä merkityksellinen keskustelu? Shutterstock / Bas Nastassia
Google äskettäin paljastettiin sen viimeisin puhuva AI, nimeltään Duplex. Kaksipuolinen ääni kuulostaa oikealta henkilöltä, ja siinä on taukoja, umms ja ahhs.
Teknologia jättiläinen sanoo, että se voi puhua ihmisille puhelimitse sopiakseen tapaamisia ja tarkistaaksesi aukioloajat.
Tallennetuissa keskusteluissa, joita pelattiin Googlen paljastamisessa, se keskusteli saumattomasti vastaanottavan pään ihmisten kanssa, jotka näyttivät olevan täysin tietämättömiä siitä, että he eivät puhu toisen henkilön kanssa.
Nämä puhelut jättivät teknologiakeskeinen yleisö Googlessa näyttää ahkeruutta ja hurraa. Yhdessä esimerkissä AI jopa ymmärsi, kun puhuttava henkilö oli sekoittunut, ja pystyi jatkamaan keskustelua ja vastaamaan asianmukaisesti, kun kerrottiin, ettei sen tarvitse tehdä varausta.
AI-avustajien nousu
Jos olet käyttänyt jotakin tällä hetkellä saatavilla olevista äänenapulaisista, kuten Google Home, Applen Siri tai Amazon Echo, tämä joustavuus saattaa yllättää sinut. Nämä avustajat ovat tunnetusti vaikeaa käyttää muuhun kuin tavallisiin pyyntöihin, kuten soittaa yhteystiedolle, toistaa kappaleita, tehdä yksinkertainen verkkohaku tai asettaa muistutus.
Kun puhumme näiden nykyisen sukupolven avustajien kanssa, tiedämme aina, että puhumme AI: n kanssa ja räätälöimme usein vastaavasti sanomamme tavalla, jonka toivomme maksimoivan mahdollisuutesi saada se toimimaan.
Mutta Duplexin kanssa puhuvilla ihmisillä ei ollut aavistustakaan. He epäröivät, peruuttivat, ohittivat sanat ja muuttivat tosiasioita jopa osittain lauseen kautta. Duplex ei huomannut lyöntiä. Tuntui todella ymmärtävän mitä tapahtui.
Lue lisää: Älykkäät kaiuttimet voisivat olla kodin automaation kärkipaikka
Joten tulevaisuus on saapunut aikaisemmin kuin kukaan odotti? Onko maailma pian täynnä verkossa (ja puhelimitse) toimivia AI-avustajia, jotka keskustelevat onnellisina ja tekevät kaiken meidän puolestamme? Tai vielä pahempaa: ympäröivätkö meidät yhtäkkiä älykkäät AI: t, joilla on omat ajatuksensa ja ideansa, jotka voivat sisältää meidät ihmiset?
Vastaus on selvä "ei". Ymmärtääksesi miksi, se auttaa katsomaan nopeasti konepellin alla sitä, mikä ajaa tämänkaltaista AI: ta.
Kaksipuolinen: miten se toimii
Tämä on mitä Kaksipuolinen AI-järjestelmä näyttää.
Järjestelmä ottaa ”tulon” (näkyy vasemmalla), joka on sen henkilön ääni, jonka kanssa hän puhuu puhelimessa. Ääni käy läpi automaattisen puhetunnistuksen (ASR) ja muuttuu tekstiksi (kirjoitetut sanat). ASR on itsessään edistynyt AI-järjestelmä, mutta tyyppi, joka on jo yleisesti käytössä nykyisissä puheavustajissa.
Sitten teksti skannataan sen lauseen tyypin määrittämiseksi (kuten tervehdys, lausunto, kysymys tai ohje) ja poistetaan kaikki tärkeät tiedot. Tärkeimmistä tiedoista tulee sitten osa kontekstiä, joka on ylimääräinen syöttö, joka pitää järjestelmän ajan tasalla keskustelussa toistaiseksi sanotun kanssa.
ASR: n ja kontekstin teksti lähetetään sitten Duplexin sydämeen, jota kutsutaan keinotekoiseksi hermoverkoksi (ANN).
Yllä olevassa kaaviossa ANN on esitetty ympyröillä ja niitä yhdistävillä viivoilla. ANNs on mallinnettu löysästi aivoihimme, joilla on miljardeja neuroneja kytkettynä valtavaan verkkoon.
Ei vielä aivot
ANN ovat kuitenkin paljon yksinkertaisempia kuin aivomme. Ainoa asia, mitä tämä yrittää tehdä, on yhdistää syötesanat asianmukaiseen vastaukseen. ANN oppii näyttämällä kopioita tuhansista keskusteluista ihmisistä, jotka tekevät varauksia ravintoloihin.
Riittävinä esimerkein se oppii, millaisia syöttölauseita voi odottaa henkilöltä, jonka kanssa puhutaan, ja millaisia vastauksia antaa jokaiselle.
ANN: n generoima tekstivastaus lähetetään sitten tekstistä puheeksi (TTS) -syntetisaattoriin, joka muuntaa sen puhuttuiksi sanoiksi, jotka soitetaan sitten puhelimessa olevalle henkilölle.
Jälleen kerran, tämä TTS-syntetisaattori on edistyksellinen AI - tässä tapauksessa se on edistyneempi kuin puhelimesi, koska se kuulostaa melkein erottamattomalta kaikesta normaalista äänestä.
Siinä kaikki siinä on. Siitä huolimatta, että järjestelmä on huipputeknologiaa, järjestelmän ydin on oikeastaan vain tekstinsovitusprosessi. Mutta voit kysyä - jos se on niin yksinkertaista, miksi emme voineet tehdä sitä ennen?
Oppinut vastaus
Tosiasia on, että ihmisen kieli ja useimmat muut tosiasiassa ovat liian vaihtelevia ja epäjärjestysisiä, jotta normaaleissa tietokoneissa niitä voidaan käsitellä hyvin, mutta tällainen ongelma on täydellinen AI: lle.
Huomaa, että AI: n tuottama tulos riippuu täysin niistä keskusteluista, joita se näytettiin oppimisen aikana.
Tämä tarkoittaa, että erilaiset AI: t on koulutettava tekemään erityyppisiä varauksia - joten esimerkiksi yksi AI voi varata ravintoloita ja toinen voi varata hiusvarauksia.
Tämä on välttämätöntä, koska kysely- ja vastaustyypit voivat vaihdella niin paljon erityyppisten varausten yhteydessä. Näin myös kaksipuolinen tulostus voi olla paljon parempi kuin yleiset äänenopettajat, joiden on käsiteltävä monenlaisia pyyntöjä.
Joten nyt pitäisi olla ilmeistä, ettemme aio käydä satunnaisia keskusteluja AI-avustajien kanssa milloin tahansa pian. Itse asiassa kaikki nykyiset AI-tietomme ovat oikeastaan muuta kuin kuviohakut (tässä tapauksessa vastaavat tekstikuviot). He eivät ymmärrä mitä he kuulevat tai mitä he katsovat tai mitä he sanovat.
Kuvioiden yhteensovittaminen on yksi asia, jota aivomme tekevät, mutta he tekevät myös paljon enemmän. Avain tehokkaamman AI: n luomiseen voi olla useamman aivojen salaisuuden avaaminen. Haluammeko? No, se on toinen kysymys.
Author
Peter Stratton, tutkijatohtori, Queenslandin yliopisto
Tämä artikkeli julkaistaan uudelleen Conversation Creative Commons -lisenssin alla. Lue alkuperäinen artikkeli.