Miten Cambridge Analytican Facebook-kohdistusmalli todella toimiKuinka tarkasti voit profiloida verkossa? Andrew Krasovitckii / Shutterstock.com

Tutkija, jonka työ on keskellä Facebook-Cambridge Analytican tietojen analysointi ja poliittisen mainonnan mullistus on paljastanut, että hänen menetelmänsä toimi paljon samoin Netflix suosittelee elokuvia.

Meille lähetetyssä sähköpostissa Cambridgen yliopiston tutkija Aleksandr Kogan selitti, miten hänen tilastollisen mallinsa käsitteli Facebook-tietoja Cambridge Analyticalle. Tarkkuus, jonka hän väittää, viittaa siihen, että se toimii sekä että vahvistetut äänestäjien kohdentamismenetelmät perustuvat väestöön, kuten rotuun, ikään ja sukupuoleen.

Vahvistettaessa Koganin tili merkitsisi sitä, että digitaalinen mallinnus oli Cambridge Analytica tuskin virtuaalinen kristallipallo muutama on väittänyt. Silti numerot Kogan tarjoaa myös näyttää mikä on - ja ei - tosiasiallisesti mahdollista by henkilötietojen yhdistäminen koneen oppimisella poliittisiin tarkoituksiin.

Koganin numerot viittaavat kuitenkin erään keskeisen yleisön huolenaiheeseen, että käyttäjien henkilökohtaisia ​​tietoja tai "psychographics”Oli vain pieni osa mallia kohdentamalla kansalaisia. Se ei ollut tarkkaan ottaen persoonallisuusmalli, vaan pikemminkin se, joka kiehui väestötietoja, sosiaalisia vaikutuksia, persoonallisuutta ja kaikkea muuta suureksi korreloiduksi kertaluonteiseksi. Tämä-korrelaatio-ja-call-it-persoonallisuus-lähestymistapa näyttää luovan arvokkaan kampanjatyökalun, vaikka myytävä tuote ei olisikaan aivan sellainen kuin se laskutettiin.


sisäinen tilausgrafiikka


Persoonallisuuden kohdistamisen lupaus

Trump-kampanjan konsulttien Cambridge Analytican käyttämien ilmoitusten jälkeen tiedot 50 miljoonasta Facebookin käyttäjistä kohdistaa digitaalinen poliittinen mainonta 2016in Yhdysvaltain presidentinvaalien aikana, Facebookilla on menetti miljardeja osakemarkkinoiden arvoa, hallitukset molemmin puolin Atlanttia omistaa aloitti tutkimukset, ja tuleva sosiaalinen liikkuvuus pyytää käyttäjiä #DeleteFacebook.

Mutta keskeinen kysymys on jäänyt vastaamatta: Oliko Cambridge Analytica todella pystynyt kohdentamaan tehokkaasti kampanjaviestejä kansalaisille heidän persoonallisuutensa perusteella - tai jopa heidän ”sisäiset demonit, ”Yrityksen ilmoittajaksi?

Jos joku tietää, mitä Cambridge Analytica teki Facebook-tietonsa massiivisella troveillä, olisi Aleksandr Kogan ja Joseph Chancellor. Se oli niiden käynnistäminen Global Science Research joka keräsi profiilitietoja 270,000 Facebookin käyttäjät ja kymmeniä miljoonia ystäviä käyttämällä persoonallisuustestiä, jota kutsutaan nimellä "thisisyourdigitallife".

Osa oma tutkimus keskittyy ymmärrykseen koneoppiminen menetelmiä ja tuleva kirjani keskustelee siitä, miten digitaaliset yritykset käyttävät suositusmalleja yleisön rakentamiseen. Minulla oli aavistus siitä, miten Kogan ja liittokansleri toimivat.

Joten lähetin Koganin kysymään. Kogan on edelleen a tutkija Cambridgen yliopistossa; hänen yhteistyökumppaninsa Kancleri toimii nyt Facebookissa. Kogan vastasi merkittävässä akateemisessa kohteliaisuudessa.

Hänen vastauksensa vaatii jonkin verran purkamista ja joitakin taustoja.

Netflix-palkinnosta ”psykometriikkaan”

Netflix tarjosi takaisin 2006iin, kun se oli vielä DVD-postilaitos $ 1 miljoonan palkkion kenelle tahansa, joka on kehittänyt paremman tavan ennustaa käyttäjien elokuvien rankingista kuin yrityksellä jo oli. Yllätyskilpailija oli riippumaton ohjelmistokehittäjä, joka käyttää salanimiä Simon Funk, jonka peruslähtökohta sisällytettiin viime kädessä kaikkiin huippuryhmien merkintöihin. Funk mukautti tekniikkaa, jota kutsutaan nimelläyksikköarvon hajoaminen, ”Kondensoivat elokuvien käyttäjien arviot a tekijöitä tai komponentteja - olennaisesti joukko pääteltyjä luokkia, jotka ovat tärkeitä. Kuten Funk selitetty blogikirjoituksessa,

"Esimerkiksi luokka voi edustaa esimerkiksi toimintaelokuvia, elokuvia, joilla on paljon toimintaa ylhäällä, ja hitaita elokuvia alhaalla, ja vastaavasti käyttäjät, jotka pitävät ylhäältä elokuvia ja jotka suosivat hitaita elokuvia pohjaan.”

Tekijät ovat keinotekoisia kategorioita, jotka eivät aina ole sellaisia ​​luokkia, joita ihmiset keksisivät. tärkein tekijä Funkin varhaisessa Netflix-mallissa määritteli käyttäjät, jotka rakastivat elokuvia kuten "Pearl Harbor" ja "Wedding Planner" samalla kun he viittasivat elokuvia kuten "Lost in Translation" tai "Eternal Sunshine of Spotless Mind". Hänen mallinsa osoitti, kuinka koneoppiminen voi löytää korrelaatioita ihmiset ja elokuvaryhmät, joita ihmiset eivät koskaan olisi paikalla.

Funkin yleinen lähestymistapa käytti 50- tai 100-tärkeimpiä tekijöitä sekä käyttäjien että elokuvien osalta kunnon arvion tekemiseksi siitä, miten jokainen käyttäjä arvioi jokaisen elokuvan. Tätä menetelmää kutsutaan usein ulottuvuuden vähentäminen tai matriisifaktorointi, ei ollut uusi. Poliittisen tieteen tutkijat olivat osoittaneet sen vastaavia tekniikoita, joissa käytetään nimenhuutoäänestystä voisi ennustaa kongressin jäsenten ääniä 90-prosentin tarkkuudella. Psykologiassa ”Big Five”Mallia oli myös käytetty ennustamaan käyttäytymistä ryhmittelemällä yhteen persoonallisuuskysymyksiä, joihin vastattiin vastaavasti.

Funkin malli oli kuitenkin iso edistysaskel: Se antoi tekniikalle mahdollisuuden toimia hyvin valtavien tietokokonaisuuksien kanssa, jopa niissä, joissa oli paljon puuttuvia tietoja - kuten Netflix-tietokanta, jossa tyypillinen käyttäjä arvioi vain muutamia kymmeniä elokuvia tuhansista yrityksen kirjasto. Yli kymmenen vuotta Netflix-palkintokilpailun päättymisen jälkeen SVD-pohjaiset menetelmättai epäsuorien tietojen mallit, ovat edelleen monien verkkosivustojen valintatyökalu, jonka avulla voidaan ennustaa, mitä käyttäjät lukevat, katsovat tai ostavat.

Nämä mallit voivat ennustaa myös muita asioita.

Facebook tietää, oletko republikaani

2013issa Cambridgen yliopiston tutkijat Michal Kosinski, David Stillwell ja Thore Graepel julkaisivat artikkelin Facebook-tietojen ennustava voimakäyttämällä online-persoonallisuustestiä kerättyjä tietoja. Niiden alkuanalyysi oli lähes identtinen Netflix-palkinnossa käytetyn analyysin kanssa käyttäen SVD: tä luokittelemaan sekä käyttäjät että asiat, joita he pitivät "huippu 100-tekijöistä".

Asiakirjassa kävi ilmi, että yksinomaan Facebookin "tykkää" tekemä tekijämalli oli 95 prosenttiosuus erottamalla mustavalkoiset vastaajat, 93-prosenttiosuus tarkasti erottamalla miehiä naisista, ja 88-prosenttimäärän tarkat erottamalla ihmiset, jotka tunnistivat homoiksi miehiksi miehistä, jotka tunnistivat suoriksi. Se voisi jopa oikein erottaa republikaanit demokraateista 85in prosentista ajasta. Se oli myös hyödyllinen, vaikkakaan ei niin tarkka ennustaa käyttäjien tulokset "Big Five" -henkilöstestistä.

Oli julkista paheksuntaa vastauksena; viikkoina Facebookilla oli teki käyttäjille tykkää yksityisistä oletuksena.

Kogan ja Chancellor, myös tuolloin Cambridgen yliopiston tutkijat, alkoivat käyttää Facebook-tietoja vaalien kohdentamiseen osana yhteistyötä Cambridge Analytican emoyhtiön SCL: n kanssa. Kogan kutsui Kosinskin ja Stillwellin mukaan projektiin, mutta se ei toiminut. Kosinski epäilee, että Koganilla ja liittokanslerilla saattaa olla käänteistekniikalla Facebookin “tykkää” malli Cambridge Analyticalle. Kogan kiisti tämän sanomalla hänen projektinsa "rakennettu kaikki mallimme käyttämällä omia tietoja, jotka on kerätty omalla ohjelmistolla. ”

Mitä Kogan ja kansleri todella tekivät?

Kun seurasin tarinan kehitystä, tuli selväksi, että Kogan ja liittokansleri olivat keränneet paljon omia tietojaan tämän älykkään digitaalisen elämän sovelluksen kautta. He olisivat varmasti voineet rakentaa sellaisen ennustavan SVD-mallin, kuten Kosinskin ja Stillwellin julkaisemissa tutkimuksissa.

Joten lähetin Koganille kysymyksen, onko hän tehnyt sen. Jonkin verran yllätyksekseni hän kirjoitti takaisin.

"Emme tarkalleen käyttäneet SVD: tä", hän kirjoitti, huomauttaen, että SVD voi taistella, kun joillakin käyttäjillä on paljon enemmän "tykkää" kuin toiset. Sen sijaan Kogan selitti: ”Tekniikka oli jotain, jota itse asiassa kehitimme… Se ei ole jotain julkista.” Kogan kuvaili yksityiskohtaisesti yksityiskohtaisesti ”monivaiheisen co-esiintyminen lähestyä."

Kuitenkin hänen viestinsä vahvisti, että hänen lähestymistavansa oli todellakin samanlainen kuin SVD: n tai muiden matriisifaktorointimenetelmien, kuten Netflix-palkintokilpailun, ja Kosinki-Stillwell-Graepelin Facebook-mallin. Facebook-tietojen ulottuvuuden vähentäminen oli hänen mallinsa ydin.

Kuinka tarkka oli?

Kogan ehdotti, että käytetystä mallista ei ole paljon merkitystä, vaikka merkitys on sen ennusteiden paikkansapitävyydelle. Koganin mukaan "ennustettujen ja tosiasiallisten pisteiden välinen korrelaatio ... oli noin [30 prosenttia] kaikkien persoonallisuuksien ulottuvuuksien suhteen." Vertailun vuoksi henkilön edelliset Big Five tulokset ovat noin 70 on 80 prosenttiosuus ennustaa tulokset, kun he ottavat testin uudelleen.

Koganin tarkkuusvaatimuksia ei tietenkään voida itsenäisesti tarkistaa. Ja kuka tahansa sellaisen korkean profiilin skandaalin keskellä voi olla kannustin aliarvioimaan hänen panoksensa. Hänen ulkonäkö CNN: ssä, Kogan selitti yhä uskomattomammalle Anderson Cooperille, että itse asiassa mallit eivät olleet todella toimineet hyvin.

{youtube}APqU_EJ5d3U{/youtube}

Aleksandr Kogan vastaa CNN-kysymyksiin.

Itse asiassa tarkkuus Kogan väittää tuntuu hieman alhaiselta, mutta uskottavalta. Kosinski, Stillwell ja Graepel raportoivat vertailukelpoisia tai hieman parempia tuloksia, kuten useat muut akateemiset opinnot digitaalisten jalanjälkien avulla ennustaa persoonallisuutta (vaikka joillakin näistä tutkimuksista oli enemmän tietoja kuin vain Facebookilla). On yllättävää, että Kogan ja liittokansleri joutuvat vaikeuksiin suunnitella omaa omaa malliaan, jos hyllyratkaisut näyttävät olevan yhtä tarkkoja.

Tärkeää on kuitenkin, että mallin tarkkuus persoonallisuuden pisteissä mahdollistaa Koganin tulosten vertailun muihin tutkimuksiin. Julkaistut mallit, joilla on sama tarkkuus persoonallisuuden ennustamisessa, ovat paljon tarkempia demografisten ja poliittisten muuttujien arvaamisessa.

Esimerkiksi samanlainen Kosinski-Stillwell-Graepelin SVD-malli oli 85-prosenttisesti tarkka arvailuissa, vaikka hän ei käyttänyt muita profiilitietoja kuin tykkää. Koganin mallilla oli samanlainen tai parempi tarkkuus. Pienen määrän tietojen tai ystävien tai käyttäjien väestötietojen lisääminen lisäisi todennäköisesti tätä tarkkuutta yli 90-prosentin. Arvot sukupuolesta, rodusta, seksuaalisesta suuntautumisesta ja muista ominaisuuksista olisivat todennäköisesti yli 90-prosentin tarkkoja.

Kriittisesti nämä arviot olisivat erityisen hyviä aktiivisimmille Facebook-käyttäjille - ihmiset, joita mallia käytettiin ensisijaisesti kohdistamaan. Käyttäjät, joilla on vähemmän toimintaa analysoida, eivät todennäköisesti ole Facebookissa paljon.

Kun psykografia on enimmäkseen väestötietoja

Tietäen, miten malli on rakennettu, selitetään Cambridge Analytican ilmeisesti ristiriitaisia ​​lausuntoja rooli - tai sen puute - että mallinnuksessa osallistuivat persoonallisuuden profilointi ja psykografia. Ne kaikki ovat teknisesti yhdenmukaisia ​​Koganin kuvaaman kanssa.

Koganin kaltainen malli antaisi arviot jokaiselle käyttäjälle käytettävissä olevalle muuttujalle. Se tarkoittaa, että se olisi automaattisesti arvioida Big Five persoonallisuuden tulokset jokaiselle äänestäjalle. Nämä persoonallisuustulokset ovat kuitenkin mallin tulos, ei tulo. Kaikki malli tietää, että tietyt Facebook-tavat ja tietyt käyttäjät ovat yleensä ryhmiteltyinä.

Tämän mallin avulla Cambridge Analytica voisi sanoa, että se tunnistaa ihmisiä, joilla on vähäinen avoimuus kokemukseen ja korkea neurotiikka. Mutta sama malli, jossa on täsmälleen samat ennusteet jokaiselle käyttäjälle, voisi yhtä hyvin väittää, että se tunnistaa vähemmän koulutettuja vanhempia republikaaneja.

Koganin tiedot auttavat myös selventämään sekaannusta siitä, onko Cambridge Analytica todella poistanut sen trove Facebook-tietojen perusteella näyttävät edelleen kiertävän, Ja jopa kehitetään edelleen.

ConversationKoko dimensiota vähentävän mallin koko piste on datan matemaattinen esittäminen yksinkertaisemmassa muodossa. Cambridge Analytica otti hyvin korkean resoluution valokuvan, muutti sen pienemmäksi ja poisti alkuperäisen. Valokuva on edelleen olemassa - ja niin kauan kuin Cambridge Analytican mallit ovat olemassa, myös tiedot ovat tehokkaita.

Author

Matthew Hindman, media- ja julkisten asioiden dosentti, George Washington University

Tämä artikkeli julkaistiin alunperin Conversation. Lue alkuperäinen artikkeli.

Liittyvät kirjat

at InnerSelf Market ja Amazon