Yksi syy Tietyt tieteelliset tutkimukset saattavat olla väärässä

Tuolla on toistettavuuskriisi tiede - tunnistamattomat "vääriä positiivisia" ovat jopa ylimpien tutkimuslehtiämme.

Väärä positiivinen on väite, että vaikutus on olemassa, kun todellisuudessa se ei ole. Kukaan ei tiedä, mikä osa julkaistuista julkaisuista sisältää sellaisia ​​virheellisiä tai liioiteltuja tuloksia, mutta on olemassa merkkejä siitä, että osuus ei ole pieni.

Epidemiologi John Ioannidis selitti tätä ilmiötä parhaiten tunnetussa 2005-paperissa, joka oli provosoivasti nimeltään ”Miksi useimmat julkaistut tutkimustulokset ovat vääriä”. Yksi syistä Ioannidis antoi niin monta vääriä tuloksia on kutsuttu "p hakkerointi ”, joka syntyy paineiden tutkijoiden mielestä saavuttaa tilastollista merkitystä.

Mikä on tilastollinen merkitys?

Jotta voitaisiin tehdä johtopäätöksiä tiedoista, tutkijat luottavat yleensä merkityksen testaus. Yksinkertaisesti sanottuna tämä tarkoittaa "p arvo ”, mikä on todennäköisyys, että tulokset ovat meidän kaltaisia, jos ei todellakaan ole vaikutusta. Jos p arvo on riittävän pieni, tulos ilmoitetaan tilastollisesti merkitseväksi.

Perinteisesti a p arvo, joka on pienempi kuin .05, on merkityksen kriteeri. Jos ilmoitat a p<.05, lukijat uskovat todennäköisesti, että olet löytänyt todellisen vaikutuksen. Ehkä ei kuitenkaan ole vaikutusta, ja olet ilmoittanut väärän positiivisen.


sisäinen tilausgrafiikka


Monissa lehdissä julkaistaan ​​vain sellaisia ​​tutkimuksia, jotka voivat ilmoittaa yhden tai useamman tilastollisesti merkittävän vaikutuksen. Jatko-opiskelijat oppivat nopeasti, että myyttinen p

Tämä paine saavuttaa pp hakkerointi.

Lure of p hakkerointi

Kuvittaa p hakkerointi, tässä on hypoteettinen esimerkki.

Bruce on äskettäin valmistunut tohtoriksi ja laskeutunut arvokkaaseen apurahaan liittymään yhteen alan huippututkimusryhmistä. Hänen ensimmäinen kokeilu ei toimi hyvin, mutta Bruce tarkentaa nopeasti menettelyjä ja suorittaa toisen tutkimuksen. Tämä näyttää lupaavammalta, mutta ei vieläkään anna a p arvo on pienempi kuin .05.

Vakaa, että Bruce kerää jotain, kerää enemmän tietoja. Hän päättää pudottaa muutamia tuloksia, jotka näyttivät selvästi pois.

Sitten hän huomaa, että yksi hänen toimenpiteistään antaa selkeämmän kuvan, joten hän keskittyy siihen. Muutama tweaks ja Bruce tunnistavat lopulta hieman yllättävän mutta todella mielenkiintoisen vaikutuksen p

Bruce yritti löytää niin vaikean vaikutuksen tiesi oli huijaamassa jonnekin. Hän tunsi myös painetta osua p

On vain yksi saalis: ei todellakaan ollut vaikutusta. Tilastollisesti merkittävästä tuloksesta huolimatta Bruce on julkaissut väärän positiivisen.

Bruce tunsi käyttävänsä tieteellistä näkemystään paljastaakseen vaikutuksen, kun hän ryhtyi eri vaiheisiin tutkimuksensa aloittamisen jälkeen:

  • Hän keräsi lisää tietoja.
  • Hän putosi joitakin tietoja, jotka näyttivät poikkeavilta.
  • Hän laski joitakin hänen toimenpiteistään ja keskittyi lupaavimpiin.
  • Hän analysoi tiedot hieman eri tavalla ja teki muutamia muutoksia.

Ongelmana on, että kaikki nämä valinnat tehtiin jälkeen nähdä tiedot. Bruce voi olla tietämättään ollut salaava - valinnassa ja säätämisessä, kunnes hän on hankkinut sen pp

Tilastotieteilijöillä on sanonta: jos kidutat tietoja riittävästi, he tunnustavat. Tietojen tarkastelun jälkeen tehdyt valinnat ja tweaks ovat kyseenalaisia ​​tutkimuskäytäntöjä. Näiden käyttäminen tarkoituksellisesti tai ei oikean tilastollisen tuloksen saavuttamiseksi on p hakkerointi, mikä on yksi tärkeä syy siihen, että julkaistut, tilastollisesti merkittävät tulokset voivat olla vääriä positiivisia.

Mikä osuus julkaistuista tuloksista on väärä?

Tämä on hyvä kysymys ja hurjasti hankala. Kukaan ei tiedä vastausta, joka on todennäköisesti erilainen eri tutkimusalueilla.

2015issa julkaistiin suuri ja vaikuttava pyrkimys vastata sosiaalisen ja kognitiivisen psykologian kysymykseen. Brian Nosekin ja hänen kollegojensa johtamana Open Science - keskuksessa Toistettavuusprojekti: Psykologia (RP: P) 100-tutkimusryhmät eri puolilla maailmaa suorittivat yhden 100-julkaisun tuloksista. Yleensä ottaen, karkeasti 40 toisti melko hyvin, kun taas noin 60-tapauksissa replikaatiotutkimukset saivat pienempiä tai paljon pienempiä vaikutuksia.

100 RP: P-replikaatiotutkimuksissa ilmoitettiin vaikutuksista, jotka olivat keskimäärin vain puolet alkuperäisissä tutkimuksissa ilmoitettujen vaikutusten koosta. Huolellisesti toteutetut kopiot antavat todennäköisesti tarkempia arvioita kuin mahdollisesti p Hacked alkuperäiset tutkimukset, joten voisimme päätellä, että alkuperäiset tutkimukset yliarvioivat todellisia vaikutuksia keskimäärin kahdella kertoimella. Se on huolestuttavaa!

Miten välttää p hakkerointi

Paras tapa välttää p hakkerointi on välttää minkä tahansa valinnan tai tweaksin tekemistä tietojen tarkastelun jälkeen. Toisin sanoen, vältetään kyseenalainen tutkimuskäytäntö. Useimmissa tapauksissa paras tapa tehdä tämä on käyttää esirekisteröinti.

Esirekisteröinti edellyttää, että valmistelet etukäteen yksityiskohtaisen tutkimussuunnitelman, johon sisältyy myös tilastollinen analyysi. Sitten etukäteen suunnitelma, jossa on päivämäärän leima, osoitteessa Avoin tiedekehys tai jokin muu online-rekisteri.

Sitten suorittaa tutkimus, analysoi tiedot suunnitelman mukaisesti ja raportoi tulokset riippumatta siitä, missä ne ovat. Lukijat voivat tarkistaa esirekisteröidyn suunnitelman ja olla siten varmoja siitä, että analyysi on määritetty etukäteen eikä p hakkeroitu. Esirekisteröinti on haastava uusi idea monille tutkijoille, mutta se on todennäköisesti tulevaisuuden tie.

Arviointi pikemminkin kuin p arvot

Kiusaus p Hack on yksi suurimmista haitoista luottaa siihen p arvot. Toinen on se, että ppikemminkin sanoa, että vaikutus on olemassa tai ei.

Mutta maailma ei ole mustavalkoinen. Tunnistaakseen harmaasävyjä on paljon parempi käyttää arvio sen sijaan, p arvot. Arvioinnin tavoitteena on arvioida vaikutuksen koko, joka voi olla pieni tai suuri, nolla tai jopa negatiivinen. Arvioiden mukaan väärä positiivinen tulos on arvio, joka on suurempi tai paljon suurempi kuin todellisen arvon.

Otetaan hypoteettinen tutkimus hoidon vaikutuksista. Tutkimus voisi esimerkiksi arvioida, että hoito antaa keskimäärin 7-pisteen ahdistuksen vähenemisen. Oletetaan, että laskemme tietojemme perusteella a luottamusväli - epävarmuustekijä, joka on kummallakin puolella parhaasta arvioistamme - [4, 10]. Tämä kertoo meille, että 7-arvomme on todennäköisimmin noin 3-pisteiden todellisen vaikutuksen ahdistustasolla - hoidon todellisen keskimääräisen määrän.

Toisin sanoen luottamusväli osoittaa, kuinka tarkka arvio on. Tällaisen arvion ja sen luotettavuusvälin tunteminen on paljon informatiivisempaa kuin mikään p arvoa.

Viittaan arvioon yhtenä "uudesta tilastosta". Itse tekniikat eivät ole uusia, mutta niiden käyttäminen tärkeimpänä keinona tehdä johtopäätöksiä datasta olisi monille tutkijoille uusi ja suuri askel eteenpäin. Se auttaisi myös välttämään vääristymiä, jotka aiheutuvat p hakkerointi.

Author

Geoff Cumming, emeritusprofessori, Trobe-yliopisto

Tämä artikkeli julkaistiin alunperin Conversation. Lue alkuperäinen artikkeli.

Liittyvät kirjat:

at InnerSelf Market ja Amazon