Miten Tietokoneet auttavat biologeja Crack Life's Secrets

Kun kolmen miljardin kirjaimen pituinen ihmisen genomi sekvensoitiin, ryntäimme uuteen ”omiikka”Biologisen tutkimuksen aikakausi. Tutkijat kilpailevat nyt eri organismien genomien (kaikki geenit) tai proteomien (kaikki proteiinit) sekvensoimiseksi - ja prosessissa kootaan massiivisia tietomääriä.

Esimerkiksi tiedemies voi käyttää "omics" -työkaluja, kuten DNA-sekvensointia kiusaamaan, mitkä ihmisen geenit vaikuttavat virusinfektioon. Mutta koska ihmisen genomilla on ainakin 25,000-geenejä, geenien lukumäärä, joka on muuttunut jopa tällaisen yksinkertaisen skenaarion aikana, voi mahdollisesti olla tuhansissa.

Vaikka sekvensointi ja geenien ja proteiinien tunnistaminen antavat heille nimen ja paikan, se ei kerro meille, mitä he tekevät. Meidän on ymmärrettävä, miten nämä geenit, proteiinit ja kaikki välissä olevat asiat vuorovaikutuksessa eri biologisissa prosesseissa.

Nykyään jopa perustutkimukset tuottavat suuria tietoja, ja yksi suurimmista haasteista on erottaa asiaankuuluvat tulokset taustamelusta. Tietokoneet auttavat meitä voittamaan tämän tietojenkerran; mutta he voivat edes mennä askeleen pidemmälle, auttaen meitä keksimään tieteellisiä hypoteeseja ja selittämään uusia biologisia prosesseja. Tietotiede mahdollistaa pohjimmiltaan huippuluokan biologisen tutkimuksen.

Tietokoneet pelastamaan

Tietokoneet ovat ainutlaatuisen päteviä käsittelemään massiivisia tietosarjoja, koska ne voivat samanaikaisesti seurata kaikkia tärkeitä analyysin edellyttämiä ehtoja.


sisäinen tilausgrafiikka


Vaikka he heijastavat ihmisvirheitä ne on ohjelmoitu, tietokoneet voivat käsitellä suuria määriä dataa tehokkaasti ja ne eivät ole puolueellisia kohti tuttuja, sillä ihmisen tutkijat voivat olla.

Tietokoneita voidaan myös opettaa etsimään tiettyjä malleja kokeellisissa tietosarjoissa - käsitteeksi, jota kutsutaan konetekniikaksi, ensin ehdotettu 1950-järjestelmissä, erityisesti matemaatikko Alan Turing. Tämän jälkeen voidaan pyytää algoritmia, joka on oppinut kuvioita tietosarjoista, tekemään ennusteita, jotka perustuvat uusiin tietoihin, joita se ei ole koskaan aikaisemmin kohdannut.

Konekielen oppiminen on mullistanut biologisen tutkimuksen, koska voimme nyt hyödyntää suuria tietokokonaisuuksia ja pyytää tietokoneita ymmärtämään taustalla olevaa biologiaa.

Koulutus tietokoneet ajattelemaan simuloimalla aivoprosesseja

Olemme käyttäneet yhtä mielenkiintoista tyyppistä koneoppimista, jota kutsutaan keinotekoiseksi neuroverkoksi (ANN) omassa laboratoriossa. Aivot ovat erittäin yhteenliitettyjä neuronien verkostoja, jotka kommunikoivat lähettämällä sähköpulsseja hermosovelluksen kautta. Vastaavasti ANN simuloi tietokoneessa neuronien verkkoa, kun ne kytkeytyvät päälle ja pois päältä vasteena muiden hermosolujen signaaleille.

Käyttämällä algoritmeja, jotka jäljittelevät todellisten hermosolujen prosesseja, voimme tehdä verkosta oppia ratkaisemaan monenlaisia ​​ongelmia. Google käyttää voimakasta ANN: ia nyt tunnetuksi Deep Dream -projekti missä tietokoneet voivat luokitella ja jopa luoda kuvia.

Ryhmämme tutkii immuunijärjestelmää tavoitteena selvittää uusia syöpähoitoja. Olemme käyttäneet ANN-laskennallisia malleja lyhyen pintaproteiinikoodien tutkimiseen, joita immuunisolut käyttävät sen määrittämiseksi, onko jokin vieraillemme kehollemme, ja siksi meidän pitäisi hyökätä. Jos ymmärrämme enemmän siitä, miten immuunisolut (kuten T-solut) erottelevat normaalista / itsestään ja epänormaalista / vieras solusta, voimme suunnitella parempia rokotteita ja hoitoja.

Pestyimme julkisesti saatavilla olevia luetteloita tuhansista tutkijoiden havaitsemista proteiinikoodeista vuosien varrella. Me jaimme tämän suuren datasarjan kahteen: normaaleihin proteiinikoodeihin, jotka ovat peräisin terveistä ihmissoluista, ja epänormaaleista proteiinikoodeista, jotka ovat peräisin viruksista, kasvaimista ja bakteereista. Sitten kääntyimme laboratoriossa kehitetyn keinotekoisen hermoverkoston eteen.

Kun syötimme proteiinikoodit ANN: iin, algoritmi pystyi tunnistamaan olennaisia ​​eroja normaalien ja epänormaalien proteiinikoodien välillä. Ihmisille olisi vaikeaa seurata tällaisia ​​biologisia ilmiöitä - näissä proteiinikoodeissa on kirjaimellisesti tuhansia analyysejä suuressa tietosarjassa. Kone vie näitä monimutkaisia ​​ongelmia ja määrittelee uuden biologian.

Ennusteet koneen oppimisen kautta

Biologian oppimisen tärkein sovellus on sen hyödyllisyys suuriin tietoihin perustuvien ennusteiden tekemiseen. Tietokonepohjaiset ennusteet voivat ymmärtää suuria tietoja, testata hypoteeseja ja säästää arvokasta aikaa ja resursseja.

Esimerkiksi T-solubiologian alalla tietäen, mitkä viruksen proteiinikoodit kohdistuvat, on ratkaiseva merkitys rokotteiden ja hoitojen kehittämisessä. Mutta on olemassa niin paljon yksittäisiä proteiinikoodeja mistä tahansa viruksesta, joka on erittäin kallista ja vaikea kokeilla kullakin.

Sen sijaan me koulutimme keinotekoisen hermoverkon auttamaan konetta oppimaan kaikki tärkeät biokemialliset ominaisuudet kahdella proteiinikoodin tyypillä - normaali tai epänormaali. Sitten pyysimme mallia "ennustamaan", mitkä uudet virusproteiinikoodit muistuttavat "epänormaalia" luokkaa ja joita T-solut ja siten immuunijärjestelmä näkevät. Testasimme ANN-mallia eri virusproteiineilla, joita ei ole aiemmin tutkittu.

Tosin, kuten huolellinen opiskelija, joka haluaa miellyttää opettajaa, hermoverkko pystyi tunnistamaan tarkasti enemmistön tällaisen T-solu-aktivoivan proteiinikoodin sisällä tästä viruksesta. Testasimme myös kokeellisesti proteiinikoodeja, jotka se merkitsi vahvistamaan ANN: n ennusteiden tarkkuuden. Tätä hermoverkon mallia käyttäen tiedemies voi näin ollen nopeasti ennustaa kaikki tärkeät lyhytproteiinikoodit haitallisesta viruksesta ja testata niitä kehittämään hoitoa tai rokotetta sen sijaan, että arvaisit ja testasit niitä erikseen.

Koneen oppimisen toteuttaminen viisaasti

Jatkuvan jalostuksen ansiosta suurta tietojenkäsittelyä ja koneiden oppimista on yhä enemmän välttämätöntä kaikentyyppiselle tieteelliselle tutkimukselle. Mahdollisuudet käyttää tietokonetta koulutukseen ja ennustamiseen biologiassa ovat lähes loputtomia. Vuodesta selvittää, mikä yhdistelmä biomarkkerit ovat parhaita havaita tauti ymmärtää, miksi vain jotkut potilaat hyötyvät tietystä syövän hoidostaSuurten tietokokonaisuuksien kaivostoiminta tietokoneiden avulla on tullut arvokkaaksi tutkimusreitiksi.

Tietenkin on olemassa rajoituksia. Suurimman datatieteen suurin ongelma on itse tiedot. Jos -omics-tutkimuksissa saadut tiedot ovat virheellisiä tai perustuvat huonoihin tieteenaloihin, koneet saavat koulutusta huonoista tiedoista - mikä johtaa huono ennuste. Opiskelija on vain yhtä hyvä kuin opettaja.

Koska tietokoneet eivät ole tuntevia (vielä), he voivat hakea mallejaan heidän kanssaan jopa silloin, kun mikään ei ole olemassa, mikä herättää jälleen, huonoihin tietoihin ja tuottamattomaan tieteeseen.

Jotkut tutkijat ovat herättäneet huolta tietokoneista mustia laatikoita tiedemiehille, jotka eivät ymmärrä selkeästi heidän puolestaan ​​tekemiäsi manipulaatioita ja koneistuksia.

Näistä ongelmista huolimatta suurten tietojen ja koneiden edut tekevät niistä arvokkaita yhteistyökumppaneita tieteellisessä tutkimuksessa. Pidämme mielessä, että olemme ainutlaatuisesti valmiita ymmärtämään biologiaa koneen silmien kautta.

AuthorConversation

Sri Krishna, tohtorikoulutettava, biologinen suunnittelu, Arizonan valtionyliopiston biologian ja terveydenhuoltojärjestelmien tekniikan korkeakoulu ja Arizonan valtionyliopiston Diego Chowell, PhD-opiskelija.

Tämä artikkeli julkaistiin alunperin Conversation. Lue alkuperäinen artikkeli.


Aiheeseen liittyvä kirja:

at InnerSelf Market ja Amazon