Suuret tiedot ovat isoja uutisia näinä päivinä. Mutta useimmat organisaatiot lopulta hankkivat valtavia tietoja, joten heillä on massiivinen rakenne, jossa on rakenteettomia - tai "pimeitä" - tietoja, jotka eivät ole kovinkaan hyödyllisiä kenellekään.

Kun otetaan huomioon suurten tietojen mahdolliset edut, on tärkeää, että löydämme parempia tapoja kerätä, tallentaa ja analysoida tietoja, jotta saat siitä parhaan hyödyn.

Tarinoita suuria tietoja ovat käynnistäneet merkittäviä investointeja suuriin tietoihin. Tämä on saanut monet organisaatiot keräämään merkittäviä määriä ulkoisia ja sisäisiä tietoja ns.tietojärviä”. Nämä ovat arkistoja, jotka sisältävät tietoja missä tahansa muodossa, riippumatta siitä, ovatko ne strukturoituja, kuten tietokantoja, tai strukturoimattomia, kuten sähköposteja tai ääntä ja videota.

Tämän seurauksena syntyvän, kerätyn ja tallennetun datan määrän kasvu jatkuu eksponenttisella nopeudella.

Mutta hiljattain IBM tutkiienemmän kuin 80% kaikista tiedoista on inaktiivisia, hallitsemattomia, usein jäsentämättömiä, puuttuvia merkityksellisiä metatietoja ja jopa organisaatioon tuntemattomia. Tämän pimeän datan osuuden odotetaan saavuttavan 93%: n 2020: n avulla.


sisäinen tilausgrafiikka


Esimerkiksi ajoneuvon sisäisistä laitteista saatujen tietojen voidaan odottaa saavuttavan 350MB: n joka toinen sekunti. Mistä kaikki nämä tiedot menevät ja kuka sitä käyttää?

Organisaatiot voivat myös tuottaa merkittäviä sisäisiä tietoja. Esimerkiksi a Tuoreen tutkimuksen havaitsi, että 1,500-työntekijöillä oli noin 2.5 miljoonia laskentataulukoita, joista kukin käytti vain 12-henkilöitä keskimäärin.

Lisäksi on todisteita useista rakenteettomista tiedoista, kuten dokumenttien versioista, projektien muistiinpanoista ja sähköpostiviesteistä, jotka jäävät organisaatioprosesseista ja jotka sitten jäävät lepotilaan tietopalvelimissa.

Käytä sitä tai menetä se

Tietojärjestelmäkäytön vuosien tutkimuksista saadut kokemukset ovat osoittaneet, että oletuksena, että "enemmän on parempi" tietojen osalta, ei ole perusteltua.

Jopa perinteisissä IT-projekteissa, jotka noudattavat huolellisesti muotoiltuja analyysejä ja suunnittelun elinkaarta, havaitun ja todellisen arvon välinen epäjohdonmukaisuus on ollut huomattavan vaikea ongelma, joka usein johtaa huonoon tuottoon.

Suurissa dataprojekteissa dataa voidaan usein hankkia ulkoisesti vain vähän tai ei lainkaan tietoa sen skeemasta, laadusta tai odotetusta hyödyllisyydestä. Näin ollen riski, että investointeja ei saavuteta, kasvaa huomattavasti.

Vanha sanonta "käytä tai menetä sitä" ei ole mitenkään vanhentunut, ja tuo huomiota siihen, miten voimme käyttää suuria tietoja. Organisaatiot voivat säilyttää tietoja useista syistä, mukaan lukien tietojen säilyttämistä koskevat säännöt, mutta havaittu tulevaisuusarvo on tyypillisesti tärkein syy.

Vaikka varastointi on suhteellisen halpaa, kun otetaan huomioon rinnastettavien tietojen määrä, ylläpito ja energiankulutus datakeskusten käyttö ei ole vähäistä. Lisäksi siihen liittyy kustannuksia ja riskejä tällaisten hallitsemattomien tietojen turvallisuutta.

Tavoitteen määrittely on siten keskeinen, jotta voidaan varmistaa, että suuret tietoinvestoinnit kohdistuvat mielekkäisiin ongelmiin, ja tietojen kerääminen ja tallentaminen on perusteltua.

Lähestymistavat kuten Design Thinking, joka rohkaisee ihmisiä käyttämään luovaa ratkaisukeskeistä ajattelua, ovat osoittautuneet erittäin onnistuneiksi todellisten ongelmien muotoilussa suurille tiedoille.

Mikä on Design Thinking?

Sovellettaessa asianmukaisesti muotoilun ajattelu voi antaa tietotieteilijöille mahdollisuuden yhdistää toivottavuus (asiakkaan tarve) ja elinkelpoisuus (liiketoiminta-arvo) teknologiseen toteutettavuuteen ja siten ohjata heitä kohti mielekkäitä ratkaisuja.

Roskat sisään roskat ulos

Kun tietojen luomisen ja käytön välinen kuilu kasvaa, tietojen laatu heikkenee. Tämä tarkoittaa, että organisaation on käytettävä paljon vaivaa puhdistaa vanhoja tietoja, jos se haluaa käyttää sitä tänään.

Mukaan Yhdysvaltain päätietoja DJ Patil:

Tiedot ovat erittäin sotkuisia, ja tietojen puhdistus on aina kirjaimellisesti 80% työstä. Toisin sanoen data on ongelma.

Aiemmin tänä vuonna tietokannan tutkimusyhteisön joukko globaaleja ajatusjohtajia esitteli suuria haasteita suurten tietojen arvon saamisessa. Keskeinen viesti oli tarve kehittää kykyä "ymmärtää, miten näiden tietojen laatu vaikuttaa siitä saatavan käsityksen laatuun".

Kultainen periaate "roskat, roskat ulos" on edelleen totta suurten tietojen yhteydessä. Ilman tieteellisesti luotettavia tietoja, jotka antavat kyvyn arvioida tehokkaasti tietojen laadun perusominaisuuksia, on olemassa suuri riski, että organisaatiot ja hallitukset keräävät suuria määriä alhaisen arvon tiheystai investoimalla matalan tuoton tuottoon sijoitetuille tuotteille.

Lisäksi tiedon puuttuminen taustalla olevista tiedoista (jakelut, semantiikka ja muut vivahteet) voi johtaa analyyttiset ansat, jossa tietojen analysointi voi johtaa virheellisiin ja mahdollisesti vaarallisiin päätelmiin.

Tietojen etsintä on tulossa lupaavaksi lähestymistavaksi, joka antaa käyttäjille mahdollisuuden tutkia valmiuksia tutkia tietojen laatua ja saada tietoisuutta tietojen puutteista niiden käyttötarkoituksen suhteen ja tehdä näin ennen kuin ne investoivat kalliisiin tietojenkäsittely- ja hallintatehtäviin.

Valaistumisen etsiminen tietovuodesta kuluttaa tietoyhteiskunnan energiaa ja investointeja lähitulevaisuudessa. Tietojen mittakaavassa on valtava voima, kun se jätetään ilman valvontaa liikkeelle organisaatioita pimeiden tietojen kuiluun.

Kaikki tämä korostaa kasvavaa tarvetta hyvin koulutetuille tietotieteilijöille, joilla on kyky määritellä hyvin perusteltu liike-, tieteellinen tai sosiaalinen tarkoitus ja sovittaa se tietojenkeruun, tallennuksen, hallinnan ja analysoinnin teknisiin ponnisteluihin.

Conversation

Author

Shazia Sadiq, professori, tieto- ja tietotekniikka, Queenslandin yliopisto

Tämä artikkeli julkaistiin alunperin Conversation. Lue alkuperäinen artikkeli.

Liittyvät kirjat

at InnerSelf Market ja Amazon