Kõik andmed valetavad: kuidas selles rägastikus päriselt mõni õige otsus teha?

Mida päev edasi, seda rohkem jõuab ettevõtete käsutusse andmeid – alates kasutuslogidest kuni detailsete käitumisraportiteni välja – mis muudab paljudel juhtudel õigete äriotsuste tegemise oluliselt lihtsamaks. Samas hoiatab Elisa valdkonnajuht Joosep Põllumäe, et andmeid pimesi usaldades võib kiirelt sattuda valele teele, kus valede andmete kasutamine viib järjest valemate otsuste ja järgmiste vigaste andmeteni.

“Andmed on küll võimsaks tööriistaks, aga nendega ümber käimine pole päris nii lihtne, kui kaugelt vaadates tundub. Kerge on pimesi kõikjalt andmeridu koguda, need Excelisse pista, paar graafikut joonistada ja selle pealt järeldusi tegema hakata. See võib mõnikord küll õige suuna kätte anda, kuid isegi kõige kergematele küsimustele saab valesti vastata, kui andmete kvaliteedis ja õiguses enne nende kasutamist ei veenduta,” rääkis ta.

Seetõttu tasub Põllumäe sõnul enne andmemaailma sukeldumist meeles pidada hulka hoiatusi, parimaid praktikaid ning protsessilisi nüansse, mis aitavad tagada, andmete pealt tehtud järeldused ka midagi väärt oleks. Neist kõige olulisemaks on andmete loomine vajaduspõhiselt, andmete kvaliteedi kontrollimine ning andmete õige kasutamine.

Andmed on alati valed

Kuigi andmed tekivad harilikult üsna selgelt piiritletud tegevuste pealt, siis peaks Põllumäe sõnul ükskõik mis andmekogu puhul baaseelduseks olema, et need andmed on valed. Isegi kui see tundub ebatõenäoline, ei saa ilma neid valideerimata täiesti kindel olla, et kõiki detaile logitakse õigesti, raportisse või ülevaatesse kaasatakse kõik edge-case’id, või et andmete loomisel pole tehtud ootamatuid protsessilisi või inimlikke vigu – näiteks andmeridade kopeerimisel viimased kolm rida märkimata jäetud.

“Kõiki andmeid tuleb nii jooksvalt kui ka enne nende kasutamist valideerida. See, kuidas seda täpselt teha, on veidi must maagia ja eeldab väga selget arusaama sellest, kuidas ja miks need andmeread tekivad,” rääkis ta. “Seega enne, kui sööta andmevoog sisse mõõdikute täituvust kuvavale töölauale, hakata nende pealt müügigraafikuid joonistama, või hakata koostama kasutusstatistikat, peab kuidagi aru saama, kas andmed kuvavad reaalselt pilti, või näitavad pigem aiateibaid.”

Erinevaid viise, kuidas andmete kvaliteedis veenduda, on mitmeid. Valdkonnajuhi sõnul on harilikult kõige lollikindlamateks valideerimisviisideks pistelised kontrollid, andmete kõrvutamine reaalse eluga ning mitme andmestiku omavaheline võrdlemine. Kuigi ka nende tegevuste toel ei saa ühegi andmebaasi õiguses sajaprotsendiliselt veenduda, aitavad need riski oluliselt langetada ja vähemalt suuremad kõrvalekalduvused üles leida.

“Näiteks kui andmed ütlevad, et mõni teenus oli eelmisel kuul ligipääsetav 100% ajast, kuid sa tead, et tegelikult oli see kolm päeva maas, on ilmselge, et kuskil on mingi viga. Äkki loetakse mingeid parameetreid valesti, äkki võtsid vale teenuse andmed, äkki tõlgendad sina ülaloleku aega kuidagi teisiti kui süsteem,” selgitas ta. “Samuti on mõistlik teha pistelist kontrolli – näiteks kui tead, et müügiraportis peaks sees olema müügid X, Y ja Z, siis tasub vaadata, kas need seal ka päriselt olemas on. Kõike harilikult üle kontrollida ei jõua, kuid mingigi kontrollmehhanism peaks käigus olema.”

Eelneva kõrval tasub tema sõnul võimalusel kõrvutada ka erinevaid raporteid ja andmekogusid, seda juhtudel, kui justkui samad andmed peaks sisse jooksma mitmesse erinevasse kohta. Seega saab näiteks vaadata, tööjõule kulutatud summa on sama nii raamatupidamises, tööajaarvestusprogrammis ning aastat kokku võtvas Exceli raportis. Kui numbrites on mingi erinevus, on kuskil kasutuses teistsugused andmete loomise põhimõtted, millele tuleks jälile saada.

Andmed peaks tekkima vajaduspõhiselt

Andmeid on meeletult lihtne tekitada, kuid nende õigesti ära kasutamine on oluliselt raskem. Täna võib terabaitide jagu andmebaase toota pea iga väiksema tegevuse pealt, kuid Põllumäe sõnul nii mõistlike otsusteni ei jõua. Selle asemel tuleks keskenduda sellele, et iga andmetükk jäädvustataks mõne väga konkreetse tegevuse hindamiseks, hoides mõistlikku lõtku tulevikus vajaminevate lahenduste loomiseks.

“Ideaalis võiksid kõik andmed tekkida konkreetse probleemi lahendamiseks. Kui tahad saada iganädalast müügiraportit koos kindlate oluliste andmepunktidega, siis tuleks neid andmeid nii tekitada ja hoida. Kui turundustiim vajab ülevaadet leadide, nende kvaliteedi ja päritolu kohta, siis tuleks üritada need andmed luua ja valideerida. Kui arendustiim vajab ülevaadet kirjutatud koodiridade hulga kohta, siis tasuks ka sellel läheneda vajaduspõhiselt,” lausus ta. “Lihtne on logida igat hiireklikki, aga selle meeletu prügiandmete hulga seast midagi kasulikku välja filtreerida on pea võimatu.”

Siiski tasuks tema sõnul andmete kogumiselt ka veidi tulevikule mõelda ja üritada mõista, mida võib vaja minna mõnel teisel hetkel. Näiteks hetkel ei pruugi ettevõte silma peal hoida, mis seadmeid kasutades kliendid e-poest tooteid ostavad, aga seda võib vaja minna siis, kui hakatakse poe uut versiooni looma. “Veidi kõhutunde kasutamise küsimus ning loogilise mõtlemise kasutamine. Andmeid tuleks koguda nii vähe kui võimalik, samas ei saa endale seada kunstlikke piire ja nii ettevõttele jalga tulistada. Õige on leida tasakaal,” lisas ta.

Andmete kasutaja peaks neist aru saama

Nii nagu on oluline see, et andmeid valideeritaks ja neid loodaks kindlate eesmärkide jaoks, on kriitilise tähtsusega, et andmetes saaks detailselt aru ka see inimene, kes nende pealt mingeid järeldusi tegema hakkab. Suuremas ettevõttes on tavaline, et andmete loomise ja edastamise eest vastutab üks inimene, nende esitlemise eest teine inimene ja järelduste tegemise eest juba keegi kolmas. Kui kõik need osapooled loevad esitletud infot veidi erinevalt, on tulemuseks valed otsused.

“Kõige levinum on olukord, kus mingisse statistikasse või ülevaatesse kaasatakse infot kindlate parameetrite põhjal, kuid andmete looja ja otsuste tegija peavad silmas erinevaid välistusi ja eristusi. Näiteks luuakse raportit kuu jooksul liitunud klientide kohta – andmete looja kaasab sinna kõik tellimuse teinud kasutajad, ka need, kes on juba varem kliendid olnud, samas kui otsuste tegija eeldab, et seal on ainult päris uute kasutajate info,” rääkis ta. “Otsuste tegija näeb seetõttu reaalsusest palju paremat pilti ning nii võib tunduda, et näiteks pole vaja turundustegevustele rõhku juurde panna, kuigi see oleks reaalsuses vajalik.”

Nende olukordade vältimiseks tuleks paika panna protsessid, mis võimaldavad nii andmete loojal kui ka nende kasutajal ülesannetele läheneda samade eeldustega. Põllumäe sõnul võib see olla nii lihtne kui koosolek, kus raport koos üle vaadatakse, või näiteks selge tellimussüsteem, kus andmeid sooviv osapool peab väga detailselt ära kirjeldama, mida ta vajab. “Vigadele on alati ruumi ja seetõttu tuleb jälle mängu ka see, et otsuste langetaja peab reaalse pildiga kursis olema ja kõhutunde pealt ära tajuma, kui andmed tunduvad liiga head või halvad.”

Seotud märksõnad

IT ekspert