10 alata za bolji rad i efikasnost data novinara (I)
10 alata za bolji rad i efikasnost data novinara (I)
U prvom delu članka govorimo o spredsheetu (kao što je Excel), SQL-u, alatima za „čišćenje“ podataka, alatima za vizualizaciju i softverima za mapiranje podataka.
Teško je biti jednako dobar u svim disciplinama koje potpadaju pod data novinarstvo. Što je još gore (ili bolje, zapravo), data novinari stalno otkrivaju i primenjuju nove metode i alate.
Kao početnik u data novinarstvu treba da razvijete osećaj za alate koje drugi koriste u svom radu kojem se divite. Nećete moći da ih naučite sve odjednom, a ne treba to ni da pokušavate. Međutim, treba da razvijete opštu svesnost o alatima koji su u upotrebi (nešto kao znanje koje vam Facebook daje o životima vaših drugova iz srednje škole). Napravite listu alata. Pogledajte opise njihovog korišćenja koji su dostupni u video-formatu i pregledajte dokumentaciju ili programeski kod. Tako ćete se, kada se ukaže potreba na projektu na kojem radite, setiti dovoljno toga da ćete moći da počnete da radite s tim alatom.
Ipak, odaberite par alata i odlično ih savladajte. Odaberite neki alat i izvucite iz njega sve što možete. Pročitajte sve što možete da nađete o njemu. Naučite svaku njegovu specifičnosti i optimizaciju. Zapišite kao stalan podsetnik sve prečice na tastaturi za taj alat. Samo budite spremni da odaberete novi alat kada osetite da postoji jednostavniji način da se nešto uradi. Sledi prikaz 10 alata kada koji su deo redovnog „arsenala“ svakog data novinara.
1. Spreadsheet
Skoro svaki data novinar počinje spreadsheetom. (Napomena: Ja sam tu izuzetak, kao i neki drugi programeri-novinari. Naučio sam da koristim spreadsheet da bih radio sa kolegama koji se oslanjaju na njega).
Spreadsheet je skoro univerzalan format podataka, pogotovo ako čuvate podatke kao dokument sa običnim tekstom koji je razdvojen nekim znakom ili na neki drugi način, kao što je dokument sa vrednostima razdvojenim zarezom [engl. comma-separated values file]. Svako već ima neki komercijalni spreadsheet program [kao što je npr. Excel, prim. prev.] ili može jednostavno da preuzme neki besplatni, a postoji raznovrsna ponuda savremenih spreadsheet aplikacija.
Postoji nekoliko sajtova i kurseva koji vam mogu pomoći da razvijete veštine korišćenja spreadsheeta. Počnite od sortiranja vrednosti, filtriranja i sabiranja, pa pređite na naprednije formule. Kako budete učili formule, pokušajte ponekad da ih sami ukucate umesto da koristite već spremne formule koje primenjujete jednim klikom u spreadsheet programima. Ta praksa će vas bolje upoznati sa formulama koje koristite, a pomoći će vam i da počnete da da izražavate svoje ideje u kodu, što će biti korisno kada se prihvatite drugih alata.
2. SQL
Posle izvesnog vremena, moguće je da će vam smetati ograničenja spreadsheeta. Mnogi data novinari pređu na neki menadžer relacionih baza podataka (npr. SQLite, MySQL, PostgreSQL, Access) kada imaju više od dva spreadsheeta koja treba uvezati ili velike setove podataka koje treba „propitati“. SQL vam omogućava da tačno opišete podset podataka koji želite da ekstrahujete ili tačne promene koje želite da napravite, a omogućava vam da ove upite primenite na uvezane setove podataka. Komande koje ste koristili možete da sačuvate kao skripte, pa možete da dokumentujete sve što ste uradili sa podacima i te korake možete automatski da ponovite na nekom budućem setu podataka.
Skoro svaki program za relacione baze podataka koristi neku vrstu SQL-a, pa kada ste jednom naučili osnove (par desetina ključnih reči i nešto interpunkcije), možete da “propitujete” baze podataka u bilo kom sistemu, besplatnom ili komercijalnom. Takođe, relacione baze podataka se često koriste da bi se podaci pohranili u web aplikacijama, pa vaše znanje SQL-a može biti direktno korisno u razvoju web sajtova.
Evo jednog tutorijala od kojeg možete da počnete.
3. Alati za čišćenje podataka
Svi setovi podataka su „prljavi“. Ponovite to sebi tri puta kad god otvorite laptop.
Da biste očistili podatke i pretvorili ih u upotrebljiv format, verovatno ćete koristiti razne alate. Moj omiljeni je Google Refine, koji pomalo izgleda kao spreadsheet, ali je namenjen operacijama kao što je standardizacija imena, tako da možete da stvorite pouzdane podatke. (Umesto da ih baza tretira kao tri osobe, možete da očistite podatke tako da „John Smith“, „Smith, John“ i „John Q. Smith“ budu tretirani kao jedna osoba). Koristeći Google Refine Expression Language moći ćete da radite sofisticirane transformacije podataka i napravićete još jedan korak ka korišćenju koda. (Data Wrangler je još jedan novi alat sa funkcionalnošću koja je slična Google Refine-u i vredi ga ispitati).
Takođe treba da poznajete alate u operativnom sistemu koji koristite koji mogu da vam pomognu u upravljanju dokumentima i podacima unutar njih. Ako koristite OSX ili Linux, imate sed, awk, grep i find. (Takođe postoje portovi za Windows). Koristeći ove alate, možete početi da istražujete i obrađujete svoje podatke bez potrebe da otvorite spreadsheet ili neki program za baze podataka.
A kada se već bavite alatima koji počivaju na komandnim linijama, pogledajte CSVKit, sjajan set alata – koji su razvili novinari – koji će vam pomoći da radite čuda u tom često upotrebljavanom formatu.
4. Alati za vizualizaciju
Vizualizacija nije dekoracija. Ona ne služi tome da samo prati ili ilustruje data novinarstvo; ona je ključna za rad data novinara. Dobra vizualizacija će vam pomoći da vidite ekstremne vrednosti i trendove na načine koji će suštinski promeniti vaše razumevanje podataka.
Većina spreadsheet aplikacija ima barem osnovne opcije izrade grafikona (a često i sofisticiranije vizualizacije dostupne kroz dodatke programu). Par alata za vizualizaciju u kojima se radi na webu postali su standardni alat data novinara. Pogledajte Google Fusion Tables i Tableau Public. Oba ova alata su laka za korišćenje i daju prilično impresivne rezultate.
Na kraju ćete možda hteti nešto fleksibilnije i moćnije; stručnjaci se često prihvate alata kao što je statistički paket R , koji je otvorenog koda i kombinuje moćnu analitiku i alate za vizualizaciju, sve to na robusnom programskom jeziku.
5. Softveri za mapiranje
Google Fusion tabele i Tableau Public imaju mogućnosti za brzo i intuitivno mapiranje podataka. Kada vam mape koji oni nude ne daju ono što vam treba, isprobajte paket za mapiranje QGIS. (Ili, ako vaša redakcija može da plati jednu licencu, ArcView je moćna komercijalna opcija). Za uvod u QGIS, koji je namenjen baš novinarima, pogledajte ovaj tutorijal.
Takođe postoje prostorne ekstenzije za programe za upravljanje bazama podataka, a one mogu da pomognu kada podacima koje imate postavljate geografska “pitanja”. Njihove mogućnosti prevazilaze one SQL-a jer možete da kreirate upite u vezi sa geografijom, kao što je identifikacija lokacija unutar neke granice (npr. okruga). PostGIS i SpatiaLite su besplatna i popularna rešenja.
U 2. delu članka pročitajte o programskim jezicima, alatima za programiranje za Web, programima za uređivanje koda, alatima za kontrolu revizija, kao i alatima za analizu dokumenata.
------------------------------------------------------------------------------------------------------
Članak je objavljen na sajtu Poynter.org 10.10.2011. pod nazivom 10 tools that can help data journalists do better work, be more efficient, a njegovo dalje preuzimanje i objavljivanje podleže isključivo uslovima preuzimanja sadržaja koji su navedeni na ovom sajtu.