• YouTube

Čitanje i pisanje (naše) Wikipedije u doba umjetne inteligencije

Čitanje i pisanje (naše) Wikipedije u doba umjetne inteligencije

Čitanje i pisanje (naše) Wikipedije u doba umjetne inteligencije

Od osnivanja Wikipedije prošlo je 25 godina. Danas je suočena s brojnim izazovima uslijed brzog razvoja i pristupačnosti AI-ja. I postaje posebno ranjiva.

foto: Pixabay

Nekima je Wikipedija dugo godina bila primarni izvor informisanja, bez obzira na sva upozorenja i ograđivanja kako je sve tamo napisano ipak potrebno dodatno provjeriti. Mnogima je postala i „posljednje dobro mjesto na internetu“. No, 25 godina nakon osnivanja ta online enciklopedija suočena je s brojnim izazovima uslijed brzog razvoja i pristupačnosti generativne vještačke inteligencije. I postaje posebno ranjiva.

Wikipedija je besplatna, funkcioniše na open-source principima – bilo ko je može koristiti, uređivati i dijeliti dalje. U pravilu sve što piše i sve što čitamo na Wikipediji je zasnovano na dobroj volji volontera.

Utjecaj generativne AI i društvenih mreža na promjene navika korisnika i publike će u budućnosti vjerovatno sve više utjecati na Wikipediju, s obzirom da pretraživači već nude AI odgovore kroz pretragu, često koristeći upravo podatke s Wikipedije. Također, sve veća prisutnost AI sadržaja na ovoj platformi može umanjiti ljudski, volonterski angažman.

Kad je u pitanju Bosna i Hercegovina, a znajući sve navedeno, postavlja se pitanje: vrijedi li čitati i pisati sve naše Wikipedije (bswiki, shwiki, srwiki, hrwiki) takve kakve su ili je dovoljno da se oslonimo samo na englesku verziju?

Kako publika iz BiH zapravo koristi Wikipediju

Wikipedija je važna za informisanje, uz sve mjere opreza i važnosti provjere, kao i sve drugo što se nađe na internetu, onoliko koliko se i koristi. U oktobru je, prema podacima Wikimedije, zabilježeno 11 miliona posjeta Wiki člancima iz Bosne i Hercegovine. Većina stanovništva ipak čita Wikipediju na engleskom jeziku. Nju prate stranice na srpskom (dva miliona), hrvatskom (dva miliona), bosanskom (682.000) i srpsko-hrvatskom (416.000). Na svakoj od navedenih stranica je bila najčitanija biografija Halida Bešlića.

Pregled čitanosti srpsko-hrvatske Wikipedije upravo daje uvid u nove izazove pred najvećom online enciklopedijom na svijetu. Najveći broj pregleda na shwiki ostvaren je iz Srbije, a prate je milioni posjeta iz Brazila, Sjedinjenih Američkih Država i Indije. Lakše je povjerovati da ovi podaci odražavaju aktivnosti struganja podataka za razvoj AI modela, pri čemu brojni botovi opterećuju servere, nego da se radi o velikom interesu za pluricentrični projekat ovih prostora iz spomenutih zemalja.

Iako čitanost Wikipedije posljednjih godina nije opadala s pojavom AI asistenata, pojavljuju se prvi indikatori promjena navika u ovom smjeru. Jedna studija je pokazala da se korisnici sve više oslanjaju na ChatGPT za teme koje se lako mogu sažeti, a koriste Wikipediju za druge formate. Šta to znači za publiku u Bosni i Hercegovini i relevantne jezičke verzije, koje se manje čitaju? Vrijedi li čitati i pisati Wikipediju?

Informacijski ekscesi i praznine

Mnogi medijski članci u regiji su problematizovali netačne informacije i štetne narative koji se pojavljuju na Wiki jezicima iz Bosne i Hercegovine i regije, koje uključuju nacionalizam, revizionizam i desničarenje. Najmanja Wikipedija od navedenih, shwiki, zapravo je i nastala prva s namjerom da se dosta toga zaobiđe, a bila je i promišljeno zaključana na početku ranih 2000-tih kako bi se smanjio očekivani broj dezinformacija, ratova uređivanja i vandalizma.

Kako navodi profesor historije Mirza Džananović s Univerziteta u Zenici, “varijante Wikipedije na južnoslavenskim jezicima poslužile su različitim skupinama, prvenstveno desno orijentiranim, za promociju stavova i interpretacija o događajima iz prošlosti naroda i država sa područja bivše Jugoslavije koji nisu u skladu sa normama i standardima Wikipedije”. Pri tome su, dodaje, „ratovi sjećanja“ doživjeli određenu tehnološku modernizaciju na način da su prebačeni i na „digitalno bojno polje“.

Wikipedija na hrvatskom jeziku je postala studija slučaja dezinformacija u mjeri na koju je morala reagovati Wikimedia fondacija koja vodi platformu. Tada je Wikimedia preporučila da se sve te wikis zajedno učestvuju u izbornim procesima administratora i drugim procedurama ili da se sve spoje u jedan, pluricentrični projekat. To se nije desilo.

Moguće je da količina štetnih narativa i dezinformacija utječe na čitanje različitih varijanti online enciklopedije. Međutim, ni nju ne možemo idealizovati, naročito u svjetlu debate koju je potakla odluka jednog od suosnivača da zaledi mogućnost uređivanja stranice “Gaza genocide” tvrdeći da se kosi s politikom neutralnosti, što su brojni urednici osudili kao napad na konsenzus akademske zajednice i autonomiju zajednice volontera. Vjerovatno veliku ulogu ima i razvoj korpusa na različitim jezicima. U poređenju sa Wiki na engleskom jeziku, koja ima preko sedam miliona članaka, najveća regionalna verzija srwiki ima ih 10 puta manje.

U sadržajima na Wikipediji postoje i druge nejednakosti. Na primjer, biografije muškaraca su dominantne, a zastupljenost žena koja ima barem jednu biografiju je u cjelokupnom korpusu Wikipedije samo 19,03 posto. Pregled podataka u regiji pokazuje i manje postotke, a jedino na bswiki ovaj broj jedva prelazi globalni prosjek (22 posto).

U praksi, problem je i neprohodnost Wikipedije kada se istražuju teme koje su značajne u Bosni i Hercegovini i široj regiji. Pojedine teme koje su posebno osjetljive, kao što je “Rat u Bosni i Hercegovini”, uvezane su prijevodom i jasno se mogu vidjeti razlike u sadržaju. Verzija ovog članka na shwiki je ocijenjena kao kvalitetan članak.

Međutim, mogućnost poređenja nije pravilo. Stranice poput “Udruga BH novinari” na hrwiki i “Udruženje BH novinari” na srwiki nisu povezane. Slično tome nisu povezane stranice “Kuća Zehre Bahtijarević” na bswiki i srwiki, iako imaju identičan naziv.

Analizom korpusa jedinstvenih članaka na svakoj od navedenih Wikipedija, koje su vezane uz Bosnu i Hercegovinu, to uglavnom uključuje lokalne teme, posebne lokacije – često bogomolje, organizacije i dr. “Bosanci i Hercegovci” stranica se pojavljuje samo na hrwiki.

Među jedinstvenim člancima su i kontroverznije teme. Na primjer, jezičke verzije uključuju jedinstvene preglede ratnih ofanziva koje se ne mogu pretražiti na drugim jezicima na kojoj bi se mogla usporediti objektivnost.

Engleska varijanta (enwiki) pokriva samo trećinu sadržaja koji je vezan uz konkretna kulturna podneblja u svijetu. Naše varijante (srwiki, hrwiki, shwiki, bswiki) sve imaju članke koji ne postoje na drugim jezicima, a nekada postoje pod različitim nazivima koji sami nose određene konotacije. Iste teme ostaju neuvezane, što otežava prohodnost online enciklopedije.

U radu “Jezički raskol u ‘stvarnom’ i digitalnom okruženju: slučaj srpskohrvatskog”, dr. Maja Runić, profesorica s Univerziteta u Banjoj Luci, navodi izazove jezičkih varijanti u digitalnom dobu. Među njima su: “neujednačen razvoj resursa za pojedinačne jezike, različite količine i kvalitet podataka za svaki od jezika, nedovoljno prisustvo svih varijanti uzrokovano političkim podjelama i jezičkim ideologijama, navike korisnika i različite pristrasnosti koje se javljaju u trenutno dominantnim jezičkim tehnologijama.”

Budućnost malih jezika i malih Wikipedija

Kvalitet jezičkih podataka je bitan element u procjeni vitalnosti jednog jezika, koji često utiče na odluku korisnika da koristi uslugu na svom jeziku. U praksi, AI asistenti uglavnom koriste englesku verziju, a zatim je prevode. Dugoročno, to može doprinijeti dodatnoj nejednakosti znanja globalno i definisati navike publike.

Prema podacima projekta Evropske jezičke jednakosti (ELE) o digitalnoj jednakosti jezika, postoji značajan jezički jaz među engleskog i većine evropskih jezika. Prikaz ispod pokazuje razlike u tehnološkim faktorima – vrste, broja i kvaliteta resursa i podataka za mogućnost dalje obrade te njihove dostupnosti, odnosno mogućnosti slobodnog pristupa.

ChatGPT, Gemini i ostali chat modeli koriste Wikipediju kao jedan od najpouzdanijih izvora za treniranje odgovora. Wikipedija je reagovala na izazove AI mnogo bolje od mnogih platformi kao što su društvene mreže. Između ostalog, transparentna je i jednostavna za upotrebu.

Odnos između Wikipedije i AI sistema je osjetljiv, naročito kod jezika koje govori vrlo malo ljudi, što ukazuje na potrebu za kvalitetnim i provjerenim sadržajem. MIT Technology Review daje uvid u ekstreman primjer Wikipedije na grenlandskom jeziku, koje su zbog zatrpanosti automatskim prijevodima kasnije dovele do posljedica da AI modeli uče iz pogrešnih podataka. Zatim, AI proizvodi još lošeg sadržaja. To dovodi do ciklusa, pri čemu AI procesuje netačne podatke i jezičke greške, te generiše nove netačne informacije koje ne gube samo smisao već postaju nerazumljive, nepoštujući osnove gramatike i pravopisa. U principu, kako je to objašnjeno, ako se AI hrani smećem, on proizvodi smeće („garbage in, garbage out“).

Između volonterizma i zapuštenosti

Wikimedia Foundation posljednjih godina naglašava da je značaj Wikipedije zapravo veći nego ranije, upravo zbog generativne umjetne inteligencije (AI). U novoj strategiji, upotreba AI u procesima je strateški zamišljena kao podrška radu volontera. “Vjerujemo da će ljudi i dalje željeti da se oslanjaju na stvarne ljude kao konačne arbitre znanja“, navodi fondacija.

Na engleskoj verziji je u proteklom mjesecu bilo aktivno više od 40.000 urednika, a ovaj broj je ukupno 252 na srwiki, 113 na hrwiki i manji od 50 na shwiki i bswiki.

U praksi, djelovanja Wikipedije u Bosni i Hercegovini ostaju ograničena. Za razliku od nekih zemalja u regionu, Bosna i Hercegovina još uvijek nema Wikimedia poglavlje, formalnu organizaciju koja podržava volontere i obrazovne projekte. Aktivnosti povremeno organizuju pojedinci i manja zajednica iz entiteta Republika Srpska, prepoznata unutar globalne mreže. Ostatak aktivnosti nekad pokreću drugi entuzijasti i volonteri.

„Potrebno je preusmjeriti energiju koja se troši kako bi se održale postojeće predrasude i otpori prema Wikipediji u iskorištavanje pedagoških potencijala radi razvijanja osnovnih kompetencija medijske i informacijske pismenosti, ali i modernizacije cjelokupna obrazovnog procesa“, navodi komunikolog Vuk Vučetić u analizi “Uređivanje Wikipedije kao mehanizam razvoja kompetencija medijske i informacijske pismenosti”.

Potpuno objektivni sadržaji ne postoje, a ljudsku subjektivnost uvijek je moguće preispitivati, bilo da govorimo o lokalnim Wikipedijama ili o najkvalitetnijim medijskim sadržajima. Međutim, „kompjutersku subjektivnost“ – onu koju modeli preuzimaju iz podataka na kojima se treniraju – daleko je teže prepoznati, razumjeti i korigovati. To je jedan od ključnih izazova informisanja danas, ali i u budućnosti.

U tom kontekstu postaje važno dublje propitati naše navike pisanja i čitanja Wikipedije. Oslanjanje na strane izvore može djelovati praktično, ali može i negativno utjecati na globalne nejednakosti u proizvodnji znanja, vidljivost lokalnih tema i digitalnu vitalnost jezika koji se govore u regiji.

Zbog toga se Wikipedija ističe kao primjer za sve online izvore informacija: način na koji se odnosi prema sadržaju i prema ubrzanoj integraciji generativne AI postaje presudan za njen opstanak. Bez jasne strategije, rizik je da ostane isključivo u rukama izolovanih volontera – i pitanje “dobre” volje.

     

Projekt Presented / Digital Majortiy implementira Fondacija za razvoj medija i civilnog društva 'Mediacentar' u saradnji sa Pro Peace u Bosni i Hercegovini.

___

Želite sedmični pregled vijesti, analiza, komentara i edukacija za novinare u Inboxu Vašeg e-maila? Pretplatite se na naš besplatni E-bilten ovdje.