Kada veštačka inteligencija ne govori tvojim jezikom: Posledice izostanka digitalizacije u eri veštačke inteligencije
Srbija, kao jedna od zemalja koja nije digitalizovala svoje knjige, arhive i istorijske zapise suočava se sa ozbiljnim posledicama jer gubi priliku da njena kultura, istorija i jezik budu prisutni i prepoznatljivi u digitalnom prostoru. Bez sistematske digitalizacije, Srbija rizikuje da izgubi korak sa svetom koji sve više zavisi od tehnologije i podataka. Prema podacima UNESCO-a, više od 80% svetskog kulturnog nasleđa još uvek nije digitalizovano, što pravi veliki jaz u svetskom korpusu znanja.

Kulturna nevidljivost u digitalnom dobu
Digitalizacija nije samo skeniranje starih knjiga ili unošenje podataka u računar. Ona je ključ da naša kultura, jezik i istorija postoje u digitalnom prostoru gde se danas odvijaju naučna istraživanja, obrazovni procesi i razmena znanja. Bez digitalnih izvora, naučnici ne mogu da kreiraju pretražive baze podataka, razvijaju alate za analizu ili koriste napredne tehnologije poput RAG-a (Retrieval-Augmented Generation), koje pokreću pametne sisteme kao što su ChatGPT ili Grok. Nedostaju nam digitalna izdanja knjiga i dokumenata, otvoreni katalozi, povezane baze podataka – sve ono što omogućava brz i efikasan pristup znanju.
Ovo ima direktan uticaj na humanističke i društvene nauke. Istraživanja postaju sporija, skuplja i ograničena na fizičke arhive, koje su često nedostupne ili u lošem stanju. UNESCO godinama upozorava da je „nesmetan pristup dokumentarnom nasleđu“ osnova za dobro upravljanje, obrazovanje i održivi razvoj. U izveštaju iz 2015. godine, ova organizacija ističe da zemlje koje ne digitalizuju svoje kulturno nasleđe gube šansu da budu deo globalnog digitalnog ekosistema, što ih stavlja u podređen položaj u naučnim, kulturološkim i ekonomskim istraživanjima.
Modeli veštačke inteligencije uče na osnovu onoga što im je dostupno. Ako knjige, dokumenti i arhivi na srpskom jeziku nisu u digitalnom formatu, ovi modeli ih jednostavno ne vide. U digitalnom svetu, nevidljivost je isto što i nepostojanje. Jezici sa malo digitalnih resursa postaju „mrtve tačke“ za veštački inteligenciju. Takvi modeli slabo razumeju naš jezik, prave stilske i gramatičke greške, ne prepoznaju kulturne nijanse. Često „pozajmljuju“ izraze i strukture iz dominantnih jezika, poput engleskog, što dovodi do odgovora koji su netačni ili ne odražavajujezičke i kulturološke specifičnosti srpskog jezika.
Ako pitate veštačku inteligenciju o srpskoj književnosti ili istoriji, a podaci o tome nisu digitalizovani, odgovor će verovatno biti površan, zasnovan na stranim izvorima ili čak pogrešan. Ovo nije samo tehnički problem – to je pitanje kulturnog identiteta i prisustva u globalnom digitalnom prostoru.
Bez digitalnih baza znanja – skeniranih dokumenata, transkripata, kritičkih izdanja – provera činjenica postaje gotovo nemoguća. Novinari, nastavnici, pa čak i sami AI sistemi teže mogu da utvrde šta je tačno, a šta ne. Ovo otvara vrata proizvoljnim tumačenjima i dezinformacijama. UNESCO ovo pitanje već godinama tretira kao stvar javnog interesa: zemlje bez digitalne infrastrukture gube kontrolu nad sopstvenom istorijom i postaju ranjive na manipulacije.
Fizički gubitak knjiga i dokumenata je još jedan rizik. Svaki požar, poplava ili fizičko propadanje papirne građe znači nepovratan gubitak ako digitalne kopije ne postoje.
Projekat UNESCO/PERSIST (eng. Platform to Enhance the Sustainability of the Information Society Transglobally) predstavlja globalnu inicijativu UNESKO-a, pokrenutu 2013. godine, sa ciljem da se obezbedi dugotrajno očuvanje i dostupnost digitalnog kulturnog nasleđa. Ovaj projekat je nastao kao odgovor na preporuke iz Vancouver Declaration-a (2012), u kojoj se ukazuje na potrebu da se digitalizacija planira i sprovodi sistematično, uz jasno definisane smernice, jer nedostatak strategije za digitalnu zaštitu predstavlja sistemski rizik za kulturno nasleđe.
Pravni i ekonomski izazovi digitalizacije
Digitalizacija u Srbiji često nailazi na pravne i institucionalne prepreke. Jedanod ključnih problema su „siročići“ (orphan works) – dela čiji autor ili vlasnik prava nije poznat. Bez jasnih zakona i strategije, institucije se plaše da digitalizuju i objave takve sadržaje, iako bi to bilo u interesu javnosti.Drugi problem odnosi se na strah od krađe intelektualne svojine i plagijata. Mnogi smatraju da se „ideja“ ili autorsko delo lakše može prisvojiti ako je javno dostupno na internetu. Treći, i možda najvažniji problem, jeste to što mnogi ne prepoznaju značaj digitalizacije istorijskih spisa I dokumenta, niti važnost da se sistemi veštačke inteligencije obučavaju upravo na tim podacima. Veruju da prošlost treba da ostane u prošlosti, a da će veštačka inteligencija „otići nekim svojim putem“, dok će ih budućnost „zaobići“.
Digitalizovano kulturno nasleđe nije samo stvar prestiža – ono je ekonomski resurs. Digitalizovani arhivi mogu se koristiti u obrazovanju, filmskoj industriji, turizmu i umetnosti.
Kasno ili haotično digitalizovanje donosi i dugoročne tehničke i finansijske probleme. Bez jasnih standarda, kasnije ispravke postaju skupe, formati nekompatibilni, a posao se duplira. Osim toga, masovno skeniranje i skladištenje podataka imaju ekološki otisak – serveri troše energiju, a bez plana, taj trošak raste. Održiva digitalizacija zahteva pažljivo planiranje, standardizovane metapodatke, kontrolisane rečnike i dugoročne sisteme za arhiviranje. To nije luksuz, već ulaganje u budućnost.
Kada veštačka inteligencija ne govori tvojim jezikom
Ako nema dovoljno digitalnih podataka, veštačka inteligencija ne može da „nauči“ naš jezik. Jezici sa malo resursa, poput srpskog, spadaju u kategoriju „low-resource“, što ih čini tehnološki nevidljivim. Istraživanja u oblasti obrade prirodnog jezika (eng. Natural Language Processing – NLP) pokazuju ogroman jaz između jezika sa bogatim korpusima i onih bez njih. Modeli za srpski jezik često greše u gramatici, ne prepoznaju dijalekte ili varijetete, i „pozajmljuju“ izraze iz engleskog.
Nedostatak domaćih digitalnih resursa podstiče „engleziranje“ digitalnog prostora. Korisnici se okreću engleskom da bi dobili precizniji i tačniji prevod, pametne asistente ili obrazovne sadržaje. Vremenom, srpski jezik će sve manje biti prisutan u naučnoj i stručnoj literaturi, pa u obrazovanju, a na kraju i u kulturi.
Međunarodni izveštaji, uključujući UNESCO i ACL (Association for Computational Linguistics) studije, pokazuju da je digitalizacija presudna za čuvanje kulturnog nasleđa i razvoj veštačke inteligencije. UNESCO upozorava da bez digitalizacije knjiga i arhiva, naša kultura rizikuje da bude izgubljena ili nevidljiva u digitalnom svetu. ACL, osnovano 1962, kroz preko 113.000 naučnih radova (ACL Anthology) otkriva da jezici poput srpskog, sa malo digitalnih izvora, postaju „nevidljivi“ za AI, što dovodi do netačnih i nepreciznih odgovora i gubitka jezičkog identiteta.
Većina svetskih jezika, uključujući srpski, ima ograničene digitalne resurse, što se empirijski meri u NLP performansama. Programi poput NLLB (No Language Left Behind) pokazuju da je za podršku „siromašnim“ jezicima potrebno ciljano prikupljanje podataka i ljudska evaluacija.
Bez digitalizacije, Srbija rizikuje da postane kulturno i tehnološki nevidljiva. Ovo nije samo gubitak nasleđa, već i propuštena prilika za ekonomski i naučni napredak. VI sistemi će nastaviti da favorizuju dominantne jezike, gurajući naš u drugi plan.
Gde je rešenje?
Rešenje nije nedostižno, ali zahteva planiranje i budžet. Potrebna je nacionalna strategija za digitalizaciju: stare knjige, novine, arhive iz XIX i XX veka moraju biti prioritet. Paralelno, treba graditi jezičke korpuse, standardizovane metapodatke i obučavati bibliotekare, arhivare i IT stručnjake. Bez toga, naši sistemi veštačke inteligencije zavisiće od stranih podataka i interpretacija.
Digitalizacija nije samo tehničko pitanje, to je borba za suverenitet nad sopstvenim resursima. Bez digitalnih biblioteka ne gubimo samo prošlost. Gubimo pravo da oblikujemo svoju budućnost.
Autor: Milena Šović, M.Sc.,CSM, CSPO
AI Implementation Specialist & Content Trainer
Izvor: Itnetwork.rs


