Kada algoritam prepiše čovjeka: Kako tehnolingvistička pristrasnost briše jezike

U vrijeme kada vještačka inteligencija piše članke, vodi pregovore s korisnicima i bez treptaja prevodi sve što joj padne pod algoritamsku ruku, najvažnije pitanje više nije može li tehnologija govoriti kao čovjek. Pitanje je mnogo jednostavnije, ali opasnije: može li govoriti kao svi ljudi. A odgovor je bolan: ne može, i još gore, ne usporava da to nauči.

U radu “Diversity and Language Technology: How Techno-Linguistic Bias Can Cause Epistemic Injustice”, objavljenom na arXivu, Paula Helm, Gábor Bella, Gertraud Koch i Fausto Giunchiglia upozoravaju na to da savremene jezičke tehnologije funkcioniraju kao zatvoren krug privilegije. Dizajnirane su tako da najbolje rade za svega nekoliko dominantnih jezika, onih politički i ekonomski najmoćnijih, dok se ostatak planete gura u digitalnu marginu. Kada se manji jezici “podrže”, to je uglavnom kozmetika: sistem zna prepoznati formu, ali ne i dubinu, zna prevesti rečenicu, ali ne i misao, zna generirati tekst, ali ne i nijansu.

Problem nije samo tehničke prirode. On je epistemološki. Ako model ne razumije kulturni kontekst, ako ne poznaje metaforu, ako ne razlikuje ironiju od doslovnog govora, on ne gubi samo stil nego i dio svijeta koji tim stilom živi. To je ono što autori nazivaju epistemčkom nepravdom: trenutak kada se cijele zajednice “brišu” iz digitalne stvarnosti jer njihovi koncepti ne staju u unaprijed zadan kalup. Ako tehnologija ne razumije riječ, ona uskoro prestane razumjeti i ljude koji tom riječju misle.

To je posebno vidljivo na Balkanu, gdje su jezici isprepleteni, nijansirani, višeslojni, zasićeni istorijom, ironijom, inatom i emocionalnim melodijama koje ne možete tek tako svesti na gramatičku konstrukciju. Ako algoritam ne razumije “inat”, on ne pravi grešku u prevođenju — on briše čitavu filozofiju opstanka. Ako ne razlikuje bosanski, hrvatski i srpski, to nije lingvistička lijenost, nego kulturno niveliranje. Ako se metafora pretvori u grešku, gubi se naša najstarija forma otpora stvarnosti.

I zato tehnologija, koja se toliko diči neutralnošću, zapravo preslikava stare hijerarhije: moćni jezici postaju digitalni standard, a mali jezici digitalni incident. Čak ni najbolje namjere ne mijenjaju činjenicu da arhitektura većine sistema počiva na engleskoj logici značenja, engleskom oblikovanju stvarnosti, engleskoj semantičkoj gravitaciji. Sve što odstupa — nestaje.

Autori nude izlaz, ali ne brz. Traže da zajednice same učestvuju u dizajnu sistema, da se jezik ne tretira kao paket podataka nego da bude nosilac iskustva. Da se digitalni svijet prilagodi jezicima, a ne jezici digitalnom svijetu. Da pluralnost značenja postane pravilo, a ne smetnja. To je spor put, ali jedini koji čuva ljudskost.

I tu se vraćamo na našu malu, tvrdoglavu regiju koja je navikla da se bori za vidljivost. Ovo pitanje nije tehnološko, nego kulturno, političko i identitetsko. Nije stvar u tome da li će AI znati pravilno padežirati latinične varijante naših jezika, nego da li će razumjeti ono što skrivamo iza njih — naše narative, naše šutnje, naše ironije, naše bolove i naše metafore koje često govore više nego činjenice.

Ako dopustimo da algoritmi oblikuju svijet bez naših riječi, pristajemo da nas jednog dana prestanu i čuti. I zato možda najvažnija lekcija iz ovog rada, nije ni tehnološka ni teoretska, nego duboko ljudska: brzim svijetom i dalje upravljaju spori jezici. Oni koji traže da ih se osluškuje, a ne skenira. Oni koji traže smisao, a ne samo tačnost. Oni koji imaju strpljenja za nijanse koje model još ne prepoznaje.

A možda ih i ne prepozna nikada, ako ih ne budemo branili mi.

(prema radu “Diversity and Language Technology: How Techno-Linguistic Bias Can Cause Epistemic Injustice”, arXiv, 2023)