Denník N

Dajú hejtom zbohom? Slovenskí študenti vyvinuli softvér na odhaľovanie nevhodných komentárov

O pol štvrtej ráno odchádzajú študenti zo školy. Pracujú na vývoji softvéru moderateIT. Andrej Švec, Monika Filipčiková, Jakub Adam a Filip Vozár (zľava doprava). Foto - moderateIT
O pol štvrtej ráno odchádzajú študenti zo školy. Pracujú na vývoji softvéru moderateIT. Andrej Švec, Monika Filipčiková, Jakub Adam a Filip Vozár (zľava doprava). Foto – moderateIT

V súčasnosti dokáže softvér zaradiť správne 65 percent príspevkov podľa toho, či sú dobré alebo nevhodné.

Internet je jedna veľká džungľa. Obzvlášť pre sociálne siete platí, že sa na nich ľudia uzatvárajú do skupín vlastných prívržencov, medzi ktorými šíria jeden hejt, hoax či konšpiračný blud za druhým.

Posadení pohodlne za obrazovkou sa tešíme z utrpenia druhých ľudí, prajeme im smrť, nadávame im nespisovnými výrazmi, a pritom si neuvedomujeme, že by im naše slová mohli ublížiť.

Aj v diskusiách pod článkami sa to hemží agresivitou a vulgárnosťou. Ak webový portál nechce byť nástenkou na šírenie urážok, musí sa s príspevkami diskutérov nejako vyrovnať.

analýzy, ktorú minulý týždeň zverejnil britský Guardian, vyplýva, že medzi desiatimi najviac urážanými novinármi denníka bolo osem žien a dvaja muži čiernej pleti. Dve zo žien boli lesby, jeden muž bol gej. Z desiatich autorov, ktorí dostávali urážlivé komentáre najmenej, boli všetci muži.

70 miliónov komentárov

Noviny do výskumu zaradili 70 miliónov komentárov, ktoré na ňom nechali ľudia od roku 2006. Zablokovali 1,4 milióna z nich (2 percentá).

Otvoriť diskusiu v našich podmienkach pod článkom o potratoch, eutanázii, migrácii alebo slovenskom vojnovom štáte znamená, že po chvíli sa komentáre zvrtnú neželaným smerom k osočovaniu a urážkam.

Nie je v silách moderátora sledovať stovky príspevkov denne. Z pragmatických dôvodov je jednoduchšie, ak noviny diskusiu pod článkom vypnú, aby sa vyhli nepríjemnostiam.

Študenti z Fakulty informatiky a informačných technológií Slovenskej technickej univerzity vyvinuli softvér moderateIT, ktorý by moderovanie diskusií pod článkami mohol výrazne uľahčiť. Pracujú na ňom v rámci svojej bakalárskej práce pod vedením informatika Jakuba Šimka.

Vyberú nevhodné príspevky

So svojím nápadom už vyhrali jedno z predkôl celosvetovej súťaže Imagine Cup od Microsoftu. Projekt je momentálne prihlásený do hlavnej súťaže, sú v nej tisíce tímov z celého sveta. Obmedzený počet z nich postúpi až do finále, ktoré sa bude v Spojených štátoch.

„Náš softvér dokáže moderátorovi ponúknuť tie príspevky, ktoré sú najhoršie, a mal by sa nimi zaoberať, lebo do diskusie nepatria. Môže ísť napríklad o osobné útoky, urážky alebo reklamu,“ povedal pre Denník N Filip Vozár, člen tímu.

„Naším cieľom je zúžiť množinu príspevkov, na ktorú sa moderátori majú zamerať. Vďaka tomu nemusia tráviť čas nad príspevkami, ktoré sú dobré. Rovno prejdú k tým, ktoré sú zlé, a tie môžu zmazať alebo skryť podľa internej politiky portálu,“ dodal študent.

screen-comment-analysis
Rozhranie moderateIT. Foto – moderateIT

Vulgárne slová či veľké písmená

Softvér poskytuje užívateľovi niekoľko údajov, podľa ktorých sa môže rozhodnúť, ako s príspevkom naloží. Ide napríklad o výskyt vulgárnych slov, tematickú podobnosť s článkom a predchádzajúcim komentárom.

„Spolu je tam okolo 20 parametrov. Poskytujeme dáta aj o tom, či príspevok obsahoval odkazy na iné stránky alebo koľko v ňom bolo slov napísaných veľkými písmenami. Sledujeme aj gramatiku – to je dôležitý údaj o autorovi príspevku,“ vysvetlil Jakub Adam, člen tímu.

V súčasnosti dokáže softvér zaradiť správne 65 percent príspevkov podľa toho, či sú dobré alebo nevhodné. Z diskusného príspevku vyťahuje čísla, ktoré ho určitým spôsobom opisujú.

„Čísla, ktoré z textov dostávame, sa týkajú počtu nadávok, formátovania alebo nálady príspevku, či je pozitívna alebo negatívna. Využívame pri tom slovník, ktorý obsahuje citovo zafarbené slová,“ vysvetlil pre Denník N Andrej Švec, člen tímu.

Strojové učenie

Jadrom softvéru je strojové učenie. Počítačovému systému umožňuje učiť sa, ktoré príspevky sú zlé a ktoré dobré. „Je to založené na tom, že algoritmus sa na základe vybraných čŕt sám naučí určovať, či je príspevok vhodný alebo nie. Naučí sa to na základe toho, že mu poskytneme dostatočné množstvo príkladov, čo znamená dobrý a zlý príspevok,“ dodal Švec.

Študenti chcú softvér ďalej vylepšovať a zvýšiť tak jeho úspešnosť v označovaní dobrých a zlých príspevkov. Chcú, aby počítač bral do úvahy aj pozíciu slov vzhľadom na seba.

„Ak by človek použil v komentári slovo blbec, ale pred ním by boli slová ‚ty si‘, má to väčšiu váhu ako v iných prípadoch. Lebo je rozdiel medzi vetami: ‚Som blbec, mýlil som sa, prepáč“ a ‚Ty si blbec‘,“ vraví Švec.

Momentálne moderateIT podporuje slovenčinu a angličtinu. Odlišné spôsoby, ako sa v iných jazykoch skladajú vety, by si vyžiadali zásahy do algoritmu, aby sa softvér dal použiť napríklad v čínštine alebo vo fínčine.

author580
Rozhranie moderateIT. Foto – moderateIT

Reputácia a nálada

Určitá časť riešenia však jazykovo závislá nie je a dá sa preniesť na ľubovoľný jazyk. „Patrí tam napríklad správanie používateľa na webe, jeho dlhodobá reputácia a okamžitá nálada. Snažíme sa ju modelovať číslami. Zistíme si, koľko príspevkov dáva diskutér bežne za jeden deň. Potom prídu voľby a my vidíme, že začne dávať tridsať príspevkov denne namiesto jedného ako v minulosti. Vieme tiež zistiť, že používateľ je zaťažený na iného používateľa, lebo komentuje iba jeho príspevky,“ hovorí Švec.

Študent si myslí, že počet ľudí, ktorí sa uchyľujú k nevhodným komentárom, klesá, ak svoju totožnosť musia potvrdiť dokladom alebo prepojením s účtom na Facebooku. Podľa Moniky Filipčíkovej, ďalšej členky tímu, nemá stále viac ľudí problém vystupovať pod vlastnou identitou a písať agresívne či vulgárne veci.

Podľa prieskumu Simona Smitha, sociológa zo Sociologického ústavu Slovenskej akadémie vied, prevažujú medzi diskutérmi Denníka N muži (77 percent). Priemerný vek diskutérov je 46 rokov, v 64 percentách majú vysokoškolské vzdelanie. Najviac ich pochádza z Bratislavského kraja (39 percent).

Máte pripomienku alebo ste našli chybu? Prosíme, napíšte na [email protected].

Technológie

Veda

Teraz najčítanejšie