Dajú hejtom zbohom? Slovenskí študenti vyvinuli softvér na odhaľovanie nevhodných komentárov

O pol štvrtej ráno odchádzajú študenti zo školy. Pracujú na vývoji softvéru moderateIT. Andrej Švec, Monika Filipčiková, Jakub Adam a Filip Vozár (zľava doprava). Foto – moderateIT

V súčasnosti dokáže softvér zaradiť správne 65 percent príspevkov podľa toho, či sú dobré alebo nevhodné.

Internet je jedna veľká džungľa. Obzvlášť pre sociálne siete platí, že sa na nich ľudia uzatvárajú do skupín vlastných prívržencov, medzi ktorými šíria jeden hejt, hoax či konšpiračný blud za druhým.

Posadení pohodlne za obrazovkou sa tešíme z utrpenia druhých ľudí, prajeme im smrť, nadávame im nespisovnými výrazmi, a pritom si neuvedomujeme, že by im naše slová mohli ublížiť.

Aj v diskusiách pod článkami sa to hemží agresivitou a vulgárnosťou. Ak webový portál nechce byť nástenkou na šírenie urážok, musí sa s príspevkami diskutérov nejako vyrovnať.

Z analýzy, ktorú minulý týždeň zverejnil britský Guardian, vyplýva, že medzi desiatimi najviac urážanými novinármi denníka bolo osem žien a dvaja muži čiernej pleti. Dve zo žien boli lesby, jeden muž bol gej. Z desiatich autorov, ktorí dostávali urážlivé komentáre najmenej, boli všetci muži.

70 miliónov komentárov

Noviny do výskumu zaradili 70 miliónov komentárov, ktoré na ňom nechali ľudia od roku 2006. Zablokovali 1,4 milióna z nich (2 percentá).

Otvoriť diskusiu v našich podmienkach pod článkom o potratoch, eutanázii, migrácii alebo slovenskom vojnovom štáte znamená, že po chvíli sa komentáre zvrtnú neželaným smerom k osočovaniu a urážkam.

Nie je v silách moderátora sledovať stovky príspevkov denne. Z pragmatických dôvodov je jednoduchšie, ak noviny diskusiu pod článkom vypnú, aby sa vyhli nepríjemnostiam.

Študenti z Fakulty informatiky a informačných technológií Slovenskej technickej univerzity vyvinuli softvér moderateIT, ktorý by moderovanie diskusií pod článkami mohol výrazne uľahčiť. Pracujú na ňom v rámci svojej bakalárskej práce pod vedením informatika Jakuba Šimka.

Prečítajte si

Bojujú s hejtermi, ich rasistické komentáre dajú na bilbord v mieste ich bydliska

Vyberú nevhodné príspevky

So svojím nápadom už vyhrali jedno z predkôl celosvetovej súťaže Imagine Cup od Microsoftu. Projekt je momentálne prihlásený do hlavnej súťaže, sú v nej tisíce tímov z celého sveta. Obmedzený počet z nich postúpi až do finále, ktoré sa bude v Spojených štátoch.

„Náš softvér dokáže moderátorovi ponúknuť tie príspevky, ktoré sú najhoršie, a mal by sa nimi zaoberať, lebo do diskusie nepatria. Môže ísť napríklad o osobné útoky, urážky alebo reklamu,“ povedal pre Denník N Filip Vozár, člen tímu.

„Naším cieľom je zúžiť množinu príspevkov, na ktorú sa moderátori majú zamerať. Vďaka tomu nemusia tráviť čas nad príspevkami, ktoré sú dobré. Rovno prejdú k tým, ktoré sú zlé, a tie môžu zmazať alebo skryť podľa internej politiky portálu,“ dodal študent.

screen-comment-analysis — Rozhranie moderateIT. Foto – moderateIT

Vulgárne slová či veľké písmená

Softvér poskytuje užívateľovi niekoľko údajov, podľa ktorých sa môže rozhodnúť, ako s príspevkom naloží. Ide napríklad o výskyt vulgárnych slov, tematickú podobnosť s článkom a predchádzajúcim komentárom.

„Spolu je tam okolo 20 parametrov. Poskytujeme dáta aj o tom, či príspevok obsahoval odkazy na iné stránky alebo koľko v ňom bolo slov napísaných veľkými písmenami. Sledujeme aj gramatiku – to je dôležitý údaj o autorovi príspevku,“ vysvetlil Jakub Adam, člen tímu.

V súčasnosti dokáže softvér zaradiť správne 65 percent príspevkov podľa toho, či sú dobré alebo nevhodné. Z diskusného príspevku vyťahuje čísla, ktoré ho určitým spôsobom opisujú.

„Čísla, ktoré z textov dostávame, sa týkajú počtu nadávok, formátovania alebo nálady príspevku, či je pozitívna alebo negatívna. Využívame pri tom slovník, ktorý obsahuje citovo zafarbené slová,“ vysvetlil pre Denník N Andrej Švec, člen tímu.

Strojové učenie

Jadrom softvéru je strojové učenie. Počítačovému systému umožňuje učiť sa, ktoré príspevky sú zlé a ktoré dobré. „Je to založené na tom, že algoritmus sa na základe vybraných čŕt sám naučí určovať, či je príspevok vhodný alebo nie. Naučí sa to na základe toho, že mu poskytneme dostatočné množstvo príkladov, čo znamená dobrý a zlý príspevok,“ dodal Švec.

Študenti chcú softvér ďalej vylepšovať a zvýšiť tak jeho úspešnosť v označovaní dobrých a zlých príspevkov. Chcú, aby počítač bral do úvahy aj pozíciu slov vzhľadom na seba.

„Ak by človek použil v komentári slovo blbec, ale pred ním by boli slová ‚ty si‘, má to väčšiu váhu ako v iných prípadoch. Lebo je rozdiel medzi vetami: ‚Som blbec, mýlil som sa, prepáč“ a ‚Ty si blbec‘,“ vraví Švec.

Momentálne moderateIT podporuje slovenčinu a angličtinu. Odlišné spôsoby, ako sa v iných jazykoch skladajú vety, by si vyžiadali zásahy do algoritmu, aby sa softvér dal použiť napríklad v čínštine alebo vo fínčine.

author580 — Rozhranie moderateIT. Foto – moderateIT

Reputácia a nálada

Určitá časť riešenia však jazykovo závislá nie je a dá sa preniesť na ľubovoľný jazyk. „Patrí tam napríklad správanie používateľa na webe, jeho dlhodobá reputácia a okamžitá nálada. Snažíme sa ju modelovať číslami. Zistíme si, koľko príspevkov dáva diskutér bežne za jeden deň. Potom prídu voľby a my vidíme, že začne dávať tridsať príspevkov denne namiesto jedného ako v minulosti. Vieme tiež zistiť, že používateľ je zaťažený na iného používateľa, lebo komentuje iba jeho príspevky,“ hovorí Švec.

Študent si myslí, že počet ľudí, ktorí sa uchyľujú k nevhodným komentárom, klesá, ak svoju totožnosť musia potvrdiť dokladom alebo prepojením s účtom na Facebooku. Podľa Moniky Filipčíkovej, ďalšej členky tímu, nemá stále viac ľudí problém vystupovať pod vlastnou identitou a písať agresívne či vulgárne veci.

Podľa prieskumu Simona Smitha, sociológa zo Sociologického ústavu Slovenskej akadémie vied, prevažujú medzi diskutérmi Denníka N muži (77 percent). Priemerný vek diskutérov je 46 rokov, v 64 percentách majú vysokoškolské vzdelanie. Najviac ich pochádza z Bratislavského kraja (39 percent).

Máte pripomienku alebo ste našli chybu? Prosíme, napíšte na [email protected].

Dajú hejtom zbohom? Slovenskí študenti vyvinuli softvér na odhaľovanie nevhodných komentárov

70 miliónov komentárov

Bojujú s hejtermi, ich rasistické komentáre dajú na bilbord v mieste ich bydliska

Vyberú nevhodné príspevky

Vulgárne slová či veľké písmená

Strojové učenie

Reputácia a nálada

Technológie

Boston Dynamics predstavil nového robota Atlas. Humanoidné roboty sa uplatnia skôr v službách ako v priemysle, vraví robotik

Graf dňa: Výsledky holandskej ASML ukazujú, že sektor čipov nie je stávkou na istotu

Veda

Polovica čínskych miest sa pomaly prepadáva, zistila štúdia. Ohrozené sú najmä tie na pobreží

Vegetačná sezóna sa tento rok začala skôr o tri až štyri týždne, rastliny čelia vyššiemu riziku mrazov, vraví botanik

Úzkosť je ako preťahovanie sa lanom s vlastnými myšlienkami

MediaBrífing: Spôsobili technológie epidémiu duševných chorôb u detí? Je to zložitejšie

Teraz najčítanejšie

Ficovi vypršal čas na odpoveď po ostrom liste z Bruselu. Problémy tušil už vlani na utajovanej ceste

Najdôležitejšia česká misia: Ako sa zrodil nečakaný plán nájsť vo svete muníciu pre Ukrajinu

Newsfilter: Zbierka Munícia pre Ukrajinu je aj odkazom Moskve

Vývoj bojov (785. deň): Bol by to úspech na úrovni zázraku. Ukrajina sa chváli zostrelením bombardéra, ktorý ničil jej mestá

Na predčasný dôchodok už po 40 rokoch zabudnite, trináste penzie zhltnú miliardu ročne. Pozrite si, čo schválili poslanci

Vytáča ma proteínová panika aj živiny v prášku, hovorí vedec v oblasti výživy Tim Spector

Gyimesi pracoval u košického župana len pár týždňov, podľa polície vtedy zmanipuloval verejné obstarávanie

My už s ropou končíme a bežať budeme na odpady, hovoria robotníci zo Slovnaftu. Preháňajú, no iba čiastočne

Vláde ukázali vztýčený prostredník tisíce slovenských občanov (udalosti týždňa)

Dvaja z NHL určite neprídu. Akú mali Slováci v zámorí sezónu a kto by mohol prísť na MS v hokeji 2024 v Česku? (prehľad)

V Košiciach vznikne nové nákupné centrum. Väčší je tam iba komplex Optima

Erik Tomáš sa vysmieva z KDH, za podporu 13. dôchodkov im nič nové nesľúbil

Zubný lekár: 45 miliónov, ktoré na zubné benefity dali vlani poisťovne, teraz zaplatia ľudia

Ráž chce urýchliť Višňové, ale v tuneli vidí tektonický zlom

Najprv sa vyhráža, potom líška. Akú hru rozohral Fico s KDH, je v hnutí panika a ako na to môžu jeho lídri reagovať?