Denník N

Štatistika vrážd v USA podľa rasy

V tomto blogu si ukážeme štatistiku vrážd v USA podľa rasy

Téma migrantov a imigrácie do EÚ je dosť aktuálna. Migrantská problém nastolil aj otázku kriminality imigrantov. Často sa však stretávam so subjektívnymi názormi vychádzajúcimi len z jednotlivých prípadov. Rozhodol som sa pozrieť na štatistiky a spracovať údaje.
Nakoľko neexistujú datasety vydávaná eurostatom, ani inou krajinou EÚ, ktoré by zachytili rasovú spojitosť s násilnými trestnými činmi, skúsil som použiť údaje z USA, kde sa takéto štatistiky vedú.
predchádzajúcom blogu som sa venoval štatistike geograficko-demografických pomerov v USA a z nich vychádzajúcich sumarizačných dát o kriminalite, vzdelaní a sociálneho statusu. V tomto blogu som sa pozrel bližšie na štatistiku vrážd v USA.

1. Dáta a metodika

Dáta, ktoré som použil, som získal z nasledovných zdrojov:

  1. Štatistika vrážd evidovaných v USA, Kaggle dataset: https://www.kaggle.com/jyzaguirre/us-homicide-reports/home
  2. Štatistika populácie v USA, US cenzus: https://factfinder.census.gov/faces/tableservices/jsf/pages/productview.xhtml?src=bkmk

Dáta z dátového setu som odfiltroval nasledovne:

  • odfiltroval som všetky dáta mimo rok 2014
  • odfiltroval som dáta, kde nebola známa rasa páchateľa
  • odfiltroval som dáta, kde nebola známa rasa obete

Dáta z US cenzusu som vybral za rok 2014, Júl.

Vytvoril som kontingenčnú tabuľku z výsledkov. Z kontingenčnej tabuľky som potom zostavil 2 pomerové výsledky- (pre rasu obetí a pre rasu páchateľov).
Z každej pomerovej tabuľky som vytvoril aj normalizovanú tabuľku. Táto normalizovaná tabuľka vznikla tak, že počet obetí (alebo počet páchateľov) bol normalizovaný cez počet obyvateľov. Prečo?
Je totiž logické, že čím viac ľudí, tým viac vrážd.
Predstavme si nasledovný krajný príklad. V krajine je 1000 Marťanov a 10 Venušanov. Ak sa 10 Venušanov zabije 10 Marťanov a 1000 Marťanov zabije 10 Marťanov, tak z nenormalizovanej štatistiky vidíme, že Venušania zabíjajú Marťanov rovnako ako Marťania Marťanov a nič viac. Čo by sa však stalo, keby sa počet Venušanov zvýšil?  Normalizačná tabuľka zohľadňuje prípad, keby bolo Venušanov 500- pozabíjali by polovicu Marťanov.
Normalizačná tabuľka vznikla prepočtom:

Pnorm(V|P) = Pvraždy(P,V) / P(P)

pre tabuľku počtu obetí k páchateľom a

Pnorm(P|V) = Pvraždy(P,V) / P(V)

pre tabuľku počtu páchateľov k obetiam.
V prepočte zohľadňujeme podmienenú (vzájomnú) pravdepodobnosť vraždy s pravdepodobnosťou „stretu“ rôznych rás v populácii.

2. Výsledky

Počty z datasetu možno vyjadriť v kontingenčnej tabuľke nasledovne:

Absolute figures Asian Black Native American White Total ←Rasa páchateľa
Asian 85 26 0 53 164
Black 20 3691 8 459 4178
Native American 0 14 49 26 89
White 36 824 34 4355 5249
Total 141 4555 91 4893 9680
Rasa obete ^

Skúsme teraz tabuľku preložiť do relatívnych čísel.

2.1 Rozloženie páchateľov podľa rasy obetí

Týmto rozložením sledujeme, ktorá rasa je najviac „agresívna“. Štatistiku možno vidieť podľa rasy obetí, t.j. pre každú rasu vidíme, aká rasa najviac pácha na nej vraždy.

Victims Asian Black Native American White Total ← Rasa páchateľa
Asian 51.83% 15.85% 0.00% 32.32% 100.00%
Black 0.48% 88.34% 0.19% 10.99% 100.00%
Native American 0.00% 15.73% 55.06% 29.21% 100.00%
White 0.69% 15.70% 0.65% 82.97% 100.00%
Total 1.46% 47.06% 0.94% 50.55% 100.00%
Rasa obete ^

Z tejto (nenormalizovanej) tabuľky vidieť, že páchatelia sú prevažne černosi (47.06%) a bieli (50.55%). Ak je obeť černoch, je až 88.34% pravdepodobnosť, že aj páchateľ je černoch.

Normalizovaná tabuľka k zastúpeniu rás vyzerá takto:

Normalized victims Asian Black Native American White Total ← Rasa páchateľa
Asian 85.50% 10.76% 0.00% 3.75% 100.00%
Black 1.25% 94.56% 2.18% 2.01% 100.00%
Native American 0.00% 2.59% 96.58% 0.82% 100.00%
White 4.34% 40.84% 17.93% 36.89% 100.00%
Total 5.11% 67.96% 14.45% 12.48% 100.00%
Rasa obete ^

Normalizovaná tabuľka nám hovorí, aké by boli asi výsledky, ak by počet obyvateľov každej rasy bol vyrovnaný. To znamená, že zo súčasného stavu by klesol počet bielych a stúplo by zastúpenie ostatných rás. Takýmto preskupením by sme mohli očakávať aj to, že zvýšením počtom páchateľov budeme vidieť zvýšený počet vrážd.
Z tabuľky jasne vyplýva, že aziati by boli vraždení najmä aziatmi (85.50%), černosi černochmi (94.56%), Indiáni Indiánmi (96.58%) a bieli približne narovnako černochmi a bielymi (40.84% a 36.89%).

2.1 Rozloženie obetí podľa rasy páchateľov

Týmto rozložením sledujeme, na koho sa páchatelia najviac zameriavajú (na akú rasu). Voľne preložené, táto tabuľka ukazuje „rasisticky motivované vraždy“ podľa jednotlivých rás. Toto pomenovanie je naozaj voľné, pretože pri rasisticky motivovanom čine sa posudzuje najmä motív, kým tu sa pozeráme na vec čisto štatisticky. To znamená, že ak černoch zabije bieleho počas nezdarenej lúpeže, nejde o rasisticky motivovaný čin, ale počíta sa do štatistiky „čierny zabil bieleho“.

Perpetrators Asian Black Native American White Total ← Rasa páchateľa
Asian 60.28% 0.57% 0.00% 1.08% 1.69%
Black 14.18% 81.03% 8.79% 9.38% 43.16%
Native American 0.00% 0.31% 53.85% 0.53% 0.92%
White 25.53% 18.09% 37.36% 89.00% 54.23%
Total 100.00% 100.00% 100.00% 100.00% 100.00%
Rasa obete ^

Z tabuľky vidieť, že prevažne obete sú černosi a bieli. Ak je páchateľ černoch, na 81.03% si vyberie za obeť černocha. Bieli zabíjajú najviac bielych (89.0%), ale často aj černochov (9.38%).

Normalizovaná tabuľka k zastúpeniu rás vyzerá takto:

Normalized perpetrators Asian Black Native American White Total ← Rasa páchateľa
Asian 88.77% 1.56% 0.00% 8.01% 6.21%
Black 8.59% 91.27% 1.49% 28.53% 65.07%
Native American 0.00% 3.68% 97.42% 17.20% 14.75%
White 2.64% 3.48% 1.09% 46.26% 13.97%
Total 100.00% 100.00% 100.00% 100.00% 100.00%
Rasa obete ^

Tabuľka naznačuje, aké zastúpenie obetí by bolo v prípade, ak by sa daný počet obyvateľov rasy zvýšil. Táto tabuľka je veľmi špekulatívna. Spočíva v nasledovnej myšlienke: ak sa zvýši zastúpenie rasy X proporcionálne 2x, stane sa táto rasa 2x častejšie terčom útokov.

3. Záver

Uvedené dáta predstavujú súhrn za rok 2014 a z nich je zostavená štatistika. Počet vzoriek je 9680, čo je dostatočný počet na štatistické chyby v oblasti rádovo percent.
Normalizované tabuľky treba brať s veľkou rezervou. Slúžia len ako kvalitatívny ukazovateľ trendu, nie na serióznu manipuláciu s výsledkami ako kvalifikovanými odhadmi. Dôvod je, že bola použitá čistá matematika a neboli vzaté do úvahy sociálno-ekonomické súvislosti, ktoré majú veľký vplyv na kriminalitu (viď môj blog – link). Následok takýchto väzieb a odhad sociálno-ekonomického stavu v dôsledku preskupenia početnosti ľudí rôznej rasy by vyžadovalo samotnú štúdiu.

Teraz najčítanejšie