Disperzní indexy ve statistice

Časový Čas ~5 Min.
Disperzní indexy jsou důležité, protože popisují variabilitu zjištěnou v dané populaci nebo vzorku. Zde je návod, jak je používat.

V distribuci dat hrají velmi důležitou roli disperzní indexy. Tato měření doplňují měření tzv. centrální polohy charakterizací variability dat.

The disperzní indexy doplňují ty s centrální tendencí. Jsou také nezbytné při distribuci dat. Charakterizují totiž jeho variabilitu. Jejich význam ve statistickém tréninku zdůraznili Wild a Pfannkuch (1999).

Vnímání variability dat je jednou ze základních složek statistického myšlení, protože nám poskytuje informace o rozptylu dat vzhledem k průměru.

Výklad průměru

The aritmetický průměr v praxi je široce používán, ale často může být nesprávně interpretován. K tomu dochází, když jsou hodnoty proměnných velmi řídké. V těchto případech je nutné doprovázet průměrné indexy disperze (2).

Disperzní indexy mají tři důležité složky související s náhodnou variabilitou (2):

  • Vnímání jeho všudypřítomnosti ve světě kolem nás.
  • Soutěž o její vysvětlení.
  • Schopnost ji kvantifikovat (což znamená pochopit a vědět, jak aplikovat koncept disperze).

K čemu slouží disperzní indexy?

Kdy je potřeba zobecnit data vzorku populace disperzní indexy jsou velmi důležité, protože přímo ovlivňují chybu, se kterou pracujeme . Čím větší rozptyl ve vzorku nasbíráme, tím větší velikost potřebujeme k práci se stejnou chybou.

Na druhou stranu nám tyto indexy pomáhají určit, zda jsou naše data daleko od centrální hodnoty. Říkají nám, zda je tato centrální hodnota adekvátní k reprezentaci studované populace. To je velmi užitečné pro porovnávání distribucí a pochopit rizika v rozhodovacím procesu (1).

Tyto poměry jsou velmi užitečné pro porovnávání rozdělení a pochopení rizik při rozhodování. Čím větší je rozptyl, tím méně reprezentativní je centrální hodnota .

Nejpoužívanější jsou:

Funkce disperzních indexů

Rozsah

Použití hodnosti je pro primární srovnání. Tímto způsobem bere v úvahu pouze dvě extrémní pozorování . Proto se doporučuje pouze pro malé vzorky (1). Je definována jako rozdíl mezi poslední hodnotou proměnné a první (3).

Statistická odchylka

Střední odchylka udává, kam by se data soustředila, kdyby byli všichni ve stejné vzdálenosti od aritmetického průměru (1). Za odchylku proměnné hodnoty považujeme rozdíl v absolutní hodnotě mezi touto proměnnou hodnotou a aritmetickým průměrem řady. Považuje se proto za aritmetický průměr odchylek (3).

Rozptyl

Rozptyl je algebraická funkce všech hodnot vhodné pro inferenční statistické úlohy (1). Lze ji definovat jako kvadratickou odchylku (3).

Standardní nebo typická odchylka

U vzorků odebraných ze stejné populace je směrodatná odchylka jednou z nejpoužívanějších (1). Je to druhá odmocnina z rozptylu (3).

Variační koeficient

Je to míra používaná především k porovnání změny mezi dvěma soubory dat naměřených v různých jednotkách A. Například výška a váha skupina studentů ve vzorku. Používá se k určení, v jaké distribuci jsou data nejvíce shlukována a průměr je nejreprezentativnější (1).

Variační koeficient je reprezentativnější rozptylový index než předchozí, protože jde o abstraktní číslo. Jinými slovy je nezávislý podle jednotek, ve kterých se hodnoty proměnných objevují. Obecně je tento variační koeficient vyjádřen v procentech (3).

Závěry o disperzních indexech

Indexy disperze indikují na jedné straně stupeň variability ve vzorku. Na druhé straně reprezentativnost centrální hodnoty protože pokud získáte nízkou hodnotu, znamená to, že hodnoty jsou soustředěny kolem tohoto středu. To by znamenalo, že v datech je malá variabilita a centrum to všechno dobře reprezentuje.

Naopak, pokud získáte vysokou hodnotu, znamená to, že hodnoty nejsou koncentrované, ale rozptýlené. To znamená, že je zde velká variabilita a centrum nebude příliš reprezentativní. Na druhou stranu při vyvozování závěrů budeme potřebovat větší vzorek, pokud chceme snížit chybu zvýšil právě díky zvýšení variability.

Populární Příspěvky