¿Qué es la desviación estándar?
La desviación estándar es una medida que cuantifica la variación o dispersión de un conjunto de datos. Indica cómo los puntos de datos se desvían de la media y es especialmente útil cuando los datos se ajustan a una distribución normal.
Es posible que haya encontrado el término desviación estándar antes. Es típico en informes, tesis, disertaciones y artículos diversos. A pesar de su popularidad, a menudo es necesario entenderlo. ¿Puedes explicar qué es la desviación estándar y cuándo se debe aplicar?
El problema
Estadística descriptiva consisten principalmente en medidas de tendencia central y medidas de variabilidad.
Cuándo combinado, forman la base de muchos análisis y gráficos estadísticos.
Sin embargo, utilizar sólo una de estas medidas para describir una población o muestra podría conducir a incompleto or engañoso
En el ejemplo de la profundidad del río proporcionado por Woody Hayes, basarse únicamente en la media como indicador era insuficiente para evitar que una persona se ahogue.
Este destacados la importancia de utilizar una medida de variabilidad con una medida de tendencia central.
Consideremos otro (aqui).
Los siguientes tres conjuntos de datos tienen la misma media (20) pero exhiben una experiencia diferente variabilidad:
- A = 20,20,20,20,20
- B = 18,19,20,21,22
- C = 00,10,20,30,40
Con cierta variabilidad, estos cruciales diferencias se notan.
Medidas de tendencia central, como la media, la mediana y modo, son relativamente sencillo.
Sin embargo, las medidas de variabilidad pueden ser menos intuitivas y, según el tipo, más fuerte para comprender.
Estos medidas incluyen rango, desviación absoluta media, variabilidad, desviación estándar y coeficiente de variación.
La desviación estándar se utiliza ampliamente, pero a menudo sin fully comprender lo que representa.
Entonces, que hace desviación estándar ¿Qué significa y cuándo debería emplearse?
La Solución
Algunos conceptos utilizados aquí están basados en el libro. Estadística sin matemáticas, que ofrece una discusión en profundidad.
La desviación estándar mide la variabilidad de los datos e indica cómo los puntos de datos se desvían de la media.
Otras medidas de variabilidad incluyen el rango y la desviación absoluta media, que son más sencillas e intuitivas.
El rango representa la diferencia entre los valores más altos y más bajos de un conjunto de datos.
Si bien es simple, solo utiliza dos valores de todo el conjunto de datos.
Por el contrario, el desviación media absolutao "el promedio de las distancias absolutas desde cada punto de datos a la media,”es un poco más complejo pero sigue siendo intuitivo.
A pesar de su intuición, la desviación absoluta media no es la estadística más utilizada para describir la variabilidad de los datos.
Ese título corresponde a la desviación estándar, un tanto contradictoria.
Similar a la desviación media absoluta, la desviación estándar se basa en las diferencias entre cada observación y la media.
Sin embargo, estas diferencias se elevan al cuadrado en desviación estándar y al final se extrae la raíz cuadrada.
La desviación estándar es una medida de variabilidad más compleja.
Sin embargo, resulta valioso al analizar datos que se ajustan a una distribución normal.
En tales casos, aproximadamente el 68% de los valores se encuentran dentro de una desviación estándar, aproximadamente el 95% dentro de dos desviaciones estándar y casi todos dentro de tres desviaciones estándar.
¡Esta es la regla 68-95-99, también conocida como límite de tolerancia! ¡La regla empírica!
Ronald Fisher abogó por utilizar la desviación estándar en “circunstancias ideales”, con datos que se ajusten a la distribución normal.
Sin embargo, si los datos no se ajustan a la distribución normal, es posible que la desviación estándar no ayude a describir la variabilidad.
Observaciones finales
La desviación estándar es una medida de variabilidad que se utiliza mejor cuando los datos se ajustan perfectamente a una distribución normal.
Sin embargo, la desviación media absoluta ha demostrado ser más eficaz para estimar la variabilidad, especialmente cuando los datos no se ajustan a la distribución normal.
Debido a su fácil comprensión, naturaleza intuitiva y rendimiento superior con datos realistas, la desviación media absoluta es una excelente alternativa para representar la variabilidad de los datos.