1. EducaciónMatemáticasEstadísticasEstadísticas e histogramas
Cuaderno de estadísticas para tontos con práctica en línea, 2da edición

Por Deborah J. Rumsey

Un histograma es un gráfico de barras hecho para datos cuantitativos. Debido a que los datos son numéricos, los divide en grupos sin dejar espacios intermedios (para que las barras estén conectadas). El eje Y muestra frecuencias (recuentos) o frecuencias relativas (porcentajes) de los datos que se encuentran en cada grupo.

Cómo crear un histograma

Para hacer un histograma, primero divide sus datos en un número razonable de grupos de igual longitud. Calcule el número de valores en el conjunto de datos que se incluyen en cada grupo (en otras palabras, haga una tabla de frecuencias). Si un punto de datos cae en el límite, tome una decisión sobre en qué grupo colocarlo, asegurándose de que sea consistente (siempre colóquelo en el más alto de los dos, o siempre colóquelo en el más bajo de los dos). Haz un gráfico de barras, usando los grupos y sus frecuencias, un histograma de frecuencia.

Si divide las frecuencias por el tamaño total de la muestra, obtendrá el porcentaje que corresponde a cada grupo. Una tabla que muestra los grupos y sus porcentajes es una tabla de frecuencia relativa. El histograma correspondiente es un histograma de frecuencia relativa.

Puede usar Minitab o un paquete de software diferente para hacer histogramas, o puede hacer sus histogramas a mano. De cualquier manera, su elección de anchos de intervalo (llamados bins por paquetes de computadora) puede ser diferente de los que se ven en las figuras, lo cual está bien, siempre que el suyo se vea similar. Y lo harán, siempre que no use un número inusualmente bajo o alto de barras y sus barras tengan el mismo ancho.

También puede elegir diferentes puntos de inicio / finalización para cada intervalo, y eso también está bien. Solo asegúrese de etiquetar todo claramente para que su instructor pueda ver lo que está tratando de hacer. Y sea coherente con los valores que terminan justo en una frontera; siempre colóquelos en la agrupación inferior, o siempre colóquelos en la agrupación superior. Sin embargo, si tiene una opción, haga sus histogramas utilizando un paquete de computadora como Minitab. Hace tu tarea mucho más fácil.

Consulte lo siguiente para ver un ejemplo de cómo hacer los dos tipos de histogramas.

Los puntajes de los exámenes para una clase de 30 estudiantes se muestran en la siguiente tabla.

Los histogramas de frecuencia y los histogramas de frecuencia relativa tienen el mismo aspecto; acaban de usar diferentes escalas en el eje Y.

El histograma de frecuencia para los datos de las puntuaciones se muestra en la siguiente figura.

histograma de frecuencia

Encuentra las frecuencias relativas tomando cada frecuencia y dividiendo entre 30 (el tamaño total de la muestra). Las frecuencias relativas para estos tres grupos son 8/30 = 0.27 o 27%; 16/30 = 0,53 o 53%; y 6/30 = 0,20 o 20%, respectivamente.

Un histograma basado en frecuencias relativas se ve igual que el histograma (de los mismos datos). La única diferencia es la etiqueta en el eje Y.

Dar sentido a los histogramas

Un histograma le brinda información general sobre tres características principales de sus datos cuantitativos (numéricos): la forma, el centro y la extensión.

La forma de un histograma se muestra por su patrón general. Son posibles muchos patrones, y algunos son comunes, incluidos los siguientes:

  • En forma de campana: parece una campana: un gran bulto en el medio y colas que bajan a cada lado aproximadamente al mismo ritmo. (Figura a) Inclinación hacia la derecha: una gran parte de los datos se desplaza hacia la izquierda, con algunas observaciones más grandes hacia la derecha. (Figura b) Izquierda sesgada: una gran parte de los datos se desplaza hacia la derecha, con algunas observaciones más pequeñas que se desplazan hacia la izquierda. (Figura c) Uniforme: todas las barras tienen una altura similar. (Figura d) Bimodal: dos picos, o (Figura e) En forma de U: bimodal con los dos picos en los extremos inferior y superior, con menos datos en el medio. (Ver Figura 4-1 (Figura f) Simétrico: se ve igual en cada lado cuando lo divide por la mitad; Los histogramas en forma de campana, uniformes y en forma de U son ejemplos de datos simétricos. (Figuras a, d y f)
patrones comunes de histograma

Puede ver el centro de un histograma de dos maneras. Uno es el punto en el eje x donde el gráfico se equilibra, teniendo en cuenta los valores reales de los datos. Este punto se llama promedio, y puede encontrarlo localizando el punto de equilibrio (imagine que los datos están en un balanceo). La otra forma de ver el centro es ubicando la línea en el histograma donde el 50 por ciento de los datos se encuentra a cada lado. La línea se llama mediana y representa el medio físico del conjunto de datos. Imagine cortar el histograma por la mitad para que la mitad del área quede a cada lado de la línea.

La dispersión se refiere a la distancia entre los datos, ya sea entre sí o con respecto a algún punto central. Una forma cruda de medir la propagación es encontrar el rango o la distancia entre el valor más grande y el valor más pequeño. Otra forma es buscar la distancia promedio desde el medio, también conocida como la desviación estándar. La desviación estándar es difícil de encontrar simplemente mirando un histograma, pero puede obtener una idea aproximada si toma el rango dividido por 6. Si las alturas de las barras cercanas al centro parecen muy altas, eso significa que la mayoría de los valores están cerca de la media, lo que indica una pequeña desviación estándar. Si las barras parecen cortas, es posible que tenga una desviación estándar mayor.

Puede hacer estadísticas de resumen reales para calcular los datos cuantitativos, pero un histograma puede darle una dirección general para encontrar estos hitos. Y al igual que los gráficos circulares y los gráficos de barras, no todos los histogramas son justos, completos y precisos. Tienes que saber qué buscar para evaluarlos.

Cómo enderezar datos sesgados con histogramas

Debe hacer consideraciones especiales para los conjuntos de datos asimétricos, en términos de qué estadísticas son las más apropiadas para usar y cuándo. También debe saber cómo utilizar las estadísticas incorrectas puede proporcionar respuestas engañosas.

Puede relacionar la media y la mediana para conocer la forma de sus datos. Tener la media y la mediana cerca de ser iguales creará una forma que es más o menos simétrica

La media se ve afectada por los valores atípicos en los datos, pero la mediana no. Si la media y la mediana están cercanas entre sí, los datos no están sesgados y es probable que no contengan valores atípicos de un lado o del otro. Eso significa que los datos se ven casi iguales en cada lado del medio, que es la definición de datos simétricos (ver a, d o f en la figura anterior).

El hecho de que la media y la mediana estén cerca le indica que los datos son más o menos simétricos se pueden usar en un tipo diferente de pregunta de prueba. Suponga que alguien le pregunta si los datos son simétricos y usted no tiene un histograma, pero sí tiene la media y la mediana. Compare los dos valores de la media y la mediana, y si están cerca, los datos son simétricos. Si no lo son, los datos no son simétricos.

Cómo detectar un histograma engañoso

Los lectores pueden ser engañados por un histograma de formas que no son posibles con un gráfico de barras. Recuerde que un histograma trata con datos numéricos, no con datos categóricos, lo que significa que debe determinar cómo desea que los datos numéricos desglosados ​​en grupos se muestren en el eje horizontal. Y cómo determina esas agrupaciones puede hacer que el gráfico se vea muy diferente. Esté atento a los histogramas que usan la escala para engañar a los lectores. Al igual que con los gráficos de barras, puede exagerar las diferencias usando una escala más pequeña en el eje vertical de un histograma, y ​​puede minimizar las diferencias usando una escala más grande.