Estimación de medidas de tendencia central a partir de la tabla de frecuencias agrupadas
Hasta el momento se han calculado las medidas, en caso de
que los datos no sean agrupados. Sin embargo, también es posible aproximar
estos valores a partir de la tabla de frecuencias agrupadas. Esto es útil
cuando son muchos datos muy diferentes, como en la siguiente tabla con datos generados
aleatoriamente con ayuda de Excel y la fórmula =ALEATORI.ENTRE(0,50).
Primero, se elabora
la tabla de datos agrupados. Los valores usados se calculan también con ayuda
de Excel, de tal manera que los valores necesarios quedan como se muestra en (1).
La tabla de frecuencias de datos agrupados queda de la
siguiente forma (como se muestra en (2)):
Para determinar la media se puede considerar la marca de la
clase y la frecuencia de la clase. Con este paso, se asume que la marca de la
clase sustituye las apariciones de todos los elementos de la clase. De esta
manera se construye la tabla con los productos de la marca de clase
multiplicada por la frecuencia absoluta de la clase:
Este valor se aproxima al promedio de todos los datos que se
tienen, ya que la media exacta es 22.9875, la cual está bastante cerca del
resultado de la media.
También es necesario considerar que a más datos es posible
que el resultado mejore aún más.
Para obtener la mediana se agrega la columna con la
frecuencia acumulada y se hace la operación del número de datos entre dos. En
este caso, como son 80 datos, la mediana debe estar entre las posiciones 40 y
41, por lo que debe buscarse esas posiciones y promediar las marcas de clase
correspondientes:
La posición 40 está en la clase 3 y la 41 en la 4, por lo que se promedian las marcas de esas clases. Entonces, la mediana es . Con ayuda de Excel también es posible hallar la media exacta, la cual para este caso coincide con la estimación que se hizo.
De la misma manera, la moda se obtiene con la marca de la
clase de la que tiene la mayor frecuencia, es decir 3.5. Para los datos
completos, la moda es: 0. Para el rango medio se toman en cuenta las marcas de
clase máxima y la mínima:
El resultado es más grande que el rango mínimo exacto porque
la última clase sobrepasa al dato mayor. Las aproximaciones que se obtienen a
partir de las tablas de datos agrupados son de mucha utilidad cuando se tiene
una gran cantidad de datos.
Las medidas de tendencia central dan información de los valores
que pueden pensarse puntos medios en diferentes sentidos, por tanto es
importante saber si éstos coinciden, o su cercanía o variación. A este análisis
se le conoce como sesgo y relaciona la media, la mediana y la moda.
Sesgo. El sesgo describe la distribución de los
datos, al indicar hacia dónde tienden a concentrarse. La construcción de la gráfica
facilita esta apreciación al mostrar los resultados de manera visual. De esta
manera, una distribución puede ser:
•
Simétrica. Si la mayor concentración de
datos se localiza en el centro de la distribución.
•
Sesgada a la derecha. Si la mayor
concentración de datos está a la izquierda de la distribución.
•
Sesgada a la izquierda. Si la mayoría de
los datos están concentrados a la derecha.
El comportamiento de las medidas de tendencia central es, a
grandes rasgos, como se muestra en la figura: