DATOS AGRUPADOS
Distribución de frecuencia
Cuando la muestra es grande (n mayor que 30) resulta conveniente
organizar los datos en intervalos de clase para construir su distribución de
frecuencias.
Para ejemplificar esta situación, analicemos los datos siguientes
correspondientes a la edad de 55 personas:
27 23 41 38 44 29 35 26 18 22 24
25 36 22 52 31 30 22 45 28 18 20
18 28 44 25 29 28 24 36 21 23 32
26 33 25 27 25 34 32 23 54 38 23
31 23 26 48 16 27 27 33 29 29 28
El número de intervalos de clase depende del número de observaciones.
Una mayor cantidad de datos requiere un mayor número de clases. Por lo general
la distribución de frecuencias debe tener como mínimo 5 intervalos, pero no más
de 15.
Aunque, no existe una regla formal para determinar el número de
intervalos y el tamaño de los mismos, existen algunas reglas empíricas que
resultan útiles en esta decisión.
Denotemos con K al número de intervalos de clase y con C su tamaño; utilizaremos la
Regla de Sturges:
Para nuestro ejemplo,
K=54-16/1+3.322Log(55)=5.60
Como K debe ser un número
entero, se redondea y se tienen K = 5 intervalos.
Los intervalos serán de tamaño, C=54-16/5=7.6
El cuál se redondea hasta la precisión de nuestros datos, es decir a
enteros, por lo que C = 7.
Tomemos el dato menor como el límite inferior
del primer intervalo, (aunque existen otros criterios, este es el más
sencillo), y construyamos los intervalos de modo que cada uno sea de tamaño 7, es decir, de manera
en cada uno se cuenten 7 enteros.
Los intervalos de clase se emplean si las variables toman
un número grande de valores o la variable es continua.
FRECUENCIA SIMPLE O ABSOLUTA DE LOS INTERVALOS DE CLASE.
En la sección anterior se definió la frecuencia como el número de veces
que aparece un dato, en el caso de datos agrupados, la definición varia
ligeramente:
La Frecuencia (simple o absoluta) de un intervalo es el número de datos
que caen en el mismo.
¿Qué información
proporciona esta primera tabla?
“De 55 personas 4
tienen entre 44 y 50 años”
“9 de cada 55 personas
tienen 22 años o menos”
“Sólo 2 de 55 personas
tienen 51 años o más”
FRECUENCIA RELATIVA DE
LOS INTERVALOS DE CLASE.
Se define, igual que
en la sección anterior, como la Frecuencia Simple dividida por el tamaño de
muestra.
¿Qué nueva información proporciona esta segunda tabla?
La frecuencia relativa es una medida proporcional de la frecuencia para
cada intervalo:
“El 20.00% de las personas tienen entre 30 y 36 años”
“Sólo el 3.64% de las personas tienen 51 años o más”
FRECUENCIA ACUMULADA
DE LOS INTERVALOS DE CLASE.
Se construye sumando
la frecuencia simple de cada intervalo con las frecuencias de los intervalos
que le preceden.
¿Qué tipo de información proporciona esta tercera tabla?
“De 55 personas 35 tienen menos de 30 años”
“9 de cada 55 personas tienen máximo de 22 años”
“53 de 55 personas tienen de hasta 50 años”
FRECUENCIA ACUMULADA RELATIVA DE LOS
INTERVALOS DE CLASE.
La frecuencia acumulada relativa se construye,
sumando la frecuencia relativa de cada intervalo con las frecuencias relativas
de los intervalos que le preceden, o dividiendo la frecuencia acumulada entre el tamaño de muestra.
¿Cómo obtener información de esta cuarta tabla?
La frecuencia acumulada relativa es una medida proporcional de la
frecuencia acumulada hasta el limite superior de cada intervalo:
“Sólo el 16.36% de las personas tienen de hasta 22 años”
“El 63.64% de las personas tienen máximo de 29 años”
“El 89.09% de las personas tienen menos de 44 años”
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS
Cuando la muestra es grande y los datos se agrupan en intervalos de
clase, el cálculo de las medidas de tendencia central varía significativamente.
Se hace necesario, además, definir algunos conceptos nuevos, identifica cuáles.
Moda
La moda se definió como el dato con la mayor frecuencia, de manera
similar definimos ahora la Clase Modal, como aquel intervalo de clase
con la mayor frecuencia. Una vez que identificamos la clase modal, se utiliza
la siguiente fórmula para calcular la moda:
A continuación
describimos cada elemento utilizado en esta fórmula:
LRinf = límite real inferior
de la clase modal.
Delta 1 = diferencia entre
la frecuencia de la clase modal y la clase que le precede.
Delta 2 = diferencia entre
la frecuencia de la clase modal y la clase que le sigue.
C = Tamaño de clase de
la clase modal.
Mediana
La mediana se definió como el dato central cuando el conjunto se
encuentra ordenado, ahora definimos la Clase Mediana, como aquel
intervalo de clase que cubre el 50% de los datos. Para identificarla busquemos
el intervalo cuya frecuencia acumulada relativa sea igual o mayor a 0.5
Una vez que identificamos la clase mediana, se utiliza la siguiente
fórmula para calcular la mediana:
Cada elemento
utilizado en esta fórmula se describe a continuación:
LRinf = límite real inferior
de la clase mediana.
Fa1 = frecuencia acumulada
de la clase que precede a la clase mediana.
fmed = frecuencia simple de
la clase mediana.
C = tamaño de clase de
la clase modal.
n = tamaño de muestra
Media
La
media igual que antes, se define como el promedio de los datos. Vamos a
necesitar el concepto de marca de clase, el cuál es el punto medio de cada
intervalo.
No es
necesario identificar ninguna clase en particular, y la fórmula para calcular
la media es:
Los elementos en esta
fórmula son:
xi = marca de clase de cada clase
fi = frecuencia simple de
cada clase.
MEDIDAS
DE DISPERSIÓN PARA DATOS
AGRUPADOS
RANGO
Si sólo disponemos de una tabla de frecuencias, el Rango se define como
la diferencia entre el límite real superior de la última clase y el límite real
inferior de la primera.
Varianza
La varianza para datos agrupados se calcula de manera similar, con
algunas modificaciones: las marcas de clase de cada intervalo toman el lugar de
los datos y es necesario multiplicar por cada frecuencia simple.
Se define de la misma forma, como:
Realicemos un ejemplo, con la misma tabla que se ha trabajado de las edades de 55 personas.
MODA
MEDIANA
MEDIA
MEDIDAS DE DISPERSIÓN
GENERAR PRIMERO LA SIGUIENTE TABLA PARA PODER SUSTITUIR LOS VALORES DE CADA FORMULA:
¿Que nos dicen los resultados?
R= La máxima diferencia de edades es de 42 años
S= Las edades de tales personas se desvian en promedio 8.82 años de su media que es de 29.6 años
CV= Las edades varían 29.80 % respecto a su media.
MODA
MEDIANA
MEDIA
MEDIDAS DE DISPERSIÓN
GENERAR PRIMERO LA SIGUIENTE TABLA PARA PODER SUSTITUIR LOS VALORES DE CADA FORMULA:
¿Que nos dicen los resultados?
R= La máxima diferencia de edades es de 42 años
S= Las edades de tales personas se desvian en promedio 8.82 años de su media que es de 29.6 años
CV= Las edades varían 29.80 % respecto a su media.

















Comentarios
Publicar un comentario