Ir al contenido principal

TEMA 2 DEL 03-OCT-17 DATOS AGRUPADOS

DATOS AGRUPADOS

Distribución de frecuencia
Cuando la muestra es grande (n mayor que 30) resulta conveniente organizar los datos en intervalos de clase para construir su distribución de frecuencias.
Para ejemplificar esta situación, analicemos los datos siguientes correspondientes a la edad de 55 personas:
27 23 41 38 44 29 35 26 18 22 24
25 36 22 52 31 30 22 45 28 18 20
18 28 44 25 29 28 24 36 21 23 32
26 33 25 27 25 34 32 23 54 38 23
31 23 26 48 16 27 27 33 29 29 28
El número de intervalos de clase depende del número de observaciones. Una mayor cantidad de datos requiere un mayor número de clases. Por lo general la distribución de frecuencias debe tener como mínimo 5 intervalos, pero no más de 15.
Aunque, no existe una regla formal para determinar el número de intervalos y el tamaño de los mismos, existen algunas reglas empíricas que resultan útiles en esta decisión.

Denotemos con K al número de intervalos de clase y con C su tamaño; utilizaremos la

Regla de Sturges:
Para nuestro ejemplo,
K=54-16/1+3.322Log(55)=5.60

Como K debe ser un número entero, se redondea y se tienen K = 5 intervalos.
Los intervalos serán de tamaño, C=54-16/5=7.6

El cuál se redondea hasta la precisión de nuestros datos, es decir a enteros, por lo que C = 7.
Tomemos el dato menor como el límite inferior del primer intervalo, (aunque existen otros criterios, este es el más sencillo), y construyamos los intervalos de modo que cada uno sea de tamaño 7, es decir, de manera en cada uno se cuenten 7 enteros.


Los intervalos de clase se emplean si las variables toman un número grande de valores o la variable es continua.

FRECUENCIA SIMPLE O ABSOLUTA DE LOS INTERVALOS DE CLASE.

En la sección anterior se definió la frecuencia como el número de veces que aparece un dato, en el caso de datos agrupados, la definición varia ligeramente:
La Frecuencia (simple o absoluta) de un intervalo es el número de datos que caen en el mismo.
¿Qué información proporciona esta primera tabla?
“De 55 personas 4 tienen entre 44 y 50 años”
“9 de cada 55 personas tienen 22 años o menos”
“Sólo 2 de 55 personas tienen 51 años o más”

FRECUENCIA RELATIVA DE LOS INTERVALOS DE CLASE.
Se define, igual que en la sección anterior, como la Frecuencia Simple dividida por el tamaño de muestra.
¿Qué nueva información proporciona esta segunda tabla?
La frecuencia relativa es una medida proporcional de la frecuencia para cada intervalo:
“El 20.00% de las personas tienen entre 30 y 36 años”
“Sólo el 3.64% de las personas tienen 51 años o más”

FRECUENCIA ACUMULADA DE LOS INTERVALOS DE CLASE.
Se construye sumando la frecuencia simple de cada intervalo con las frecuencias de los intervalos que le preceden.
¿Qué tipo de información proporciona esta tercera tabla?
“De 55 personas 35 tienen menos de 30 años”
“9 de cada 55 personas tienen máximo de 22 años”
“53 de 55 personas tienen de hasta 50 años”

FRECUENCIA ACUMULADA RELATIVA DE LOS INTERVALOS DE CLASE.
La frecuencia acumulada relativa se construye, sumando la frecuencia relativa de cada intervalo con las frecuencias relativas de los intervalos que le preceden, o dividiendo la frecuencia acumulada entre el tamaño de muestra.


¿Cómo obtener información de esta cuarta tabla?
La frecuencia acumulada relativa es una medida proporcional de la frecuencia acumulada hasta el limite superior de cada intervalo:
“Sólo el 16.36% de las personas tienen de hasta 22 años”
“El 63.64% de las personas tienen máximo de 29 años”
“El 89.09% de las personas tienen menos de 44 años”



MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS
Cuando la muestra es grande y los datos se agrupan en intervalos de clase, el cálculo de las medidas de tendencia central varía significativamente. Se hace necesario, además, definir algunos conceptos nuevos, identifica cuáles.

Moda
La moda se definió como el dato con la mayor frecuencia, de manera similar definimos ahora la Clase Modal, como aquel intervalo de clase con la mayor frecuencia. Una vez que identificamos la clase modal, se utiliza la siguiente fórmula para calcular la moda:
A continuación describimos cada elemento utilizado en esta fórmula:
LRinf = límite real inferior de la clase modal.
Delta 1 = diferencia entre la frecuencia de la clase modal y la clase que le precede.
Delta 2 = diferencia entre la frecuencia de la clase modal y la clase que le sigue.
C = Tamaño de clase de la clase modal.


Mediana
La mediana se definió como el dato central cuando el conjunto se encuentra ordenado, ahora definimos la Clase Mediana, como aquel intervalo de clase que cubre el 50% de los datos. Para identificarla busquemos el intervalo cuya frecuencia acumulada relativa sea igual o mayor a 0.5
Una vez que identificamos la clase mediana, se utiliza la siguiente fórmula para calcular la mediana:
Cada elemento utilizado en esta fórmula se describe a continuación:
LRinf = límite real inferior de la clase mediana.
Fa1 = frecuencia acumulada de la clase que precede a la clase mediana.
fmed = frecuencia simple de la clase mediana.
C = tamaño de clase de la clase modal.
n = tamaño de muestra

Media
La media igual que antes, se define como el promedio de los datos. Vamos a necesitar el concepto de marca de clase, el cuál es el punto medio de cada intervalo.
No es necesario identificar ninguna clase en particular, y la fórmula para calcular la media es:
Los elementos en esta fórmula son:
 xi = marca de clase de cada clase
fi = frecuencia simple de cada clase.



MEDIDAS DE DISPERSIÓN PARA DATOS
AGRUPADOS

RANGO
Si sólo disponemos de una tabla de frecuencias, el Rango se define como la diferencia entre el límite real superior de la última clase y el límite real inferior de la primera.

Varianza
La varianza para datos agrupados se calcula de manera similar, con algunas modificaciones: las marcas de clase de cada intervalo toman el lugar de los datos y es necesario multiplicar por cada frecuencia simple.

Desviación estándar
Sigue siendo la raíz cuadrada de la varianza:





Coeficiente de Variación
Se define de la misma forma, como:

Realicemos un ejemplo, con la misma tabla que se ha trabajado de las edades de 55 personas.

MODA



MEDIANA

MEDIA
MEDIDAS DE DISPERSIÓN

GENERAR PRIMERO LA SIGUIENTE TABLA PARA PODER SUSTITUIR LOS VALORES DE CADA FORMULA:















 ¿Que nos dicen los resultados?

R= La máxima diferencia de edades es de 42 años
S= Las edades de tales personas se desvian en promedio 8.82 años de su media que es de 29.6 años
CV= Las edades varían 29.80 % respecto a su media.








Comentarios

Entradas populares de este blog

Variable Aleatorias Discretas

VARIABLE ALEATORIA: Es una función que asocia a cada resultado del espacio muestral un número real. A su vez puede ser continua o discreta. Las variables aleatorias se representan con letras Mayúsculas y los valores que pueden tomar las variables aleatorias se representan con la letra minúscula.  X= variable aleatoria (v.a) X= valores de la v.a Ejemplos: a) Al arrojar una moneda y observar el lado que queda hacia arriba: X={ x1 = 1 (águila), x2 = 0 (sol) } b) Arrojar dos dados y anotar la suma de los puntos que caen hacia arriba. X= la suma de los dos dados X={ x1 = 2, x2 = 3, … xn=12) } VARIABLE ALEATORIA CONTINUA: Toma valores de un conjunto infinito no numerable. VARIABLE ALEATORIA DISCRETA: Toma valores de un conjunto numerable y finito. FUNCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA P[ X = x i ]= pi Se define la función de probabilidad de la variable aleatoria. X, como la Probabilidad de que la variable aleatoria X, ...

UNIDAD 4

MODELOS PROBABILÍSTICOS COMUNES DISTRIBUCIONES DE PROBABILIDAD DISCRETAS ENSAYO DE BERNOULLI Consiste en realizar un sólo experimento (ensayo) en el cual existen únicamente dos posibles resultados: S= { Éxitos, Fracasos } Por ejemplo: observar un artículo y ver si es defectuoso Definimos a la variable aleatoria de Bernoulli de la siguiente forma: I= O , si el resultado del ensayo es “fracaso”, o  I=1 Si el resultado del ensayo es “éxito”. A ésta última se le conoce como “función indicadora” DISTRIBUCIÓN DE BERNULLI  Supongamos que en un ensayo de Bernoulli la probabilidad de obtener éxito es p . Como el ensayo tiene únicamente dos resultados posibles, entonces la probabilidad de obtener un fracaso es 1-p . llamaremos q a la probabilidad de fracaso . p = Probabilidad de éxito q = (1-p) = Probabilidad de fracaso Con esto, la distribución de probabilidad de la variable aleatoria de Bernoulli es: P(I)= { q; si I=0, p; si I=1 y 0; otro...

Distribución de Frecuencias

DISTRIBUCIÓN DE FRECUENCIAS Como recordarás la Estadística Descriptiva se encarga de la organización, presentación y descripción de los datos recolectados, y de obtener información a partir de ellos. El objetivo de la organización de datos es acomodarlos en forma útil para revelar sus características esenciales y simplificar ciertos análisis. Cuando el tamaño de muestra es menor a 30, los datos pueden tratarse individualmente, y en este caso se les llama Datos no agrupados. Sin embargo, cuando la muestra es grande (n >30), es laborioso hacerlo de esta forma, por lo que se lleva a cabo algún tipo de agrupación preliminar para realizar el tratamiento adecuado a los datos. En este último caso, se les llama Datos Agrupados. DATOS NO AGRUPADOS Si los datos están en una escala por lo menos ordinal, lo primero que podemos hacer es ordenarlos, en forma ascendente o descendente. Una vez ordenados los datos de la muestra se organizan en una tabla de frecuencias. Una Tabla...