Ir al contenido principal

TEMA 1 DEL 03-0CT-17 DATOS NO AGRUPADOS



MEDIDAS DE TENDENCIA CENTRAL
Los parámetros más útiles son las medidas de Tendencia Central, las cuales ubican el valor alrededor del cual se concentra un conjunto de datos y las Medidas de Dispersión que describen la variabilidad o dispersión de los mismos.

Las tres medidas de tendencia central o de centralización más importantes son la moda, la mediana y la media.

Moda
Como pudiste observar en la bibliografía, la moda se define como el dato con la frecuencia más alta, es decir, el que más se repite. No siempre existe una moda y en ocasiones puede haber más de una. Además, es la única medida de tendencia central que se puede calcular para variables nominales.
Ejemplos:
En el conjunto de datos: 2, 3, 3, 4, 4, 4, 5, 5, 8, 8, 12, 13 la moda es 4.
En la distribución 2, 2, 3, 3, 5, 5, 8, 8, 12, 12, 13, 13 no hay moda.

Para el conjunto de datos ordinales: pequeña, pequeña, mediana, mediana, mediana, grande, grande, grande, extragrande, extragrande, hay dos modas: “mediana” y “grande”, porque ambos se repiten el mismo número de veces.

Mediana
La mediana se define como el dato central de la distribución, es decir el dato que queda justo en el medio, cuando el conjunto de datos se encuentra ordenado. Se denota por
.
La mediana se puede utilizar con variables ordinales (además de la moda). Si el número de datos es impar, entonces la mediana corresponde al valor que se encuentra en el medio. Pero si el número de observaciones es par, entonces se toman los dos valores que se hallan en el medio de la distribución y se dice que la mediana se encuentra entre esos dos valores, (en el caso de variables numéricas se suman esos valores y se divide entre dos)

Media
Si los datos son numéricos (en escala intervalar o de razón), entonces es posible calcular una tercera medida de tendencia central: la media aritmética, la cual consiste en la suma de todos los valores dividida por el número de ellos.

La media aritmética es lo que usualmente conocemos como “promedio”, y se interpreta como tal.

Ejemplos

En el conjunto de datos: 2, 3, 3, 4, 4, 4, 5, 5, 8, 8, 12, 13, la moda es 4, la mediana es 4.5 y la media es 6.45.

Para el conjunto de datos 2, 3, 3, 4, 4, 4, 5, 5, 8, 8, 12, 93, la moda es 4, la mediana es 4.5 y la media resulta 13.72.

  
En un grupo de jovenes, se observó la estatura de 16 alumnos y se obtuvieron los siguientes datos (ya ordenados):

1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76 1.79

Calculemos las Medidas de Tendencia Central:
moda = 1.64  
mediana= (1.60+1.64)/2=1.62
media= xi/n=1.6225

Información proporcionada:
moda: “La estatura más frecuente entre los estudiantes es de 1.64 m”
mediana: “El 50% de los estudiantes miden menos de 1.62 m y el otro 50% mide
más de 1.62m”
moda: “Los estudiantes tienen una estatura promedio de 1.6225 m ”

MEDIDAS DE DISPERSIÓN
A las Medidas de Dispersión también se les llama Medidas de Variación. La variación es la cantidad de dispersión, o “separación”, que presentan los datos.

Rango
El rango de un conjunto de números es la diferencia entre el mayor y el menor de todos ellos. Se denota por R y se tiene que R = xn x1

Varianza
La varianza es la suma de los cuadrados de las diferencias de los datos con relación a su media aritmética, dividida entre el tamaño de la muestra menos 1.

Si se dispone de una tabla de distribución de frecuencias el cálculo varía, utilizando la expresión :


Desviación Estándar
Un inconveniente de la varianza es que sus unidades de medición se encuentran al cuadrado, por lo que no se puede comparar con la media aritmética. Debido a esto, se define la Desviación Estándar como la raíz cuadrada de la varianza.



Coeficiente de Variación
El coeficiente de variación es una medida relativa de la variación. Mide la dispersión de los datos con respecto de su media.
Se denota por CV y se expresa en porcentaje: CV=(S/media)*100%


El coeficiente de variación se utiliza principalmente cuando se desea comparar dos distribuciones de frecuencia que tienen diferente unidad de medida.

Ejemplo:
En un grupo de de jovenes, se observó la estatura de 16 alumnos y se obtuvieron los siguientes datos (ya ordenados):
1.52 1.52 1.53 1.53 1.57 1.58 1.58 1.60 1.64 1.64 1.64 1.66 1.66 1.74 1.76 1.79

Calculemos las Medidas de Dispersión

Rango R = 1.79 – 1.52 = 0.27

Para realizar los cálculos de la varianza “a mano”, resulta conveniente construir una tabla como la siguiente: Tabla 1.

Sustituyendo cada una de las formulas anteriormente revisadas.


 

Démosle sentido a estos números:
R “La máxima diferencia de estaturas entre los estudiantes es de 27 cm.”
S “Las estaturas de los estudiantes se desvían en promedio 8.54 cm. de su media.”
(equivalente a 0.08544 m.)
CV “Las estaturas varían 5.266% con respecto a su media”


Continuando con medidas de tendencia, tenemos las siguientes:

CUARTILES

Son tres valores numéricos que dividen a la muestra ordenada en cuatro partes iguales.
Se denotan por Q1, Q2, Q3.
Primer cuartil, es un valor tal que 25% de las observaciones son menores y 75% son mayores.

El subíndice indica la posición del dato en el conjunto.

Segundo cuartil, es un valor tal que 50% de las observaciones son menores y 50% son mayores. Coincide con el valor de la mediana.
 Tercer cuartil, es un valor tal que 75% de las observaciones son menores y 25% son mayores

 

Ejemplo:
Utilizando los valores de estatura del mismo grupo de jovenes, ya ordenados tenemos:
Calculemos algunas Medidas de Posición






La asimetría es la medida que indica la simetría de la distribución de una variable respecto a la media aritmética, sin necesidad de hacer la representación gráfica. Los coeficientes de asimetría indican si hay el mismo número de elementos a izquierda y derecha de la media.
Existen tres tipos de curva de distribución según su asimetría:
§  Asimetría negativa: la cola de la distribución se alarga para valores inferiores a la media.
§  Simétrica: hay el mismo número de elementos a izquierda y derecha de la media. En este caso, coinciden la media, la mediana y la moda. La distribución se adapta a la forma de la campana de Gauss, o distribución normal.
§  Asimetría positiva: la cola de la distribución se alarga para valores superiores a la media.

  Existen tres coeficientes de asimetría:

1. COEFICIENTE DE ASIMETRÍA DE FISHER

El coeficiente de asimetría de Fisher CAF evalúa la proximidad de los datos a su media x. Cuanto mayor sea la suma (xix)3, mayor será la asimetría. Sea el conjunto X=(x1, x2,…, xN), entonces la fórmula de la asimetría de Fisher es:



§  Si CAF<0: la distribución tiene una asimetría negativa y se alarga a valores menores que la media.
§  Si CAF=0: la distribución es simétrica.
§  Si CAF>0: la distribución tiene una asimetría positiva y se alarga a valores mayores que la media.

2. COEFICIENTE DE ASIMETRÍA DE PEARSON

El coeficiente de asimetría de Pearson CAP mide la diferencia entre la media y la moda respecto a la dispersión del conjunto X=(x1, x2,…, xN).
Este procedimiento, menos usado, lo emplearemos solamente en distribuciones unimodales y poco asimétricas:

§  Si CAP<0: la distribución tiene una asimetría negativa, puesto que la media es menor que la moda.
§  Si CAP=0: la distribución es simétrica
Si CAP>0: la distribución tiene una asimetría positiva, ya que la media es mayor que la moda

3. COEFICIENTE DE ASIMETRÍA DE BOWLEY

El coeficiente de asimetría de Bowley CAB toma como referencia los cuartiles para determinar si la distribución es simétrica o no. Para aplicar este coeficiente, se supone que el comportamiento de la distribución en los extremos es similar. Sea el conjunto X=(x1, x2,…, xN), la asimetría de Bowley es:

Recordemos que la mediana (Me) es lo mismo que el segundo cuartil (Q2).
§  Si CAB<0: la distribución tiene una asimetría negativa, puesto que la distancia de la mediana al primer cuartil es menor que al tercero.
§  Si CAB=0: la distribución es simétrica, ya que el primer y tercer cuartil están a la misma distancia de la mediana.
§  Si CAB>0: la distribución tiene una asimetría positiva, ya que la distancia de la mediana al tercer cuartil es mayor que al primero.

CURTOSIS

La curtosis (o apuntamiento) es una medida de forma que mide cuán escarpada o achatada está una curva o distribución.
Este coeficiente indica la cantidad de datos que hay cercanos a la media, de manera que a mayor grado de curtosis, más escarpada (o apuntada) será la forma de la curva.

La curtosis se mide promediando la cuarta potencia de la diferencia entre cada elemento del conjunto y la media, dividido entre la desviación típica elevado también a la cuarta potencia. Sea el conjunto X=(x1, x2,…, xN), entonces el coeficiente de curtosis será:

Comentarios

Entradas populares de este blog

Variable Aleatorias Discretas

VARIABLE ALEATORIA: Es una función que asocia a cada resultado del espacio muestral un número real. A su vez puede ser continua o discreta. Las variables aleatorias se representan con letras Mayúsculas y los valores que pueden tomar las variables aleatorias se representan con la letra minúscula.  X= variable aleatoria (v.a) X= valores de la v.a Ejemplos: a) Al arrojar una moneda y observar el lado que queda hacia arriba: X={ x1 = 1 (águila), x2 = 0 (sol) } b) Arrojar dos dados y anotar la suma de los puntos que caen hacia arriba. X= la suma de los dos dados X={ x1 = 2, x2 = 3, … xn=12) } VARIABLE ALEATORIA CONTINUA: Toma valores de un conjunto infinito no numerable. VARIABLE ALEATORIA DISCRETA: Toma valores de un conjunto numerable y finito. FUNCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA P[ X = x i ]= pi Se define la función de probabilidad de la variable aleatoria. X, como la Probabilidad de que la variable aleatoria X, ...

UNIDAD 4

MODELOS PROBABILÍSTICOS COMUNES DISTRIBUCIONES DE PROBABILIDAD DISCRETAS ENSAYO DE BERNOULLI Consiste en realizar un sólo experimento (ensayo) en el cual existen únicamente dos posibles resultados: S= { Éxitos, Fracasos } Por ejemplo: observar un artículo y ver si es defectuoso Definimos a la variable aleatoria de Bernoulli de la siguiente forma: I= O , si el resultado del ensayo es “fracaso”, o  I=1 Si el resultado del ensayo es “éxito”. A ésta última se le conoce como “función indicadora” DISTRIBUCIÓN DE BERNULLI  Supongamos que en un ensayo de Bernoulli la probabilidad de obtener éxito es p . Como el ensayo tiene únicamente dos resultados posibles, entonces la probabilidad de obtener un fracaso es 1-p . llamaremos q a la probabilidad de fracaso . p = Probabilidad de éxito q = (1-p) = Probabilidad de fracaso Con esto, la distribución de probabilidad de la variable aleatoria de Bernoulli es: P(I)= { q; si I=0, p; si I=1 y 0; otro...

Distribución de Frecuencias

DISTRIBUCIÓN DE FRECUENCIAS Como recordarás la Estadística Descriptiva se encarga de la organización, presentación y descripción de los datos recolectados, y de obtener información a partir de ellos. El objetivo de la organización de datos es acomodarlos en forma útil para revelar sus características esenciales y simplificar ciertos análisis. Cuando el tamaño de muestra es menor a 30, los datos pueden tratarse individualmente, y en este caso se les llama Datos no agrupados. Sin embargo, cuando la muestra es grande (n >30), es laborioso hacerlo de esta forma, por lo que se lleva a cabo algún tipo de agrupación preliminar para realizar el tratamiento adecuado a los datos. En este último caso, se les llama Datos Agrupados. DATOS NO AGRUPADOS Si los datos están en una escala por lo menos ordinal, lo primero que podemos hacer es ordenarlos, en forma ascendente o descendente. Una vez ordenados los datos de la muestra se organizan en una tabla de frecuencias. Una Tabla...