Ir al contenido principal

TEMA 06-OCT-17

DATOS BIVARIADOS

PROPÓSITO

Que el estudiante comprenda la forma en que se establece una relación entre dos variables, a partir de tablas, diagramas, regresiones y correlaciones, y describa la naturaleza e intensidad de dicha relación.

Datos bivariados
Se llaman datos bivariados a aquellos que provienen de dos variable medidas al mismo tiempo sobre cada individuo.
Por ejemplo: Edad y Género, Escolaridad e Ingreso, Peso y Estatura, etc.
Dependiendo de la naturaleza de cada variable se da el tratamiento a los datos.

Dos variables Cualitativas
Cuando los datos bivariados provienen de dos variables cualitativas, resulta conveniente organizarlos en una Tabla de Contingencia. Las columnas de esta tabla representan a las categorías de la variable 1 y los renglones representan a las categorías de la variable 2; la frecuencia aparecerá en las celdas centrales de la tabla.
Analicemos este caso con un ejemplo.

La siguiente tabla muestra el número de pacientes hospitalizados por la misma enfermedad en los últimos 6 meses.

Dos variables Cuantitativas
Cuando los datos bivariados provienen de dos variables cuantitativas resulta de interés estudiar la relación que guarda una con la otra.

La relación puede ser de muy distinta naturaleza: lineal, cuadrática, exponencial, logarítmica, trigonométrica, etc.
En estadística la relación que nos interesa es la Relación Lineal, por lo que se llevan a cabo Análisis de Correlación Lineal y de Regresión Lineal.
El análisis de correlación, se usa para medir la fuerza de asociación entre las variables.

El objetivo medir la covarianza que existe entre esas dos variables numéricas.

El análisis de regresión se usa con propósitos de predicción. Se busca desarrollar un modelo estadístico útil para predecir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa.


DIAGRAMA DE DISPERSIÓN

Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de regresión. Consta de una dispersión de puntos tal que cada punto representa un valor de la variable independiente y un valor asociado de la variable dependiente.

Brinda dos tipos de información, visualmente se pueden determinar los patrones que indican como las variables están relacionadas (lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase de línea o ecuación de estimación que describe a dicha relación. 





ANÁLISIS DE CORRELACIÓN LINEAL

El objetivo es ver si existe o no una relación de carácter lineal entre las dos variables, y si existe, entonces medir el grado de intensidad de la linealidad.

Esto comúnmente se realiza calculando el coeficiente de correlación lineal de Pearson:

El coeficiente toma valores en el intervalo [-1, 1]
Un valor negativo de 1 en r, quiere decir que se tiene una correlación negativa grande y perfecta, significa que la relación entre las variables es inversamente proporcional, (a mayor X menor Y).
Un valor negativo cercano a 1 en r, indica una correlación negativa muy alta, pero no perfecta.
Un valor negativo cercano a cero en r, indica una correlación negativa muy baja.
Valores en r iguales a cero significan que no existe ninguna correlación
Un valor positivo cercano a cero en r, indica una correlación positiva muy baja.
Un valor positivo cercano a 1 en r, indica una correlación positiva muy alta, pero no perfecta.
Un valor positivo de 1 en r, quiere decir que se tiene una correlación positiva grande y perfecta, significa que la relación entre las variables es fuertemente lineal, lo cual indica que es directamente proporcional a mayor x, mayor y.

COEFICIENTE DE DETERMINACIÓN

En estadística, el coeficiente de determinación, denominado  y pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es predecir futuros resultados o probar una hipótesis. Este se obtiene elevando el coeficiente de Pearson al cuadrado.

El resultado indica el porcentaje de la variación de una variable debido a la variación de la otra y viceversa.
Si el valor de R2 es 1, se podría decir que el pronóstico es muy favorable a la tendencia.
Si el valor de R2 es menor a 1, se podría decir que no se tiene mucha certeza, pero hay un porcentaje aceptable a que los valores futuros tengan la misma tendencia.
Si el valor de R2 es 0, la línea recta calculada no se ajustara en lo más mínimo a la tendencia.

Ejemplo
Se decidió examinar la relación entre la estatura, (en metros), y el peso, (en kilogramos), a partir de una muestra de 12 alumnas de cierta escuela. Los datos se muestran en la siguiente tabla.
 

Al sustituir los valores correspondientes para r, se obtiene: r = 0.94
Por tanto, la relación lineal es fuerte y es positiva
Y para R2
R2= 0.88= 88.36%

Existe relación lineal, los datos están más cerca de una línea recta, que representa a todo el conjunto de puntos con un 88.36 % de precisión. 

ANÁLISIS DE REGRESIÓN LINEAL

El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación funcional entre dos o más variables relacionadas.
En el análisis de regresión se desarrolla una ecuación de estimación, es decir, una fórmula matemática que relaciona las variables conocidas con las desconocidas, para estimar el valor desconocido de una variable, a partir del valor conocido de otra variable.

Una relación funcional matemáticamente hablando, está dada por: 


La ecuación de la recta en su forma ordinaria
Y* = Variable respuesta (o dependiente) con asterisco porque es un valor aproximado.
Xi = valor de X para cada observación
m= Es la pendiente la cual indica cuán inclinada es la línea
b= Ordenada en el Origen, es la intercesión donde la línea se cruza con el eje Y
Las variables m y b son constantes numéricas que son las que se calculan mediante el método de mínimos cuadrados.
Por lo tanto el análisis de regresión lineal simple, es el proceso general de predecir una variable (Y) a partir de otra (X).


MÉTODO DE MÍNIMOS CUADRADOS: se refiere a encontrar la línea recta que mejor se ajuste a los datos, de manera que las diferencias entre los valores reales Yi y los valores pronosticados a partir de la recta ajustada de regresión Y*i sean tan pequeñas como sea posible.


Al sustituir los valores correspondientes para m y b se obtiene:
m = 87.03, b = - 83.06
Como se había indicado, la relación lineal es fuerte y es positiva; y, la ecuación de regresión lineal es
Y* = 87.03 X - 83.06
Utilizando dicha ecuación podemos predecir, por ejemplo, el peso de una alumna cuya estatura es de 1.55 m
Y* = 87.03 (1.55) - 83.06 = 51.83
De acuerdo a este modelo, una alumna cuya estatura fuera de 1.55 m., tendría un peso de 51.8 kg.


Comentarios

Entradas populares de este blog

Variable Aleatorias Discretas

VARIABLE ALEATORIA: Es una función que asocia a cada resultado del espacio muestral un número real. A su vez puede ser continua o discreta. Las variables aleatorias se representan con letras Mayúsculas y los valores que pueden tomar las variables aleatorias se representan con la letra minúscula.  X= variable aleatoria (v.a) X= valores de la v.a Ejemplos: a) Al arrojar una moneda y observar el lado que queda hacia arriba: X={ x1 = 1 (águila), x2 = 0 (sol) } b) Arrojar dos dados y anotar la suma de los puntos que caen hacia arriba. X= la suma de los dos dados X={ x1 = 2, x2 = 3, … xn=12) } VARIABLE ALEATORIA CONTINUA: Toma valores de un conjunto infinito no numerable. VARIABLE ALEATORIA DISCRETA: Toma valores de un conjunto numerable y finito. FUNCIÓN DE PROBABILIDAD DE UNA VARIABLE ALEATORIA DISCRETA P[ X = x i ]= pi Se define la función de probabilidad de la variable aleatoria. X, como la Probabilidad de que la variable aleatoria X, ...

UNIDAD 4

MODELOS PROBABILÍSTICOS COMUNES DISTRIBUCIONES DE PROBABILIDAD DISCRETAS ENSAYO DE BERNOULLI Consiste en realizar un sólo experimento (ensayo) en el cual existen únicamente dos posibles resultados: S= { Éxitos, Fracasos } Por ejemplo: observar un artículo y ver si es defectuoso Definimos a la variable aleatoria de Bernoulli de la siguiente forma: I= O , si el resultado del ensayo es “fracaso”, o  I=1 Si el resultado del ensayo es “éxito”. A ésta última se le conoce como “función indicadora” DISTRIBUCIÓN DE BERNULLI  Supongamos que en un ensayo de Bernoulli la probabilidad de obtener éxito es p . Como el ensayo tiene únicamente dos resultados posibles, entonces la probabilidad de obtener un fracaso es 1-p . llamaremos q a la probabilidad de fracaso . p = Probabilidad de éxito q = (1-p) = Probabilidad de fracaso Con esto, la distribución de probabilidad de la variable aleatoria de Bernoulli es: P(I)= { q; si I=0, p; si I=1 y 0; otro...

Distribución de Frecuencias

DISTRIBUCIÓN DE FRECUENCIAS Como recordarás la Estadística Descriptiva se encarga de la organización, presentación y descripción de los datos recolectados, y de obtener información a partir de ellos. El objetivo de la organización de datos es acomodarlos en forma útil para revelar sus características esenciales y simplificar ciertos análisis. Cuando el tamaño de muestra es menor a 30, los datos pueden tratarse individualmente, y en este caso se les llama Datos no agrupados. Sin embargo, cuando la muestra es grande (n >30), es laborioso hacerlo de esta forma, por lo que se lleva a cabo algún tipo de agrupación preliminar para realizar el tratamiento adecuado a los datos. En este último caso, se les llama Datos Agrupados. DATOS NO AGRUPADOS Si los datos están en una escala por lo menos ordinal, lo primero que podemos hacer es ordenarlos, en forma ascendente o descendente. Una vez ordenados los datos de la muestra se organizan en una tabla de frecuencias. Una Tabla...