DATOS BIVARIADOS
PROPÓSITO
Que el estudiante
comprenda la forma en que se establece una relación entre dos variables, a
partir de tablas, diagramas, regresiones y correlaciones, y describa la
naturaleza e intensidad de dicha relación.
Datos bivariados
Se llaman datos
bivariados a aquellos que provienen de dos variable medidas al mismo tiempo
sobre cada individuo.
Por ejemplo: Edad y
Género, Escolaridad e Ingreso, Peso y Estatura, etc.
Dependiendo de la
naturaleza de cada variable se da el tratamiento a los datos.
Dos variables
Cualitativas
Cuando los datos
bivariados provienen de dos variables cualitativas, resulta conveniente
organizarlos en una Tabla de Contingencia. Las columnas de esta tabla
representan a las categorías de la variable 1 y los renglones representan a las
categorías de la variable 2; la frecuencia aparecerá en las celdas centrales de
la tabla.
Analicemos este caso
con un ejemplo.
La siguiente tabla
muestra el número de pacientes hospitalizados por la misma enfermedad en los
últimos 6 meses.
Dos variables
Cuantitativas
Cuando los datos
bivariados provienen de dos variables cuantitativas resulta de interés estudiar
la relación que guarda una con la otra.
La relación puede
ser de muy distinta naturaleza: lineal, cuadrática, exponencial, logarítmica,
trigonométrica, etc.
En estadística la
relación que nos interesa es la Relación Lineal, por lo que se llevan a cabo
Análisis de Correlación Lineal y de Regresión Lineal.
El análisis de
correlación, se usa para medir la fuerza de asociación entre las variables.
El objetivo medir la
covarianza que existe entre esas dos variables numéricas.
El análisis de
regresión se usa con propósitos de predicción. Se busca desarrollar un modelo
estadístico útil para predecir los valores de una variable dependiente o de respuesta
basados en los valores de al menos una variable independiente o explicativa.
DIAGRAMA DE DISPERSIÓN
Un diagrama de dispersión es
una ilustración gráfica que se usa en el análisis de regresión. Consta de una
dispersión de puntos tal que cada punto representa un valor de la variable
independiente y un valor asociado de la variable dependiente.
Brinda
dos tipos de información, visualmente se pueden determinar los patrones que
indican como las variables están relacionadas (lineal o mediante una curva) y
por otro lado si existe una relación entre ellas visualizando la clase de línea
o ecuación de estimación que describe a dicha relación.
ANÁLISIS
DE CORRELACIÓN LINEAL
El
objetivo es ver si existe o no una relación de carácter lineal entre las dos
variables, y si existe, entonces medir el grado de intensidad de la linealidad.
Esto
comúnmente se realiza calculando el coeficiente de correlación lineal de
Pearson:
El
coeficiente toma valores en el intervalo [-1, 1]
Un
valor negativo de 1 en r, quiere decir que se tiene una correlación negativa grande
y perfecta, significa que la relación entre las variables es inversamente proporcional,
(a mayor X menor Y).
Un
valor negativo cercano a 1 en r, indica una correlación negativa muy alta, pero
no perfecta.
Un
valor negativo cercano a cero en r, indica una correlación negativa muy baja.
Valores
en r iguales a cero significan que no existe ninguna correlación
Un
valor positivo cercano a cero en r, indica una correlación positiva muy baja.
Un
valor positivo cercano a 1 en r, indica una correlación positiva muy alta, pero
no perfecta.
Un
valor positivo de 1 en r, quiere decir que se tiene una correlación positiva grande
y perfecta, significa que la relación entre las variables es fuertemente lineal,
lo cual indica que es directamente proporcional a mayor x, mayor y.
COEFICIENTE DE DETERMINACIÓN
En estadística, el coeficiente de determinación,
denominado R² y
pronunciado R cuadrado, es un estadístico usado en el contexto de un modelo estadístico
cuyo principal propósito es predecir futuros resultados o probar una hipótesis. Este
se obtiene elevando el coeficiente de Pearson al cuadrado.
El resultado
indica el porcentaje de la variación de una variable debido a la variación de
la otra y viceversa.
Si el valor de R2 es 1, se podría decir que
el pronóstico es muy favorable a la tendencia.
Si el valor de R2 es menor a 1, se podría
decir que no se tiene mucha certeza, pero hay un porcentaje aceptable a que los
valores futuros tengan la misma tendencia.
Si el valor de R2 es 0, la línea recta
calculada no se ajustara en lo más mínimo a la tendencia.
Ejemplo
Se
decidió examinar la relación entre la estatura, (en metros), y el peso, (en kilogramos),
a partir de una muestra de 12 alumnas de cierta escuela. Los datos se muestran
en la siguiente tabla.

Al sustituir los valores correspondientes para r,
se obtiene: r = 0.94
Por tanto, la relación lineal es fuerte y es positiva
Y para R2
R2= 0.88= 88.36%
Existe
relación lineal, los datos están más cerca de una línea recta, que representa a
todo el conjunto de puntos con un 88.36 % de precisión.
ANÁLISIS DE REGRESIÓN LINEAL
El
análisis de regresión consiste en emplear métodos que permitan determinar la
mejor relación funcional entre dos o más variables relacionadas.
En
el análisis de regresión se desarrolla una
ecuación de estimación, es decir, una fórmula matemática que relaciona las
variables conocidas con las desconocidas, para estimar el valor desconocido
de una variable, a partir del valor conocido de otra variable.
Una relación funcional matemáticamente
hablando, está dada por:
La ecuación de la recta en su forma ordinaria
Y* = Variable respuesta (o dependiente) con
asterisco porque es un valor aproximado.
Xi = valor de X para cada observación
m= Es la pendiente la cual indica cuán
inclinada es la línea
b= Ordenada en el Origen, es la
intercesión donde la línea se cruza con el eje Y
Las
variables m y b son constantes numéricas que son las que se calculan mediante el
método de mínimos cuadrados.
Por lo
tanto el análisis de regresión lineal simple, es el proceso general de predecir
una variable (Y) a partir de otra (X).
MÉTODO DE MÍNIMOS CUADRADOS: se
refiere a encontrar la línea recta que mejor se ajuste a los datos, de manera
que las diferencias entre los valores reales Yi y los valores pronosticados a
partir de la recta ajustada de regresión Y*i sean tan pequeñas como sea
posible.
Al
sustituir los valores correspondientes para m y b se
obtiene:
m
= 87.03, b = - 83.06
Como
se había indicado, la relación lineal es fuerte y es positiva; y, la ecuación
de regresión lineal es
Y*
= 87.03 X - 83.06
Utilizando dicha ecuación podemos predecir, por ejemplo, el peso
de una alumna cuya estatura es de 1.55 m
Y* = 87.03 (1.55) - 83.06 = 51.83
De acuerdo a este modelo, una alumna cuya estatura fuera de 1.55
m., tendría un peso de 51.8 kg.












Comentarios
Publicar un comentario