Es usado para medir la fuerza de la relación lineal entre dos
variables. Se denota por ,
y también se conoce como coeficiente de correlación de Pearson. Y la manera de
calcularlo es:
Donde σxy es
la covarianza, en tanto que , son
las varianzas de los dos diferentes tipos de datos. El valor del coeficiente de
correlación oscila entre -1 y +1.
Según su valor se puede afirmar:
• Si r =0 no hay correlación lineal entre las
variables (puede ser de otro tipo).
• Si r =1 existe correlación lineal positiva
perfecta.
• Si 0 <r < 1 existe correlación positiva, y
mientras más cerca esté de 1 es más fuerte, así como si está más cerca de 0 es
más débil.
• Si r =−1 existe correlación lineal negativa
perfecta.
• Si −1< r <0 existe correlación lineal
negativa y es más fuerte en la medida en que el valor se acerca a 1.
Hasta ahora, en Excel existe una función que permite
calcular este coeficiente y sólo necesita de la lista de los datos de cada
variable por separado. Esta función es =COEF.DE.CORREL(datos x, datos y). Para
el ejemplo de las alturas de padres e hijos puede calcularse la desviación
estándar de las dos variables, teniendo:
Con lo cual existe una correlación lineal positiva y fuerte.
Si se quiere estudiar la dependencia entre las variables x y y,
de manera que la variable se ve como dependiente de la variable x. Para
realizar ese estudio es posible estimar o pronosticar la relación de
causalidad, siendo necesario un valor que determine si la variable x es
buena para explicar estadísticamente la variable y. Así, esta medida es
conocida como coeficiente de determinación.
En el caso del ejemplo de la estatura de padres e
hijos, el coeficiente de determinación es 2=0.8195. De esta manera, se puede decir que existe una
relación significativa que hace que la altura del padre sea factor determinante
de la estatura de los hijos. Este resultado dice que, en efecto, la gráfica de
dispersión se comporta muy parecido a una recta de manera muy fuerte.
Este proceso es conocido como regresión lineal. En general,
la teoría de regresión universal permite hacer predicciones basándose en la
dependencia de datos pasados de las variables y es de gran importancia en la estadística.