Medida de dispersión: aquella que por medio de un numero indica que tanto están variando los datos recolectados con respecto a las medidas de tendencia central (principalmente la media).

La razón principal para clasificar datos y dibujar un histograma de la tabla de frecuencias resultantes es determinar la naturaleza de la distribución. Aunque en muchas ocasiones esas relaciones son difíciles de precisar, salvo en casos muy generales, la forma de proceder es omitir la comparación de todos los datos y solo tomar los valores promedio y las variaciones que tienen ambos conjuntos de datos. Estas cantidades descriptivas se llaman aritméticas porque proporcionan números, en contraste con el histograma, el cual es de naturaleza geométrica. La esencia del problema es la que determina si las propiedades aritméticas simples son suficientes para describirlo de manera apropiada.

En este tema se abordarán algunas de las medidas descriptivas más comunes y con las cuales las actividades que se proponen pueden arrojar información suficiente para identificar una distribución, para lo cual se requiere de herramientas como las hojas de calculo. Los problemas mas complejos comúnmente requieren del estudio de valores relacionados con las distribuciones o con el análisis de toda la distribución.

Las primeras medidas descriptivas que se presentan son las conocidas como medidas de tendencia central, con las cuales se busca presentar un valor que muestre de manera nítida el punto medio o centro de los datos que se tienen. Las medidas de tendencia central mas comunes son la media o el promedio, la media geométrica, la media armónica, la mediana, la moda y el rango medio.

El análisis de la variación de los valores respecto a la media es dado por las medidas de dispersión. El uso de la computadora es una herramienta útil para trabajar y analizar datos estadísticos. Con el fin de facilitar su uso, se ofrecen para cada medida aritmética su fórmula y aplicación en hojas de calculo de Excel. Para otras plataformas como Google Docs, existen fórmulas que realizan las mismas labores, donde solo será necesario investigar la sintaxis, ya que los métodos generales suelen ser los mismos.

Medidas de tendencia central.

Media aritmética.

La más común de estas medidas es la media aritmética o promedio y es la más usada en la vida diaria; como cuando se calcula la calificación que tendría un estudiante en su curso. Si se sustituye cada dato por la media y se hace la suma se obtiene el mismo resultado que si se sumaran todos los datos. La media aritmética o solo media se define como la suma de todos los valores dividida por el número de valores. Si se tiene un conjunto de datos x₁ , x₂ , … x_nla media aritmética será:

Para ilustrar el calculo de la media, considera el ejemplo.

Encuentra la media del siguiente conjunto de datos.

Valor	Frecuencia
12	10
30	13
32	4
40	2

Para calcular la media hay que notar que no solo tienen 4 valores, solo que en realidad son 29. Entonces para obtener el valor que se desea es conveniente completar la tabla con las cantidades de que cada valor aportará a la suma para obtener la media; es decir, se puede agregar la columna de valor x frecuencia. De esta manera es mas sencillo calcular la suma total de todos los valores:

Valor	Frecuencia	Valor x Frecuencia
12	10	120
30	13	390
32	4	128
40	2	80
Suma	29	718

Por tanto, la suma total de los datos es 718 y la media se obtiene de la siguiente manera:

Las operaciones anteriores pueden hacer fácilmente en una tabla de Excel. Esta herramienta permite multiplicar y sumar los valores de las entradas de una tabla, una a una. Además, si en tabla de Excel, se tiene la lista con todos los valores, y cada valor en una celda, una mera muy sencilla de calcular la media es con el comando: =PROMEDIO( ). Los paréntesis indican que ahí se enlistan las celdas con los valores que deseas promediar. Por ejemplo, si los datos están en la columna A en las filas 4 a la 10, entonces el comando es =PROMEDIO(A4:A10), o simplemente se anotan dentro del paréntesis todos los valores que se quieren promediar separados por comas.

Si los datos ya están agrupados, también es posible determinar una media aritmética, esto es, en la consideración de las marcas de clase y las frecuencias absolutas o relativas de cada clase. La fórmula para la media aritmética de datos agrupados es:

Recordando que m_i es la marca de clase i, la cual es el punto medio entre los límites superior e inferior de la clase f_i, es la frecuencia de clase, y fr_i es la frecuencia relativa.

Media geométrica

De manera análoga a la media aritmética, la media geométrica busca un número que al cambiar todos los datos por él y multiplicarlos se obtenga el mismo valor que si se multiplican los datos originales. Y se diferencia de la media aritmética, en la cual se hace una suma. Entonces, la media geométrica para n datos no negativos *x₁, x₂, …x_n* (esto es importante porque será necesario obtener una raíz n -ésima, que no es posible de
momento para números negativos) se obtiene mediante:		.
Un uso común de la media geométrica es precisamente regularizar cuerpos geométricos
con ciertas dimensiones. Por ejemplo, si se tiene una caja que mide 4 cm de ancho, 6 cm de largo y 9 cm de alto: ¿qué dimensiones debe tener un cubo con el mismo volumen? La solución, dado que el volumen es el producto de las tres cantidades, es la media geométrica, en este caso.

En la herramienta Excel es posible calcular esta media geométrica mediante el comando =MEDIA.GEOM(4,6,9).

Media armónica.

La media armónica se construye como el inverso de la media aritmética de los datos, es decir, si se tienen x₁, x₂, …x_n , datos el valor de la media armónica sería:

Un ejemplo de uso es cuando se recorre la misma distancia varias veces, la media armónica de las distintas velocidades con que se realizo cada recorrido, da la velocidad promedio global. Considera el siguiente problema:

Una persona parte de su casa en su automóvil a visitar a un amigo. De ida su velocidad es de 20 km/h y de regreso es de 30 km/h: ¿Cuál es su velocidad promedio?

Para determinar la velocidad promedio se puede pensar en hacer el promedio directo de las dos velocidades lo que daría:

Para notar el problema con este resultado se supondrá que la distancia entre las dos casas es de 6 km, entonces el tiempo que le tomó realizar el recorrido es de:

Recorrió una distancia de 12 km en un tiempo de 0.5 horas. De esta manera, su velocidad promedio fue:

El resultado no se obtuvo únicamente con promediar las velocidades, pero es posible llegar a él por medio de la media armónica de las velocidades.

Para su calculo en una hoja de Excel se puede usar la función =MEDIA.ARMO( ).

mediana

Cuando se tiene una cantidad impar de datos, es interesante encontrar un dato para el cual hay tantos datos mayores o iguales que él, como menores o iguales, ese dato es llamado la mediana de la colección de los datos. En caso de que se tenga una cantidad par de datos, la mediana se construye como el promedio de los dos datos que se encuentran en el centro, la mediana de una colección de 2n datos es el número

Para poder encontrar la mediana de una colección de datos es necesario primero ordenarlos de manera creciente.

En una hoja de calculo puede usarse la función =MEDIANA( ), seleccionando los datos a los cuales se les quiere obtener la mediana.

Moda.

Es simplemente el datos que mas se repite en otras palabras, es el de mayor frecuencia. Puede determinarse en una hoja de calculo mediante la función =MODA( ). Si más de un dato se repite con la misma frecuencia, todos son la moda; pero si todos son distintos, no hay moda. También para este caso los datos no necesitan ser números pues solo hasta con que tenga la mayor frecuencia.

Rango medio.

Es el promedio de los valores máximos y mínimos de todos los datos.

Considera el siguiente caso para mostrar la obtención de las medidas de tendencia central a partir de una tabla de distribución de frecuencias.Encuentra la media, la mediana, la moda y el rango medio de la siguiente colección de datos.

Valor	Frecuencia
25	18
31	8
42	6
59	4
94	3

Para la media es necesario agregar la columna Valor por frecuencia y la fila de las sumas.

Valor	Frecuencia	Valor x Frecuencia
25	18	450
31	8	248
42	6	252
59	4	236
94	3	282
Suma	39	1468

Entonces el promedio esta dado por:

Para obtener la mediana.

Ya que se tienen 39 datos, el que se encuentra en el medio debe ser el dato 20, ya que tiene 19 datos menores o iguales que él y 19 mayores o iguales que el. De acuerdo con la tabla los primeros 18 datos son 25, así que el que se encuentra en el lugar 20 es 31.

Entonces la mediana es igual a 31.

La moda es fácil de determinar, viendo la tabla donde el dato con mayor frecuencia es 25.

Y por último, el rango medio es el promedio entre el dato menor 25 y el mayor 94:

Estimación de medidas de tendencia central a partir de la tabla de frecuencias agrupadas.

Hasta el momento se han calculado las medidas, en caso de que los datos no sean agrupados. Sin embargo tambien es posible aproximar estos valores a partir de la tabla de frecuencias agrupadas. Esto es útil cuando son muchos datos muy diferentes, como en la siguiente tabla con datos generados aleatoriamente con ayuda de Excel y la formula =ALEATORI.ENTRE(0.50).

0	6	4	42	37	10	46	1
39	14	24	0	15	15	12	23
48	18	9	26	17	42	31	0
25	14	41	0	4	40	46	39
1	6	0	8	34	23	23	31
14	43	29	28	1	24	36	42
22	32	11	25	50	15	3	34
46	18	6	16	24	40	35	38
48	4	39	31	0	41	40	14
26	29	3	16	14	48	1	36

Primero, se elabora la tabla de datos agrupados. Los valores usados se calculan también con ayuda de Excel, de tal manera que los valores necesarios quedan como se muestra en (1).

La tabla de frecuencias de datos agrupados queda de la siguiente forma como se muestra en (2).

(1)

N	Máximo	Mínimo	Rango	Número de clases	Amplitud de clase
80	50	0	50	7	7

(2)

Clase	Limites de clase		Marca de clase	Frecuencia
*No.*	Li	Ls	*m_i*	*f_i*
1	0	7	3.5	18
2	8	15	11.5	12
3	16	23	19.5	10
4	24	31	27.5	13
5	32	39	35.5	11
6	40	47	43.5	12
7	48	55	51.5	4

Para determinar la media se puede considerar la marca de clase y la frecuencia de clase. Con este paso, se asume que la marca de clase sustituye las apariciones de toso los elementos de la clase. De esta manera se construye la tabla con los productos de la marca de clase multiplicada por la frecuencia absoluta de la clase:

Clase	Límites de clase		Marca de clase	Frecuencia	Marca x frecuencia
*No.*	Li	Ls	*m_i*	*f_i*	*m_ix f_i*
1	0	7	3.5	18	63
2	8	15	11.5	12	138
3	16	23	19.5	10	195
4	24	31	27.5	13	357.5
5	32	39	35.5	11	390.5
6	40	47	43.5	12	522
7	48	55	51.5	4	206

La aproximación de la media puede obtenerse como:

Este valor se aproxima al promedio de todos los datos que se tienen, y la media exacta es 22.9875, la cual está bastante cerca del resultado de la media. También es necesario considerar que a mas datos es posible que el resultado mejore aun mas.

Para obtener la mediana se agrega la columna con frecuencia acumulada y se hace la operación del número de datos entre dos. En este caso, como son 80 datos, la mediana debe estar entre las posiciones 40 y 41, por lo que debe buscarse esas posiciones y promediar las marcas de clase correspondientes:

Clase	Límites de clase		Marca de clase	Frecuencia	Marca x frecuencia	Frecuencia acumulada
*No.*	Li	Ls	*m_i*	*f_i*	*m_ix f_i*	*fa_i*
1	0	7	3.5	18	63	18
2	8	15	11.5	12	138	30
3	16	23	19.5	10	195	40
4	24	31	27.5	13	357.5	53
5	32	39	35.5	11	390.5	64
6	40	47	43.5	12	522	76
7	48	55	51.5	4	206	80

La posición 40 está en la clase 3 y la 41 en la 4, por lo que se promedian las clases.

Entonces, la mediana es

Con ayuda de Excel también es posible hallar la

media exacta, la cual para este caso coincide con la estimación que se hizo.

De la misma manera, la moda se obtiene con la marca de clase de la que tiene la mayor frecuencia, es decir 3.5. Para los datos completos, la moda es: 0. Para el rango medio se

toman en cuenta las marcas de clase máxima y mínima:

El resultado es más grande que el rango mínimo exacto porque la última clase sobrepasa al dato mayor. Las aproximaciones que se obtienen a partir de las tablas de datos agrupados son de mucha utilidad cuando se tiene una gran cantidad de datos.

Las medidas de tendencia central dan información de los valores que pueden pensarse puntos medios en diferentes sentidos, por tanto es importante saber si estos coinciden, o su cercanía o variación. A este análisis se le conoce como sesgo y relaciona la media, la mediana y la moda.

Sesgo.

El sesgo describe la distribución de los datos, al indicar hacia donde tienden a concentrarse. La construcción de la gráfica facilita esta apreciación al mostrar los resultados de manera visual. De esta manera, una distribución puede ver:

Simétrica. Si la mayor concentración de datos se localiza en el centro de la distribución.
Sesgada a la derecha. Si la mayor concentración de datos está a la izquierda de la distribución.
Sesgada a la izquierda. Si la mayoría de los datos están concentrados a la derecha.

El comportamiento de las medidas de tendencia central, es a grandes rasgos como se muestra en la figura:

Medidas de dispersión.

Las medidas de dispersión son las herramientas que sirven para analizar la variación que presentan los datos. La primera de estas medidas es el rango. Al recordar, es la diferencia entre el dato mayor y el dato menor. Sin embargo, este resultado puede no representar el comportamiento real si existe uno o varios datos que varían mucho del resto. Estos son llamados datos aberrantes o atípicos.

La desviación estándar suele ser la más utilizada de las medidas de dispersión. Esta medida de dispersión permite observar que tan centrados están los datos, con ello se puede saber si la media es una buena representación de los datos. Si la desviación estándar es pequeña, la mayoría de los datos están cerca del promedio; si es grande, entonces están mas repartidos o dispersos. esto queda establecido en el Teorema de Chebyshev, el cual explica la desviación de las observaciones respecto a la media.

Varianza.

Esta medida es un promedio del cuadrado de las distancias de todos los datos a la media, es decir, si se tienen los datos x₁ , x₂ , … x_n_,la varianza es:

Desviación estándar.

Se define como la raíz cuadrada de la varianza:

En una hoja de Excel es posible calcular la varianza y la desviación estándar haciendo uso de las funciones =VAR.P( ) y =DESVEST.P( ) respectivamente.

Veamos un ejemplo:

De acuerdo con los datos del INEGI en 2015, la esperanza de vida al nacer en años de edad de cada estado de la República Mexicana es:

Entidad federativa	Edad	Entidad federativa	Edad	Entidad federativa	Edad
Aguascalientes	75.9	Guerrero	72.9	Quintana Roo	75.6
Baja California	74	Hidalgo	74.4	San Luis Potosí	74.7
Baja California Sur	76	Jalisco	75.5	Sinaloa	75.5
Campeche	75.2	México	75.2	Sonora	75.3
Coahuila	75.7	Michoacán	74.7	Tabasco	74.8
Colima	75.9	Morelos	75.7	Tamaulipas	75.8
Chiapas	75.8	Nayarit	75.1	Tlaxcala	75.2
Chihuahua	72.9	Nuevo león	76.4	Veracruz	74.1
Distrito Federal	76.1	Oaxaca	73	Yucatán	75.5
Durango	75.6	Puebla	74.8	Zacatecas	75.3
Guanajuato	75.5	Querétaro	75.4	Promedio Nacional	75

Se calculara la varianza y la desviación estándar para saber que tan lejos están los datos en general de la media.

Entidad federativa	Edad
Aguascalientes	75.9	0.7821
Baja California	74	1.0315
Baja California Sur	76	0.9690
Campeche	75.2	0.0340
Coahuila	75.7	0.4684
Colima	75.9	0.7821
Chiapas	75.8	4.9090
Chihuahua	72.9	4.4759
Distrito Federal	76.1	1.1759
Durango	75.6	0.3415
Guanajuato	75.5	0.2346
Guerrero	72.9	4.4759
Hidalgo	74.4	0.3790
Jalisco	75.5	0.2346
México	75.2	0.0340
Michoacán	74.7	0.0996
Morelos	75.7	0.0071
Nayarit	75.1	0.0071
Nuevo león	76.4	1.9165
Oaxaca	73	4.0627
Puebla	74.8	0.0465
Querétaro	75.4	0.1477
Quintana Roo	75.6	0.3415
San Luis Potosí	74.7	0.0996
Sinaloa	75.5	0.2346
Sonora	75.3	0.0809
Tabasco	74.8	0.0465
Tamaulipas	75.8	0.6152
Tlaxcala	75.2	0.0340
Veracruz	74.1	0.8384
Yucatán	75.5	0.2346
Zacatecas	75.3	0.0809
	Suma	29.6822

De esta manera, la varianza de los datos es			,	y la desviación
estándar	.	Esto dice que los datos están cerca de la media, pero también
Que hay variaciones considerables en algunos de los estados.

Regresión y correlación lineal.

Seguramente has notado que las personas altas suelen pesar mas que las personas bajas, y este comportamiento suele mantenerse en general. Es posible hacer un estudio estadístico para determinar si estos datos ser relacionan en mayor o menor medida. Para esto, los datos se plasman en una gráfica de dispersión para luego buscar una correlación lineal entre las dos colecciones a partir de una recta que esté cerca de todos los datos, lo mejor posible. Este método se llama de mínimos cuadrados y para medir que tan buena es la aproximación se aplica el coeficiente de correlación de Pearson, lo cual se explicará a continuación.

Gráfica de dispersión.

Cuando se tienen dos colecciones de datos se establece una relación entre ellos. A cada valor de una de las colecciones le corresponde uno o varios valores de la otra. La representación de esos valores relacionados como coordenadas en el plano es llamada gráfica de dispersión.

Ejemplo. Se construirá la gráfica de dispersión con la siguiente información.

Se tomaron las altura de 9 hombres y de sus hijos, sus resultados son los siguientes.

Padre (m)	1.70	1.77	1.68	1.75	1.80	1.75	1.69	1.72	1.73
Hijo (m)	1.74	1.78	1.77	1.78	1.77	1.71	1.76	1.73	1.74

Al representar los datos en la gráfica de dispersión, uno de los valores será el eje X. Por ejemplo, se podrá poner la altura de los padres como coordenadas X y la altura del hijo como la coordenada Y. La gráfica queda de la siguiente manera:

Para generar el gráfico anterior en Excel, basta con seleccionar los datos de la tabla como se presento e insertar el gráfico de tipo dispersión.

Cuando se estudia la relación entre dos variables, una puede considerarse causa y la otra resultado o efecto de la primera. El supuesto de la existencia de una relación de causalidad es sólo una decisión teórica. Dependiendo de las gráficas que se obtienen, pueden verse diferentes fenómenos de relación entre las variables:

Relación lineal positiva o directa. Cuando se aumenta los valores de una de las variables, la otra también aumenta.
Relación lineal negativa o inversa. Cuando una de las variables aumenta y la otra disminuye.
No hay relación entre las variables. Cuando las variables son independientes, tales como el salario que obtiene una persona y su estatura (debe verse que la relación no puede establecerse de manera clara).
Hay relación pero no es lineal. Esto puede ocurrir, por ejemplo, si se tienen datos que se elevan hasta cierto punto para después bajar, y las variables se relacionan en cada uno de esos intervalos. Estos tipos de relaciones no serán estudiados en este curso, ya que requieren de una explicación teórica más profunda.

Para analizar la relación lineal de las variables y resumir el gráfico de dispersión es necesario hacer uso de la covarianza.

covarianza.

Es una medida de la asociación lineal entre dos variables. Dependiendo de su valor, indica la tendencia de la relación de las variables. Se denota σ_xyy se determina mediante la formula:

Se puede observar los comportamientos:

Si la covarianza es positiva, entonces se tiene una relación lineal positiva.
Si la covarianza es negativa, entonces se tiene una relación lineal negativa.
Si la covarianza es cero, entonces no existe relación lineal entre las variables.

Con la lista de los datos es posible calcular la covarianza en Excel por medio de la función es igual a =COVARIANCE.P( ). Siguiendo con ejemplo, ya sea con la resolución de las operaciones o con ayuda de la función en Excel, el gráfico de dispersión es σ_xy=0.00078. Al ser positiva se obtiene lo que se veía en la gráfica, una relación lineal positiva.

Entonces la covarianza indica el tipo de correlación lineal, pero no da información sobre que tan fuerte es la relación. Para ello se hace uso del coeficiente de correlación.

Coeficiente de correlación.

Es usado para medir la fuerza de la relación lineal entre dos variables. Se denota por r, y también se conoce como coeficiente de correlación de Pearson. Y la manera de calcularlo es:

Donde σ_xy es la covarianza en tanto que σ_x1, σ_y son las varían<a de los dos diferentes tipos de datos. El valor del coeficiente de correlación oscila entre –1 y +1. Según su valor se puede afirmar:

Si r=0 no hay correlación lineal entre las variables (puede ser de otro tipo).
Si r=1 existe correlación lineal positiva perfecta.
Si 0 <r <1 existe correlación positiva, y mientras mas cerca este de 1 es mas fuerte, asi como si esta mas cerca de 0 es más débil.
Si r=-1 existe correlación lineal negativa perfecta.
Si –1 <r <0 existe correlación lineal negativa y es más fuerte en la medida en que el calor se acerca a 1.

La figura siguiente muestra de forma general el posible comportamiento de la gráfica de dispersión según su coeficiente de correlación:

Hasta ahora, en Excel existe una función que permite calcular este coeficiente y solo necesita de la lista de los datos de cada variable por separado. Esta función es =COEF.DE.CORREL(datos x, datos y). Para el ejemplo de las alturas de padres e hijos puede calcularse la desviación estándar de las dos variables, teniendo:

Con lo cual existe una correlación lineal positiva y fuerte. Si se quiere estudiar la dependencia entre las variables x y y, de manera que la variable se ve como dependiente de la variable x. Para realizar ese estudio es posible estimar o pronosticar la relación de causalidad, siendo necesario un valor de determine si la variables x es buena para explicar estadísticamente la variable y. Así, esta medida es conocida como coeficiente de determinación.

Coeficiente de determinación.

Se representa por r², y de hecho es el cuadrado del coeficiente de correlación. Sus valores van de 0 a 1; mientras que la variable x esté más próxima a 1, es mejor para explicar a y. Por otro lado, si el coeficiente de determinación es cercano a 0, entonces el valor de x no afecta de manera importante el comportamiento de la variable y. Es posible determinar este coeficiente directamente en Excel elevando al cuadrado el coeficiente de correlación.

En el caso del ejemplo de la estatura de padres e hijos, el coeficiente de determinación es r²=0.8195. De esta manera, se puede decir que existe un relación significativa que hace que la altura del padre sea factor determinante de la estatura de los hijos. Este resultado dice que, en efecto, la gráfica de dispersión se comporta muy parecido a una recta de manera muy fuerte: ¿como se traza esta recta? En el caso de apoyarse totalmente en Excel o similares, existe una forma de ajustar automáticamente la recta que mejor se aproxima a los datos: una vez creada la gráfica de dispersión y teniéndolo seleccionado en la pestaña de “Diseño”, se toma la opción “Agregar elemento gráfico” y luego selecciones “Línea de tendencia” y eliges la opción deseada. El ajuste lineal al ejemplo de las alturas resulta.

Esto es claro con toda la ayuda de Excel. Sin embargo, es posible aproximar la recta que ajusta mejor a los datos. Este proceso es conocido como regresión lineal. En general, la teoría de regresión universal permite hacer predicciones basándose en la dependencia de datos pasados de las variables y es de gran importancia en la estadística.

Regresión lineal de covarianza.

La regresión lineal permite definir la recta que mejor se ajusta a la nube de puntos. La ecuación que define cualquier recta es y = ax + b; por lo tanto, es necesario determinar los valores de a y b para que la recta quede completamente definida, los valores que se deben tomar son:

a es la pendiente de la recta. La manera de calcularlo es dividiendo la covarianza de las dos variables entre la desviación estándar de X al cuadrado, es decir:

b es llamada la ordenada al origen, es decir, el valor que toma la recta cuando X=0. Se calcula como la media de la variable y menos la media de la variable X multiplicada por a.

Regresando al ejemplo que se tenia sobre estaturas, la pendiente de la recta y la ordenada al origen están dadas por:

Entonces, la ecuación de la recta que se ajusta a los datos es y=0.6094+0.6958, quedando la gráfica:

En la aplicación del programa Excel la regresión lineal es la misma que la que se calculó arriba. Su uso, como te puedes dar cuenta facilita mucho el análisis estadístico. Ahora bien, el siguiente método para usar un conjunto de datos es de los más empleados en varias áreas de la matemática. Este el es método de mínimos cuadrados.

Métodos de mínimos cuadrados.

Este método es usado por Excel para ajustar los datos. El método lo que hace es considerar que y=f(x). En otras palabras, existe una relación de causalidad entre las variables, donde la función de la recta es la que mejor ajusta los datos. El siguiente paso consiste en establecer que para cada X_i. se determina el error (e) entre la aproximación f(x_i) y el valor de la variable y_i esto es:

Entonces, lo que se busca es minimizar el valor de la suma del cuadrado de todos los errores (e_i):

De ahí, se deriva su nombre, mínimos cuadrados. En general, si los valores del coeficiente de determinación son cercanos a 1, ambos métodos arrojaran resultados similares.

La importancia de tener la regresión lineal es para poder estimar los valores de una de las variables, sabiendo que hay cierta relación entre ellas. Una vez más recurriendo al ejemplo de estaturas, si se quisiera estimar la estatura de un hombre sabiendo que su padre mide 1.60m, se puede evaluar en la recta por lo tanto: y=0.6094(1.69)+0.6958=1.67084. Esta puede ser una buena estimación a un valor experimental. Las aplicaciones de este proceso son muy variadas. Por ejemplo, en economía y finanzas se buscan relaciones entre el índice de precios y las cotizaciones en la bolsa o el precio del petróleo y el oro, etc., con el fin de predecir cual podría ser el valor en un futuro. Sin embargo, los procesos en esta área en general suelen ser mas complejos porque intervienen muchos factores, por lo que una relación lineal rara vez ocurre y es necesario establecer relaciones de otro tipo. Pero se trata de procedimientos similares con la misma idea de la regresión lineal detrás de ellos.

Prepa en línea SEP

MENÚ

lunes, 27 de noviembre de 2017

Análisis estadístico de la información, representación gráfica y uso de hojas de cálculo