Mostrando las entradas con la etiqueta Análisis estadístico de la información. Mostrar todas las entradas
Mostrando las entradas con la etiqueta Análisis estadístico de la información. Mostrar todas las entradas

lunes, 27 de noviembre de 2017

Análisis estadístico de la información, representación gráfica y uso de hojas de cálculo

image

Medida de dispersión: aquella que por medio de un numero indica que tanto están variando los datos recolectados con respecto a las medidas de tendencia central (principalmente la media).

La razón principal para clasificar datos y dibujar un histograma de la tabla de frecuencias resultantes es determinar la naturaleza de la distribución. Aunque en muchas ocasiones esas relaciones son difíciles de precisar, salvo en casos muy generales, la forma de proceder es omitir la comparación de todos los datos y solo tomar los valores promedio y las variaciones que tienen ambos conjuntos de datos. Estas cantidades descriptivas se llaman aritméticas porque proporcionan números, en contraste con el histograma, el cual es de naturaleza geométrica. La esencia del problema es la que determina si las propiedades aritméticas simples son suficientes para describirlo de manera apropiada.
En este tema se abordarán algunas de las medidas descriptivas más comunes y con las cuales las actividades que se proponen pueden arrojar información suficiente para identificar una distribución, para lo cual se requiere de herramientas como las hojas de calculo. Los problemas mas complejos comúnmente requieren del estudio de valores relacionados con las distribuciones o con el análisis de toda la distribución.
Las primeras medidas descriptivas que se presentan son las conocidas como medidas de tendencia central, con las cuales se busca presentar un valor que muestre de manera nítida el punto medio o centro de los datos que se tienen. Las medidas de tendencia central mas comunes son la media o el promedio, la media geométrica, la media armónica, la mediana, la moda y el  rango medio.Resultado de imagen para grafica de dispersion
El análisis de la variación de los valores respecto a la media es dado por las medidas de dispersión. El uso de la computadora es una herramienta útil para trabajar y analizar datos estadísticos. Con el fin de facilitar su uso, se ofrecen para cada medida aritmética su fórmula y aplicación en hojas de calculo de Excel. Para otras plataformas como Google Docs, existen fórmulas que realizan las mismas labores, donde solo será necesario investigar la sintaxis, ya que los métodos generales suelen ser los mismos.

Medidas de tendencia central.

Media aritmética.

La más común de estas medidas es la media aritmética o promedio y es la más usada en la vida diaria; como cuando se calcula la calificación que tendría un estudiante en su curso. Si se sustituye cada dato por la media y se hace la suma se obtiene el mismo resultado que si se sumaran todos los datos. La media aritmética o solo media se define como la suma de todos los valores dividida por el número de valores. Si se tiene un conjunto de datos x1 , x2 , … xn la media aritmética será:
clip_image002Para ilustrar el calculo de la media, considera el ejemplo.
Encuentra la media del siguiente conjunto de datos.


Valor

Frecuencia

12

10

30

13

32

4

40

2

Para calcular la media hay que notar que no solo tienen 4 valores, solo que en realidad son 29. Entonces para obtener el valor que se desea es conveniente completar la tabla con las cantidades de que cada valor aportará a la suma para obtener la media; es decir, se puede agregar la columna de valor x frecuencia. De esta manera es mas sencillo calcular la suma total de todos los valores:


Valor

Frecuencia

Valor x Frecuencia

12

10

120

30

13

390

32

4

128

40

2

80

Suma

29

718

Por tanto, la suma total de los datos es 718 y la media se obtiene de la siguiente manera:
clip_image002[4]
Las operaciones anteriores pueden hacer fácilmente en una tabla de Excel. Esta herramienta permite multiplicar y sumar los valores de las entradas de una tabla, una a una. Además, si en tabla de Excel, se tiene la lista con todos los valores, y cada valor en una celda, una mera muy sencilla de calcular la media es con el comando: =PROMEDIO( ). Los paréntesis indican que ahí se enlistan las celdas con los valores que deseas promediar. Por ejemplo, si los datos están en la columna A en las filas 4 a la 10, entonces el comando es =PROMEDIO(A4:A10), o simplemente se anotan dentro del paréntesis todos los valores que se quieren promediar separados por comas.
Si los datos ya están agrupados, también es posible determinar una media aritmética, esto es, en la consideración de las marcas de clase y las frecuencias absolutas o relativas de cada clase. La fórmula para la media aritmética de datos agrupados es:
clip_image002[6]
Recordando que mi es la marca de clase i, la cual es el punto medio entre los límites superior e inferior de la clase fi, es la frecuencia de clase, y fri es la frecuencia relativa.

Media geométrica



De manera análoga a la media aritmética, la media geométrica busca un número que al cambiar todos los datos por él y multiplicarlos se obtenga el mismo valor que si se multiplican los datos originales. Y se diferencia de la media aritmética, en la cual se hace una suma. Entonces, la media geométrica para n datos no negativos x1, x2, …xn (esto es importante porque será necesario obtener una raíz n -ésima, que no es posible de

momento para números negativos) se obtiene mediante:

clip_image002[24].

Un uso común de la media geométrica es precisamente regularizar cuerpos geométricos

con ciertas dimensiones. Por ejemplo, si se tiene una caja que mide 4 cm de ancho, 6 cm de largo y 9 cm de alto: ¿qué dimensiones debe tener un cubo con el mismo volumen? La solución, dado que el volumen es el producto de las tres cantidades, es la media geométrica, en este casoclip_image004[18].





En la herramienta Excel es posible calcular esta media geométrica mediante el comando =MEDIA.GEOM(4,6,9).

Media armónica.

La media armónica se construye como el inverso de la media aritmética de los datos, es decir, si se tienen x1, x2, …xn , datos el valor de la media armónica sería:
clip_image002[26]Un ejemplo de uso es cuando se recorre la misma distancia varias veces, la media armónica de las distintas velocidades con que se realizo cada recorrido, da la velocidad promedio global. Considera el siguiente problema:
Una persona parte de su casa en su automóvil a visitar a un amigo. De ida su velocidad es de 20 km/h y de regreso es de 30 km/h: ¿Cuál es su velocidad promedio?
Para determinar la velocidad promedio se puede pensar en hacer el promedio directo de las dos velocidades lo que daría:
clip_image002[28]
Para notar el problema con este resultado se supondrá que la distancia entre las dos casas es de 6 km, entonces el tiempo que le tomó realizar el recorrido es de:
clip_image002[30]
Recorrió una distancia de 12 km en un tiempo de 0.5 horas. De esta manera, su velocidad promedio fue:
clip_image002[32]El resultado no se obtuvo únicamente con promediar las velocidades, pero es posible llegar a él por medio de la media armónica de las velocidades.
clip_image002[34]
Para su calculo en una hoja de Excel se puede usar la función =MEDIA.ARMO( ).

mediana



Cuando se tiene una cantidad impar de datos, es interesante encontrar un dato para el cual hay tantos datos mayores o iguales que él, como menores o iguales, ese dato es llamado la mediana de la colección de los datos. En caso de que se tenga una cantidad par de datos, la mediana se construye como el promedio de los dos datos que se encuentran en el centro, la mediana de una colección de 2n datos es el númeroclip_image002[38].


.

Para poder encontrar la mediana de una colección de datos es necesario primero ordenarlos de manera creciente.
En una hoja de calculo puede usarse la función =MEDIANA( ), seleccionando los datos a los cuales se les quiere obtener la mediana.

Moda.

Es simplemente el datos que mas se repite en otras palabras, es el de mayor frecuencia. Puede determinarse en una hoja de calculo mediante la función =MODA( ). Si más de un dato se repite con la misma frecuencia, todos son la moda; pero si todos son distintos, no hay moda. También para este caso los datos no necesitan ser números pues solo hasta con que tenga la mayor frecuencia.

Rango medio.

Es el promedio de los valores máximos y mínimos de todos los datos.
Considera el siguiente caso para mostrar la obtención de las medidas de tendencia central a partir de una tabla de distribución de frecuencias.Encuentra la media, la mediana, la moda y el rango medio de la siguiente colección de datos.


Valor

Frecuencia

25

18

31

8

42

6

59

4

94

3


Para la media es necesario agregar la columna Valor por frecuencia y la fila de las sumas.


Valor

Frecuencia

Valor x Frecuencia

25

18

450

31

8

248

42

6

252

59

4

236

94

3

282

Suma

39

1468


Entonces el promedio esta dado por:
clip_image002[40]
Para obtener la mediana.
Ya que se tienen 39 datos, el que se encuentra en el medio debe ser el dato 20, ya que tiene 19 datos menores o iguales que él y 19 mayores o iguales que el. De acuerdo con la tabla los primeros 18 datos son 25, así que el que se encuentra en el lugar 20 es 31.
Entonces la mediana es igual a 31.
La moda es fácil de determinar, viendo la tabla donde el dato con mayor frecuencia es 25.
Y por último, el rango medio es el promedio entre el dato menor 25 y el mayor 94:
clip_image002[42]

Estimación de medidas de tendencia central a partir de la tabla de frecuencias agrupadas.

Hasta el momento se han calculado las medidas, en caso de que los datos no sean agrupados. Sin embargo tambien es posible aproximar estos valores a partir de la tabla de frecuencias agrupadas. Esto es útil cuando son muchos datos muy diferentes, como en la siguiente tabla con datos generados aleatoriamente con ayuda de Excel y la formula =ALEATORI.ENTRE(0.50).


0

6

4

42

37

10

46

1

39

14

24

0

15

15

12

23

48

18

9

26

17

42

31

0

25

14

41

0

4

40

46

39

1

6

0

8

34

23

23

31

14

43

29

28

1

24

36

42

22

32

11

25

50

15

3

34

46

18

6

16

24

40

35

38

48

4

39

31

0

41

40

14

26

29

3

16

14

48

1

36

Primero, se elabora la tabla de datos agrupados. Los valores usados se calculan también con ayuda de Excel, de tal manera que los valores necesarios quedan como se muestra en (1).
La tabla de frecuencias de datos agrupados queda de la siguiente forma como se muestra en (2).
(1)


N

Máximo

Mínimo

Rango

Número de clases

Amplitud de clase

80

50

0

50

7

7
(2)


Clase

Limites de clase

Marca de clase

Frecuencia

No.

Li

Ls

mi

fi

1

0

7

3.5

18

2

8

15

11.5

12

3

16

23

19.5

10

4

24

31

27.5

13

5

32

39

35.5

11

6

40

47

43.5

12

7

48

55

51.5

4


Para determinar la media se puede considerar la marca de clase y la frecuencia de clase. Con este paso, se asume que la marca de clase sustituye las apariciones de toso los elementos de la clase. De esta manera se construye la tabla con los productos de la marca de clase multiplicada por la frecuencia absoluta de la clase:


Clase

Límites de clase

Marca de clase

Frecuencia

Marca x frecuencia

No.

Li

Ls

mi

fi

mi x fi

1

0

7

3.5

18

63

2

8

15

11.5

12

138

3

16

23

19.5

10

195

4

24

31

27.5

13

357.5

5

32

39

35.5

11

390.5

6

40

47

43.5

12

522

7

48

55

51.5

4

206

La aproximación de la media puede obtenerse como:
clip_image002[44]
Este valor se aproxima al promedio de todos los datos que se tienen, y la media exacta es 22.9875, la cual está bastante cerca del resultado de la media. También es necesario considerar que a mas datos es posible que el resultado mejore aun mas.
Para obtener la mediana se agrega la columna con frecuencia acumulada y se hace la operación del número de datos entre dos. En este caso, como son 80 datos, la mediana debe estar entre las posiciones 40 y 41, por lo que debe buscarse esas posiciones y promediar las marcas de clase correspondientes:


Clase

Límites de clase

Marca de clase

Frecuencia

Marca x frecuencia

Frecuencia acumulada

No.

Li

Ls

mi

fi

mi x fi

fai

1

0

7

3.5

18

63

18

2

8

15

11.5

12

138

30

3

16

23

19.5

10

195

40

4

24

31

27.5

13

357.5

53

5

32

39

35.5

11

390.5

64

6

40

47

43.5

12

522

76

7

48

55

51.5

4

206

80

La posición 40 está en la clase 3 y la 41 en la 4, por lo que se promedian las clases.


Entonces, la mediana es

clip_image002[52].

Con ayuda de Excel también es posible hallar la

media exacta, la cual para este caso coincide con la estimación que se hizo.
De la misma manera, la moda se obtiene con la marca de clase de la que tiene la mayor frecuencia, es decir 3.5.  Para  los  datos  completos,  la  moda  es: 0.  Para el rango medio se


toman en cuenta las marcas de clase máxima y mínima:

clip_image002[54] 

.

El resultado es más grande que el rango mínimo exacto porque la última clase sobrepasa al dato mayor. Las aproximaciones que se obtienen a partir de las tablas de datos agrupados son de mucha utilidad cuando se tiene una gran cantidad de datos.
Las medidas de tendencia central dan información de los valores que pueden pensarse puntos medios en diferentes sentidos, por tanto es importante saber si estos coinciden, o su cercanía o variación. A este análisis se le conoce como sesgo y relaciona la media, la mediana y la moda.

Sesgo.

El sesgo describe la distribución de los datos, al indicar hacia donde tienden a concentrarse. La construcción de la gráfica facilita esta apreciación al mostrar los resultados de manera visual. De esta manera, una distribución puede ver:
  • Simétrica.  Si la mayor concentración de datos se localiza en el centro de la distribución.
  • Sesgada a la derecha. Si la mayor concentración de datos está a la izquierda de la distribución.
  • Sesgada a la izquierda. Si la mayoría de los datos están concentrados a la derecha.
El comportamiento de las medidas de tendencia central, es a grandes rasgos como se muestra en la figura:
image

Medidas de dispersión.

Las medidas de dispersión son las herramientas que sirven para analizar la variación que presentan los datos. La primera de estas medidas es el rango. Al recordar, es la diferencia entre el dato mayor y el dato menor. Sin embargo, este resultado puede no representar el comportamiento real si existe uno o varios datos que varían mucho del resto. Estos son llamados datos aberrantes o atípicos.
La desviación estándar suele ser la más utilizada de las medidas de dispersión. Esta medida de dispersión permite observar que tan centrados están los datos, con ello se puede saber si la media es una buena representación de los datos. Si la desviación estándar es pequeña, la mayoría de los datos están cerca del promedio; si es grande, entonces están mas repartidos o dispersos. esto queda establecido en el Teorema de Chebyshev, el cual explica la desviación de las observaciones  respecto a la media.

Varianza.

Esta medida es un promedio del cuadrado de las distancias de todos los datos a la media, es decir, si se tienen los datos x1 , x2 , … xn , la varianza es:
clip_image002[1]

Desviación estándar.

Se define como la raíz cuadrada de la varianza:
clip_image002[3]En una hoja de Excel es posible calcular la varianza y la desviación estándar haciendo uso de las funciones =VAR.P( ) y =DESVEST.P( ) respectivamente.
Veamos un ejemplo:
De acuerdo con los datos del INEGI en 2015, la esperanza de vida al nacer en años de edad de cada estado de la República Mexicana es:


Entidad federativa

Edad

Entidad federativa

Edad

Entidad federativa

Edad

Aguascalientes

75.9

Guerrero

72.9

Quintana Roo

75.6

Baja California

74

Hidalgo

74.4

San Luis Potosí

74.7

Baja California Sur

76

Jalisco

75.5

Sinaloa

75.5

Campeche

75.2

México

75.2

Sonora

75.3

Coahuila

75.7

Michoacán

74.7

Tabasco

74.8

Colima

75.9

Morelos

75.7

Tamaulipas

75.8

Chiapas

75.8

Nayarit

75.1

Tlaxcala

75.2

Chihuahua

72.9

Nuevo león

76.4

Veracruz

74.1

Distrito Federal

76.1

Oaxaca

73

Yucatán

75.5

Durango

75.6

Puebla

74.8

Zacatecas

75.3

Guanajuato

75.5

Querétaro

75.4

Promedio Nacional

75

Se calculara la varianza y la desviación estándar para saber que tan lejos están los datos en general de la media.


Entidad federativa

Edad

clip_image002[5] 

Aguascalientes

75.9

0.7821

Baja California

74

1.0315

Baja California Sur

76

0.9690

Campeche

75.2

0.0340

Coahuila

75.7

0.4684

Colima

75.9

0.7821

Chiapas

75.8

4.9090

Chihuahua

72.9

4.4759

Distrito Federal

76.1

1.1759

Durango

75.6

0.3415

Guanajuato

75.5

0.2346

Guerrero

72.9

4.4759

Hidalgo

74.4

0.3790

Jalisco

75.5

0.2346

México

75.2

0.0340

Michoacán

74.7

0.0996

Morelos

75.7

0.0071

Nayarit

75.1

0.0071

Nuevo león

76.4

1.9165

Oaxaca

73

4.0627

Puebla

74.8

0.0465

Querétaro

75.4

0.1477

Quintana Roo

75.6

0.3415

San Luis Potosí

74.7

0.0996

Sinaloa

75.5

0.2346

Sonora

75.3

0.0809

Tabasco

74.8

0.0465

Tamaulipas

75.8

0.6152

Tlaxcala

75.2

0.0340

Veracruz

74.1

0.8384

Yucatán

75.5

0.2346

Zacatecas

75.3

0.0809



Suma

29.6822


De   esta  manera,  la  varianza  de  los datos es

clip_image002[7],

y   la   desviación

estándar

clip_image004 .

Esto dice que los datos están cerca de la media, pero también

Que hay variaciones considerables en algunos de los estados.

Regresión y correlación lineal.

Seguramente has notado que las personas altas suelen pesar mas que las personas bajas, y este comportamiento suele mantenerse en general. Es posible hacer un estudio estadístico para determinar si estos datos ser relacionan en mayor o menor medida. Para esto, los datos se plasman en una gráfica de dispersión para luego buscar una correlación lineal entre las dos colecciones a partir de una recta que esté cerca de todos los datos, lo mejor posible. Este método se llama de mínimos cuadrados y para medir que tan buena es la aproximación se aplica el coeficiente de correlación de Pearson, lo cual se explicará a continuación.
Gráfica de dispersión.
Cuando se tienen dos colecciones de datos se establece una relación entre ellos. A cada valor de una de las colecciones le corresponde uno o varios valores de la otra. La representación de esos valores relacionados como coordenadas en el plano es llamada gráfica de dispersión.
Ejemplo. Se construirá la gráfica de dispersión con la siguiente información.
Se tomaron las altura de 9 hombres y de sus hijos, sus resultados son los siguientes.


Padre (m)

1.70

1.77

1.68

1.75

1.80

1.75

1.69

1.72

1.73

Hijo (m)

1.74

1.78

1.77

1.78

1.77

1.71

1.76

1.73

1.74

Al representar los datos en la gráfica de dispersión, uno de los valores será el eje X. Por ejemplo, se podrá poner la altura de los padres como coordenadas X y la altura del hijo como la coordenada Y. La gráfica queda de la siguiente manera:
image
Para generar el gráfico anterior en Excel, basta con seleccionar los datos de la tabla como se presento e insertar el gráfico de tipo dispersión.
Cuando se estudia la relación entre dos variables, una puede considerarse causa y la otra resultado o efecto de la primera. El supuesto de la existencia de una relación de causalidad es sólo una decisión teórica. Dependiendo de las gráficas que se obtienen, pueden verse diferentes fenómenos de relación entre las variables:
  1. Relación lineal positiva o directa. Cuando se aumenta los valores de una de las variables, la otra también aumenta.
  2. Relación lineal negativa o inversa. Cuando una de las variables aumenta y la otra disminuye.
  3. No hay relación entre las variables. Cuando las variables son independientes, tales como el salario que obtiene una persona y su estatura (debe verse que la relación no puede establecerse de manera clara).
  4. Hay relación pero no es lineal. Esto puede ocurrir, por ejemplo, si se tienen datos que se elevan hasta cierto punto para después bajar, y las variables se relacionan en cada uno de esos intervalos. Estos tipos de relaciones no serán estudiados en este curso, ya que requieren de una explicación teórica más profunda.
Para analizar la relación lineal de las variables y resumir el gráfico de dispersión es necesario hacer uso de la covarianza.

covarianza.

Es una medida de la asociación lineal entre dos variables. Dependiendo de su valor, indica la tendencia de la relación de las variables. Se denota σxy y se determina mediante la formula:
clip_image002[9]
Se puede observar los comportamientos:
  • Si la covarianza es positiva, entonces se tiene una relación lineal positiva.
  • Si la covarianza es negativa, entonces se tiene una relación lineal negativa.
  • Si la covarianza es cero, entonces no existe relación lineal entre las variables.
image
Con la lista de los datos es posible calcular la covarianza en Excel por medio de la función es igual a =COVARIANCE.P( ). Siguiendo con ejemplo, ya sea con la resolución de las operaciones o con ayuda de la función en Excel, el gráfico de dispersión es σxy  =0.00078. Al ser positiva se obtiene lo que se veía en la gráfica, una relación lineal positiva.
Entonces la covarianza indica el tipo de correlación  lineal, pero no da información sobre que tan fuerte es la relación. Para ello se hace uso del coeficiente de correlación.

Coeficiente de correlación.

Es usado para medir la fuerza de la relación lineal entre dos variables. Se denota por r, y también se conoce como coeficiente de correlación de Pearson. Y la manera de calcularlo es:
clip_image002[11]
Donde σxy es la covarianza en tanto que σx1, σy  son las varían<a de los dos diferentes tipos de datos. El valor del coeficiente de correlación oscila entre –1 y +1. Según su valor se puede afirmar:
  • Si r=0 no hay correlación lineal entre las variables (puede ser de otro tipo).
  • Si r=1 existe correlación lineal positiva perfecta.
  • Si 0 <r <1 existe correlación positiva, y mientras mas cerca este de 1 es mas fuerte, asi como si esta mas cerca de 0 es más débil.
  • Si r=-1 existe correlación lineal negativa perfecta.
  • Si –1 <r <0 existe correlación lineal negativa y es más fuerte en la medida en que el calor se acerca a 1.
La figura siguiente muestra de forma general el posible comportamiento de la gráfica de dispersión según su coeficiente de correlación:
image
Hasta ahora, en Excel existe una función que permite calcular este coeficiente y solo necesita de la lista de los datos de cada variable por separado. Esta función es =COEF.DE.CORREL(datos x, datos y). Para el ejemplo de las alturas de padres e hijos puede calcularse la desviación estándar de las dos variables, teniendo:
clip_image002[13]Con lo cual existe una correlación lineal positiva y fuerte. Si se quiere estudiar la dependencia entre las variables x y y, de manera que la variable se ve como dependiente de la variable x. Para realizar ese estudio es posible estimar o pronosticar la relación de causalidad, siendo necesario un valor de determine si la variables x es buena para explicar estadísticamente la variable y. Así, esta medida es conocida como coeficiente de determinación.

Coeficiente de determinación.

Se representa por r2 , y de hecho es el cuadrado del coeficiente de correlación. Sus valores van de 0 a 1; mientras que la variable x esté más próxima a 1, es mejor para explicar a y. Por otro lado, si el coeficiente de determinación es cercano a 0, entonces el valor de x no afecta de manera importante el comportamiento de la variable y. Es posible determinar este coeficiente directamente en Excel elevando al cuadrado el coeficiente de correlación.
En el caso del ejemplo de la estatura de padres e hijos, el coeficiente de determinación es r2=0.8195. De esta manera, se puede decir que existe un relación significativa que hace que la altura del padre sea factor determinante de la estatura de los hijos. Este resultado dice que, en efecto, la gráfica de dispersión se comporta muy parecido a una recta de manera muy fuerte: ¿como se traza esta recta? En el caso de apoyarse totalmente en Excel o similares, existe una forma de ajustar automáticamente la recta que mejor se aproxima a los datos: una vez creada la gráfica de dispersión y teniéndolo seleccionado en la pestaña de “Diseño”, se toma la opción “Agregar elemento gráfico” y luego selecciones “Línea de tendencia” y eliges la opción deseada. El ajuste lineal al ejemplo de las alturas resulta.
image
Esto es claro con toda la ayuda de Excel. Sin embargo, es posible aproximar la recta que ajusta mejor a los datos. Este proceso es conocido como regresión lineal. En general, la teoría de regresión universal permite hacer predicciones basándose en la dependencia de datos pasados de las variables y es de gran importancia en la estadística.

Regresión  lineal de covarianza.

La regresión lineal permite definir la recta que mejor se ajusta a la nube de puntos. La ecuación que define cualquier recta es y = ax + b; por lo tanto, es necesario determinar los valores de a y b para que la recta quede completamente definida, los valores que se deben tomar son:
  • a es la pendiente de la recta. La manera de calcularlo es dividiendo la covarianza de las dos variables entre la desviación estándar de X al cuadrado, es decir:
clip_image002[17]
  • b es llamada la ordenada al origen, es decir, el valor que toma la recta cuando X=0. Se calcula como la media de la variable y menos la media de la variable X multiplicada por a.
clip_image002[19]
Regresando al ejemplo que se tenia sobre estaturas, la pendiente de la recta y la ordenada al origen están dadas por:
clip_image002[21]
Entonces, la ecuación de la recta que se ajusta a los datos es y=0.6094+0.6958, quedando la gráfica:
image
En la aplicación del programa Excel la regresión lineal es la misma que la que se calculó arriba. Su uso, como te puedes dar cuenta facilita mucho el análisis estadístico. Ahora bien, el siguiente método para usar un conjunto de datos es de los más empleados en varias áreas de la matemática. Este el es método de mínimos cuadrados.

Métodos de mínimos cuadrados.

Este método es usado por Excel para ajustar los datos. El método lo que hace es considerar que y=f(x). En otras palabras, existe una relación de causalidad entre las variables, donde la función de la recta es la que mejor ajusta los datos. El siguiente paso consiste en establecer que para cada Xi. se determina el error (e) entre la aproximación f(xi) y el valor de la variable yi esto es:
 clip_image002[23]
Entonces, lo que se busca es minimizar el valor de la suma del cuadrado de todos los errores (ei):
clip_image002[25]
De ahí, se deriva su nombre, mínimos cuadrados. En general, si los valores del coeficiente de determinación son cercanos a 1, ambos métodos arrojaran resultados similares.
La importancia de tener la regresión lineal es para poder estimar los valores de una de las variables, sabiendo que hay cierta relación entre ellas. Una vez más recurriendo al ejemplo de estaturas, si se quisiera estimar la estatura de un hombre sabiendo que su padre mide 1.60m, se puede evaluar en la recta por lo tanto: y=0.6094(1.69)+0.6958=1.67084. Esta puede ser una buena estimación a un valor experimental. Las aplicaciones de este proceso son muy variadas. Por ejemplo, en economía y finanzas se buscan relaciones entre el índice de precios y las cotizaciones en la bolsa o el precio del petróleo y el oro, etc., con el fin de predecir cual podría ser el valor en un futuro. Sin embargo, los procesos en esta área en general suelen ser mas complejos porque intervienen muchos factores, por lo que una relación lineal rara vez ocurre y es necesario establecer relaciones de otro tipo. Pero se trata de procedimientos similares con la misma idea de la regresión lineal detrás de ellos.

¿Qué es la administración?

  Hablar de administración abarca desde antes de nuestra era, filósofos como Sócrates, Platón y Aristóteles la han incluido en sus disc...