Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 63

Anlisis de Regresin y Correlacin

Regresin y correlacin lineal_______________________________________________________________________________________________


Regresin Lineal Simple Y Correlacin
El objetivo de este manual es analizar el grado de la relacin existente entre variables
utilizando modelos matemticos y representaciones grficas. As pues, para representar la
relacin entre dos o ms variables desarrollaremos una ecuacin que permitir estimar una
variable en funcin de la otra.

Por ejemplo, en qu medida, un aumento de los gastos en publicidad hace aumentar las
ventas de un determinado producto?, Cmo representamos que la bajada de temperaturas
implica un aumento del consumo de la calefaccin?,...

A continuacin, estudiaremos dicho grado de relacin entre dos variables en lo que


llamaremos anlisis de correlacin. Para representar esta relacin utilizaremos una
representacin grfica llamada diagrama de dispersin y, finalmente, estudiaremos un
modelo matemtico para estimar el valor de una variable basndonos en el valor de otra, en
lo que llamaremos anlisis de regresin.

Objetivos

Aprender a calcular la correlacin entre dos variables


Saber dibujar un diagrama de dispersin
Representar la recta que define la relacin lineal entre dos variables
Saber estimar la recta de regresin por el mtodo de mnimos cuadrados e
interpretar su ajuste.
Realizar inferencia sobre los parmetros de la recta de regresin
Construir e interpretar intervalos de confianza e intervalos de prediccin para la
variable dependiente
Realizar una prueba de hiptesis para determinar si el coeficiente de correlacin es
distinto de cero.

139

Regresin y correlacin lineal_______________________________________________________________________________________________

DEFINICIN: Consideremos una variable dependiente Y con una sola variable independiente
X. Representemos una muestra aleatoria de tamao n de (X, Y) por el conjunto de
observaciones formadas por pares de variables: {(Xi, Yi) / i = 1,2,,n}
A travs de esta muestra, se desea estudiar la relacin existente entre las dos variables X e Y.
Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un
modelo de Regresin Simple.
Y es una funcin de X

Y = f(X)

Como Y depende de X,
Y: Es la variable dependiente, y
X: Es la variable independiente.
En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y
cul es la variable independiente.
La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama
REGRESANDO VARIABLE DE RESPUESTA.
La variable Independiente X se le denomina VARIABLE EXPLICATIVA REGRESORA y se le
utiliza para EXPLICAR a Y.

140

Regresin y correlacin lineal_______________________________________________________________________________________________


Variable dependiente
Variable explicada

Variable independiente
variable explicativa

Predicha

Predictora

Regresada

Regresora

Respuesta

Estmulo

Endgena

Exgena

Resultado

Covariante

Variable controlada

Variable control

Regresin lineal: Consideraciones sobre los datos

Datos. Las variables dependientes e independientes deben ser cuantitativas. Las variables
categricas, como la religin, estudios principales o el lugar de residencia, han de
decodificarse como variables binarias (dummy) o como otros tipos de variables de contraste.
Los supuestos para el modelo de regresin lineal simple son:
a) Igualdad de varianzas (homoscedasticidad).
Para cada valor xi de la variable independiente X, la distribucin de la variable aleatoria
dependiente Yi tiene media , y varianza 2 . Se supone que cada una de estas

varianzas son iguales a la varianza comn 2 , denominado varianza de la regresin. Es


decir las distribuciones de Yi tienen medias diferentes, pero tienen la misma varianza 2 .
b) Independencia
Se supone que las Yi son variables aleatorias estadsticamente independientes.
c) Linealidad.
Se supone que la relacin de Y con X es lineal, es decir todas las medias deben estar

en una lnea recta denominada lnea de regresin poblacional, cuya ecuacin es:
(Y/Xi) = = +

Funcin de regresin Poblacional.

En la ecuacin de regresin Poblacional los coeficientes de regresin son


parmetros que se estiman a partir de los datos de la muestra.
Interpretacin de los parmetros de un modelo de regresin lineal.
El valor de es la ordenada en el origen e indica el valor de Y cuando X = 0.
El valor de es la pendiente de la ecuacin de regresin poblacional e indica el cambio
promedio en Y correspondiente a un incremento unitario en X. El signo de , indica el
tipo de tendencia (positivo o negativo) de Y con respecto a X.

141

Regresin y correlacin lineal_______________________________________________________________________________________________


d) Normalidad.
Se supone que cada variable aleatoria dependiente Yi tiene distribucin normal con
media y varianza 2 . En consecuencia la distribucin de cada variable es normal

con media 0 y varianza 2 .

1. Diagrama de dispersin: grfica que describe la relacin entre las dos variables de
inters.
Variable dependiente: la variable que se pronostica o estima.
Variable independiente: la variable que proporciona la base para la estimacin. Es la
variable predictora.
2. Modelo de regresin lineal simple
Propsito: determinar la ecuacin de regresin; se usa para predecir el valor de la
variable dependiente (Y) basado en la variable independiente (X). El modelo es:
= 0 + 1 +
3. Estimacin de los parmetros del modelo de regresin
Procedimiento: seleccionar una muestra de la poblacin y enumerar los datos por pares
para cada observacin; dibujar un diagrama de dispersin para visualizar la relacin;
determinar los estimadores de los parmetros 0 , y 1 del modelo de regresin. La
ecuacin de regresin estimada es:
= 0 + 1
Donde:

142

Regresin y correlacin lineal_______________________________________________________________________________________________


Y

Es el valor promedio pronosticado de Y para cualquier valor de X.

0 : Es el estimador de 0 , es la intercepcin en Y, o el valor estimado de Y cuando X = 0


1 :

Es el estimador de 1 , es la pendiente de la recta, o cambio promedio en Y por


cada cambio de una unidad en X

Y
DE LA ECUACIN DE REGRESIN POBLACIONAL, A
ESTIMACIN DE LOS PARMETROS

TRAVS DEL MTODO DE MNIMOS CUADRADOS ORDINARIOS:

b1

x y

xy
x

( x )

Suma de productos XY
SP. XY

SC. X
suma de cuadrados de X

b0

y b x
n

4. Pruebas de significacin del modelo


Anlisis de varianza. Prueba global de significacin del modelo (Prueba F)
Descomposicin de la suma de cuadrados del total
El anlisis de varianza es un mtodo que utiliza la estadstica F para probar la significacin de la
ecuacin de regresin muestral o la existencia de regresin en la poblacin.
Es una prueba F de alternativa bilateral. La hiptesis nula y alternativa para esta prueba es
respectivamente:

Hiptesis y nivel de significacin:


H 0 : i 0 ( No existe regresin lineal entre X e Y )
H 1 : i 0 ( Existe regresin lineal entre X e Y )

: Nivel de significac in

( )2 = ( )2 + ( )2
=1

=1

SCT

=1

SCE

SCR

Grficamente.

143

Regresin y correlacin lineal_______________________________________________________________________________________________

CLCULO DE LA SUMAS DE CUADRADOS

SCT y
2

SCR 1 (

( y ) 2
n

x y )
xy

SCR ( x
2
1

( x) 2
n

SCE SCT SCR


CUADRO ANVA o ANOVA

Fuente de
variacin
Debido a la regresin

Suma de
cuadrados
SCR

Grados de
libertad
P-1

Cuadrados
medios
CMR=SCR/1

SCE

n-P

CME=SCE/(n-2)

SCT

n-1

Debido al error
Total

F calculado
(Fc)
CMR/CME

Decisin y conclusin: Re chazarH0 SiFc F( p1,n p )


Error estndar de la estimacin
El error estndar de la estimacin mide la dispersin de los valores observados alrededor
de la recta de regresin. Frmulas usadas para calcular el error estndar:
S y. x

(Y Y )
n2

b0 y b1 xy
n2

S y. x

SCE
CME
n2

144

Regresin y correlacin lineal_______________________________________________________________________________________________


PRECISION DE LOS ERRORES ESTANDAR DE LOS ESTIMADORES DE j
Var (b1 )
Var (b0 )

CME
s b1
SCX
( x 2 )CME
nSCX

CME
SCX

s b1

( x 2 )CME
nSCX

INTERVALO DE CONFIANZA PARA LOS ESTIMADORES DE j

b0 t n 2; sb0 0 b0 t n 2; sb0
b1 t n 2; sb1 1 b1 t n 2; sb1
Prueba individual de significacin de los estimadores de j del modelo (Prueba t-student)
PARA 0
Hiptesis

H 0 : 0 0
H1 : 0 0

Nivel de significac in :
Estadistic a de prueba : t c

b0
t n 2;
sb0

Decisn : Re chazar H 0 si t c t n 2; prueba bilateral

PARA

si t c t n 2;

prueba unilateral izquierda

si t c t n 2;

prueba unilateral derecha

Hiptesis

H 0 : 1 0
H 1 : 1 0

Nivel de significac in :
Estadistic a de prueba : t c

b1
t n2;
sb1

Decisn : Re chazar H 0 si t c t n2; prueba bilateral


si t c t n2;

prueba unilateral izquierda

si t c t n2;

prueba unilateral derecha

145

Regresin y correlacin lineal_______________________________________________________________________________________________


5. Anlisis de correlacin

Anlisis de correlacin: se usa un grupo de tcnicas estadsticas para medir la fuerza de la relacin
(correlacin) entre dos variables.

Coeficiente de correlacin, r: El coeficiente de correlacin (r) es una medida de la


intensidad de la relacin entre dos variables. Requiere datos con escala de intervalo o de
razn (variables). Puede tomar valores entre -1.00 y 1.00. Valores de -1.00 o 1.00 indican
correlacin fuerte y perfecta. Valores cercanos a 0.0 indican correlacin dbil. Valores
negativos indican una relacin inversa y valores positivos indican una relacin directa.
Correlacin negativa perfecta

Correlacin positiva perfecta

Correlacin cero

Correlacin positiva fuerte

Frmula para r

x y
xy n
( x )
( y )
( x
)( y
n
n
2

SCR
SCE
1
SCT
SCT

146

Regresin y correlacin lineal_______________________________________________________________________________________________

Coeficiente de determinacin
El coeficiente de determinacin, r2 es la proporcin de la variacin total en la variable
dependiente Y que est explicada por o se debe a la variacin en la variable
independiente X.
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin, y toma
valores de 0 a 1.
Ms sobre el coeficiente de determinacin

Prueba individual de significacin del coeficiente de correlacin (Prueba t-student)


Hiptesis H 0 : 0
H1 : 0
Nivel de significac in :
Estadistic a de prueba : t c

r n2

t n 2;
1 r2
Decisn : Re chazar H 0 si t c t n 2; prueba bilateral
si t c t n 2;

prueba unilateral izquierda

si t c t n 2;

prueba unilateral derecha

6. Prediccin.

El intervalo de confianza (de prediccin) de 100(1-)% para la media de Y dado un valor


de X est definido por:

y t

n 2;1

1 ( X X )2
1 ( X X )2
CME (
Y y t
CME
(

n 2;1
n
SCX
n
SCX
2

El intervalo de prediccin (de prediccin) de 100(1-)% para un valor individual de Y dado


un valor de X se define por:

147

Regresin y correlacin lineal_______________________________________________________________________________________________

y t

n 2;1

1 ( X X )2
1 ( X X )2
CME (1
Y y t

CME (1
n 2;1
n
SCX
n
SCX
2

Variables cualitativas y regresiones escalonadas. Las variables cualitativas son no


numricas y tambin se llaman variables ficticias. Para una variable cualitativa, slo
existen dos condiciones posibles. La regresin escalonada conduce a la ecuacin de
regresin ms eficiente. Slo las variables independientes con coeficientes de regresin
significativos entran en el anlisis, las variables se introducen en el orden en que hacen
que R2 aumente ms rpido
Anlisis de residuos. Un residuo (o residual) es la diferencia entre el valor real de Y y el
valor pronosticado Y (Y estimado). Los residuos deben tener una distribucin normal
aproximada. Los histogramas y los diagramas de tallo y hoja sirven para verificar estos
requisitos. Una grfica de residuos y los valores de Y correspondientes se usan para
mostrar que no hay tendencias ni patrones en los residuos.

Ejemplo: El representante de alumnos de la Universidad, est preocupado por el costo de los


libros. Para tener un panorama del problema elige una muestra de 8 libros de venta en la librera.
Decide estudiar la relacin entre el nmero de pginas del libro y el costo.

Libro N de pginas Costo ($)


1
500
28
2
700
25
3
800
33
4
600
24
5
400
23
6
500
27
7
600
21
8
800
31
i) Desarrollar una ecuacin de regresin para la informacin dada en el EJEMPLO de
coeficiente de regresin que puede usarse para estimar el precio de venta basado en
el nmero de pginas. Por el mtodo de mnimos cuadrados:
148

Regresin y correlacin lineal_______________________________________________________________________________________________


b = .01714
a = 16.00175
Y = 16.00175 + .01714X
ii) Realice la prueba de significacin global e individual del modelo estimado.
iii) r =0.614 (verifique)
iv) Pruebe la hiptesis de que no existe correlacin en la poblacin. Use .02 de nivel de
significancia.
H0: La correlacin en la poblacin es cero.
H1: La correlacin en la poblacin es distinta de cero.
El estadstico de prueba es calculado por

,con (n - 2) grados de libertad

t = 1.9055,
Se rechaza H0 si t > 3.143 o si t< -3.143, gl = 6, =0.02. No se rechaza H0
v) Use la informacin del primer ejemplo: calcule el error estndar de la estimacin:

a) desarrolle un intervalo de confianza de 95% para los libros de 650 pginas: [24.03,
30.25]. Verifique
b) desarrolle un intervalo de prediccin de 95% para un libro de 650 pginas: [18.09,
36.19] Verifique

149

Regresin y correlacin lineal_______________________________________________________________________________________________

EJERCICIOS RESUELTOS (Regresin Lineal, Correlacin, ANVA)


Ejemplo.
Tabla 01: Datos hipotticos sobre el gasto de consumo familiar semanal (Y) y el ingreso
familiar semanal (X)
Obs. 1 2
3
4
5
6
7
8
9 10
Y ($) 70 65 90 95 110 115 120 140 155 150
X ($) 80 100 120 140 160 180 200 220 240 260
Solucin.
180
y = 0.5091x + 24.455
R = 0.9621

160
140
120
100
80
60
40
20
0
0

50

100

150

200

250

300

Resumen
Estadsticas de la regresin
Coeficiente de correlacin
mltiple
Coeficiente de determinacin
R^2
R^2 ajustado
Error tpico
Observaciones
ANLISIS DE VARIANZA
Fuente de
Grados de
Suma de

0.98084737
0.96206156
0.95731926
6.49300323
10
Cuadrados

Valor crtico de
150

Regresin y correlacin lineal_______________________________________________________________________________________________


variacin

libertad

Regresin

Residuos

Total

cuadrados
8552.7272
7
337.27272
7
8890

Medios
8552.72727

F
202.86792
5

5.7527E-07

42.1590909

Modelo de regresin lineal


Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin 24.4545455 6.4138173 3.81279109 0.00514217
Variable X 1 0.50909091 0.03574281 14.2431712 5.7527E-07
Anlisis de los residuales
Observacin Pronstico para Y
1
65.1818182
2
75.3636364
3
85.5454545
4
95.7272727
5
105.909091
6
116.090909
7
126.272727
8
136.454545
9
146.636364
10
156.818182

Residuos
4.81818182
-10.3636364
4.45454545
-0.72727273
4.09090909
-1.09090909
-6.27272727
3.54545455
8.36363636
-6.81818182

1. Se efectu un experimento para evaluar el efecto el zinc en el peso de las cacatas.


En el experimento, a 7 grupos de cacatas adultas se les dio diferentes dosis de zinc y
sus prdidas de peso tras la primera semana fueron registradas. Los datos de los
pesos medios por grupo al final de la semana estn expresados como porcentajes
sobre los pesos iniciales.
X(Ingesta
de zinc)

Y(Peso
medio %)

X2

Y2

XY

100

10000

92

8464

184

95

16

9025

380

90

64

8100

720

12

98

144

9604

1176

16

85

256

7225

1360

151

Regresin y correlacin lineal_______________________________________________________________________________________________


7

30

67

900

4489

2010

SUMA

72

627

1384

56907

5830

REGRESIN LINEAL:

XY
X

X Y

n
X 2

1 -0.96225577

72 627
7

72
1384
7
5830

Y X 627 0.96225577 72

0 99.4689165
n

Ecuacin
Y 0 1 X Y 99.4689165 - 0.96225577 X
Comportamiento:

CORRELACIN:

X2

X Y

72 627
n
7

2
2
2

72 56907 627 2
Y 2 Y
1384

7
7
n
n

XY
X

5830

-0.89382905

Coeficiente de determinacin:

2 - 0.893829052 2 0.79893037

152

Regresin y correlacin lineal_______________________________________________________________________________________________


Nota

El 80% de Y depende de X

ANLISIS DE VARIANZA:

Y
Y
n

SCTOTAL

SC REGRESIN

627 2
56907
745.714286
7

X 2

72 2
2

-619.142857
1 X
-0.962255771384

n
7

SC ERROR SCTOTAL SC REGRESION 745.714286 - 619.142857 126.571429


Hiptesis
H0 : No existe regresin lineal entre x e y
Ha : Si existe regresin lineal entre x e y
Cuadro ANVA:
F.V.

S.C.

G.L.

C.M.

Regresin

619.14

619.14

Error

126.57
745.714
2

25.31

TOTAL

F.C.
24.4582

Sig.
**

124.28

Ft = F(1,619) 0.05 = 3.84


Decisin:
Como Fc > Ft entonces se rechaza H0.
Conclusin:
Existe suficiente evidencia estadstica de que existe regresin lineal entre x e y.
2. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una especie
de lagarto. Los lagartos fueron colocados en un recinto cerrado de modo que la
temperatura dentro del recinto pudo ser controlada. Los resultados obtenidos son los
siguientes:
X(TemperaturaY(Latidos/minuto)
X2
Y2
XY
C)
1

22

20.8

484

432.64

457.6

22

22.3

484

497.29

490.6

153

Regresin y correlacin lineal_______________________________________________________________________________________________


3

24

24.1

576

580.81

578.4

24

25.6

576

655.36

614.4

26

25.7

676

660.49

668.2

26

27.2

676

739.84

707.2

28

27.3

784

745.29

764.4

28

28.8

784

829.44

806.4

30

29.4

900

864.36

882

10

30

31.9

900

1017.61

957

11

32

32.4

1024

1049.76 1036.8

12

32

33.8

1024

1142.44 1081.6

13

34

32.8

1156

1075.84 1115.2

14

34

34.1

1156

1162.81 1159.4

15

36

32.4

1296

1049.76 1166.4

16

36

37.9

1296

1436.41 1364.4

17

38

38

1444

1444

1444

18

38

36.5

1444

1332.25

1387

19

40

39

1600

1521

1560

20

40

41

1600

1681

1640

SUMA

620

621

19880

19918.4

19881

REGRESIN LINEAL:

XY
X

X Y

n
X 2

1 0.95454545

620 621
20

6202
19880
20
19881

154

Regresin y correlacin lineal_______________________________________________________________________________________________


0

Y X 621 0.95454545 620

0 1.45909091
Ecuacin
n

20

20

Y 0 1 X Y 1.45909091 0.95454545 X
Comportamiento:

CORRELACIN:

X2

X Y

620 621
n
20

2
2
2
2

620
621

2
Y

19880
19918.4

20
20
n
n

XY
X

19881

0.97212152

Coeficiente de determinacin:

Nota

2 0.972121522 2 0.94502025
:

El 95% de Y depende de X

ANLISIS DE VARIANZA:

Y
Y
n

6212
19918.4
636.35
SCTOTAL
20

X 2

620 2
2

630
0.9545454519880
SC REGRESIN 1 X

n
20

SC ERROR SCTOTAL SC REGRESION 636.35 - 630 6.35


2

Hiptesis

155

Regresin y correlacin lineal_______________________________________________________________________________________________


H0 : No existe regresin lineal entre x e y
Ha : Si existe regresin lineal entre x e y
Cuadro ANVA:
F.V.
S.C.
G.L.
C.M.
Regresin
1
630
630
Error
18
6.35
0.3528
TOTAL
19
636.35
Ft = F(1,630) 0.05 = 3.84
Decisin:
Como Fc > Ft entonces se rechaza H0.
Conclusin:

F.C.
1785.8268

Sig.
**

Existe suficiente evidencia estadstica de que existe regresin lineal entre x e y.

REGRESION LINEAL MULTIPLE


En los trabajos de Investigacin es necesario emplear tcnicas estadsticas que permitan
interpretar los resultados y de estas forma poder llegar a conclusiones valederas que
permitan al investigador aceptar o rechazar Hiptesis planteadas inicialmente e inclusive
formular nuevas hiptesis, una de esas tcnicas de gran utilidad es el anlisis de regresin
que permite estudiar la asociacin entre dos o ms variables.

REGRESIN: Consiste en determinar una relacin funcional entre las variables con el fin de
que se pueda predecir el valor de una variable (dependiente) en base a otra(s) variables
(independientes).

CORRELACIN: Consiste en determinar la variacin conjunta de las variables, su grado de


relacin y su sentido (positivo o negativo).

Los modelos para un anlisis de regresin mltiple son similares a los de regresin lineal
simple, excepto que contienen ms trminos y pueden servir para proponer relaciones ms
complejas que una lnea recta en lugar de usar un modelo de lnea recta E(y) =0 + 1 X ,
para modelar el componente determinstico podramos emplear el modelo cuadrtico E(y)
=0 + 1X + 2X2 , Tambin conocido como modelo de segundo orden se representa

156

Regresin y correlacin lineal_______________________________________________________________________________________________


grficamente como una parbola en contraste con los modelos de lnea recta o modelos de
primer orden.
Si por aadidura pensamos incluir en el modelo otra variable una grfica de E(y) como
funcin de X1, X2 describe una superficie de respuesta en el plano (X1,X2) y el modelo de
primer orden es: E(y) =0 + 1 X1 + 1X2 (describe una superficie plana) sin embargo en la
mayor parte de las aplicaciones de la vida real esperaramos una curvatura en la superficie de
respuesta

utilizaramos

un

modelo

de

tercer

orden:

E(y) 0 1 X1 2 X 2 3 X1 X 2 4 X12 5 X 23 para modelar la relacin.

Estos modelos e denominan modelos lineales generales porque E(y) es funcin lineal de
los PARMETROS desconocidos 0, 1, 2...
X

El modelo E ( y ) 0 1 no es un modelo lineal porque E(y) no es funcin lineal de los


parmetros 0 + 1
Podemos incluir variables cuantitativas y cualitativas en el modelo, stas variables son
denominadas ficticias, dicotomas o de ndice.
Ejemplo:
Si E(y): Tiempo medio para ejecutar un trabajo
X : Da de la semana en que se ejecuta en trabajo
X1= 1 Si la observacin se hace en domingo
0 Si no es as.
X2= 1 Si la observacin se hace en lunes
0 Si no es as.
X3= 1 Si la observacin se hace en martes
0 Si no es as.
X4= 1 Si la observacin se hace en mircoles
0 Si no es as.
X5= 1 Si la observacin se hace en jueves
0 Si no es as.
X6= 1 Si la observacin se hace en viernes
0 Si no es as.
Podemos escribir el modelo:

E(y) 0

1 X 1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6

Las variables ficticias introducen al parmetro apropiado ( de que puede ser positivo o
negativo) dependiendo del da de la semana. As: En domingo X1= 1, X2 = X3, ...., = X6 = 0 y el
valor medio de Y es:

157

Regresin y correlacin lineal_______________________________________________________________________________________________

En lunes
En martes
En mircoles
En jueves
En viernes

E(y) =0 + 1(1)
E(y) =0 + 1
E(y) =0 + 2
E(y) =0 + 3
E(y) =0 + 4
E(y) =0 + 5
E(y) =0 + 6

En sbado se asigna 0 a todas las variables ficticias y el valor medio de Y es: E(y) =0
Se recomienda seleccionar el modelo de regresin apropiado para una situacin en
particular. Ningn mtodo estadstico puede compensar una mala seleccin del modelo.
Propondremos un anlisis ms profundo al respecto en una prxima sesin. En el presente su
pondremos que se ha seleccionado un modelo razonable para la situacin y nos
concentraremos en el procedimiento de ajuste del modelo a un conjunto de datos y en los
mtodos asociados de inferencia estadstica.
Despus de haber seleccionado una porcin determinstica de un modelo de regresin, esto
es para E(y) agregamos un componente a fin de compensar el error aleatorio, de modo que
se tiene:
Y = E(y) +
Componente
aleatorio
Componente
Deterministico
El componente aleatorio debe obedecer los supuestos del modelo de regresin lineal:

Tenga distribucin normal con media 0 y varianza 2. Esto implica que la media de Y
equivale al componente deterministico

E(y) 0 1 X 1 ... k X k

Para todos los valores de las variables independientes X1, X2, X3,..., Xk la varianza de
es constante.

La distribucin de probabilidad de es normal.

Los errores aleatorios asociados a cualquier par de Y son independientes (en sentido
probabilstico).
DESCRIPCIN DE LOS DATOS Y DEL MODELO:

Los datos consisten de n observaciones sobre una variable independiente o respuesta Y y


de K variables independientes:

158

Regresin y correlacin lineal_______________________________________________________________________________________________


X1, X2, X3, ..., Xk. Si n k y Xij es la ij-sima observacin o nivel de la variable Xj , donde
i=1,2,3,...,n; j=1,2,3,..,k.
Las observaciones usualmente son presentadas de la siguiente manera:
Observaciones

X1

X2

X3

...

Xk

Y1

X11

X12

X13

Y2

X21

X22

X23

Y3

X31

X32

X33

...

X3K

...

...

...

Yn

Xn3

Xnk

Xn1

Xn2

...

X1K

...

X2K

Las relaciones entre la variable Y con las variables X1, X2, X3, ..., Xk, donde cada observacin
(Xi1 Xi2
Xi3 ...
Xik , Y) satisface
el modelo lineal general de regresin
siguiente:

Yi 0 1 X i1 2 X i 2 3 X i3 ... k X ik i
Cada modelo describe un hiperplano en el espacio k-dimensional formado por {Xi }
Donde:
Yi:

Variable dependiente ( respuesta)

X1, X2, X3, ..., Xk: variables independientes. Podran en realidad representar los
cuadrados cubos productos cruzados u otras funciones
(sen, log. Etc.) de las variables de prediccin. Lo esencial
es que se pueden medir sin error cuando se observe un
valor de

Y y

que

no intervengan parmetros

desconocidos.
j:

Parmetros

de

la

regresin

constantes

desconocidas. Expresan el incremento en la variable


respuesta Y que se corresponde a una unidad

de

incremento en Xj cuando otras variables Xi i j se


mantienen constantes.
i:

Vector aleatorio de errores supuestos.

159

Regresin y correlacin lineal_______________________________________________________________________________________________

Los coeficientes j : 0,k son estimados por el mtodo de mnimos cuadrados, as:
El modelo:

Yi 0 1 X i1 2 X i 2 3 X i3 ... k X ik i
Despejando i y elevando al cuadrado ambos miembros:
(i)2= (Yi

( 0 1 X i1 2 X i 2 3 X i3 ... k X ik )) 2

Aplicando el operador de sumatoria en ambos miembros de la igualdad:


n

i 1

i2

(Yi ( 0 1 X i1 2 X i 2 3 X i 3 ... k X ik )) 2
i 1

Derivando parcialmente con respecto a j e igualando a cero buscamos


minimizar la suma de los cuadrados del error aleatorio:
n

i 1

i2

(Yi Yi ) 2 SSE
i 1

Obtenindose un sistema de ecuaciones lineales simultaneas llamadas


ecuaciones normales de mnimos cuadrados del modelo:

SSE
0
0
SSE
0
1
SSE
0
2
.
.
.

SSE
0
k
160

Regresin y correlacin lineal_______________________________________________________________________________________________


Examinemos la primera ecuacin:
Si tomamos la primera derivada parcial de SSE con respecto a 0
obtenemos:

n
SSE
2 (Yi ( 0 1 X i1 2 X i 2 3 X i 3 ... k X ik ))(1)
0
i 1
Introduciendo el operador SUMATORIA e Igualando a cero, queda:

Yi (n 0 1X i1 2 X i 2 3X i3 ... k X ik ) 0
Osea: (despejando e intercambiado miembros):

n 0 1X i1 2 X i 2 3X i3 ... k X ik Yi
Esta es una ecuacin lineal en los parmetros. Las ecuaciones de
mnimos cuadrados restantes todas lineales en los parmetros son:

0 X i1 1X i21 2 X i1 X i 2 ... k X i1 X ik X i1Yi


0 X i 2 1X i 2 X i1 2 X i22 ... k X i 2 X ik X i 2Yi
.
.
.

0 X ik 1X ik X i1 2 X ik X i 2 ... k X ik2 X ik Yi
Luego el sistema es:

n 0 1X i1 2 X i 2 3X i3 ... k X ik Yi

0 X i1 1X i21 2 X i1 X i 2 ... k X i1 X ik X i1Yi

161

Regresin y correlacin lineal_______________________________________________________________________________________________

0 X i 2 1X i 2 X i1 2 X i22 ... k X i 2 X ik X i 2Yi


.
.
.

0 X ik 1X ik X i1 2 X ik X i 2 ... k X ik2 X ik Yi
El sistema tiene p = k +1 ecuaciones e incgnitas
Como puede verse, escribir k+1 ecuaciones lineales de mnimos cuadrados
ya cuesta trabajo, resolverlos simultneamente a mano es todava ms
difcil. Una forma fcil de expresar las ecuaciones y resolverlos es
mediante el lgebra de Matrices

obtener frmulas para las

estimaciones de los coeficientes de regresin lineal de mnimos cuadrados,


SSE, estadsticas de prueba, intervalos de confianza y de prediccin.
ECUACIONES DE MINIMOS CUADRADOS Y SU RESOLUCION:
ENFOQUE MATRICIAL.
Es preciso acomodar los datos en matrices siguiendo un patrn especfico:
Supondremos que el modelo es:

Y = o + 1X1 + 2X2 + 3 X3 ++k Xk +

Donde:
X1 X2 X3 Xk:

Variables de prediccin

error aleatorio
p = k +1: nmero de parmetros del modelo
k: Nmero de variables de prediccin
Supongamos que se tiene una muestra de tamao n
denota as:
Valor
de

Variables explicatorias

Datos

X1

X2

Y1

X11

X12

Y2

X21

X22

X3... Xk
X13...X1K
X23...X2K

( n k ) que se

Error
aleatorio

1
2
162

Regresin y correlacin lineal_______________________________________________________________________________________________

Y3

X31

X32

X33...X3K

. ....

. ....

. ....

Yn

Xn1

Xn2

Xn3 Xnk

En notacin matricial:
En forma desarrollada puede verse as:

nx1 1

Y1
Y
2
Y3

.
.

.
Y
n

nx1

X11

X12

X 21

X 22

X31

X32

.
.
.

.
.
.

X n1

X n2

= X

X13 ... X1p



1
0

X 23 ... X 2p

1

2

X33 ... X3p



3
2

.
. . .. .

.
.
. . .


.
. . .
.

X n3 X np k px1 n nx1
nxp

nxp .

px1

nx1

Matriz de error
Matriz de parmetros coeficientes
De regresin
k: nde variables Xs
p= k +1 n de parmetros
Matriz de datos xs
Matriz de los datos Ys
OBSERVACIONES:
La primera columna de X es una columna de unos, es decir estamos
insertando un valor de X, especficamente X0 como coeficiente de
donde X0 es una variable que siempre toma valores iguales a 1.

163

Regresin y correlacin lineal_______________________________________________________________________________________________

Hay una columna en la matriz X para cada parmetro


Un punto de datos en particular se identifica mediante filas
especficas de las matrices Y y X. Ejemplo: el Valor de Y para el
punto de datos 3, osea y3 est en la tercera fila de la matriz Y y sus
valores correspondientes de X1 X2 X3 Xk aparecen en la tercera
fila de la matriz X.
Con sta notacin el modelo lineal general se pude expresar en la
forma de matriz como: Y = X +
La matriz contiene a los parmetros o, 1, 2, 3,,p de modo
que resolver el sistema nos dar como resultado, las estimaciones
de mnimos cuadrados de cada uno de ellos, denotados por:

( 0 1 2 3 ) '
y
y X , donde y Y

el

modelo

de

estimacin

es

Ahora bien:
ESTIMACIN DE LOS PARMETROS
Utilizamos las matrices de datos Y y X, sus transpuestas y la matriz

( 0 1 2 3 ) ' ,

podemos escribir las ecuaciones de mnimos

cuadrados, as:

El modelo:

Despejando

Elevando al cuadrado en ambos miembros , en notacin matricial es


multiplicar por la izquierda en cada miembro por su transpuesta
correspondiente:

y X

y X

' ( y X )'( y X )

' ( y X )( y'( X )')


' y' y y' ( X ) ( X )' y ( X )' X
y ' ( X ) ( X )' y

' y' y y' ( X ) y' ( X ) ( X )' X


Se obtiene:

164

Regresin y correlacin lineal_______________________________________________________________________________________________

' y' y 2 y' ( X ) ' X ' X

Derivando con respecto a

para minimizar ' que es la suma de

cuadrados del error:

'
2 X ' y 2 X ' X

Igualando a cero:

2 X ' y 2 X ' X 0
Obtenemos:

X ' X X ' y

Para despejar multiplicamos en ambos miembros de la igualdad


por (XX)-1 que es la inversa de la matriz XX:
(XX)-1 XX = (XX)-1Xy
Por tanto:

= (XX)1 XY

PARA EL CLCULO, A PARTIR DE:

165

Regresin y correlacin lineal_______________________________________________________________________________________________

Y1
Y
2
Y3

.
.

.
Y
n

nx1 1

X11

X12

X 21

X 22

X31

X32

.
.
.

.
.
.

X n1

X n2

X13 ... X1p



1
0

X 23 ... X 2p
1
2

X33 ... X3p



3
2

.
. . .. .

.
.
. . .


.
. . .
.

X n3 X np k px1 n nx1
nxp

SE ESCRIBE:

X11
X12

X ' X X13

X1k

1
X 21

1 1
X 31 X n1

X 22

X32

X n2

X 23

X33

X n3

X 2k

X3k

X nk

1

1
1

.
.

.
1
pxn

X11 X12
X 21 X 22
X31 X32
.
.

.
.

.
X n2

X n1

X13 ... X1k


X 23 ... X 2k
X33 ... X3k

.
. .
.
. .

.
. .
X n3 X nk nxp

El producto resulta:

Xi1

Xi2

X ' X Xi3

Xik

Xi1

Xi2

Xi3

2
Xi1

Xi1 Xi2

Xi1 Xi3

...

Xi1Xi2

2
Xi2

Xi2 Xi3

...

Xi1Xi3

Xi2Xi3

2
Xi3

Xi1Xik

X i 2 X ik

...

Xi3Xik

Xik

Xi1 Xik

Xi2 Xik
Xi3Xik

Xin Xik pxp

166

Regresin y correlacin lineal_______________________________________________________________________________________________


XX:

Es una matriz no singular,

es matriz cuadrada. El

clculo de su

inversa se realiza mediante:


(XX)-1 = (1/|XX|)adjunta(XX)

X11
X12

X ' Y X13

X1k

1
X 21

1
1
X 31 X n1

X 22

X32

X n2

X 23

X33

X n3

X 2k

X3k

X nk

Y1

Y2
Y3

.
.

.
Y
pxn n

Yi1

X Y

i1 1

X i 2Y2

X
Y
i
3
3

X Y

nx1 ik n px1

Luego el vector de parmetros es:

0

1

1
( X ' X ) X ' Y 2


K
Y el modelo de regresin estimado es:

Yi 0

j X ij ;

i 1, n

j 1, k

j 1

Y X
CARACTERSTICAS

DE

LOS

ESTIMADORES

DE

MINIMOS

CUADRADOS
a.

ESPERANZA MATEMTICA DE
E( ) =
Demostracin:

167

Regresin y correlacin lineal_______________________________________________________________________________________________


E( )=

E ( X ' X ) 1 X ' Y ) E ( X ' X ) 1 X ' ( X )

E( )=

E (( X ' X ) 1 X ' X ( X ' X ) 1 X ' )

E( )=

E ( ) ( X ' X ) 1 X ' E ( )

E( ) =
b. VARIANZA Y COVARIANZA DE

Var-cov( )=

2 ( X ' X ) 1

Demostracin:
Var-cov( )=E( -E( ))( -E( ))
Var-cov( )=E( - )( - )

Observe que:

( X ' X ) 1 X ' Y

donde Y X

( X ' X ) 1 X ' ( X )
( X ' X ) 1 X ' X ( X ' X ) 1 X '
( X ' X ) 1 X '
( X ' X ) 1 X '
Var-cov( )=E[( ( X ' X )
Var-cov( )=E[ ( X ' X )
Var-cov( )= ( X ' X )
Observe:

X ' )( ( X ' X ) 1 X ' )]

X ' ' X ( X ' X ) 1 ]

X ' E ( ' ) X ( X ' X ) 1

E ( ' ) 2 I n (Demostracin para el lector)

Var-cov( )= ( X ' X )

X ' 2 I n X ( X ' X ) 1

Var-cov( )= ( X ' X )

X ' X 2 I n ( X ' X ) 1

168

Regresin y correlacin lineal_______________________________________________________________________________________________


Var-cov( )=
c.

( X ' X ) 1

Los errores estndar y la covarianza de los estimadores

se

determinan mediante los elementos de la matriz (XX) -1 cuya


notacin es:

c00
c
10
1
( X ' X ) c20

ck 0

c01 c02 c03 c0k


c11 c12 c13 c1k
c21 c22 c23 c2k cij


ck1 ck 2 ck 3 ckk pxp

Los elementos de la diagonal proporcionan los valores que se necesitan


para calcular los errores estndar de los estimadores. De modo que:
Var-cov( j )= 2 c jj
Luego: Los errores estndar de los estimadores de j son:

SE ( j ) c jj ,

Donde

es la desviaci del error aleatorio

Los elementos que estn fuera de la diagonal proporcionan valores


necesarios para calcular las covarianzas de los parmetros, digamos

j , i

Donde

i j

cov( i j )= 2 cij 2 c ji

Estas covarianzas son necesarias para determinar la varianza de la


ecuacin de prediccin, o cualquier otra funcin lineal de parmetros.
Desempean un papel el el establecimiento de un intervalo dre confianza
para E(y) y un intervalo de prediccin para Y

169

Regresin y correlacin lineal_______________________________________________________________________________________________


ESTIMADOR DE 2 . VARIANZA DE

EN EL MODELO DE REGRESIN

MLTIPLE
Las varianzas de los estimadores de los parmetros y de Y dependen del
valor de 2 (varianza del error aleatorio

que aparece en el modelo y

casi nunca se se le conoce por adelantado, debemos usar los datos de la


muestra para estimar su valor

Y ' Y ' X ' Y


SSE

n p
n p

COMPONENTES DE LA SUMA DE CUADRADOS DEL TOTAL DE Y


SCT = SCR + SCE

Suma de cuadrados del total de Y.

SCT Y ' Y nY 2

Suma de cuadrados de la regresin

SCR X ' Y nY 2

Suma de cuadrados del error (residual)

SCT Y ' Y X ' Y

Varianza explicada SCR/n

Varianza no explicada SCE/n-p

PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL MLTIPLE


a. Prueba para la significacin de la regresin

170

Regresin y correlacin lineal_______________________________________________________________________________________________


Hiptesis
H0: 1= 2= 3==K=0
H1: Por lo menos uno de los parmetros es distinto de cero

Anlisis de varianza (ANVA o ANOVA)

Fuente de
variacin
Debido a la regresin

Suma de
cuadrados
SCR

Grados de
libertad
P-1

Cuadrados
medios
CMR=SCR/1

SCE

n-P

CME=SCE/(n-2)

SCT

n-1

Debido al error
Total

F calculado
(Fc)
CMR/CME

Donde: n es tamao de la muestral o nmero de datos


k nmero de variables independiente
p nmero de parmetros
Rechazar H0 Si Fc es mayor que F(k, n-p)
El rechazo de H0 implica que al menos una de las variables de regresin
tienen una contribucin significativa en el modelo.
b. PRUEBAS

SOBRE

LOS

COEFICIENTES

INDIVIDUALES

DE

REGRESIN
Estas pruebas son tiles para determinar el valor potencial de cada una de
las variables de regresin del modelo, as el modelo puede ser mas eficaz
con la inclusin de variables adicionales o quiz con la eliminacin de una
o ms regresoras presentes en el modelo
Hiptesis
H0 : j =0
H1 : j 0
ESTADSTICA DE PRUEBA

171

Regresin y correlacin lineal_______________________________________________________________________________________________

TO

j
2 c jj

DECISIN:
Rechazar H0 si |To|> tn-p para un

de significacin

CONCLUSIN
Si no se rechaza la hiptesis H0 indica que el regresor Xj puede
eliminarse del modelo
MEDIDAS DE ADECUACION DEL MODELO
a.

Coeficiente de determinacin mltiple

Es una medida de la magnitud de la reduccin en la variabilidad de Y,


obtenida mediante el empleo de variables de regresin X 1 X2 X3 Xk.

R2

SSR
SSE
1
,
SCT
SCT

0 R2 1

R2 grande no necesariamente implica que el modelo de regresin sea


bueno, pues la adicin de una variable al modelo siempre aumenta R 2 sin
importar si la variable es o no estadsticamente significativa.

R2 R

Es el coeficiente de correlacin mltiple entre Y y el conjunto

de variables de regresin X1 X2 X3 Xk
R es una mediad de asociacin lineal que existe entre Y y X 1 X2 X3 Xk.
Cuando k=1 tenemos el coeficiente de correlacin simple entre Y y X

Ejercicio resuelto:
El consumo de un producto x de la empresa Agraroindustrial Naranjillo Ltda. de la
ciudad de Tingo Mara, se ha venido observando que a travs del tiempo ha tenido
una demanda permanente que se muestra en el siguiente cuadro :

172

Regresin y correlacin lineal_______________________________________________________________________________________________


INGRESO FAMILIAR
AO

CONSUMO/VENTAS

PRECIO

2002

45

2003

50

2004

60

2005

55

2006

64

11

2007

68

10

2008

70

12

2009

72

11

2010

75

15

2011

80

14

Se pide hallar lo siguiente:


Realice la regresin y estime los parmetros ( )
Identifique otras variables independientes que puedan estar influenciando en
Y
Analizar los efectos de las variables independencias de las dependientes
Determine y analice el coeficiente de determinacin (R 2)
Determine y analice el coeficiente de determinacin ajustado (2 )
El anlisis de varianza (ANVA)
Prueba de relevancia global
Determine la varianza de la variable aleatoria ( )
Determine la Var-Cov de los parmetros
Determine la prueba de relevancia individual
Pronostico para 2 aos
Solucin:
Para determinar cada uno de los incisos primero identificamos las variables
correspondientes:

173

Regresin y correlacin lineal_______________________________________________________________________________________________


CONSUMO/VENTAS= F (PRECIO, INGRESO FAMILIAR)
Como se trata de un estudio a travs del tiempo y se utilizan datos histricos, se
utiliza el siguiente modelo econmico.

= 0 + 1 1 + 2 2 +
Dado que:

= variable dependiente (Consumo/Ventas)



1 =Variable independiente 1 (precio)
2 = Variable independiente 2 (Ingreso familiar)
Otras variables independientes ( )
- Nivel de ahorro de las familias
- Edad, sexo
- Precio de los bienes sustitutos
- Supuesto de insaciabilidad
- Precio de los bienes complementarios

AO

CONSUMO/
VENTAS

Yt

X1t

2002

45

2003

50

2004

PRECIO

INGRESO
FAMILIAR

Yt2

X1t2

2025

49

14

315

90

2500

64

24

400

150

60

3600

81

36

16

540

240

2005

55

3025

81

27

495

165

2006

64

11

4096

121

55

25

704

320

2007

68

10

4624

100

50

25

680

340

2008

70

12

4900

144

72

36

840

420

2009

72

11

5184

121

55

25

792

360

2010

75

15

5625

225

105

49

1125

525

2011

80

14

6400

196

84

36

1120

480

TOTAL

639

106

46

41979

1182

522

234

7011

3090

X2t

X1t*X2t X2t2 X1t*Yt

X2t*Yt

Reemplazando en la frmula:

174

Regresin y correlacin lineal_______________________________________________________________________________________________

0
(1 ) =
2

1
=1

( =1

1
=1

2
=1

2
1
=1

=1

1 2

=1

=1

2 1

2
2

=1

=1

0
10
(1 ) = (106
46
2
A

2
) ( =1
)

106
46
639
1182 522) (7011)
522 234 3090
B

-1

Hallamos la inversa de A :
106
1182 522
106 522
Det(A)= (10) (
) (106) (
) + (46) (
522 234
46 234
46
Det(A)= 1248
Cof(A):
1182 522
A11= (1)2 (
) = 4104
522 234
A12 = (1)3 = (

106
46

1182
)
522

522)
= 792
234

106 1182
) = 960
A13 =(1)4 = (
46
522
106 46
) = 792
A21 = (1)3 = (
522 234
10
A22 =(1)4 = (
46

46
) = 224
234

10
A23 =(1)5 = (
46

106
) = 344
522

106
A31 =(1)4 = (
1182

46
) = 960
522

10
A32 =(1)5 = (
106

46
) = 344
522

10
A33 =(1)6 = (
106

106
) = 584
1182

Adjunta(A)

175

Regresin y correlacin lineal_______________________________________________________________________________________________


4104
Adj(A) = (792
960

792
224
344

960
344)
584

Reemplazamos los valores:


0
1
(1 ) =
()
Det()
2
0
4104
1
(1 ) =
(792
1248
960
2

792
224
344

960
639
344) (7011)
584
3090

(4104)(639) (792)(7011) + (960)(3090)


1248
0
(792)(639) + (224)(7011) (344)(3090)
(1 ) =
1248
2
(960)(639) (344)(7011) + (584)(3090)
(
)
1248
0
28.96

(1 ) = ( 1.13 )
4.98
2

Reemplazamos los datos en el modelo econmico:

t = 0 + 1X1t + 2 X 2t
Y

Yt = 28.96 + 1.13X1t + 4.98X 2t


Efectos:

t
Y
1

= 1.13

Un incremento del 1% en el precio (X1t ) genera una disminucin en el


t ) del 13%
consumo/ventas (Y
176

Regresin y correlacin lineal_______________________________________________________________________________________________

t
Y
2

= 4.98

Un incremento del 1% en el ingreso familiar (2 ) genera un efecto de un incremento


t ) del 98%
en el consumo/ventas (Y
Coeficiente de determinacin (R2)

2
Y nY
=
=

2
2

0

2
(1 ) ( 1 ) () ( )

2
2
2 =
2
2
() (
)

28.96
639
639 2
( 1.13 ) (7011 ) (10) (
)
10
3090
2 = 4.98
639 2
41979 (10) (
)
10
2 = 0.88908228 88.91 %
Interpretacin: El 88.91 % de la fluctuacin de las ventas viene siendo explicado por
el precio(1 ) y el ingreso familiar (2 ), durante los aos comprendidos entre 2002 al
2011.
)
Coeficiente de determinacin ajustado (

2 = 1 (

2 = 1 [

1
)(
)

Y 1
][
]
2

177

Regresin y correlacin lineal_______________________________________________________________________________________________

28.96
639
41979 ( 1.13 ) (7011)
4.98
3090 [10 1]
2 = 1
10 3
639 2
41979 (10) (
)
10
[
]
2 = 1 0.1426085
2 = 0.8573915 85.74 %

Interpretacin:
Los precios y el ingreso familiar tienen mucha influencia en el consumo del producto
X, por lo tanto no es necesario incorporar otra variable independiente en el modelo
Anlisis de Varianza (ANVA)

FUENTE DE
VARIACION

GRADOS DE
LIBERTAD

SUMA DE
CUADRADOS

CUADRADO
MEDIO

COCIENTE
F

DEBIDO A LA
REGRESION (E)

SCE =1019.69

= 509.84

= 36.07

k-1=3-1=2
DEBIDO AL
ERROR DELA
MUESTRA (R)

n-k=10-3=7

SCR = 127.21

=14.13

TOTAL(T)

n-1=10-1=9

SCT = 1146.90

2
= Y nY
28.96
639
639 2
= ( 1.13 ) (7011) (10) ( )
10
4.98
3090
= 1019.69
= 2
= 41979 (10) (

639 2
10

178

Regresin y correlacin lineal_______________________________________________________________________________________________

= 1146.90
=
= 1146.90 1019.69
= 127.21

1019.69

127.21

31

= 509.84
=

101

= 14.13
=

509.84
14.13

= 36.07
Prueba de relevancia global:
1) Planteamiento de hiptesis

: 0 = 1 = 2
: 0 1 2
2) Nivel de significancia

= 5 % 0.05
3) Punto critico

gl1 = k-1 3-1=2


gl2 =n-k 10-3= 7
Fgl1;gl2; F2;7;0.05 = 4.7374

4) Calculo del estadstico

179

Regresin y correlacin lineal_______________________________________________________________________________________________


Fc = 36.07 (ver en el cuadro de ANVA)
5) Conclusiones

Fc >F2;7;0.05 (36.07 > 4.74).Entonces RHo, es decir el precio y el ingreso familiar


explican el comportamiento del consumo/ventas del producto X de la empresa
Agraria Industrial Naranjillo ltda .
Determinar la varianza de la Variable aleatoria ( )

2 =

0

2
(1 ) ( 1 )
2
2
2 =

28.96
639
(
)
(
41979 1.13
7011)
4.98
3090
2 =
10 3
2 = 18.17

Determine la var-cov de los parmetros:

() = 2 ( Y)

=1

21

() = 2 1
=1

=1

( =1

)
(
0

=1

1 2
=1

2 1

=1

=1

,
)
() = ((
1 0
,
)
(
1

,
) (
,
)
(
0 1
0 1
)
(
1

,
)
(
2 1

,
))
(
1 2
)
(
2

10 106 46 1
() = 18.17 (106 1182 522)
46 522 234
180

Regresin y correlacin lineal_______________________________________________________________________________________________

() =

18.17 4104
(792
1248 960

(0 )
((1 , 0 )
(1 , 0 )

(0 , 1 )
(1 )
(2 , 1 )

792
224
344

960
344)
584

(0 , 1 )
59.76 11.53

3.26
(1 , 2 )) = (11.53
13.98
5.01
(2 )

13.98
5.01)
8.50

Determine la prueba de relevancia individual:


:
Para
1) Planteamiento de hiptesis
1 = 0 (El efecto del precio no explica significativamente en las ventas)
1 0 (El efecto del precio explica significativamente en las ventas)
2) Nivel de significancia
= 5 % 0.05
3) Punto critico
gl = n-k 10-3 = 7
tgl;/2 t7;0.025 = 2.3646

4) Calculo del estadstico


=
=

1 1
(1 )

1.13
3.26

0.6282

= 0.6282
5) Conclusiones
tc < t7;0.025 ( 0.6282 < 2.36 ).Entonces AHo, es decir el efecto del precio
no explica significativamente el comportamiento del consumo/ventas del
producto X de la empresa Agraroindustrial Naranjillo Ltda.
:
Para
181

Regresin y correlacin lineal_______________________________________________________________________________________________


1) Planteamiento de hiptesis
2 = 0 (El efecto del ingreso familiar no explica significativamente en el C/Vtas)
2 0 (El efecto del ingreso familiar explica significativamente en el C/Vtas)
2) Nivel de significancia
= 5 % 0.05
3) Punto critico
gl = n-k 10-3 = 7
tgl;/2 t7;0.025 = 2.3646

4) Calculo del estadstico


=
=

2 2
(2 )

4.98
8.50

= 1.7079

5) Conclusiones
tc <t7;0.05 ( 1.71 < 2.36).Entonces AHo, es decir el efecto del ingreso
familiar no explica el comportamiento del consumo/ventas del producto X
de la empresa Agraria Industrial Naranjillo ltda .
Pronostico para 2 aos:

AO
2012
2013

PRECIO
15
16

INGRESO
FAMILIAR
7
8

CONSUMO/VENTAS
81
87

2012 = 28.96 + 1.13X1t + 4.98X 2t


Y

Y2012 = 28.96 + 1.13(15) + 4.98(7)

Y2012 = 80.85 = 81
182

Regresin y correlacin lineal_______________________________________________________________________________________________

2013 = 28.96 + 1.13X1t + 4.98X 2t


Y

Y2013 = 28.96 + 1.13(16) + 4.98(8)

Y2013 = 86.96 = 87

REGRESIN LINEAL EN SPSS.

El anlisis de regresin lineal es una tcnica estadstica utilizada para estudiar la


relacin entre variables cuantitativas. Tanto en el caso de dos variables (regresin simple)
como en el de ms de dos variables (regresin mltiple), el anlisis regresin lineal puede
utilizarse para explorar y cuantificar la relacin entre una variable llamada dependiente
o criterio(Y) y una o ms variables llamadas independientes o predictoras (X1, X2, ,
Xp), as como para desarrollar una ecuacin lineal con fines predictivos.
Para llevar a cabo un anlisis de regresin lineal en el SPSS 15.0 seleccionamos:
Analizar
183

Regresin y correlacin lineal_______________________________________________________________________________________________


Regresin
Lineal
Apareciendo el cuadro de dilogo de la figura 01:
Figura 01
Cuadro de dilogo regresin.

En Dependiente se traslada la variable cuyos valores se desea predecir o resumir.


Bloque 1 de 1. Este recuadro nos sirve para introducir las variables independientes, nos
permite hacer varios anlisis de regresin a la vez, alternando los botones anterior y
siguiente, y adems no deja elegir el mtodo de introduccin de las variables
independientes.

Independientes se trasladan las variables utilizadas para predecir el valor de la


variable dependiente. Tambin se denominan variables predictoras o variables
explicativas. Para poder ejecutar este procedimiento, la lista debe contener al menos una
variable.
Mtodo: Permite seleccionar el mtodo por el cual se introducen las variables
independientes en el anlisis. Nos vale para elegir la mejor ecuacin de

184

Regresin y correlacin lineal_______________________________________________________________________________________________


regresin. Permite construir una variedad de modelos de regresin a partir del
mismo conjunto de variables:
Introducir (Entry): Procedimiento para la seleccin de variables en el
que todas las variables un bloque se introducen en un solo paso. Es el
mtodo por defecto.

Pasos sucesivos (Stepwise): En cada paso se introduce la variable


independiente que no se encuentre ya en la ecuacin y que tenga
la probabilidad para F ms pequea, si esa probabilidad es
suficientemente pequea. Las variables ya introducidas en la
ecuacin de regresin se eliminan de ella si su probabilidad para F
llega a ser suficientemente grande. El mtodo termina cuando ya no
hay ms variables candidatas a ser incluidas o eliminadas.

Eliminar (Remove): Procedimiento para la seleccin de variables en el


que las variables de un bloque se eliminan en un solo paso.
Hacia atrs (Backward): Procedimiento de seleccin de variables en
el que se introducen todas las variables en la ecuacin y despus se
van excluyendo una tras otra. Aquella variable que tenga la menor
correlacin parcial con la variable dependiente ser la primera en
ser considerada para su exclusin. Si satisface el criterio de eliminacin,
ser eliminada. Tras haber excluido la primera variable, se pondr a
prueba aquella variable, de las que queden en la ecuacin, que
presente una correlacin parcial ms pequea. El procedimiento
termina cuando ya no quedan en la ecuacin variables que satisfagan el
criterio de exclusin.

Hacia delante (Forward): Procedimiento de seleccin de variables


en el que stas son introducidas secuencialmente en el modelo. La
primera variable que se considerar para ser introducida en la

185

Regresin y correlacin lineal_______________________________________________________________________________________________


ecuacin ser aqulla que tenga mayor correlacin, positiva o negativa,
con la variable dependiente. Dicha variable ser introducida en la
ecuacin slo si satisface el criterio de entrada. Si ha entrado la
primera variable, se considerar como prxima candidata la variable
independiente que no est en la ecuacin y cuya correlacin parcial
sea la mayor. El procedimiento termina cuando ya no quedan variables
que satisfagan el criterio de entrada.

En Variable de seleccin se traslada una variable que limite el anlisis a un subconjunto de


casos que tengan un valor particular para esta variable. Con Regla podemos definir el
subconjunto de casos que se emplearn para estimar el modelo de regresin.
En Etiquetas de caso designamos una variable para identificar los puntos de los grficos.
Para cada punto de un diagrama de dispersin podemos utilizar la herramienta de seleccin
de puntos y mostrar el valor de la variable de etiquetas de casos correspondiente al caso
seleccionado.
Ponderacin MCP: Permite obtener un modelo de mnimos cuadrados ponderados. Los
puntos de los datos se ponderan por los inversos de sus varianzas. Esto significa que las
observaciones con varianzas grandes tienen menor impacto en el anlisis que las
observaciones asociadas a varianzas pequeas.

2.1.- Estadsticos

Con el botn Estadsticos accedemos al cuadro de dilogo que muestra la figura 2 que
nos nos vale para solicitar resultados estadsticos opcionales, incluyendo los coeficientes
de regresin, descriptivos, estadsticos de ajuste del modelo, la prueba de Durbin-Watson y
diagnsticos de la colinealidad.
Figura 55.
Cuadro de dilogo estadisticos

186

Regresin y correlacin lineal_______________________________________________________________________________________________

Coeficientes

de

regresin.

En

este

recuadro

podemos

obtener

tanto

las

estimaciones de los coeficientes de regresin, la bondad del ajuste del modelo elegido,
los intervalos de confianza de cada coeficiente as como la matriz de covarianzas. Podemos
elegir una o ms de las opciones:

Estimaciones: Nos muestra coeficientes de regresin y medidas relacionadas. Los


coeficientes no estandarizados (no tipificados) son los coeficientes de regresin
parcial que definen la ecuacin de regresin en puntuaciones directas. Los
coeficientes estandarizados () son los coeficientes que definen la ecuacin de
regresin en puntuaciones tpicas. Estos coeficientes estandarizados ayudan a
valorar la importancia relativa de cada variable independiente dentro de la
ecuacin. Muestra las pruebas de significacin de cada coeficiente, el
estadstico de contrate (t) as como su nivel crtico (Sig.). Una significacin
pequea nos permite afirmar que el coeficiente es significativo.
Intervalos de confianza: nos muestra intervalos de confianza al 95% para los
coeficientes de regresin.
Matriz de covarianzas: nos muestra

la matriz de varianza-covarianza de los

coeficientes de regresin, las varianzas en la diagonal y las covarianzas por


debajo y por encima de la diagonal.

Ajuste del modelo. Muestra el coeficiente de correlacin mltiple (R mltiple), y su

187

Regresin y correlacin lineal_______________________________________________________________________________________________


cuadrado (R2, coeficiente de determinacin, que expresa la proporcin de varianza de la
variable dependiente que est explicada por la variable o variables independientes), la R
cuadrado corregida y el error tpico de la estimacin (desviacin tpica de los residuos).
Tambin, una tabla de ANOVA muestra las sumas de cuadrados, los grados de libertad, las
medias cuadrticas, el valor del estadstico F y el nivel crtico (Sig.) de la F.
Cambio en R cuadrado. Nos muestra el cambio en el estadstico R cuadrado que se produce
al aadir o eliminar una variable independiente. Si el cambio en R cuadrado asociado a una
variable es grande, significa que esa variable es un buen predictor de la variable dependiente.
Descriptivos. Muestra las medias de las variables, las desviaciones tpicas y la matriz de
correlaciones con las probabilidades unilaterales.

Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial y


parcial. Los valores del coeficiente de correlacin van de -1 a 1. El signo del coeficiente indica
la direccin de
la relacin y su valor absoluto indica la fuerza de la relacin. Los valores mayores indican
que la relacin es ms estrecha.
Diagnsticos de colinealidad. Muestra las tolerancias para las variables individuales y una
variedad de estadsticos para diagnosticar los problemas de colinealidad. La colinealidad (o
multicolinealidad) es una situacin no deseable en la que una de las variables
independientes es una funcin lineal de otras variables independientes.

Residuos. Este recuadro nos permite seleccionar una de las opciones:

Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados


serialmente. ste estadstico oscila entre 0 y 4 y toma el valor 2 cuando los residuos
son completamente independientes. Los

valores

mayores

de

indican

autocorrelacin positiva y los menores de 2 autocorrelacin negativa.


Diagnsticos por caso: Genera diagnsticos por casos, para todos los casos que
cumplan el criterio de seleccin (los valores atpicos por encima de n desviaciones
tpicas).

188

Regresin y correlacin lineal_______________________________________________________________________________________________


2.2.- Grficos
Con el botn Grficos obtenemos el cuadro de dilogo de la figura 3
Figura 56.
Cuadro de dilogo grficos.

En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos


estandarizados (ZPRED), los residuos estandarizados (ZRESID), los residuos eliminando la
puntuacin del sujeto (DRESID) y los valores predichos ajustados (SDRESID).

Dispersin 1 de 1. Nos muestra los diagramas de dispersin que queramos de la lista de la


izquierda, para cada par de variables, alternando anterior y siguiente.

Grficos de residuos tipificados. En este recuadro podemos elegir uno de los grficos:
Histograma: Crea un histograma de los residuos tipificados con una curva normal
superpuesta.

Grfico de probabilidad normal: Muestra un grfico de probabilidad normal de


los residuos tipificados. Se usa para comprobar la normalidad. Si la variable se
distribuye normalmente, los puntos representados forman una lnea recta
diagonal.

Generar todos los grficos parciales. Genera todos los diagramas de


dispersin

de

la

variable dependiente con cada una de las variables

independientes.
189

Regresin y correlacin lineal_______________________________________________________________________________________________


2.3.- Guardar

El botn Guardar nos permite guardar los valores pronosticados, los residuos y
medidas relacionadas como nuevas variables que se aaden al archivo de datos de trabajo.
En los resultados una tabla muestra el nombre de cada nueva variable y su contenido.

2.4.- Opciones

El botn Opcionesnos permite controlar los criterios por los que se eligen las
variables para su inclusin o exclusin del modelo de regresin, suprimir el
trmino constante y controlar la manipulacin de los valores perdidos.

Aplicacin.
Vamos a realizar un anlisis de regresin lineal simple para estudiar la posible relacin
entre
Las ventas de un determinado producto (variable dependiente) y los gastos en publicidad
(variable independiente) en una muestra de 15 productos. La figura muestra la matriz de
datos q se va a analizar.
Editor de datos SPSS vista de variables.

Editor de datos spss.

190

Regresin y correlacin lineal_______________________________________________________________________________________________

Descripcin del procedimiento para implementar un anlisis de regresin


lineal
Para realizar un anlisis de regresin lineal con SPSS seleccionamos en el men
analizar la opcin de regresin lineal como muestra la figura 59.
Men analizar regresin lineal.

191

Regresin y correlacin lineal_______________________________________________________________________________________________

Figura 2. Secuencia de mens para implementar un anlisis de regresin


lineal con SPSS.
La secuencia mostrada en la Figura 2 nos permite acceder al cuadro de dilogo Regresin
lineal como se muestra en la Figura 3. En dicho cuadro disponemos de de las variables que
hemos incluido en el archivo de datos. En nuestro caso: ventas y gastos en publicidad.
Como mnimo, para que se pueda ejecutar el anlisis, tenemos que seleccionar dos
variables y trasladarlas respectivamente al cuadro de dependiente e independientes.
Ventas ser la variable dependiente y gastos en publicidad la variable independiente. Slo
con estas especificaciones podemos, al pulsar el botn Aceptar, obtener informacin
acerca de la bondad de ajuste del modelo, de la validacin y de la ecuacin de regresin
estimada as como de la significacin de los parmetros.
Figura 60.
Cuadro de dilogo regresin lineal.

192

Regresin y correlacin lineal_______________________________________________________________________________________________

Figura 3. Cuadro de dilogo de regresin lineal.


Los resultados que nos proporciona SPSS, con las opciones por defecto del
cuadro de regresin lineal, son las tablas etiquetadas como Variables
introducidas/eliminadas(b), Resumen del modelo(b), Anova y Coeficientes
que aparecen a continuacin. De cada tabla describiremos los valores incluidos
en las mismas, su significado y cmo se han calculado.

193

Regresin y correlacin lineal_______________________________________________________________________________________________

194

Regresin y correlacin lineal_______________________________________________________________________________________________


Histograma

Variable dependiente: VENTAS


8

Frecuencia

Media =-6,94E-16
Desviacin tpica =0,964
N =15

0
-3

-2

-1

Regresin Residuo tipificado

Grfico P-P normal de regresin Residuo tipificado

Variable dependiente: VENTAS

Prob acum esperada

1,0

0,8

0,6

0,4

0,2

0,0
0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

Los grficos Histograma y grfico P-P normal de regresin nos permiten


valorar el alejamiento del supuesto de normalidad. Comparando la curva
195

Regresin y correlacin lineal_______________________________________________________________________________________________


normal con la distribucin emprica en el histograma y evaluando el
alejamiento de los puntos representados en el segundo grfico con respecto a
la diagonal. Podemos concluir que no existen grandes desviaciones de la
curva normal. No obstante, para ser ms precisos se puede utilizar la prueba
de Kolmogorov del men de pruebas no paramtricas para evaluar este
supuesto.

Ejercicios propuestos.
1) El gerente de personal de la empresa agroindustrial Naranjillo estudia la relacin entre los
gastos y los salarios de su personal obrero. Una muestra aleatoria de 10 obreros revel los
siguientes datos en dlares por semana:
Gastos 25 20 32 37 40 40 45 30 55 60
Salarios 28 25 35 40 45 50 50 35 70 80
a) Trace el diagrama de dispersin e indicar si existe cierta dependencia lineal entre las
variables.
b) Halle la ecuacin de la recta de regresin estimada Y = f(x)
c) Interprete y/o de su comentario sobre el valor de la pendiente.
d) Estime el gasto que correspondera a un salario semanal de 90 dlares.
e) Pruebe la significacin de la pendiente de la regresin muestral con nivel de confianza
del 95%
f) Utilice el mtodo de anlisis de varianza para probar la significacin de la ecuacin de
regresin muestral, al nivel de significancia del 5%.
g) Calcule el coeficiente de correlacin (r) y el coeficiente de determinacin r2, e
interprete los resultados.
2) Se obtuvieron los siguientes datos para determinar la relacin entre cantidad de fertilizantes
y produccin de papa por hectrea.
Sacos de fertilizantes por hectrea. 3 4 5 6 7 8 9 10 11 12
Rendimiento en kg.
45 48 52 55 60 65 68 70 74 76

196

Regresin y correlacin lineal_______________________________________________________________________________________________


a) Encuentre la ecuacin de regresin de la cosecha sobre el fertilizante, por el mtodo
de mnimos cuadrados ordinarios.
b) Estime la cosecha si se aplican 12 sacos de fertilizantes. Cunto es el error estndar?
c) Determine el coeficiente de determinacin. De su comentario sobre este valor.
d) Calcule el grado de asociacin entre ambas variables.
3) Como analista de Coca - Cola, su trabajo es utilizar los datos proporcionados aqu para
saber si los cambios en los precios son efectivos para promover las ventas. Estos datos se
tomaron en los mercados de prueba seleccionados en toda la regin para el precio de cada
botella y las respectivas ventas realizadas. Las ventas estn dadas en miles de soles.
Precio en soles

2.1
0

3.5
2

2.1
0

2.5
5

3.5
0

3.5
0

2.9
9

2.9
9

2.2
5

Ventas de Coca-Cola en miles de


3
35 25 21 19 23
24 31 20 19
soles.
1
a) Graficar el diagrama de dispersin e indicar si existe cierta dependencia lineal entre las
variables.
b) Existe correlacin?, Explique.
c) La correlacin es positiva o negativa?
4) A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y a unidades
producidas (Y).
Horas (X)
23 30 33 35 40 45
Produccin (Y) 9 12 15 17 20 23
Determine la recta de regresin de y sobre x, el coeficiente de correlacin e interprete.
5) Los contadores con frecuencia estiman los gastos generales basndose en el nivel de
produccin. En la tabla que sigue se da la informacin recabada sobre gastos generales y las
unidades producidas en 10 plantas y se desea estimar una ecuacin de regresin para
estimar gastos generales futuros.
Gastos generales ($) 300 1000 1100 1200 600 800 900 500 400 200
Unidades producidas 15
45
55
75
30 40 45 20 18 10
a) Determine la ecuacin de regresin y haga un anlisis de los coeficientes de
regresin.
b) Proporcionan los datos suficiente evidencia para indicar que las unidades producidas
aportan informacin para predecir los gastos generales?.
c) Realice un anlisis de bondad de ajuste de la ecuacin de regresin lineal.
d) Qu puede usted concluir acerca de la correlacin poblacional entre gastos
generales y unidades producidas? .
6) El gerente de ventas de una cadena de tiendas obtuvo informacin (ver tabla que sigue) de
los pedidos por internet y del nmero de ventas realizadas por esa modalidad. Como parte
de su presentacin en la prxima reunin de vendedores al gerente le gustara dar
informacin especfica sobre la relacin ente el nmero de ventas realizadas.
Tienda
1 2 3 4 5 6 7 8 9 10
Nmero de pedidos 50 56 60 68 65 50 79 35 42 15
197

Regresin y correlacin lineal_______________________________________________________________________________________________


Nmero de ventas 45 55 50 65 60 40 75 30 38 12
a) Use el mtodo de mnimos cuadrados para expresar la relacin entre estas dos
variables.
b) Haga un anlisis de los coeficientes de regresin.
c) Proporcionan los datos suficiente evidencia para indicar que las unidades producidas
aportan informacin para predecir los gastos generales?.
e) Realice un anlisis de bondad de ajuste de la ecuacin de regresin lineal.
d) Qu puede usted concluir acerca de la correlacin poblacional entre gastos
generales y unidades producidas?
7) Las cantidades de un compuesto qumico (y) que se disuelven en 100 ml de agua a diferentes
temperaturas (x), se registraron en la tabla que sigue.
X (C)
Y (Gramos )
0
10 8 10 9 11
15
15 12 14 16 18
30
27 23 25 24 26
45
33 30 32 35 34
60
46 40 43 42 45
75
50 52 53 54 55
a) Encuentre la ecuacin de regresin.
b) Estime la varianza de la regresin poblacional.
c) Calcule el error estndar de la pendiente.
8) El gerente de recursos humanos de la empresa DAMPER S.A
empleados realiza un estudio de los salarios de los empleados
aleatoria, de cada empleado recab:
X1: Edad
X2: Aos de servicio
X3: Genero: Hombre =1, Mujer = 0
Y: Salario Mensual en dlares.
Los datos obtenidos son los siguientes:
Empleado X1 X2 X3 Y
Empleado X1
1
20 0.5 1 50
13
35
2
20 1
0 80
14
36
3
21 1
0 90
15
37
4
23 3
1 100
16
38
5
24 5
1 120
17
39
6
25 6
1 150
18
40
7
26 7
1 160
19
48
8
26 7
1 180
20
50
9
26 7
0 190
21
52
10
26 8
0 195
22
56
11
3
9
1 200
23
62
12
31 10 1 250
24
64

que tiene ms de 800


utilizando una muestra

X2 X3 Y
12 1 280
15 0 300
16 1 320
16 1 350
17 1 390
18 0 420
19 1 480
23 0 430
24 0 490
26 1 510
30 1 550
32 1 590

a) Determine la ecuacin de regresin muestral utilizando la variable salario como


variable dependiente.
198

Regresin y correlacin lineal_______________________________________________________________________________________________


b) Determine el valor del coeficiente de determinacin mltiple e interprete.
c) Desarrolle una prueba de hiptesis global para determinar si alguno de los
coeficientes de regresin es diferente de cero.
d) Desarrolle una prueba de hiptesis individual utilizando el mtodo de intervalos de
confianza para determinar si se puede eliminar alguna de las variables
independientes.
e) Halle la matriz de correlacin de orden cero (o simple de Pearson). Qu variables
independientes tiene correlacin significativa con la variable dependiente?. Segn
este criterio, Qu variables independientes se debera eliminar del modelo de
regresin?
f) Analice la multicolinealidad.
9) El gerente de procesamientos de datos de la compaa cisco estudia el uso de la
computadora en el departamento de sistemas de la compaa. En una muestra aleatoria de
60 trabajos del mes pasado se registro el tiempo de procesamiento (en segundos) para cada
trabajo, con los siguientes resultados:
Al nivel de significacin del 5%, pruebe la hiptesis de que la distribucin los tiempos de
procesamiento es normal.
10) Al realizar la regresin de Y en X basado en una muestra aleatoria de 10 pares de datos (Xi,
Yi), se tiene que la varianza de los Yi es igual a 16.5 y que la suma de cuadrados debido a la
regresin es 155. Qu porcentaje de la varianza de los Yi es explicada por la regresin?
11) El gerente de personal de una empresa textil en gamarra utiliz a 30 operarios en un estudio
para determinar la relacin entre las siguientes variables:
Y: Comportamiento hacia el trabajo (prueba calificada de 0 a 20)
X1: horas semanales de trabajo
X2: Servicios en el hogar: Telfono, TV Cable, Internet (0=uno de los tres, 1=dos de los tres,
2=los tres).
X3: Nmero de prendas que confecciona por semana.
X4: aos de experiencia.
Y X1 X2 X3 X4
Y X1 X2 X3 X4
5 50 0 30 0.6
14 70 1 38 8.0
5 53 0 31 1.0
14 70 1 39 8.4
6 55 0 31 1.5
15 72 1 39 8.6
6 58 1 32 1.8
15 72 0 40 8.9
8 61 1 32 2.0
16 73 0 41 9.0
9 62 0 33 2.4
16 74 0 42 9.0
9 62 2 34 2.8
16 74 1 43 9.1
10 63 0 35 3.0
16 75 0 44 9.2
10 63 1 35 3.5
17 75 0 44 9.8
10 65 2 36 4.0
17 76 1 45 10.0
10 65 0 36 4.6
17 77 0 45 10.2
10 69 1 36 5.0
18 78 1 46 10.8
11 68 0 37 5.8
18 78 1 47 11.0
12 69 1 37 6.0
19 79 1 48 11.5
13 69 1 38 6.7
20 80 2 49 11.6
199

Regresin y correlacin lineal_______________________________________________________________________________________________


a) Halle la ecuacin de regresin muestral
b) Determine el valor del coeficiente de determinacin mltiple e interprete.
c) Desarrolle una prueba de hiptesis global para determinar si alguno de los
coeficientes de regresin poblacional es diferente de cero.
d) Calcule el coeficiente de correlacin mltiple. Es significativo este coeficiente al nivel
de significacin 0.01?
e) Halle la matriz de correlaciones de orden cero (o simple de Pearson). Qu variables
independientes tiene correlacin significativa con la variable dependiente?. Segn
este criterio, Qu variables se debera eliminar del modelo de regresin?
12) Se realiz un estudio estadstico para determinar un modelo de regresin lineal simple con el
fin de predecir el monto de las ventas semanales de un producto en funcin de la demanda.
De una muestra de montos de ventas (Y en cientos de soles) y demandas semanales X (en
unidades del producto) resultaron las siguientes estadsticas:
= 50, = 300, = 4.487, = 175, (, ) = 765.6
a) Obtenga el modelo de regresin planteado.
b) Cunto fue la demanda en una semana donde el monto de venta lleg a 1060.536?.
13) Al estudiar la relacin entre costos (X) y las utilidades (Y) en dlares de ciertos productos usando una
muestra se obtuvo la siguiente informacin:
= 5, = 4, = 100, = 50, = 26 + 0.76
a) Qu porcentaje de la variabilidad de las utilidades es explicada por la ecuacin de regresin
dada?

200

También podría gustarte