Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Método Regresión Lineal Simple Y Multiple Diferencias
Método Regresión Lineal Simple Y Multiple Diferencias
Y i=β 0 + β 1 x i + ε , i=1 , … , n
i
Se puede usar para los casos donde quieras predecir alguna cantidad continua, por
ejemplo, predecir el tráfico en una tienda minorista, predecir el tiempo de permanencia
de un usuario o el número de páginas visitas en un blog, etc.
Donde:
y – es la variable dependiente o la variable para predecir.
x – es la variable independiente o la variable que usamos para hacer una predicción.
a – es la pendiente o el valor que debe ser determinado, se le conoce como coeficiente y
es una especie de magnitud de cambio que pasa por y cuando x cambia.
b – es la constante que debe ser determinada, se le conoce como intercepto porque
cuando x es igual a 0, entonces y = b.
Como puedes observar en la fórmula, solo hay una variable independiente involucrada,
que vendría siendo “x”.
Aunque se cuenta con dos tipos de Regresión Lineal, en la vida real normalmente se
utiliza la Regresión Lineal Múltiple debido a que normalmente se cuenta con múltiples
variables independiente para realizar el análisis.
donde:
i = al número de datos
Linealidad y aditivo. Debe existir una relación lineal, los datos deben satisfacer
algunas suposiciones básicas pero importantes. Por lineal, significa que un
cambio en la variable dependiente por 1 cambio de unidad en la variable
independiente es constante. Por aditivo, se refiere al efecto de “x” y “y” son
independientes de otras variables. Si los datos no siguen las suposiciones, los
resultados pueden ser incorrectos y engañosos.
Suposición lineal. La regresión lineal supone que la relación entre la entrada y
salida es lineal. No es compatible con nada más. Esto puede ser obvio, pero es
bueno recordar cuando tenemos muchos atributos.
Eliminar el ruido. La regresión lineal asume que sus variables de entrada y salida
no son ruidosas. Considera usar operaciones de limpieza de datos que permitan
exponer mejor y aclarar la señal en los datos. La presencia de correlación en
términos de error se conoce como autocorrelación y afecta de manera drástica
los coeficientes de regresión y los valores de error estándar, ya que se basan en
la suposición de los términos de error no correlacionados.
Eliminar la colinealidad. La regresión lineal se ajustará demasiado a los datos
cuando tenga variables de entrada altamente correlacionadas. Considera calcular
correlaciones por pares para sus datos de entrada y eliminar los más
correlacionados. La presencia de correlación en términos de error se conoce
como autocorrelación y afecta de manera drástica los coeficientes de regresión y
los valores de error estándar, ya que se basan en la suposición de los términos de
error no correlacionados.
Distribuciones gaussianas. La regresión lineal hará predicciones más confiables
si sus variables de entrada y salida tienen una distribución normal. Podemos
obtener algún beneficio utilizando transformaciones en sus variables para hacer
que su distribución tenga un aspecto más gaussiano.
ANOVA
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
Resumen del modelo
Sobre la bondad del modelo
1. La significación de F es menor de 0,05 por tanto el modelo es un bueno para
explicar la variable dependiente, es estadísticamente significativo
2. La R-cuadrado es 0,301 lo cual indica que el modelo explica el 30,1% de la
varianza de la variable dependiente. Casi un tercio de la justificación del
aborto es explicado por este conjunto de variables independientes (explicativas)
seleccionadas.
Sobre la influencia de las variables explicativas:
3- Significación de t-test: Las variables importancia de Dios, nivel educativo, edad y
confianza en el gobierno sí explican la justificación del aborto ya que la significación
es menor de 0,05. Las variables nivel de ingresos y número de hijos no se relacionan
con la justificación del aborto ya que la significación es mayor de 0,05.
4- Coeficientes beta (β): La variable independiente que más explica la opinión de las
personas respecto al aborto es la importancia de Dios ya que la beta (-0,408) se aleja
más de cero. El signo negativo indica que a menos importancia se le da a Dios, más
justificación-tolerancia del aborto. La siguiente variable que más explica es la edad
(beta = -0,170), a más edad menos tolerancia al aborto. Además, a más nivel educativo
más tendencia a justificar el aborto (0,078), aunque la fortaleza de esta relación es
menor, al estar el valor de beta más cercano a 0.
Este ejemplo es útil para entender la alta oposición a las políticas del gobierno en
España de restricción del aborto y puede apuntar a las consecuencias negativas para
los gobiernos, ya que sabiendo las explicaciones de un fenómeno se puede predecir qué
sucederá.
DIFERENCIA DE REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE
La Regresión Lineal múltiple y simple tiene diferentes casos de uso, uno no es superior.
En algunos casos, agregar más variables independientes puede empeorar las cosas, esto
se conoce como ajuste excesivo.
Por otra parte, cuando se agrega más variables independientes se crean relaciones entre
ellas.
Entonces, no solo las variables independientes están potencialmente relacionadas con la
variable dependiente, sino que también están potencialmente relacionadas entre sí, esto
se conoce como multicolinealidad. El escenario óptimo es que todas las variables
independientes de correlacionen con la variable dependiente, pero no entre sí.