Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 9

MÉTODO REGRESIÓN LINEAL SIMPLE

La Regresión Lineal es un método para predecir la variable dependiente (y) en función


de los valores de las variables independientes (X).

Y i=β 0 + β 1 x i + ε , i=1 , … , n
i

Y i es la enésima observación en la variable dependiente

β 0 es la ordenada en el origen o independiente, la altura a la recta corta el eje de ordenadas

β 1 es la pendiente, inclinación o coeficiente de regresión, es el incremento que produce la variable Y

cuando la X aumenta en una unidad.

x i es la i_esima observación en la variable independiente

ε i error aleatorio no observable asociado con Y i

Se puede usar para los casos donde quieras predecir alguna cantidad continua, por
ejemplo, predecir el tráfico en una tienda minorista, predecir el tiempo de permanencia
de un usuario o el número de páginas visitas en un blog, etc.

Representación matemática de la regresión


La Regresión Lineal puede ser simple o múltiple, la primera se refiere cuando solamente
tenemos una sola variable independiente para realizar la predicción, en cambio en la
Regresión Lineal Múltiple se manejan múltiples variables independientes que
contribuyen a la variable dependiente.
Regresión Lineal Simple usa una función lineal para aproximar o predecir la variable
dependiente dada como:

Donde:
y – es la variable dependiente o la variable para predecir.
x – es la variable independiente o la variable que usamos para hacer una predicción.
a – es la pendiente o el valor que debe ser determinado, se le conoce como coeficiente y
es una especie de magnitud de cambio que pasa por y cuando x cambia.
b – es la constante que debe ser determinada, se le conoce como intercepto porque
cuando x es igual a 0, entonces y = b.
Como puedes observar en la fórmula, solo hay una variable independiente involucrada,
que vendría siendo “x”.
Aunque se cuenta con dos tipos de Regresión Lineal, en la vida real normalmente se
utiliza la Regresión Lineal Múltiple debido a que normalmente se cuenta con múltiples
variables independiente para realizar el análisis.

Variables independientes y dependientes


Como pudiste ver en el concepto de la Regresión Lineal se menciona que se
utilizan variables dependientes e independientes.
Las variables independientes o características son variables que se manipulan para
determinar el valor de una variable dependiente. Simplemente, son las características
que queremos usar para predecir algún valor dado de y.
La variable dependiente u objetivo, depende de los valores de la variable independiente.
En pocas palabras, es la característica que estamos tratando de predecir. Esto también se
puede conocer comúnmente como una variable de respuesta.
Objetivo de la Regresión Lineal
El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre todos
los datos y nuestra línea, por lo tanto, para determinar la mejor línea, debemos
minimizar la distancia entre todos los puntos y la distancia de nuestra línea. 

Una forma en que el modelo de regresión encuentre la mejor línea de ajustes es


utilizando el criterio de mínimos cuadrados para reducir el error.
El error es una parte inevitable del proceso de predicción, no importa cuán poderoso
sea el algoritmo que elijamos, siempre habrá un error irreductible, por lo que es
imposible que un modelo nos arroje una precisión de 100%, ya que si es así tenemos un
error.
Sabemos que no podemos eliminar por completo el error, pero aún podemos intentar
reducirlo al nivel más bajo. Justamente es en este momento en que se usa la técnica
conocida como mínimos cuadrados.
La técnica de mínimos cuadrado intenta reducir la suma de los errores al cuadrado,
buscando el mejor valor posible de los coeficientes de regresión.
Los mínimos cuadrados no es la única técnica para usar en Regresión Lineal, pero se
selecciona debido:
 Utiliza un error cuadrado que tiene buenas propiedades matemáticas, por lo que
es más fácil diferenciar y calcular el descenso del gradiente.
 Es fácil de analizar y computacionalmente más rápido, es decir, puede aplicarse
rápidamente a conjuntos de datos que tienen miles de características.
 La interpretación es mucho más fácil que otras técnicas de regresión.
Comprendamos en detalle cómo usar estas fórmulas con un ejemplo:
Se nos da un conjunto de datos con 100 observaciones y 2 variables, altura y peso.
Necesitamos predecir el peso dada la altura.  La ecuación sería el de Regresión
Lineal simple ya que solamente cuenta con una variable independiente y se puede
escribir de la siguiente forma:
y = ax + b
Donde:
y – es el peso
x – es la altura
a, b son los coeficientes para calcular
La fórmula para calcular estos coeficientes es fácil inclusive si solamente tienes los
datos y no tienes acceso a ninguna herramienta estadística para el cálculo podrás hacer
la predicción.
La fórmula para calcular coeficientes es la siguiente:

donde:
i = al número de datos

SUPOSICIONES SOBRE LA REGRESIÓN LINEAL


Para ajustar una línea de regresión lineal, los datos deben satisfacer algunas
suposiciones básicas pero importantes.

 Linealidad y aditivo. Debe existir una relación lineal, los datos deben satisfacer
algunas suposiciones básicas pero importantes. Por lineal, significa que un
cambio en la variable dependiente por 1 cambio de unidad en la variable
independiente es constante. Por aditivo, se refiere al efecto de “x” y “y” son
independientes de otras variables. Si los datos no siguen las suposiciones, los
resultados pueden ser incorrectos y engañosos.
 Suposición lineal. La regresión lineal supone que la relación entre la entrada y
salida es lineal. No es compatible con nada más. Esto puede ser obvio, pero es
bueno recordar cuando tenemos muchos atributos.
 Eliminar el ruido. La regresión lineal asume que sus variables de entrada y salida
no son ruidosas. Considera usar operaciones de limpieza de datos que permitan
exponer mejor y aclarar la señal en los datos. La presencia de correlación en
términos de error se conoce como autocorrelación y afecta de manera drástica
los coeficientes de regresión y los valores de error estándar, ya que se basan en
la suposición de los términos de error no correlacionados.
 Eliminar la colinealidad. La regresión lineal se ajustará demasiado a los datos
cuando tenga variables de entrada altamente correlacionadas. Considera calcular
correlaciones por pares para sus datos de entrada y eliminar los más
correlacionados. La presencia de correlación en términos de error se conoce
como autocorrelación y afecta de manera drástica los coeficientes de regresión y
los valores de error estándar, ya que se basan en la suposición de los términos de
error no correlacionados.
 Distribuciones gaussianas. La regresión lineal hará predicciones más confiables
si sus variables de entrada y salida tienen una distribución normal. Podemos
obtener algún beneficio utilizando transformaciones en sus variables para hacer
que su distribución tenga un aspecto más gaussiano.

Selección de las variables independientes


Un punto importante para destacar es que generalmente, cuando se trata de Regresión
Lineal múltiple no incluimos todas las variables independientes a la vez y
posteriormente comenzamos a minimizar la función de error.
Lo primero que se debe hacer es enfocarse en seleccionar las mejores variables
independientes que puedan contribuir a la variable dependiente. Para esto, debemos
construir una matriz de correlación para todas las variables independiente e incluimos la
variable dependiente.
El valor de correlación nos da una idea de qué variable es significativa y por qué factor.
A partir de esta matriz, elegimos las variables independientes en orden decreciente de
valor de correlación y ejecutamos el modelo de regresión para estimar los coeficientes
minimizando la función de error.
Nos detenemos cuando no hay mejora destacada en la función de estimación mediante
la inclusión de la siguiente característica independiente.
Lo importante que tienes que tomar en cuenta con este método es que agregar más
variables independientes no significa que la regresión sea mejor u ofrece mejores
predicciones

REGRESIÓN LINEAL MÚLTIPLE


La regresión lineal es una técnica estadística destinada a analizar por qué pasan las
cosas o cuáles son las principales explicaciones de algún fenómeno. A partir de los
análisis de regresión lineal múltiple podemos:
 Identificar que variables independientes (explicativas) que explican una variable
dependiente (resultado)
 Comparar y comprobar modelos explicativos
 Predecir valores de una variable, es decir, a partir de unas características
predecir de forma aproximada un comportamiento o estado.
y=β 0 + β 1 x i
+…+ β k x k +ε

β 0es lo que vale la variable dependiente cuando todas las independientes so

β 1 es lo que aumenta la variable dependiente

x i aumenta en una unidad y mantiene el resto constantes

ε i error o perturbación aleatoria

Regresión lineal múltiple


La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis y
relaciones explicativas. Ante de empezar, una serie de condiciones que se deben cumplir
para poder aplicar la regresión lineal múltiple:
 La variable dependiente (resultado) debe ser escalar (numérica) o bien ordinal de
más de 5 categorías, es decir, las categorías de la variable dependiente deben
tener un orden interno o jerarquía, p.ej. nivel de ingresos, peso, número de hijos,
justificación del aborto en una escala de 1-nunca a 10-siempre.
 Las variables independientes (explicaciones) deben ser escalares (numérica),
ordinales (también se recomienda con más de 5 categorías, p.ej. nivel de
ingresos) o dummy (variables de dos categorías donde una indica existencia o
otra no-existencia, p.ej. 1-ser soltero, 0-no ser soltero).
 Hay otras condiciones como: las variables independientes no pueden estar
altamente correlacionadas entre sí, las relaciones entre las variables
independientes y la variable dependiente deben ser lineales, todas variables (o
mejor dicho sus residuales) deben seguir la distribución normal y deben tener
varianzas iguales.
CÓMO ANALIZAR LA REGRESIÓN LINEAL MÚLTIPLE
Los dos primeros pasos hacen referencia a la bondad del modelo, es decir, si el conjunto
de variables independientes (explicaciones) se relacionan con la variable dependiente
(resultado)
1 – Significación de F-test: si es menor de 0,05 es que el modelo es estadísticamente
significativo y por tanto las variables independientes explican “algo” la variable
dependiente, cuánto “algo” es la R-cuadrado
2 – R cuadrado: es cuánto las variables independientes explican la variable dependiente,
indica el porcentaje de la varianza de la variable dependiente explicado por el
conjunto de variables independientes. Cuanto mayor sea la R-cuadrado más explicativo
y mejor será el modelo explicativo.
Los dos siguientes pasos hacen referencia a la influencia de cada una de las variables
independientes:
3 – Significación de t-test: si es menor de 0,05 es que esa variable independiente se
relaciona de forma significativa con la variable dependiente, por tanto, influye sobre
ella, es explicativa, ayuda a predecirla
4 – Coeficiente beta (β): indica la intensidad y la dirección de la relación entre esa
variable independiente (VI) y la variable dependiente (VD):
 cuanto más se aleja de 0 más fuerte es la relación
 el signo indica la dirección (signo + indica que al aumentar los valores de la VI
aumentan los valores de la VD; signo – indica que al aumentar los valores de la
VI, los valores de la VD descienden)
REALICEMOS UN EJEMPLO DE REGRESIÓN LINEAL MÚLTIPLE
Variable dependiente: 
 Justificación del aborto: Se preguntó a los encuestados en qué grado en una
escala de 1 a 10 justificarían el aborto, donde 1 es nunca lo justificaría y 10
siempre lo justificarían.
Variables explicativas:
 Importancia de Dios en la vida: se preguntó en una escala de 1 a 10, donde 1 es
nada importante y 10 es muy importante
 Nivel educativo: se preguntó cuál es el último  nivel educativo alcanzado donde
1 es sin estudios primarios completos, 2 es primarios completos, 3 es
secundarios completos y 4 es universitarios completos.
 Nivel de ingresos: se preguntó sobre cuánto gana al mes en una escala del 1 al
10 con diversos rangos salariales
 Edad
 Número de hijos

ANOVA

Suma de Media
Modelo cuadrados gl cuadrática F Sig.

Regresión 2705,530 6 450,922 73,137 ,000a

Residual 6276,386 1018 6,165    

1 Total 8981,916 1024      

 
Resumen del modelo

R cuadrado Error típ. de


Modelo R R cuadrado corregida la estimación

1 ,549a ,301 ,297 2,483

 
Sobre la bondad del modelo
1. La significación de F es menor de 0,05 por tanto el modelo es un bueno para
explicar la variable dependiente, es estadísticamente significativo
2. La R-cuadrado es 0,301 lo cual indica que el modelo explica el 30,1% de la
varianza de la variable dependiente. Casi un tercio de la justificación del
aborto es explicado por este conjunto de variables independientes (explicativas)
seleccionadas. 
Sobre la influencia de las variables explicativas:
3- Significación de t-test: Las variables importancia de Dios, nivel educativo, edad y
confianza en el gobierno sí explican la justificación del aborto ya que la significación
es menor de 0,05. Las variables nivel de ingresos y número de hijos no se relacionan
con la justificación del aborto ya que la significación es mayor de 0,05.

4- Coeficientes beta (β): La variable independiente que más explica la opinión de las
personas respecto al aborto es la importancia de Dios ya que la beta (-0,408) se aleja
más de cero. El signo negativo indica que a menos importancia se le da a Dios, más
justificación-tolerancia del aborto. La siguiente variable que más explica es la edad
(beta = -0,170), a más edad menos tolerancia al aborto. Además, a más nivel educativo
más tendencia a justificar el aborto (0,078), aunque la fortaleza de esta relación es
menor, al estar el valor de beta más cercano a 0.
Este ejemplo es útil para entender la alta oposición a las políticas del gobierno en
España de restricción del aborto y puede apuntar a las consecuencias negativas para
los gobiernos, ya que sabiendo las explicaciones de un fenómeno se puede predecir qué
sucederá.
DIFERENCIA DE REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE
La Regresión Lineal múltiple y simple tiene diferentes casos de uso, uno no es superior.
En algunos casos, agregar más variables independientes puede empeorar las cosas, esto
se conoce como ajuste excesivo.
Por otra parte, cuando se agrega más variables independientes se crean relaciones entre
ellas.
Entonces, no solo las variables independientes están potencialmente relacionadas con la
variable dependiente, sino que también están potencialmente relacionadas entre sí, esto
se conoce como multicolinealidad. El escenario óptimo es que todas las variables
independientes de correlacionen con la variable dependiente, pero no entre sí.

También podría gustarte