En este post se explica qué es la regresión logística en estadística. Asimismo, encontrarás la fórmula de la regresión logística, cuáles son los diferentes tipos de regresión logística y, además, un ejercicio resuelto de la regresión logística.
Índice
¿Qué es la regresión logística?
En estadística, la regresión logística es un tipo de modelo de regresión que sirve para predecir el resultado de una variable categórica. Es decir, la regresión logística se usa para modelar la probabilidad de que una variable categórica tome un determinado valor en función de las variables independientes.
El modelo de regresión logística más habitual es la regresión logística binaria, en la cual solo hay dos posibles resultados: «fracaso» o «éxito» (distribución de Bernoulli). El «fracaso» se representa con el valor 0, mientras que el «éxito» se representa con el valor 1.
Por ejemplo, la probabilidad de que un alumno apruebe un examen en función de las horas que ha dedicado al estudio se puede estudiar mediante un modelo de regresión logística. En este caso, suspender sería el resultado de «fracaso» y, por otro lado, aprobar sería el resultado de «éxito».
Fórmula de la regresión logística
La ecuación de un modelo de regresión logística es la siguiente:
Por lo tanto, en un modelo de regresión logística la probabilidad de obtener el resultado «éxito», es decir, de que la variable dependiente tome el valor 1, se calcula con la siguiente fórmula:
Donde:
es la probabilidad de que la variable dependiente valga 1.
es la constante del modelo de regresión logística.
es el coeficiente de regresión de la variable i.
es el valor de la variable i.
Ejemplo de un modelo de regresión logística
Ahora que ya sabemos la definición de regresión logística, vamos a ver un ejemplo resuelto de cómo hacer un modelo de este tipo de regresión.
- En la siguiente tabla se ha recopilado una serie de 20 datos que relacionan las horas de estudio de cada alumno y si han aprobado o suspendido un examen de estadística. Realiza un modelo de regresión logística y calcula cuál es la probabilidad de que un alumno apruebe si ha estudiado 4 horas.

En este caso, la variable explicativa son las horas de estudio y la variable respuesta es si el alumno ha suspendido (0) o ha aprobado (1). Por lo tanto, en nuestro modelo solo tendremos el coeficiente y el coeficiente
, pues solamente hay una variable independiente.
Determinar los coeficientes de regresión a mano es muy laborioso, por lo que se recomienda utilizar un software informático, como por ejemplo Minitab. Así pues, los valores de los coeficientes de regresión calculados mediante Minitab son los siguientes:
Por lo tanto, el modelo de regresión logística es el siguiente:
A continuación puedes ver representados gráficamente la muestra de datos y la ecuación del modelo de regresión logística:

Así pues, para calcular la probabilidad de que un alumno apruebe si ha estudiado 4 horas simplemente tenemos que utilizar la ecuación obtenida del modelo de regresión logística:
En definitiva, si un alumno estudia cuatro horas, tendrá una probabilidad del 86,99% de aprobar el examen.
Tipos de regresión logística
Existen tres tipos de regresión logística:
- Regresión logística binaria: la variable dependiente solo puede tener dos valores (0 y 1).
- Regresión logística multinomial: la variable dependiente tiene más de dos valores posibles.
- Regresión logística ordinal: los posibles resultados presentan un orden natural.
Regresión logística y regresión lineal
Para terminar, a modo de resumen, veremos cuál es la diferencia entre una regresión logística y una regresión lineal, ya que el modelo de regresión más utilizado en estadística es el lineal.
La regresión lineal se utiliza para modelar variables dependientes numéricas. Además, en la regresión lineal la relación entre las variables explicativas y la variable respuesta es lineal.
Por lo tanto, la principal diferencia entre la regresión logística y la regresión lineal es el tipo de variable dependiente. En una regresión logística la variable dependiente es categórica, en cambio, la variable dependiente de una regresión lineal es numérica.
Así pues, la regresión logística se usa para predecir un resultado entre dos posibles opciones, mientras que la regresión lineal permite predecir un resultado numérico.