# Regresión Logística
Semestre 01, 2026


## El problema de clasificar


La regresión lineal predice un valor continuo.

Pero a veces la pregunta no es ¿cuánto? sino ¿cuál?

* ¿Este correo es spam o no?
* ¿Este paciente tiene la enfermedad?
* ¿Este cliente va a cancelar su suscripción?


### Regresión Lineal

La regresión lineal puede predecir valores menores a 0 o mayores a 1.

Eso no tiene sentido si queremos una probabilidad.

Necesitamos un modelo que siempre devuelva un valor entre 0 y 1.


## La idea central


La regresión logística no predice una clase directamente.

Predice la probabilidad de pertenecer a la clase positiva.

Luego se aplica un umbral para decidir la clase.


### Ejemplo

P(spam | características) = 0.87

→ probabilidad alta → clase: spam

P(spam | características) = 0.12

→ probabilidad baja → clase: no spam


## La función sigmoide


La función sigmoide transforma cualquier número real en un valor entre 0 y 1.

σ(z) = 1 / (1 + e^−z)


### Comportamiento

| z | σ(z) |
| --- | --- |
| muy negativo | ≈ 0 |
| 0 | 0.5 |
| muy positivo | ≈ 1 |

* Si z → −∞, la probabilidad tiende a 0.
* Si z → +∞, la probabilidad tiende a 1.
* En z = 0, la probabilidad es exactamente 0.5.


### Z

z es la combinación lineal de las variables:

z = β0 + β1·X1 + β2·X2 + ... + βn·Xn

El modelo aprende los valores de β que mejor explican los datos.


## El modelo completo


P(y = 1 | X) = σ(β0 + β1·X1 + ... + βn·Xn)

Donde:

* P(y = 1 | X) → probabilidad de la clase positiva
* σ → función sigmoide
* β → coeficientes aprendidos durante el entrenamiento


## De probabilidad a clase


Se define un umbral (por defecto: 0.5).

* Si P ≥ 0.5 → clase positiva (1)
* Si P < 0.5 → clase negativa (0)


### Umbral

El umbral se puede ajustar según el problema:

* Detección de enfermedades → umbral bajo (preferir falsos positivos)
* Filtro de spam → umbral alto (evitar falsos positivos)

Cambiar el umbral afecta precisión y recall.


## Interpretación de los coeficientes


En regresión lineal, β1 = 2 significa "Y aumenta 2 por cada unidad de X".

En regresión logística, la interpretación es diferente.


### Odds y log-odds

La regresión logística modela el log-odds:

log(P / (1 − P)) = β0 + β1·X1 + ...

Un coeficiente positivo → aumenta la probabilidad de la clase 1.

Un coeficiente negativo → disminuye la probabilidad de la clase 1.


### Ejemplo

Si β1 = 1.5 para la variable "edad":

Aumentar la edad en una unidad multiplica los odds por e^1.5 ≈ 4.5.

La probabilidad de la clase positiva aumenta.


## Función de costo


No se usa el error cuadrático (MSE) porque genera una función no convexa.

Se usa la entropía cruzada binaria (log loss):

J = −(1/n) · Σ [ y·log(ŷ) + (1−y)·log(1−ŷ) ]


### ¿Por qué log loss?

* Penaliza fuertemente las predicciones incorrectas con alta confianza.
* Si el modelo predice P = 0.99 y la clase real es 0 → penalización muy alta.
* Si el modelo predice P = 0.51 y la clase real es 0 → penalización baja.


### Minimización

El modelo ajusta los coeficientes β usando gradiente descendente para minimizar J.

No existe solución cerrada como en regresión lineal.


## Métricas de evaluación


La exactitud (accuracy) no siempre es suficiente.

Si el 95% de los correos no son spam, un modelo que siempre diga "no spam" tiene accuracy = 95%.

Pero no detecta nada útil.


### Matriz de confusión

|  | Predicho: 1 | Predicho: 0 |
| --- | --- | --- |
| Real: 1 | VP (verdadero positivo) | FN (falso negativo) |
| Real: 0 | FP (falso positivo) | VN (verdadero negativo) |


### Precisión

Precisión = VP / (VP + FP)

De todas las predicciones positivas, ¿cuántas fueron correctas?

Alta precisión → pocos falsos positivos.


### Recall (Sensibilidad)

Recall = VP / (VP + FN)

De todos los casos reales positivos, ¿cuántos detectamos?

Alto recall → pocos falsos negativos.


### F1-Score

F1 = 2 · (Precisión · Recall) / (Precisión + Recall)

* Balance entre precisión y recall.
* Útil cuando las clases están desbalanceadas.
* Va de 0 a 1 — más cercano a 1 es mejor.


### ¿Cuándo usar cada métrica?

| Prioridad | Métrica clave |
| --- | --- |
| Minimizar falsos positivos | Precisión |
| Minimizar falsos negativos | Recall |
| Balance general | F1-Score |
| Clases balanceadas | Accuracy |


## Supuestos


### Independencia de observaciones

* Cada muestra debe ser independiente.
* No aplica directamente a series de tiempo.


### No multicolinealidad severa

* Las variables predictoras no deben estar altamente correlacionadas entre sí.
* Afecta la estabilidad de los coeficientes.


### Tamaño de muestra suficiente

* Con pocas observaciones, los coeficientes son inestables.
* Regla práctica: al menos 10 observaciones por variable.


### Relación lineal con el log-odds

* El modelo asume que la relación entre X y el log-odds es lineal.
* Si no lo es, el modelo puede tener bajo desempeño.


## Extensión multiclase


La regresión logística estándar es binaria.

Para más de dos clases se usan dos estrategias:


### One-vs-Rest (OvR)

* Se entrena un modelo por cada clase.
* Cada modelo predice la probabilidad de esa clase vs todas las demás.
* Se elige la clase con mayor probabilidad.


### Softmax (Regresión Logística Multinomial)

* Un solo modelo que predice probabilidades para todas las clases simultáneamente.
* La suma de todas las probabilidades es siempre 1.
* Más eficiente y coherente que OvR.


## Comparación con otros modelos


| Aspecto | Regresión Logística | Árbol de Decisión | KNN |
| --- | --- | --- | --- |
| Interpretabilidad | Alta | Alta | Baja |
| Frontera de decisión | Lineal | No lineal | No lineal |
| Sensible a escala | Sí | No | Sí |
| Requiere normalización | Sí | No | Sí |
| Velocidad de entrenamiento | Rápida | Rápida | N/A |


## Aplicaciones reales


* Detección de spam
* Diagnóstico médico (¿tiene la enfermedad?)
* Predicción de abandono (churn)
* Aprobación de crédito
* Clasificación de sentimientos (positivo / negativo)

La regresión logística es un buen punto de partida para cualquier problema de clasificación binaria.


## ¿Qué puede salir mal?


* Variables no escaladas → coeficientes difíciles de comparar
* Clases muy desbalanceadas → el modelo aprende a ignorar la clase minoritaria
* Variables altamente correlacionadas → coeficientes inestables
* Relación no lineal → modelo con bajo desempeño en datos complejos