Aprendizaje Semi Supervisado

Semestre 01, 2026

Motivación

El problema del etiquetado

Las etiquetas son costosas.

Etiquetar datos requiere tiempo, dinero y conocimiento experto.

La brecha en la práctica

Tipo de dato	Disponibilidad
Datos sin etiquetar	Abundante y barato
Datos etiquetados	Escaso y costoso

Ejemplos: imágenes médicas, texto web, sensores industriales.

El dilema

📌

Supervisado

Requiere muchas etiquetas. No aprovecha los datos no etiquetados.

🔍

No supervisado

Ignora las etiquetas que sí existen. Pierde información valiosa.

✅

Semi supervisado

Aprovecha ambos. Combina lo mejor de los dos mundos.

Definición formal

Combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos no etiquetados durante el entrenamiento.

\[ D = D_L \cup D_U \]

donde \(|D_L| \ll |D_U|\)

\(D_L\) — conjunto etiquetado (pequeño)

\(D_U\) — conjunto no etiquetado (grande)

Base teórica

Supuestos fundamentales

Todo método semi supervisado se apoya en al menos un supuesto sobre los datos.

Supuesto 1

Supuesto de suavidad

Si dos puntos están cerca en el espacio de características, probablemente tienen la misma etiqueta.

Un modelo suave entre puntos vecinos generaliza mejor.

Supuesto 2

Supuesto de clúster

Los datos forman grupos naturales. Los puntos dentro del mismo clúster comparten etiqueta.

La frontera de decisión no debe atravesar regiones densas.

Supuesto 3

Supuesto de variedad

Los datos de alta dimensión se encuentran sobre una variedad de dimensión menor. La estructura real del espacio es más simple que el espacio original.

Las etiquetas varían suavemente sobre esa variedad.

Método 1

Self-Training

1
Entrenar modelo inicial con \(D_L\)

2
Predecir etiquetas para \(D_U\)

3
Agregar predicciones más confiables y repetir

Algoritmo

1. Entrenar clasificador con D_L
2. Para cada iteración:
   a. Predecir etiquetas y probabilidades sobre D_U
   b. Seleccionar predicciones con confianza > umbral
   c. Moverlas de D_U a D_L
   d. Re-entrenar el clasificador
3. Repetir hasta convergencia o max_iter

Parámetros clave

Parámetro	Efecto
`threshold`	Mínima probabilidad para aceptar una pseudo-etiqueta
`k_best`	Alternativa: aceptar los K más confiables por iteración
`max_iter`	Número máximo de iteraciones

El clasificador base debe producir probabilidades calibradas. Un clasificador mal calibrado generará pseudo-etiquetas erróneas que se propagan y amplifican.

Ventajas y limitaciones

Ventajas	Limitaciones
Simple y genérico	El error se amplifica con iteraciones
Compatible con cualquier clasificador	Sensible a la calibración
No requiere arquitectura especial	Puede divergir con umbral mal ajustado

Método 2

Co-Training

Divide las variables en dos vistas independientes. Cada modelo etiqueta datos confiables para el otro.

Supuesto clave

Las dos vistas deben ser:

Suficientes

Cada vista sola puede aprender el concepto objetivo.

Independientes condicionalmente

Las vistas no comparten información redundante.

Ejemplo: clasificación de páginas web

Vista 1	Vista 2
Texto de la página	Texto de los hiperenlaces que apuntan a ella
Semántica del contenido	Semántica del contexto externo

Dos clasificadores se enseñan mutuamente desde perspectivas distintas.

Proceso

1. Dividir variables en vista_1 y vista_2
2. Entrenar clf_1 en (D_L, vista_1) y clf_2 en (D_L, vista_2)
3. Para cada iteración:
   a. clf_1 etiqueta con alta confianza → agrega a D_L de clf_2
   b. clf_2 etiqueta con alta confianza → agrega a D_L de clf_1
   c. Re-entrenar ambos
4. Predicción final: combinar ambos modelos

Ventajas y limitaciones

Ventajas	Limitaciones
Dos modelos se corrigen mutuamente	Requiere dos vistas naturales e independientes
Más robusto que self-training	Difícil dividir las variables sin perder información
Reduce propagación de errores	No aplicable si solo hay una vista

Método 3

Propagación de Etiquetas

Los datos se representan como un grafo de similitud. Las etiquetas de los nodos conocidos se propagan hacia los vecinos.

Construcción del grafo

Cada instancia es un nodo. Los bordes conectan puntos similares, ponderados por similitud.

Kernel RBF

\(K(x, x') = \exp(-\gamma \|x - x'\|^2)\)

Grafo completamente conectado.

Kernel KNN

Conectar solo los K vecinos más cercanos.

Grafo disperso, más eficiente.

Label Propagation

Propagación estricta

Las etiquetas conocidas se mantienen fijas. Cada nodo adopta la distribución de sus vecinos ponderada por similitud. Repite hasta convergencia.

\[ F = (D - W)^{-1} Y \]

Donde \(W\) es la matriz de similitud y \(D\) la matriz diagonal de grados.

Label Spreading

Propagación con regularización

Similar a Label Propagation pero las etiquetas conocidas pueden ajustarse levemente. Más robusto ante ruido.

\[ F^* = \alpha (D^{-1/2} W D^{-1/2}) F + (1 - \alpha) Y \]

\(\alpha\) controla qué tanto se puede ajustar la etiqueta original (0 = fija, 1 = libre).

Comparación LP vs LS

Aspecto	Label Propagation	Label Spreading
Clamping	Fijo (\(\alpha = 0\))	Suave (\(0 < \alpha < 1\))
Robustez al ruido	Menor	Mayor
Matriz usada	Similitud directa	Laplaciano normalizado
Parámetro \(\alpha\)	No aplica	Controla rigidez de etiquetas

¿Cuándo usar propagación?

Los datos tienen estructura de grafo natural
Existen clústeres bien definidos
Los datos etiquetados y no etiquetados están mezclados en el mismo espacio

Método 4

SVM Semi Supervisado

SVM Clásico

Busca el hiperplano que maximiza el margen entre las clases etiquetadas.

Solo usa \(D_L\) — ignora completamente \(D_U\).

Transductive SVM (TSVM)

Extiende SVM para usar también los datos no etiquetados.

Los datos no etiquetados deben caer en regiones de baja densidad.

Intuición de TSVM

Si la frontera de decisión pasa por regiones densas de datos, es una mala frontera.

TSVM fuerza que la frontera atraviese regiones vacías o de baja densidad. Coherente con el supuesto de clúster.

Formulación

Maximizar el margen sobre \(D_L\) y exigir que los puntos en \(D_U\) tengan alta confianza (lejos de la frontera).

Es un problema de optimización no convexo → se resuelve con aproximaciones iterativas.

Ventajas y limitaciones

Ventajas	Limitaciones
Aprovecha estructura de datos no etiquetados	Optimización no convexa, costosa
Margen amplio en zonas de baja densidad	No escala bien a datasets grandes
Extensión natural de SVM	Difícil de implementar en la práctica

Método 5

Modelos Generativos

Aprenden cómo se generan los datos. Modelan la distribución conjunta \(P(x, y)\).

Mezcla Gaussiana Semi Supervisada

Se asume que los datos provienen de una mezcla de distribuciones gaussianas
Cada componente de la mezcla corresponde a una clase
Los datos etiquetados anclan qué componente pertenece a cada clase
Los datos no etiquetados refinan los parámetros de la distribución

Expectation-Maximization (EM)

Paso E (Expectation)

Asignar probabilidades de pertenencia a cada componente para los datos no etiquetados.

Paso M (Maximization)

Re-estimar los parámetros de las gaussianas usando todos los datos.

Se alterna hasta convergencia.

Supuesto crítico

El modelo generativo debe ser correcto.

Si los datos no siguen una mezcla gaussiana, los datos no etiquetados perjudicarán el rendimiento.

Ventajas	Limitaciones
Marco probabilístico completo	Sensible al modelo generativo asumido
Incorpora datos no etiquetados naturalmente	Si el modelo es incorrecto, el rendimiento empeora
Produce probabilidades de clase	Mayor complejidad que métodos discriminativos

Método 6

K-Means con Restricciones

Clustering guiado por conocimiento parcial de etiquetas.

Restricciones de pares

Se introducen restricciones sobre pares de instancias:

Tipo	Significado
Must-link	Estos dos puntos deben pertenecer al mismo clúster
Cannot-link	Estos dos puntos deben pertenecer a clústeres distintos

Si \(x_i\) y \(x_j\) tienen la misma etiqueta → must-link. Si tienen distinta etiqueta → cannot-link.

COP K-Means

Constrained Object Placement K-Means — variante que respeta las restricciones al asignar puntos al centroide más cercano.

1. Inicializar K centroides
2. Para cada punto x_i:
   a. Ordenar centroides por distancia a x_i
   b. Asignar al centroide más cercano que no viole restricciones
3. Recalcular centroides
4. Repetir hasta convergencia

Si ninguna asignación es válida, el algoritmo falla → las restricciones son inconsistentes.

Ventajas y limitaciones

Ventajas	Limitaciones
Usa conocimiento parcial sin etiquetado completo	Puede fallar si las restricciones son inconsistentes
Mejora calidad del clustering	Complejidad mayor que K-Means clásico
Flexible: solo se necesitan pares	Sensible a la inicialización

Método 7

Laplacian SVM

Combina SVM con la estructura de grafo del Laplaciano. Busca una función de clasificación precisa y suave sobre el grafo de datos.

Motivación

SVM clásico

Maximizar margen usando solo \(D_L\).

Label Propagation

Propagar etiquetas por el grafo usando \(D_L \cup D_U\).

Laplacian SVM

Maximizar margen y exigir suavidad sobre el grafo simultáneamente.

Formulación

Minimizar:

\[ \frac{1}{l} \sum_{i=1}^{l} V(f(x_i), y_i) + \lambda_A \|f\|^2 + \lambda_I f^T L f \]

1er término

Error en los datos etiquetados

2do término

Regularización estándar (complejidad del modelo)

3er término

Suavidad sobre el grafo (penaliza cambios bruscos entre vecinos)

Parámetros

Parámetro	Efecto
\(\lambda_A\)	Regularización del espacio de funciones (como en SVM clásico)
\(\lambda_I\)	Peso del término de suavidad sobre el grafo
\(\gamma\) (kernel)	Define la similitud entre puntos en el grafo

Ventajas y limitaciones

Ventajas	Limitaciones
Aprovecha la geometría intrínseca de los datos	Mayor costo computacional que SVM y TSVM
Unifica margen y suavidad en un solo objetivo	Requiere construir y almacenar el grafo completo
Sólido fundamento teórico	Difícil de escalar a datasets grandes

Resumen

Comparación de métodos

Método	Supuesto principal	Complejidad	Escalabilidad
Self-Training	Suavidad	Baja	Alta
Co-Training	Dos vistas independientes	Media	Alta
Label Propagation	Suavidad + Clúster	Media	Media
Label Spreading	Suavidad + Clúster	Media	Media
TSVM	Clúster (baja densidad)	Alta	Baja
Modelos Generativos	Distribución conocida	Media	Media
K-Means Restricciones	Clúster	Media	Media
Laplacian SVM	Variedad + Suavidad	Alta	Baja

¿Cuándo usar aprendizaje semi supervisado?

Hay datos etiquetados insuficientes para un buen modelo supervisado
Etiquetar más datos es costoso o imposible
Los datos no etiquetados son abundantes y representativos
Los datos cumplen con al menos un supuesto de distribución

Riesgo: degradación semi supervisada

Si los datos no etiquetados no son representativos de la distribución real, agregar más datos puede perjudicar el modelo.

Siempre validar contra una línea base supervisada entrenada solo con \(D_L\).

Takeaways

Principios clave

El aprendizaje semi supervisado no es gratis — requiere supuestos sobre los datos
Self-training es simple pero propaga errores
Los métodos basados en grafos explotan la estructura geométrica local
TSVM y Laplacian SVM son más poderosos pero más costosos computacionalmente
Siempre comparar contra un modelo supervisado entrenado solo con \(D_L\)
Los datos no etiquetados mal elegidos pueden empeorar el modelo