← CC3074

Aprendizaje Semi Supervisado

Semestre 01, 2026

Motivación

El problema del etiquetado

Las etiquetas son costosas.

Etiquetar datos requiere tiempo, dinero y conocimiento experto.

La brecha en la práctica

Tipo de datoDisponibilidad
Datos sin etiquetarAbundante y barato
Datos etiquetadosEscaso y costoso

Ejemplos: imágenes médicas, texto web, sensores industriales.

El dilema

📌
Supervisado

Requiere muchas etiquetas. No aprovecha los datos no etiquetados.

🔍
No supervisado

Ignora las etiquetas que sí existen. Pierde información valiosa.

Semi supervisado

Aprovecha ambos. Combina lo mejor de los dos mundos.

Definición formal

Combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos no etiquetados durante el entrenamiento.

\[ D = D_L \cup D_U \]

donde \(|D_L| \ll |D_U|\)

\(D_L\) — conjunto etiquetado (pequeño)
\(D_U\) — conjunto no etiquetado (grande)
Base teórica

Supuestos fundamentales

Todo método semi supervisado se apoya en al menos un supuesto sobre los datos.

Supuesto 1

Supuesto de suavidad

Si dos puntos están cerca en el espacio de características, probablemente tienen la misma etiqueta.

Un modelo suave entre puntos vecinos generaliza mejor.

Supuesto 2

Supuesto de clúster

Los datos forman grupos naturales. Los puntos dentro del mismo clúster comparten etiqueta.

La frontera de decisión no debe atravesar regiones densas.

Supuesto 3

Supuesto de variedad

Los datos de alta dimensión se encuentran sobre una variedad de dimensión menor. La estructura real del espacio es más simple que el espacio original.

Las etiquetas varían suavemente sobre esa variedad.

Método 1

Self-Training

1
Entrenar modelo inicial con \(D_L\)
2
Predecir etiquetas para \(D_U\)
3
Agregar predicciones más confiables y repetir

Algoritmo

1. Entrenar clasificador con D_L
2. Para cada iteración:
   a. Predecir etiquetas y probabilidades sobre D_U
   b. Seleccionar predicciones con confianza > umbral
   c. Moverlas de D_U a D_L
   d. Re-entrenar el clasificador
3. Repetir hasta convergencia o max_iter

Parámetros clave

ParámetroEfecto
thresholdMínima probabilidad para aceptar una pseudo-etiqueta
k_bestAlternativa: aceptar los K más confiables por iteración
max_iterNúmero máximo de iteraciones
El clasificador base debe producir probabilidades calibradas. Un clasificador mal calibrado generará pseudo-etiquetas erróneas que se propagan y amplifican.

Ventajas y limitaciones

VentajasLimitaciones
Simple y genéricoEl error se amplifica con iteraciones
Compatible con cualquier clasificadorSensible a la calibración
No requiere arquitectura especialPuede divergir con umbral mal ajustado
Método 2

Co-Training

Divide las variables en dos vistas independientes. Cada modelo etiqueta datos confiables para el otro.

Supuesto clave

Las dos vistas deben ser:

Suficientes

Cada vista sola puede aprender el concepto objetivo.

Independientes condicionalmente

Las vistas no comparten información redundante.

Ejemplo: clasificación de páginas web

Vista 1Vista 2
Texto de la páginaTexto de los hiperenlaces que apuntan a ella
Semántica del contenidoSemántica del contexto externo

Dos clasificadores se enseñan mutuamente desde perspectivas distintas.

Proceso

1. Dividir variables en vista_1 y vista_2
2. Entrenar clf_1 en (D_L, vista_1) y clf_2 en (D_L, vista_2)
3. Para cada iteración:
   a. clf_1 etiqueta con alta confianza → agrega a D_L de clf_2
   b. clf_2 etiqueta con alta confianza → agrega a D_L de clf_1
   c. Re-entrenar ambos
4. Predicción final: combinar ambos modelos

Ventajas y limitaciones

VentajasLimitaciones
Dos modelos se corrigen mutuamenteRequiere dos vistas naturales e independientes
Más robusto que self-trainingDifícil dividir las variables sin perder información
Reduce propagación de erroresNo aplicable si solo hay una vista
Método 3

Propagación de Etiquetas

Los datos se representan como un grafo de similitud. Las etiquetas de los nodos conocidos se propagan hacia los vecinos.

Construcción del grafo

Cada instancia es un nodo. Los bordes conectan puntos similares, ponderados por similitud.

Kernel RBF

\(K(x, x') = \exp(-\gamma \|x - x'\|^2)\)

Grafo completamente conectado.

Kernel KNN

Conectar solo los K vecinos más cercanos.

Grafo disperso, más eficiente.

Label Propagation

Propagación estricta

Las etiquetas conocidas se mantienen fijas. Cada nodo adopta la distribución de sus vecinos ponderada por similitud. Repite hasta convergencia.

\[ F = (D - W)^{-1} Y \]

Donde \(W\) es la matriz de similitud y \(D\) la matriz diagonal de grados.

Label Spreading

Propagación con regularización

Similar a Label Propagation pero las etiquetas conocidas pueden ajustarse levemente. Más robusto ante ruido.

\[ F^* = \alpha (D^{-1/2} W D^{-1/2}) F + (1 - \alpha) Y \]

\(\alpha\) controla qué tanto se puede ajustar la etiqueta original (0 = fija, 1 = libre).

Comparación LP vs LS

AspectoLabel PropagationLabel Spreading
ClampingFijo (\(\alpha = 0\))Suave (\(0 < \alpha < 1\))
Robustez al ruidoMenorMayor
Matriz usadaSimilitud directaLaplaciano normalizado
Parámetro \(\alpha\)No aplicaControla rigidez de etiquetas

¿Cuándo usar propagación?

  • Los datos tienen estructura de grafo natural
  • Existen clústeres bien definidos
  • Los datos etiquetados y no etiquetados están mezclados en el mismo espacio
Método 4

SVM Semi Supervisado

SVM Clásico

Busca el hiperplano que maximiza el margen entre las clases etiquetadas.

Solo usa \(D_L\) — ignora completamente \(D_U\).

Transductive SVM (TSVM)

Extiende SVM para usar también los datos no etiquetados.

Los datos no etiquetados deben caer en regiones de baja densidad.

Intuición de TSVM

Si la frontera de decisión pasa por regiones densas de datos, es una mala frontera.

TSVM fuerza que la frontera atraviese regiones vacías o de baja densidad. Coherente con el supuesto de clúster.

Formulación

Maximizar el margen sobre \(D_L\) y exigir que los puntos en \(D_U\) tengan alta confianza (lejos de la frontera).

Es un problema de optimización no convexo → se resuelve con aproximaciones iterativas.

Ventajas y limitaciones

VentajasLimitaciones
Aprovecha estructura de datos no etiquetadosOptimización no convexa, costosa
Margen amplio en zonas de baja densidadNo escala bien a datasets grandes
Extensión natural de SVMDifícil de implementar en la práctica
Método 5

Modelos Generativos

Aprenden cómo se generan los datos. Modelan la distribución conjunta \(P(x, y)\).

Mezcla Gaussiana Semi Supervisada

  • Se asume que los datos provienen de una mezcla de distribuciones gaussianas
  • Cada componente de la mezcla corresponde a una clase
  • Los datos etiquetados anclan qué componente pertenece a cada clase
  • Los datos no etiquetados refinan los parámetros de la distribución

Expectation-Maximization (EM)

Paso E (Expectation)

Asignar probabilidades de pertenencia a cada componente para los datos no etiquetados.

Paso M (Maximization)

Re-estimar los parámetros de las gaussianas usando todos los datos.

Se alterna hasta convergencia.

Supuesto crítico

El modelo generativo debe ser correcto.

Si los datos no siguen una mezcla gaussiana, los datos no etiquetados perjudicarán el rendimiento.

VentajasLimitaciones
Marco probabilístico completoSensible al modelo generativo asumido
Incorpora datos no etiquetados naturalmenteSi el modelo es incorrecto, el rendimiento empeora
Produce probabilidades de claseMayor complejidad que métodos discriminativos
Método 6

K-Means con Restricciones

Clustering guiado por conocimiento parcial de etiquetas.

Restricciones de pares

Se introducen restricciones sobre pares de instancias:

TipoSignificado
Must-linkEstos dos puntos deben pertenecer al mismo clúster
Cannot-linkEstos dos puntos deben pertenecer a clústeres distintos

Si \(x_i\) y \(x_j\) tienen la misma etiqueta → must-link. Si tienen distinta etiqueta → cannot-link.

COP K-Means

Constrained Object Placement K-Means — variante que respeta las restricciones al asignar puntos al centroide más cercano.

1. Inicializar K centroides
2. Para cada punto x_i:
   a. Ordenar centroides por distancia a x_i
   b. Asignar al centroide más cercano que no viole restricciones
3. Recalcular centroides
4. Repetir hasta convergencia

Si ninguna asignación es válida, el algoritmo falla → las restricciones son inconsistentes.

Ventajas y limitaciones

VentajasLimitaciones
Usa conocimiento parcial sin etiquetado completoPuede fallar si las restricciones son inconsistentes
Mejora calidad del clusteringComplejidad mayor que K-Means clásico
Flexible: solo se necesitan paresSensible a la inicialización
Método 7

Laplacian SVM

Combina SVM con la estructura de grafo del Laplaciano. Busca una función de clasificación precisa y suave sobre el grafo de datos.

Motivación

SVM clásico

Maximizar margen usando solo \(D_L\).

Label Propagation

Propagar etiquetas por el grafo usando \(D_L \cup D_U\).

Laplacian SVM

Maximizar margen y exigir suavidad sobre el grafo simultáneamente.

Formulación

Minimizar:

\[ \frac{1}{l} \sum_{i=1}^{l} V(f(x_i), y_i) + \lambda_A \|f\|^2 + \lambda_I f^T L f \]
1er término

Error en los datos etiquetados

2do término

Regularización estándar (complejidad del modelo)

3er término

Suavidad sobre el grafo (penaliza cambios bruscos entre vecinos)

Parámetros

ParámetroEfecto
\(\lambda_A\)Regularización del espacio de funciones (como en SVM clásico)
\(\lambda_I\)Peso del término de suavidad sobre el grafo
\(\gamma\) (kernel)Define la similitud entre puntos en el grafo

Ventajas y limitaciones

VentajasLimitaciones
Aprovecha la geometría intrínseca de los datosMayor costo computacional que SVM y TSVM
Unifica margen y suavidad en un solo objetivoRequiere construir y almacenar el grafo completo
Sólido fundamento teóricoDifícil de escalar a datasets grandes
Resumen

Comparación de métodos

MétodoSupuesto principalComplejidadEscalabilidad
Self-TrainingSuavidadBajaAlta
Co-TrainingDos vistas independientesMediaAlta
Label PropagationSuavidad + ClústerMediaMedia
Label SpreadingSuavidad + ClústerMediaMedia
TSVMClúster (baja densidad)AltaBaja
Modelos GenerativosDistribución conocidaMediaMedia
K-Means RestriccionesClústerMediaMedia
Laplacian SVMVariedad + SuavidadAltaBaja

¿Cuándo usar aprendizaje semi supervisado?

  • Hay datos etiquetados insuficientes para un buen modelo supervisado
  • Etiquetar más datos es costoso o imposible
  • Los datos no etiquetados son abundantes y representativos
  • Los datos cumplen con al menos un supuesto de distribución

Riesgo: degradación semi supervisada

Si los datos no etiquetados no son representativos de la distribución real, agregar más datos puede perjudicar el modelo.

Siempre validar contra una línea base supervisada entrenada solo con \(D_L\).

Takeaways

Principios clave

  • El aprendizaje semi supervisado no es gratis — requiere supuestos sobre los datos
  • Self-training es simple pero propaga errores
  • Los métodos basados en grafos explotan la estructura geométrica local
  • TSVM y Laplacian SVM son más poderosos pero más costosos computacionalmente
  • Siempre comparar contra un modelo supervisado entrenado solo con \(D_L\)
  • Los datos no etiquetados mal elegidos pueden empeorar el modelo