Semestre 01, 2026
Las etiquetas son costosas.
Etiquetar datos requiere tiempo, dinero y conocimiento experto.
| Tipo de dato | Disponibilidad |
|---|---|
| Datos sin etiquetar | Abundante y barato |
| Datos etiquetados | Escaso y costoso |
Ejemplos: imágenes médicas, texto web, sensores industriales.
Requiere muchas etiquetas. No aprovecha los datos no etiquetados.
Ignora las etiquetas que sí existen. Pierde información valiosa.
Aprovecha ambos. Combina lo mejor de los dos mundos.
Combina una pequeña cantidad de datos etiquetados con una gran cantidad de datos no etiquetados durante el entrenamiento.
donde \(|D_L| \ll |D_U|\)
\(D_L\) — conjunto etiquetado (pequeño)\(D_U\) — conjunto no etiquetado (grande)Todo método semi supervisado se apoya en al menos un supuesto sobre los datos.
Si dos puntos están cerca en el espacio de características, probablemente tienen la misma etiqueta.
Un modelo suave entre puntos vecinos generaliza mejor.
Los datos forman grupos naturales. Los puntos dentro del mismo clúster comparten etiqueta.
La frontera de decisión no debe atravesar regiones densas.
Los datos de alta dimensión se encuentran sobre una variedad de dimensión menor. La estructura real del espacio es más simple que el espacio original.
Las etiquetas varían suavemente sobre esa variedad.
1. Entrenar clasificador con D_L
2. Para cada iteración:
a. Predecir etiquetas y probabilidades sobre D_U
b. Seleccionar predicciones con confianza > umbral
c. Moverlas de D_U a D_L
d. Re-entrenar el clasificador
3. Repetir hasta convergencia o max_iter
| Parámetro | Efecto |
|---|---|
threshold | Mínima probabilidad para aceptar una pseudo-etiqueta |
k_best | Alternativa: aceptar los K más confiables por iteración |
max_iter | Número máximo de iteraciones |
| Ventajas | Limitaciones |
|---|---|
| Simple y genérico | El error se amplifica con iteraciones |
| Compatible con cualquier clasificador | Sensible a la calibración |
| No requiere arquitectura especial | Puede divergir con umbral mal ajustado |
Divide las variables en dos vistas independientes. Cada modelo etiqueta datos confiables para el otro.
Las dos vistas deben ser:
Cada vista sola puede aprender el concepto objetivo.
Las vistas no comparten información redundante.
| Vista 1 | Vista 2 |
|---|---|
| Texto de la página | Texto de los hiperenlaces que apuntan a ella |
| Semántica del contenido | Semántica del contexto externo |
Dos clasificadores se enseñan mutuamente desde perspectivas distintas.
1. Dividir variables en vista_1 y vista_2
2. Entrenar clf_1 en (D_L, vista_1) y clf_2 en (D_L, vista_2)
3. Para cada iteración:
a. clf_1 etiqueta con alta confianza → agrega a D_L de clf_2
b. clf_2 etiqueta con alta confianza → agrega a D_L de clf_1
c. Re-entrenar ambos
4. Predicción final: combinar ambos modelos
| Ventajas | Limitaciones |
|---|---|
| Dos modelos se corrigen mutuamente | Requiere dos vistas naturales e independientes |
| Más robusto que self-training | Difícil dividir las variables sin perder información |
| Reduce propagación de errores | No aplicable si solo hay una vista |
Los datos se representan como un grafo de similitud. Las etiquetas de los nodos conocidos se propagan hacia los vecinos.
Cada instancia es un nodo. Los bordes conectan puntos similares, ponderados por similitud.
\(K(x, x') = \exp(-\gamma \|x - x'\|^2)\)
Grafo completamente conectado.
Conectar solo los K vecinos más cercanos.
Grafo disperso, más eficiente.
Las etiquetas conocidas se mantienen fijas. Cada nodo adopta la distribución de sus vecinos ponderada por similitud. Repite hasta convergencia.
Donde \(W\) es la matriz de similitud y \(D\) la matriz diagonal de grados.
Similar a Label Propagation pero las etiquetas conocidas pueden ajustarse levemente. Más robusto ante ruido.
\(\alpha\) controla qué tanto se puede ajustar la etiqueta original (0 = fija, 1 = libre).
| Aspecto | Label Propagation | Label Spreading |
|---|---|---|
| Clamping | Fijo (\(\alpha = 0\)) | Suave (\(0 < \alpha < 1\)) |
| Robustez al ruido | Menor | Mayor |
| Matriz usada | Similitud directa | Laplaciano normalizado |
| Parámetro \(\alpha\) | No aplica | Controla rigidez de etiquetas |
Busca el hiperplano que maximiza el margen entre las clases etiquetadas.
Solo usa \(D_L\) — ignora completamente \(D_U\).
Extiende SVM para usar también los datos no etiquetados.
Los datos no etiquetados deben caer en regiones de baja densidad.
Si la frontera de decisión pasa por regiones densas de datos, es una mala frontera.
TSVM fuerza que la frontera atraviese regiones vacías o de baja densidad. Coherente con el supuesto de clúster.
Maximizar el margen sobre \(D_L\) y exigir que los puntos en \(D_U\) tengan alta confianza (lejos de la frontera).
| Ventajas | Limitaciones |
|---|---|
| Aprovecha estructura de datos no etiquetados | Optimización no convexa, costosa |
| Margen amplio en zonas de baja densidad | No escala bien a datasets grandes |
| Extensión natural de SVM | Difícil de implementar en la práctica |
Aprenden cómo se generan los datos. Modelan la distribución conjunta \(P(x, y)\).
Asignar probabilidades de pertenencia a cada componente para los datos no etiquetados.
Re-estimar los parámetros de las gaussianas usando todos los datos.
Se alterna hasta convergencia.
El modelo generativo debe ser correcto.
Si los datos no siguen una mezcla gaussiana, los datos no etiquetados perjudicarán el rendimiento.
| Ventajas | Limitaciones |
|---|---|
| Marco probabilístico completo | Sensible al modelo generativo asumido |
| Incorpora datos no etiquetados naturalmente | Si el modelo es incorrecto, el rendimiento empeora |
| Produce probabilidades de clase | Mayor complejidad que métodos discriminativos |
Clustering guiado por conocimiento parcial de etiquetas.
Se introducen restricciones sobre pares de instancias:
| Tipo | Significado |
|---|---|
| Must-link | Estos dos puntos deben pertenecer al mismo clúster |
| Cannot-link | Estos dos puntos deben pertenecer a clústeres distintos |
Si \(x_i\) y \(x_j\) tienen la misma etiqueta → must-link. Si tienen distinta etiqueta → cannot-link.
Constrained Object Placement K-Means — variante que respeta las restricciones al asignar puntos al centroide más cercano.
1. Inicializar K centroides
2. Para cada punto x_i:
a. Ordenar centroides por distancia a x_i
b. Asignar al centroide más cercano que no viole restricciones
3. Recalcular centroides
4. Repetir hasta convergencia
Si ninguna asignación es válida, el algoritmo falla → las restricciones son inconsistentes.
| Ventajas | Limitaciones |
|---|---|
| Usa conocimiento parcial sin etiquetado completo | Puede fallar si las restricciones son inconsistentes |
| Mejora calidad del clustering | Complejidad mayor que K-Means clásico |
| Flexible: solo se necesitan pares | Sensible a la inicialización |
Combina SVM con la estructura de grafo del Laplaciano. Busca una función de clasificación precisa y suave sobre el grafo de datos.
Maximizar margen usando solo \(D_L\).
Propagar etiquetas por el grafo usando \(D_L \cup D_U\).
Maximizar margen y exigir suavidad sobre el grafo simultáneamente.
Minimizar:
Error en los datos etiquetados
Regularización estándar (complejidad del modelo)
Suavidad sobre el grafo (penaliza cambios bruscos entre vecinos)
| Parámetro | Efecto |
|---|---|
| \(\lambda_A\) | Regularización del espacio de funciones (como en SVM clásico) |
| \(\lambda_I\) | Peso del término de suavidad sobre el grafo |
| \(\gamma\) (kernel) | Define la similitud entre puntos en el grafo |
| Ventajas | Limitaciones |
|---|---|
| Aprovecha la geometría intrínseca de los datos | Mayor costo computacional que SVM y TSVM |
| Unifica margen y suavidad en un solo objetivo | Requiere construir y almacenar el grafo completo |
| Sólido fundamento teórico | Difícil de escalar a datasets grandes |
| Método | Supuesto principal | Complejidad | Escalabilidad |
|---|---|---|---|
| Self-Training | Suavidad | Baja | Alta |
| Co-Training | Dos vistas independientes | Media | Alta |
| Label Propagation | Suavidad + Clúster | Media | Media |
| Label Spreading | Suavidad + Clúster | Media | Media |
| TSVM | Clúster (baja densidad) | Alta | Baja |
| Modelos Generativos | Distribución conocida | Media | Media |
| K-Means Restricciones | Clúster | Media | Media |
| Laplacian SVM | Variedad + Suavidad | Alta | Baja |
Si los datos no etiquetados no son representativos de la distribución real, agregar más datos puede perjudicar el modelo.
Siempre validar contra una línea base supervisada entrenada solo con \(D_L\).