Calidad de los datos en Inteligencia Artificial: un enfoque teórico de la información
La expresión " basura dentro, basura fuera" se cita a menudo en Inteligencia Artificial (IA), pero pocos entienden sus fundamentos teóricos.
La carrera por el rendimiento en inteligencia artificial suele centrarse en laarquitectura de los modelos, la potencia de cálculo o las técnicas de optimización.
Sin embargo,hay un aspecto crucial que se sigue subestimando: la calidad de los datos de entrenamiento. Imagínese construir una casa sobre cimientos inestables: por muy sofisticada que sea la arquitectura, la estructura se verá comprometida.
Del mismo modo, un modelo de IA entrenado con datos ruidosos o mal etiquetados reproducirá inevitablemente estos defectos. Esta realidad no es sólo empírica, sino que se deduce directamente de los principios fundamentales de la teoría de la información. Comprender estos principios nos ayuda a entender por qué la inversión en la calidad de los datos suele ser más importante que la inversión en la complejidad de los modelos.
Fundamentos teóricos
Entropía de Shannon: medición de la información
Claude Shannon revolucionó nuestra comprensión de la información al proponer una medida cuantitativa.La entropía de Shannon viene dada por
H = -∑ p(x) log₂(p(x))
Dónde:
- H es la entropía (medida en bits)
- p(x) es la probabilidad de que se produzca un suceso x
- ∑ representa la suma de todos los sucesos posibles
Esta fórmula nos dice algo fundamental: la información está ligada a la imprevisibilidad. Un acontecimiento determinado (p=1) no aporta información nueva, mientras que un acontecimiento poco frecuente aporta mucha información.
Aplicación a los datos de formación
En un conjunto de datos de formación, la información total puede desglosarse del siguiente modo:
H_total = H_utilizable + H_ruido
Dónde:
- H_útil representa la información relevante para nuestra tarea
- H_noise representa imperfecciones, errores y artefactos
Esta descomposición tiene una consecuencia crucial: como un modelo de IA no puede distinguir intrínsecamente la información útil del ruido, aprenderá ambas cosas.
Se corre el riesgo de reproducir el ruido en la salida del modelo.
El principio de conservación de la información
El límite fundamental
Un teorema fundamental de la teoría de la información afirma que un sistema no puede crear información; sólo puede transformarla. Para un modelo de IA, esto significa:
Calidad_de_salida ≤ Calidad_de_entrada
Esta desigualdad es estricta: ninguna arquitectura, por sofisticada que sea, puede superar este límite.
Estudio de caso: ampliación de imágenes
Tomemos el ejemplo de la ampliación de fotos, en la que queremos aumentar la resolución de una imagen:
La cadena de calidad
Para una imagen de alta resolución (HR) generada a partir de una imagen de baja resolución (LR) :
PSNR_output ≤ PSNR_input - 10*log₁₀(factor de aumento²)
Dónde:
- PSNR (Peak Signal-to-Noise Ratio) mide la calidad de la imagen
- upscaling_factor es la relación entre resoluciones (por ejemplo, de 2 a doble)
Impacto de los datos de formación
Consideremos dos escenarios de formación:
1. Conjunto de datos de alta calidad
- Imágenes HR: Fotos 4K sin comprimir
- PSNR media: 45 dB
- Posible resultado: ~35 dB después de la conversión x2
2. Conjunto de datos Pobre
- Imágenes HR: fotos comprimidas en JPEG
- PSNR media: 30 dB
- Resultado máximo: ~20 dB después de la conversión x2
La diferencia de 15 dB en el resultado final está directamente relacionada con la calidad de los datos de entrenamiento.
La PSNR en dB es una medida logarítmica que compara la máxima señal posible con el ruido (el error). Cuanto mayor sea el número de dB, mejor será la calidad:
El PSNR (Peak Signal-to-Noise Ratio) se define como :
PSNR = 10 * log₁₀(MAX²/MSE)
Dónde:
- MAX es el valor máximo posible del píxel (255 para 8 bits)
- MSE es el error cuadrático medio
En el caso del upscaling, cuando la resolución se incrementa en un factor n, el MSE tiende a aumentar, lo que reduce efectivamente la PSNR. La calidad del resultado es, por tanto, muy sensible al nivel de ruido.
Orden de magnitud de PSNR en dB para imágenes
- Imagen JPEG de alta calidad: ~40-45dB
- Compresión JPEG media: ~30-35dB
- Una imagen muy comprimida: ~20-25dB
dB es una escala logarítmica:
- +3dB = 2x mejor calidad
- +10dB = 10 veces mejor calidad
- +20dB = 100 veces mejor calidad
Por tanto, cuando decimos "~35dB después de reescalado x2", significa que :
- La imagen resultante es de buena calidad
- Las diferencias con la imagen "perfecta" son difíciles de apreciar
- Esto es típico de un buen algoritmo de reescalado
El efecto cascada: el peligro de los datos generados por IA
Cuando las imágenes generadas por la IA se utilizan para entrenar otros modelos, la degradación sigue una progresión geométrica:
Generación_calidad_n = Calidad_original * (1 - τ)ⁿ
Dónde:
- τ es la tasa de degradación por generación
- n es el número de generaciones
Esta fórmula explica por qué el uso de imágenes generadas por IA para entrenar otros modelos conduce a una rápida degradación de la calidad.
La importancia del etiquetado
La calidad de las etiquetas es tan crucial como la de los propios datos. Para un modelo supervisado :
Precisión_máxima = min(Calidad_datos, Etiquetas_precisión)
Esta sencilla fórmula demuestra que, incluso con datos perfectos, las etiquetas imprecisas limitan estrictamente el rendimiento posible.
Recomendaciones prácticas
1. Preparación del conjunto de datos
Arriba, nuestra demostración simplista ilustra la importancia crucial de la calidad de los datos utilizados para el entrenamiento. Le invitamos a leer este artículo
para saber más sobre cómo preparar un conjunto de datos de calidad para sus modelos de inteligencia artificial. No podemos entrar en detalles en este artículo, pero el lector informado se dará cuenta de que la definición de "ruido" plantea algunas cuestiones filosóficas. ¿Cómo se define el ruido?
2. Reflexión: la naturaleza subjetiva del ruido
La propia definición de "ruido" en los datos plantea profundas cuestiones filosóficas. Lo que se considera ruido para una aplicación puede ser información crucial para otra.
Tomemos el ejemplo de una foto:
- Para un modelo de reconocimiento facial, las variaciones de iluminación son "ruido".
- Para un modelo de análisis de la iluminación, estas mismas variaciones son la principal fuente de información
Esta subjetividad del ruido nos recuerda que la "calidad" de los datos está intrínsecamente ligada a nuestro objetivo. Como el gato de Schrödinger, el ruido existe en una superposición: es a la vez información y perturbación, hasta que definimos nuestro contexto de observación.
Esta dualidad subraya la importancia de una definición clara y contextual de "calidad" en nuestros proyectos de IA, cuestionando la idea de calidad absoluta de los datos.
3. Métricas de calidad
Para cada tipo de datos, defina umbrales mínimos, por ejemplo :
Imágenes
PSNR > 40 dB, SSIM >0,95
Etiquetas
Precisión > 98
Coherencia
Pruebas cruzadas > 95
El umbral de 40 dB no es arbitrario. En la práctica:
- 40 dB: diferencias prácticamente imperceptibles
- 35-40dB: Muy buena calidad, diferencias sólo visibles para los expertos
- 30-35 dB: calidad aceptable para uso general
- <30dB : Dégradation visible
SSIM (Índice de similitud estructural)
El SSIM complementa al PSNR :
seuils_SSIM = { "Excellent": ">0.95", "Good": "0.90-0.95", "Acceptable": "0.85-0.90", "Problem": "<0.85" }
El SSIM se acerca más a la percepción humana porque tiene en cuenta la estructura de la imagen.
Pruebas de coherencia
Las pruebas cruzadas >95% implican :
- validación cruzada k-fold
- Pruebas de coherencia interna
- Comprobación de valores atípicos
- Análisis de la distribución
Conclusión
La teoría de la información nos proporciona un marco riguroso que demuestra que la calidad de los datos no es una opción , sino un estricto límite matemático. Un modelo de IA, por sofisticado que sea, no puede superar la calidad de sus datos de entrenamiento.
Esta comprensión debe guiar nuestras inversiones: en lugar de limitarnos a buscar arquitecturas más complejas, nuestra prioridad debe ser garantizar la calidad de nuestros datos de entrenamiento .
Fuentes
Entropía de Shannon : https://fr.wikipedia.org/wiki/Entropie_de_Shannon
Ilustración : https://replicate.com/philz1337x/clarity-upscaler
Fuentes académicas y técnicas
- Shannon, C.E. (1948). "Una teoría matemática de la comunicación". Revista técnica de Bell System.
- Wang, Z. et al (2004). "Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural". IEEE Transactions on Image Processing.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). "Aprendizaje profundo". MIT Press.
- Zhang, K. et al. (2020). "Deep Learning for Image Super-Resolution: A Survey" (Aprendizaje profundo para la superresolución de imágenes: estudio). IEEE Transactions on Pattern Analysis and Machine Intelligence.
- Dodge, S., y Karam, L. (2016). "Comprender cómo la calidad de la imagen afecta a las redes neuronales profundas". Conferencia internacional sobre calidad de la experiencia multimedia (QoMEX).