Al hacer clic en "Aceptar", acepta que se almacenen cookies en su dispositivo para mejorar la navegación por el sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para obtener más información.
How-to

Estrategias para equilibrar el conjunto de datos de entrenamiento

Escrito por
Nicolas
Publicado el
2024-10-26
Tiempo de lectura
Esto es un texto dentro de un bloque div.
min
📘 ÍNDICE
Muchas gracias. Hemos recibido su envío.
¡Uy! Algo ha ido mal al enviar el formulario.

En el aprendizaje automático, el equilibrio de los conjuntos de datos de entrenamiento es realmente importante para optimizar el rendimiento de los modelos. Si los datos no están equilibrados, pueden producirse sesgos y limitar la generalización, comprometiendo la fiabilidad de las predicciones. Para obtener resultados precisos e insesgados, es aconsejable aplicar estrategias eficaces para equilibrar los datos utilizados para entrenar los modelos.

🤔 ¿Por qué es importante? De hecho, cuando los datos están desequilibrados, el modelo de inteligencia artificial tiende a favorecer a las clases mayoritarias, lo que puede sesgar los resultados y dar lugar a predicciones inexactas para las clases minoritarias. Esto puede tener graves consecuencias, sobre todo en ámbitos críticos como la sanidad o las finanzas, donde las decisiones deben tomarse de forma justa, precisa y ética.

Garantizar un buen equilibrio en los conjuntos de datos permite entrenar modelos capaces de tratar todas las clases por igual, lo que garantiza predicciones más fiables e insesgadas.

💡 Este artículo explora técnicas clave para equilibrar conjuntos de datos de entrenamiento. Veremos por qué son importantes los datos equilibrados, los métodos comunes de remuestreo y los enfoques para generar datos sintéticos. También hablaremos de cómo evaluar y ajustar el equilibrio de datos para optimizar el rendimiento del modelo. Estas estrategias le ayudarán a mejorar la calidad de sus conjuntos de datos de entrenamiento y a obtener modelos más sólidos a largo plazo.

Comprender la importancia del equilibrio de los datos

Definición de conjunto de datos equilibrado

Por conjunto de datos equilibrado se entiende un conjunto en el que las clases o categorías están representadas en proporciones aproximadamente iguales. En el contexto del aprendizaje automático, este equilibrio es especialmente importante para las tareas de clasificación. Un número equivalente de muestras para cada clase garantiza que el modelo no desarrolle un sesgo hacia ninguna clase en particular. Este equilibrio contribuye a que las predicciones sean más precisas y fiables, sobre todo en escenarios en los que los costes de una clasificación errónea son elevados.

Por otra parte, un conjunto de datos desequilibrado se produce cuando una clase está significativamente sobrerrepresentada en comparación con las demás. Este desequilibrio puede dar lugar a un modelo sesgado que favorezca la predicción de la clase mayoritaria, ya que el modelo aprende a minimizar el error global favoreciendo la clase con más ejemplos.

Ilustración de un conjunto de datos desequilibrado y equilibrado (fuente: Minasha Saini, Seba Susan)

Impacto en el rendimiento del modelo

El equilibrio de datos influye considerablemente en el rendimiento de los modelos de aprendizaje automático. Un conjunto de datos equilibrado garantiza que el modelo tenga suficientes ejemplos de cada clase para aprender, lo que permite una mejor generalización y predicciones más precisas. Esto es especialmente importante en ámbitos como la detección de fraudes, el diagnóstico médico y la segmentación de clientes, en los que una clasificación errónea puede acarrear importantes pérdidas económicas, riesgos para la salud u oportunidades perdidas.

Además, un conjunto de datos equilibrado contribuye a la equidad y a las prácticas éticas en la IA. Por ejemplo, en situaciones en las que los datos representan a diferentes grupos demográficos, un conjunto de datos desequilibrado podría dar lugar a predicciones sesgadas que afecten de forma desproporcionada a los grupos infrarrepresentados. Por lo tanto, garantizar el equilibrio de los datos ayuda a mitigar este riesgo, lo que conduce a resultados más justos y ayuda a las empresas a cumplir con los requisitos reglamentarios relacionados con la discriminación y la equidad en el uso de la inteligencia artificial.

Consecuencias del desequilibrio de datos

El desequilibrio de datos puede tener consecuencias importantes para el rendimiento y la fiabilidad de los modelos de aprendizaje automático. A continuación agrupamos algunas de las principales consecuencias:

1. Sesgo del modelo

Los datos desequilibrados pueden provocar un sesgo en el modelo, que se ve excesivamente influido por la clase mayoritaria. Entonces puede tener dificultades para hacer predicciones precisas para la clase minoritaria.

Un ejemplo del sesgo de un algoritmo de inteligencia artificial... que obviamente no reconoció a Obama. Sus modelos están sesgados porque sus datos están sesgados... ¡porque probablemente están desequilibrados! (Fuente: @hardmaru en X)

2. Alta precisión, bajo rendimiento

Un modelo entrenado con datos desequilibrados puede parecer muy preciso, pero en realidad puede funcionar mal en las clases minoritarias, que suelen ser las de mayor interés.

3. Pérdida deperspicacia‍

El desequilibrio de datos puede provocar la pérdida de información importante y de motivos en la clase minoritaria, lo que lleva a perder oportunidades o a cometer errores críticos.

4. Generalización limitada

Los modelos entrenados en conjuntos de datos desequilibrados pueden tener dificultades para generalizar a datos nuevos y no vistos, sobre todo para la clase minoritaria.

🦺 Para mitigar estos problemas, se han desarrollado diversas técnicas, como el remuestreo, elajuste de las ponderaciones de las clases y eluso de métricas de evaluación especializadas que reflejan mejor el rendimiento en datos desequilibrados.

Técnicas de remuestreo

Para hacer frente a los problemas de desequilibrio de datos, el remuestreo es un enfoque ampliamente adoptado para tratar los conjuntos de datos. Esta técnica modifica la composición del conjunto de datos de entrenamiento para obtener una distribución más equilibrada entre las clases. Los métodos de remuestreo pueden dividirse en dos categorías principales: sobremuestreo y submuestreo. A continuación le explicamos en qué consisten.

Sobremuestreo

El sobremuestreo consiste en añadir ejemplos a la clase minoritaria para equilibrar la distribución de las clases. Esta técnica es especialmente útil cuando el conjunto de datos es pequeño y las muestras de la clase minoritaria son limitadas.

Un método sencillo de sobremuestreo es la duplicación aleatoria de ejemplos de la clase minoritaria. Aunque es fácil de aplicar, este método puede llevar al sobreaprendizajeporque no genera información nueva.

Una técnica más sofisticada es la Técnica de Sobremuestreo Sintético de Minorías (o SMOTE). SMOTE crea nuevos ejemplos sintéticos interpolando entre las instancias existentes de la clase minoritaria. Este método genera puntos de datos artificiales basados en las características de las muestras existentes, añadiendo diversidad al conjunto de datos de entrenamiento.

Submuestreo

El objetivo del submuestreo es reducir el número de ejemplos de la clase mayoritaria para equilibrar la distribución de las clases. Este enfoque puede ser eficaz cuando el conjunto de datos es grande y la clase mayoritaria contiene muchas muestras redundantes o similares.

Un método sencillo de submuestreo consiste en eliminar aleatoriamente ejemplos de la clase mayoritaria. Aunque esta técnica puede ser eficaz, existe el riesgo de eliminar información importante.

Métodos más avanzados, como enlaces Tomeklinks, identifican y eliminan pares de ejemplos que están muy próximos pero pertenecen a clases diferentes. Este enfoque aumenta el espacio entre clases y facilita el proceso de clasificación.

Técnicas híbridas

Las técnicas híbridas combinan el sobremuestreo y el submuestreo para obtener mejores resultados. Por ejemplo, el método SMOTEENN aplica primero SMOTE para generar ejemplos sintéticos de la clase minoritaria y, a continuación, utiliza el algoritmo Edited Nearest Neighbors (ENN) para limpiar el espacio resultante del sobremuestreo.

Otro enfoque híbrido es SMOTE-Tomek, que aplica SMOTE seguido de la eliminación de enlaces Tomek. Esta combinación da como resultado un espacio de características más limpio y equilibrado.

Es importante señalar que la elección de la técnica de remuestreo depende de las características específicas del conjunto de datos y del problema que haya que resolver. A menudo es necesaria una evaluación exhaustiva de los distintos métodos para determinar el enfoque más adecuado para un caso de uso concreto.

Métodos de generación de datos sintéticos

La generación de datos sintéticos se ha convertido en una herramienta esencial para mejorar la calidad y diversidad de los conjuntos de datos de entrenamiento. Estos métodos permiten crear muestras artificiales que imitan las características de los datos reales, lo que ayuda a resolver problemas de desequilibrio de clases y a aumentar el tamaño de los conjuntos de datos.

SMOTE(Técnica de sobremuestreo sintético de minorías)

SMOTE es una técnica popular para tratar conjuntos de datos desequilibrados. Funciona creando nuevos ejemplos sintéticos para la clase minoritaria. El algoritmo identifica los k vecinos más próximos de una muestra de la clase minoritaria y genera nuevos puntos a lo largo de las líneas que conectan la muestra con sus vecinos. Este enfoque permite aumentar la representación de la clase minoritaria sin duplicar simplemente los ejemplos existentes, lo que podría conducir a un aprendizaje excesivo.

Aumento de datos

El aumento de datos es una técnica muy utilizada, sobre todo en el campo de la visión por ordenador. Consiste en aplicar transformaciones a los datos existentes para crear nuevas variaciones. En el caso de las imágenes, estas transformaciones pueden incluir la rotación, el cambio de tamaño, el cambio de brillo o la adición de ruido. En el procesamiento del lenguaje natural, el aumento puede implicar la sustitución de sinónimos o la paráfrasis. Estas técnicas permiten exponer el modelo a una mayor variedad de escenarios, mejorando su capacidad de generalización.

Generadores adversos(GAN)

Las redes generativas adversariales (GAN) representan un enfoque más avanzado para generar datos sintéticos. Una GAN consta de dos redes neuronales que compiten entre sí: un generador que crea nuevos datos y un discriminador que intenta distinguir los datos reales de los generados. A medida que avanza el entrenamiento, el generador mejora para producir datos cada vez más realistas, mientras que el discriminador perfecciona su capacidad para detectar falsificaciones.

Los GAN han mostrado resultados prometedores en la generación de datos sintéticos para diversas aplicaciones, sobre todo en el campo de la medicina, donde pueden utilizarse para generar imágenes médicas sintéticas. Estas imágenes pueden ayudar a aumentar conjuntos de datos limitados, mejorando el rendimiento de los modelos de clasificación y segmentación.

En conclusión, estos métodos de generación de datos sintéticos ofrecen soluciones potentes para enriquecer los conjuntos de datos de entrenamiento. No sólo pueden equilibrar las clases infrarrepresentadas, sino que también pueden aumentar la diversidad de los datos, contribuyendo así a mejorar la robustez y la generalización de los modelos de aprendizaje automático.

Evaluar y ajustar el equilibrio

La evaluación y el ajuste del equilibrio del conjunto de datos de entrenamiento son pasos críticos para garantizar el rendimiento óptimo de los modelos de aprendizaje automático. Esta fase implica el uso de métricas específicas, la aplicación de técnicas de validación cruzada estratificada y el ajuste iterativo del conjunto de datos.

Métricas para medir el equilibrio

Para evaluar eficazmente el equilibrio de un conjunto de datos, es esencial utilizar métricas adecuadas. Las métricas tradicionales, como la precisión global, pueden inducir a error en el caso de datos desequilibrados. Es preferible centrarse en métricas que ofrezcan una visión más completa del rendimiento del modelo, como :

- Precisión : mide la proporción de predicciones positivas correctas de todas las predicciones positivas.

- Recall (o sensibilidad): evalúa la proporción de verdaderos positivos entre todas las muestras verdaderas positivas.

- Puntuación F1 : representa la media armónica de la precisión y la recuperación, proporcionando una medida equilibrada del rendimiento del modelo.

Además, la curva ROC(Receiver Operating Characteristic) y la curva Precision-Recall permiten visualizar el rendimiento del modelo con distintos umbrales de clasificación. Estas curvas ayudan a comprender el equilibrio entre la tasa de verdaderos positivos y la tasa de falsos positivos (curva ROC) o entre la precisión y la recuperación (curva Precision-Recall).

Validación cruzada estratificada

La validación cruzada estratificada es una técnica avanzada especialmente útil para conjuntos de datos con una distribución desequilibrada de las clases. A diferencia de la validación cruzada estándar, que divide aleatoriamente el conjunto de datos, la validación cruzada estratificada garantiza que cada pliegue contenga aproximadamente el mismo porcentaje de muestras de cada clase que el conjunto completo.

Este enfoque garantiza una evaluación más justa y fiable del modelo, sobre todo cuando determinadas clases están infrarrepresentadas. Garantiza que el modelo se entrena y evalúa con una muestra representativa de cada clase, mitigando así los posibles sesgos y mejorando la estimación del rendimiento global del modelo.

Ajuste iterativo del conjunto de datos

El ajuste iterativo del conjunto de datos es un método que pretende mejorar gradualmente el equilibrio y la calidad de los datos de entrenamiento. Este método consta de varias etapas:

1. 1. Evaluación inicial

Utiliza las métricas adecuadas para evaluar el equilibrio actual del conjunto de datos.

2. Identificación del problema

Analice los resultados para detectar clases infrarrepresentadas o posibles sesgos.

3. Aplicación de técnicas de remuestreo

Utilice métodos como el sobremuestreo o el submuestreo para ajustar la distribución de las clases.

4. Generación de datos resumidos

Si es necesario, cree nuevos ejemplos para clases minoritarias utilizando técnicas como SMOTE.

5. Revalorización

Vuelva a medir el equilibrio del conjunto de datos tras los ajustes.

6. Iteración

Repita el proceso hasta conseguir un equilibrio satisfactorio.

Es importante tener en cuenta que el ajuste iterativo debe realizarse con cuidado para evitar el aprendizaje excesivo. Se recomienda aplicar la validación cruzada antes del remuestreo de datos para garantizar una evaluación imparcial del rendimiento del modelo.

Logotipo


¿Y si pudiéramos ayudarle a crear conjuntos de datos equilibrados "por diseño"?
No espere más, nuestro equipo de etiquetadores de datos especializados en visión por ordenador puede ayudarle a crear conjuntos de datos equilibrados según sus instrucciones. No dude en ponerse en contacto con nosotros.

Conclusión

El equilibrio de los conjuntos de datos de entrenamiento tiene un impacto considerable en el rendimiento y la fiabilidad de los modelos de aprendizaje automático. Técnicas como el remuestreo, la generación de datos sintéticos y el ajuste iterativo ofrecen soluciones eficaces a los problemas de desequilibrio de clases. Aplicando estas estrategias, los profesionales de los datos pueden mejorar la calidad de sus conjuntos de entrenamiento y obtener modelos más sólidos e insesgados.

En última instancia, el equilibrio de datos no es una tarea puntual, sino un proceso continuo que requiere una evaluación y un ajuste constantes. Utilizando las métricas adecuadas y aplicando la validación cruzada estratificada, los equipos pueden garantizar que sus modelos funcionan de forma óptima en todas las clases. Este enfoque no sólo mejora el rendimiento del modelo, sino que también contribuye a unas prácticas de IA más éticas y justas.

Preguntas más frecuentes

Para reequilibrar un conjunto de datos desequilibrado, es posible utilizar el submuestreo y el sobremuestreo de la clase mayoritaria. El submuestreo consiste en utilizar un número reducido de ejemplos de la clase mayoritaria durante el entrenamiento.
El desequilibrio de datos se refiere a la distribución desigual de muestras entre diferentes clases en el aprendizaje automático supervisado y el aprendizaje profundo. Este fenómeno puede provocar sesgos en los resultados de los modelos, lo que afecta a su fiabilidad y eficacia, especialmente en ámbitos críticos como la atención sanitaria.
Para hacer frente al desequilibrio de clases en un conjunto de datos, pueden utilizarse técnicas como el sobremuestreo sintético de minorías (SMOTE), el submuestreo aleatorio y la evaluación rigurosa de modelos, incluida la validación cruzada.