Al hacer clic en "Aceptar", acepta que se almacenen cookies en su dispositivo para mejorar la navegación por el sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para obtener más información.
Conocimientos

Datos de baja calidad: un gran obstáculo en el aprendizaje automático

Escrito por
Aïcha
Publicado el
2023-09-05
Tiempo de lectura
Esto es un texto dentro de un bloque div.
min
📘 ÍNDICE
Muchas gracias. Hemos recibido su envío.
¡Uy! Algo ha ido mal al enviar el formulario.

Mientras las aplicaciones comerciales de la inteligencia artificial y el aprendizaje automático se multiplican y transforman rápidamente diversos sectores, una verdad permanece: la calidad de los datos es el pilar sobre el que se asientan estos avances tecnológicos.

El aprendizaje automático (Machine Learning, ML) se ha convertido en algo esencial en muchos sectores, y desde hace algunos años se utiliza para crear diversos productos de IA. El enfoque dominante se centra en los datos, y para que los modelos de ML aporten realmente valor a una empresa, la calidad de los datos utilizados es de importancia fundamental. En este artículo, exploramos por qué la calidad de los datos es esencial, y por qué la preparación cuidadosa y meticulosa de los datos es la base de la gran mayoría de los productos de IA.

¿Por qué la calidad de los datos es la piedra angular de sus proyectos de IA?

Los algoritmos de ML utilizan datos para aprender y hacer predicciones. Sin embargo, no todos los datos tienen el mismo valor. La calidad de los datos es un factor determinante de la precisión y fiabilidad de los modelos de ML.

Los profesionales que trabajan en proyectos de ML (científicos de datos, desarrolladores, etiquetadores de datos, etc.) son muy conscientes de los retos que esto plantea. Muchos proyectos parecen estancarse durante las fases de prueba, antes de su despliegue, debido principalmente a la falta de calidad en la anotación de datos a escala. Los errores humanos, las suposiciones poco claras, la naturaleza subjetiva y ambigua de la tarea de anotación y, sobre todo, la falta de supervisión y consideración del trabajo realizado por los etiquetadores de datos contribuyen a menudo a estos problemas.

Datos anotados en masa pero de forma aproximada... ¡un desastre!

La inexactitud de los datos puede deberse a un error humano, a técnicas defectuosas de recopilación de datos o a problemas con la fuente de datos. Cuando un modelo ML se entrena con datos incorrectos, puede tomar decisiones erróneas.

Algunos ejemplos para ilustrar el impacto de los modelos entrenados con datos imperfectos en productos y casos de uso:

1. Diagnóstico médico incorrecto

Imaginemos un sistema de IA diseñado para ayudar a los médicos a diagnosticar enfermedades. Si este sistema se entrena con datos médicos incorrectos o incompletos, podría dar lugar a diagnósticos erróneos, poniendo en peligro la vida de los pacientes. Una situación así pone de manifiesto la necesidad imperiosa de disponer de datos médicos precisos y completos para garantizar la fiabilidad de los sistemas de IA en medicina. Para evitarlo y permitir el desarrollo de productos de IA médica de alto rendimiento y la formación de cirujanos de todo el mundo, el colectivo SDSC está trabajando en una base de datos médicos anotados para la IA.

2. Errores de traducción automática

Los sistemas de traducción automática utilizan modelos de aprendizaje automático para traducir textos. Si los datos de entrenamiento contienen errores o traducciones incorrectas, los resultados de la traducción automática pueden ser imprecisos, lo que puede dar lugar a malentendidos y problemas de comunicación.

3. Falsos positivos en seguridad informática

En seguridad informática, los sistemas de detección de intrusiones y actividades maliciosas se basan en modelos ML. Si los datos utilizados para entrenar estos modelos contienen ejemplos incorrectos o mal etiquetados, esto puede dar lugar a falsos positivos, lo que significa que las acciones legítimas se notifican erróneamente como amenazas, dando lugar a una reacción innecesaria y haciendo perder el tiempo a las actividades de supervisión de amenazas (SOC), que se ven contaminadas por falsas alertas.

4. Sistemas imperfectos de recomendación de películas

Imagine un sistema de recomendación de películas. Imaginemos que este sistema, basado en el aprendizaje automático, recomienda películas a los usuarios basándose en sus preferencias anteriores. Sin embargo, un sesgo insidioso se cuela en el modelo, haciendo que a los usuarios se les recomienden principalmente películas de un género específico, como la acción, en detrimento de otros géneros como la comedia o el drama.

El conjunto de datos utilizado para entrenar el modelo estaba desequilibrado, con una sobrerrepresentación masiva de películas de acción, mientras que otros géneros estaban infrarrepresentados. Así, el modelo aprendió a favorecer las películas de acción, ignorando las variadas preferencias de los usuarios. Este ejemplo pone de relieve la importancia de disponer de datos de entrenamiento equilibrados y representativos para garantizar recomendaciones precisas y pertinentes.

5. Avería del sistema de frenado de emergencia de un vehículo.

Imaginemos una situación en la que un fabricante de automóviles introduce un sistema automatizado de frenado de emergencia, diseñado para detectar obstáculos y detener el coche en caso de peligro inminente. Este sistema se basa en sensores, cámaras y datos cartográficos para funcionar correctamente.

En las primeras pruebas en carretera, el sistema de frenado de emergencia no reaccionó adecuadamente ante peatones y obstáculos. Frena de repente sin motivo, mientras que en otras no reacciona en absoluto ante objetos en movimiento. Estos fallos pueden explicarse por datos incorrectos de los sensores e incoherencias en los datos cartográficos utilizados para formar el modelo del sistema.

Resulta que los datos recogidos para entrenar el modelo de frenado de emergencia eran incompletos e inexactos. Los escenarios de prueba no abarcaban suficientes situaciones del mundo real, lo que dio lugar a un sistema mal preparado para reaccionar correctamente en una situación de emergencia.

Este ejemplo pone de relieve que, incluso en un sector como el de la automoción, donde la seguridad es primordial, la calidad de los datos utilizados para entrenar los sistemas autónomos es crucial. Unos datos incorrectos o incompletos pueden poner en peligro la vida de conductores, pasajeros y peatones, lo que pone de relieve la importancia de una recopilación y validación rigurosas de los datos para garantizar la fiabilidad de los sistemas de conducción autónoma.

Para mitigar el impacto de los datos inexactos, es esencial validar cuidadosamente los datos antes de utilizarlos. Los anotadores deben recibir formación sobre la tarea, el software de anotación(LabelBox, Encord, V7 Labs, Label Studio, CVAT, etc.) y la precisión requerida. Unas directrices claras y ejemplos de datos anotados pueden garantizar la coherencia y la precisión.

La trampa de los datos no representativos

Los datos no representativos pueden distorsionar los modelos de ML. Numerosos ejemplos en el campo del reconocimiento fácil han saltado a los titulares. Uno de ellos es el sesgo en la calidad de los datos de los sistemas de reconocimiento facial, que se utilizan cada vez más para la autenticación, la seguridad y otras aplicaciones. Sin embargo, varios sistemas de reconocimiento facial han mostrado patrones de sesgo racial y étnico debido a datos de entrenamiento desequilibrados.

Tomemos el caso de un sistema de reconocimiento facial utilizado por las fuerzas de seguridad para identificar a sospechosos. Si los datos de entrenamiento consisten principalmente en rostros de un único grupo étnico, el sistema puede tener dificultades para identificar correctamente rostros de otros grupos étnicos. Esto puede dar lugar a identificaciones erróneas, detenciones injustas y la perpetuación de estereotipos discriminatorios.

Este ejemplo pone de manifiesto la necesidad de disponer de datos de formación diversos y representativos para garantizar que los sistemas de reconocimiento facial no favorezcan a un grupo étnico en detrimento de otro y evitar las consecuencias perjudiciales asociadas a la discriminación y la justicia sesgada. Además, dependiendo del caso de uso, estos datos se beneficiarán de ser preparados por grupos de anotadores con perfiles diferentes.

En conclusión...

La calidad de los datos es un pilar esencial para el éxito de sus proyectos de IA. Los errores de anotación, los datos sesgados y la falta de información pueden poner en peligro la fiabilidad de los modelos de ML. Siguiendo buenas prácticas como la formación de anotadores de imágenes, vídeo y de texto, la validación de datos y la supervisión continua, los científicos de datos y otros desarrolladores de IA pueden maximizar el valor de sus iniciativas de ML y evitar muchos de los escollos asociados a la preparación de datos.