How-to

Guía para la campaña de anotación de datos (2/2)

Escrito por

Nicolas

Publicado el

2023-12-18

Tiempo de lectura

Esto es un texto dentro de un bloque div.

min

📘 ÍNDICE

Muchas gracias. Hemos recibido su envío.

¡Uy! Algo ha ido mal al enviar el formulario.

Las etapas preliminares esbozadas en la primera parte de esta guía han conducido a la creación de un equipo, a la definición precisa de los temas del proyecto y a la elaboración de reglas precisas para las tareas de anotación. La campaña puede comenzar. En este artículo hemos recopilado una serie de recomendaciones para llevar a cabo con éxito campañas de anotación de datos.

‍

Formación y movilización de etiquetadores de datos para el éxito de los proyectos de IA

‍

La formación y movilización de los etiquetadores de datos (o anotadores) es un paso necesario en cualquier campaña de anotación de datos. La naturaleza repetitiva, tediosa y a veces compleja de la tarea de anotación la expone al riesgo de errores como la omisión de un objeto que deba anotarse en una imagen determinada, o la atribución de una etiqueta inadecuada. La formación en profundidad y la implicación efectiva de los anotadores, tanto al inicio como durante el proyecto, son esenciales para mitigar estos riesgos de error y, sobre todo, para identificarlos lo antes posible.

‍

En la fase preliminar del proyecto, es esencial explicar claramente los retos del proyecto al equipo de anotadores, destacando el papel central de la anotación en el éxito del proyecto. Se trata de una fase de sensibilización esencial. Esta fase de integración también representa una oportunidad para concienciar a los anotadores sobre los conceptos asociados a la Inteligencia Artificial y la realidad de los ciclos de desarrollo de productos de IA.

‍

También es una buena práctica mantener un registro de los errores más comunes, que se actualiza a medida que avanza el proyecto, utilizando un enfoque participativo (es decir, se invita a cada anotador a añadir al registro los casos específicos que identifique, complementados con ejemplos concretos e ilustrados con capturas de pantalla).

‍

Mantener el compromiso de los anotadores a lo largo de todo el proyecto

‍

Mantener el compromiso de los anotadores a lo largo del proyecto requiere una dinámica constante de intercambio. La creación de herramientas de intercambio como la mensajería instantánea, los foros de debate y los documentos colaborativos es útil para fomentar los debates dentro del equipo del proyecto, lo que permite resolver dificultades, plantear preguntas y prestarse apoyo mutuo. También pueden establecerse sesiones periódicas de sincronización para comunicar los avances del proyecto, compartir cualquier cambio o destacar puntos específicos de atención relacionados con la anotación.

‍

Comprobar y garantizar la calidad de los datos

‍

Cuando el objetivo final de la campaña de anotación es desarrollar un algoritmo para automatizar una tarea, la presencia de errores en los datos y metadatos utilizados para el entrenamiento puede hacer que el algoritmo reproduzca las imperfecciones de la anotación manual. Aquí hemos reunido una serie de buenas prácticas para garantizar la fiabilidad de los proyectos, sea cual sea su envergadura.

‍

Crear un conjunto de datos 🔗 Ground Truth

‍

Un conjunto de datos, también llamado 🔗 "Verdad Fundamental", está formado por documentos anotados cuyas anotaciones han sido rigurosamente comprobadas, lo que garantiza una calidad incuestionable. Este conjunto de datos puede explotarse de varias maneras.

‍

Por un lado, los documentos correspondientes (excluidas las anotaciones) pueden ser presentados para su anotación por los anotadores al inicio del proyecto. El objetivo de este enfoque es garantizar que los anotadores comprendan adecuadamente la tarea y comprobar que el esquema de anotación no sea ambiguo, es decir, que no pueda llevar a dos anotadores a anotar el mismo documento de forma correcta pero divergente. Comparando las anotaciones de los anotadores con anotaciones de calidad garantizada, se pueden detectar errores o ambigüedades. Estos hallazgos permitirán aclarar elementos del esquema de anotación que requieran más explicaciones, o bien corregir el esquema de anotación para eliminar ciertas ambigüedades.

‍

Por otra parte, el conjunto de datos Ground Truth también puede utilizarse como conjunto de datos de prueba, ofreciendo la posibilidad de evaluar el algoritmo desarrollado sobre un conjunto de datos de máxima calidad. Este enfoque permite medir el rendimiento del algoritmo en condiciones fiables y garantizar su solidez y precisión.

‍

Verificación aleatoria de los documentos anotados por los etiquetadores de datos

‍

Se recomienda que, a lo largo del proyecto, el jefe de proyecto relea periódicamente los documentos anotados, seleccionados al azar, para garantizar la calidad de las anotaciones.

‍

Establecimiento de pruebas de coherencia de las anotaciones

‍

Para determinados proyectos, es posible aplicar pruebas automáticas que reflejen las reglas de negocio que deben respetar las anotaciones. Cuando estas pruebas pueden integrarse, ofrecen la posibilidad de detectar automáticamente documentos anotados con un alto riesgo de error, por lo que requieren una comprobación prioritaria por parte del experto empresarial.

‍

Por último: balance de su campaña de anotaciones

‍

La realización de una campaña de anotación, que a menudo se enfrenta a retos complejos, requiere una evaluación meticulosa a su término, con el fin de extraer enseñanzas útiles para los proyectos de anotación posteriores. Esta fase crítica permite documentar detalladamente la metodología utilizada, el desarrollo de la campaña y las métricas clave. En la sección siguiente se ofrece una lista no exhaustiva de parámetros y preguntas pertinentes para una evaluación en profundidad de su campaña de anotación, que ofrece valiosas perspectivas .

‍

A continuación se presentan algunos indicadores que pueden utilizarse para evaluar el rendimiento y la pertinencia de las campañas de anotación:

- Duración de la campaña de anotación

- Número de anotadores participantes

- Volumen total de documentos anotados

- Tiempo medio dedicado a anotar un documento

- Idoneidad del software de anotación (rendimiento, comparación de resultados utilizando varias plataformas, ergonomía, etc.)

- Adecuación del esquema de anotación (legibilidad, reproducibilidad, cobertura de casos especiales).

- Capacidad para movilizar a anotadores profesionales expertos en su campo.

‍

Un enfoque de evaluación global contribuye a comprender mejor los éxitos y los retos encontrados, proporcionando información esencial para mejorar futuras campañas de anotación.

‍

(Fin de la guía. Puedes encontrar la primera parte de nuestra guía en 🔗 esta dirección).

‍

Para saber más, lee nuestro artículo sobre los criterios para 🔗 elegir la plataforma de anotación adecuada para tus casos de uso.

‍

Para gestionar sus campañas de anotación de datos, Innovatiana se distingue por presentar una solución integrada a través de su plataforma "CUBE". Esta plataforma se distingue por ofrecer una solución global, accesible en 🔗 https://dashboard.innovatiana.compara los retos de recopilación y anotación de datos. Representa un enfoque "todo en uno", que centraliza los requisitos específicos de cada proyecto en un único entorno de trabajo, lo que permite una personalización a medida.