Al hacer clic en "Aceptar", acepta que se almacenen cookies en su dispositivo para mejorar la navegación por el sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para obtener más información.
How-to

Guía para una campaña de anotación de datos (1/2)

Escrito por
Nicolas
Publicado el
2023-12-18
Tiempo de lectura
Esto es un texto dentro de un bloque div.
min
📘 ÍNDICE
Muchas gracias. Hemos recibido su envío.
¡Uy! Algo ha ido mal al enviar el formulario.
¿Por qué anotar imágenes, vídeos, textos, etc.? ¿Qué importancia tiene esto en la IA?

Para analizar el contenido de sus datos, entrenar algoritmos supervisados y llevar a buen puerto su proyecto de inteligencia artificial, es esencial utilizar datos "estructurados" o "anotados".

Si sus datos ya están estructurados, significa que se han organizado previamente para que puedan representarse en forma de tabla, con filas correspondientes a las observaciones y columnas correspondientes a las variables. Al integrar un proceso de estructuración previo, se beneficiará de un importante ahorro de tiempo, y es probable que no necesite una fase de anotación, puesto que sus datos ya están estructurados.

En cambio, si sus datos son "no estructurados", es decir, no pueden describirse mediante un modelo predefinido, no están categorizados y pueden ser muy diversos (imágenes, texto, vídeo, etc.), es muy probable que necesite anotarlos. El carácter no estructurado de estos datos los hace mucho más complejos de explotar para los algoritmos de inteligencia artificial. En este caso, se hace necesario organizar una fase de anotación.

La fase de anotación, que consiste en asignar una o varias etiquetas a los elementos de un conjunto de datos, crea un conjunto de datos estructurado que puede utilizarse para entrenar algoritmos supervisados.

La anotación es el proceso de asignar la etiqueta más adecuada a cada dato. Por ejemplo, puede consistir en asignar etiquetas como "perro" o "gato" a una colección de fotografías de animales, o en seleccionar las etiquetas adecuadas de "localidad", "tipo de alojamiento" y "precio de compra propuesto" de una serie de anuncios inmobiliarios.

La calidad de su solución de IA, en términos de pertinencia y rendimiento, se verá muy influida por la calidad de los datos, de los cuales la precisión de las etiquetas es un aspecto importante, aunque también pueden influir otros aspectos cualitativos (como la exhaustividad de las variables explicativas, la detección de valores atípicos, etc.). Por lo tanto, es esencial que la fase de anotación se lleve a cabo prestando especial atención a la obtención de etiquetas de alta calidad. En esta guía se exponen las etapas clave y algunas buenas prácticas para garantizar que así sea.

‍‍‍

¿Cómo se prepara una campaña de anotación de datos? Empiece por identificar a las partes interesadas

Llevar a cabo una campaña de anotación de texto, imágenes o vídeos requiere un equipo especializado, que incluya anotadores (o etiquetadores de datos), un gestor de proyectos, un científico de datos y posiblemente un administrador de la plataforma de anotación (solución de etiquetado como Label Studio o CVAT).

A continuación se describen brevemente los distintos perfiles que intervienen en las campañas de anotación para la IA:

El jefe de proyecto (experto empresarial)

El gestor del proyecto, un experto empresarial, desempeña un papel esencial en la planificación y el seguimiento del proceso de anotación. Entre sus responsabilidades figuran la creación del esquema de anotación y el manual correspondiente, la formación de los anotadores, la estimación del tiempo necesario para las distintas tareas de anotación, la elaboración de un plan de anotación y el seguimiento de la calidad y cantidad del proyecto.

El científico de datos (experto técnico)

El científico de datos implementa herramientas y métodos para evaluar el progreso y la calidad de las anotaciones a efectos de un modelo de IA. También puede preanotar documentos, priorizar anotaciones y aplicar métodos informáticos para acelerar el proceso de anotación. Antes de la anotación, el científico de datos puede definir una estrategia de curación de datos, trabajando primero en los datos brutos para eliminar el ruido (por ejemplo : fotogramas ilegibles en un conjunto de vídeos).

El administrador de la plataforma de anotación

El administrador de la plataforma se encarga de instalar el software de anotación, gestionar las cuentas de usuario, poner a disposición los documentos y preparar los entornos de etiquetado, así como de realizar periódicamente copias de seguridad de las anotaciones para evitar cualquier pérdida de datos. También se asegura de que la solución sea adecuada y realiza todas las pruebas técnicas necesarias para utilizar los datos y metadatos producidos (por ejemplo, si es posible extraer datos completos en formato JSON con un nivel de rendimiento adecuado).

Anotadores de datos

El perfil de los anotadores varía en función de la tarea de anotación. En algunos casos se requiere simplemente el dominio de un idioma, como el inglés o el francés, mientras que en otros se requieren conocimientos específicos (por ejemplo, conocimientos de anatomía, conocimientos específicos en el ámbito del deporte, etc.). Los anotadores se encargan de comprender la tarea, anotar los documentos e informar de cualquier duda o dificultad al director de la campaña a medida que avanza la anotación.

Definir un problema

El proceso de anotación, que suele ser una fase preliminar de un proyecto de IA de mayor envergadura, requiere una reflexión en profundidad sobre los problemas del proyecto antes de iniciarlo. Esta precaución garantiza que las anotaciones realizadas contribuyan eficazmente a resolver el problema específico del proyecto.

El proceso de anotación puede variar en función de la aplicación y la naturaleza del problema. Por lo tanto, es esencial responder a una serie de preguntas clave:

   - ¿Qué problema pretende resolver el proyecto?

   - ¿Cuál es el contexto general del proyecto y qué misión de servicio público apoya?

   - ¿Cuáles son los objetivos estratégicos del proyecto y cómo se alinean con los objetivos de la organización?

   - ¿Cuáles son los objetivos operativos del proyecto?

   - ¿Qué impacto se espera que tenga la solución en la organización del servicio, tanto desde el punto de vista de los funcionarios como de los usuarios?

   - ¿Existen proyectos similares que podrían beneficiarse de la exploración?

   - ¿Cuál es el alcance de la solución propuesta y cómo afecta esto al alcance de los datos que hay que anotar?

Desarrollo de un sistema de anotación de datos

El esquema de anotaciones es un modelo utilizado para describir las anotaciones de su proyecto. Debe derivarse del problema definido anteriormente. En la práctica, consiste como mínimo en un conjunto de etiquetas (es decir, términos utilizados para caracterizar una determinada información en un documento) y una definición precisa de estas diferentes etiquetas. En algunos proyectos, el esquema de anotación también puede estar definido por una jerarquía de etiquetas o por relaciones entre términos. De hecho, todas las etiquetas pueden jerarquizarse. A veces, el esquema de anotación se completa con una tarea para identificar las relaciones entre las entidades anotadas (por ejemplo, una tarea de anotación podría consistir en relacionar un pronombre con el sustantivo al que se refiere).

El problema empresarial al que responde el proyecto suele ser complejo, con muchos casos especiales o excepciones a las normas habituales. Establecer un esquema de anotación implica a menudo una simplificación (que también conlleva una pérdida de información o de precisión). Sin embargo, es importante no simplificar en exceso y encontrar un buen equilibrio entre sencillez y pertinencia para el problema empresarial. Para encontrar este equilibrio, el mejor método suele ser un proceso iterativo. Si el objetivo de la anotación es entrenar un algoritmo de inteligencia artificial, no deben excluirse a priori características o instrucciones específicas que serían demasiado difíciles de reproducir para una solución automática.

Desarrollar y actualizar la documentación de la campaña de anotación

La documentación es un elemento fundamental y debe evolucionar dinámicamente a lo largo de la campaña de anotación. Al registrar metódicamente las etapas realizadas y enumerar los retos encontrados, la documentación resulta ser una herramienta valiosa para garantizar la uniformidad de la información dentro del equipo del proyecto. También desempeña un papel beneficioso a la hora de compartir las lecciones aprendidas con otros proyectos similares.

Son esenciales varios tipos de documentación, cada uno dirigido a funciones específicas dentro del proyecto: documentación general, documentación destinada a los anotadores y documentación específicamente diseñada para el administrador de la plataforma de anotación.

Guía para anotadores

La documentación destinada a los anotadores es de vital importancia como ayuda a la formación. Debe incluir elementos como una descripción detallada del proyecto para ofrecer una visión clara de la aplicación prevista, un esquema resumido de anotación con una jerarquía cuando proceda, y explicaciones precisas de las distintas etiquetas, incluidas las opciones metodológicas y la lógica subyacente a la anotación. Las instrucciones sobre cómo utilizar el programa informático de anotación, los ejemplos concretos de casos particulares y una sección de Preguntas y Respuestas contribuyen a facilitar el proceso de anotación.

Guía para el administrador de la plataforma de anotación (V7 Labs, Encord o CVAT)

Igual de importante es documentar el funcionamiento de la plataforma de anotación. Una guía específica para el administrador de la plataforma debe explicar cómo crear cuentas de anotador, cargar documentos, asignar tareas, supervisar el progreso, corregir anotaciones y exportar documentos anotados. Esta documentación garantizará una gestión fluida y eficaz de la plataforma durante toda la campaña de anotación.

(Continuación de la guía disponible en esta dirección).

Innovatiana se ha distinguido por ofrecer una solución completa a través de su plataforma "CUBE", a la que se puede acceder en la siguiente dirección https://dashboard.innovatiana.com. Esta plataforma ofrece una respuesta integral a las necesidades de recogida y anotación de datos en un único entorno. Al centralizar todas las necesidades asociadas a estos procesos, se posiciona como una solución única para proyectos de inteligencia artificial. La plataforma ofrece una respuesta personalizada a los requisitos específicos de cada proyecto. Además, ofrece la flexibilidad necesaria para reforzar los equipos de etiquetado, fomentando un enfoque eficiente y colaborativo. Innovatiana responde plenamente a una perspectiva dinámica y evolutiva de la anotación, proporcionando una solución integral adaptada a los retos actuales de los proyectos de inteligencia artificial.