Conocimientos

Publicación de YOLOv9: entender YOLO, el algoritmo de detección de objetos más popular

Escrito por

Nicolas

Publicado el

2024-03-02

Tiempo de lectura

Esto es un texto dentro de un bloque div.

min

📘 ÍNDICE

Muchas gracias. Hemos recibido su envío.

¡Uy! Algo ha ido mal al enviar el formulario.

La detección de objetos es una tarea fundamental en 🔗 Visión por computador : permite a las inteligencias artificiales localizar y clasificar objetos presentes en imágenes o vídeos. La capacidad de detectar objetos con precisión tiene muchas aplicaciones, desde coches autónomos hasta sistemas de vigilancia. En los últimos años, un algoritmo ha ganado popularidad por su excepcional rendimiento en 🔗 detección de objetos You Only Look Once (YOLO). Pero, ¿qué sabes de este algoritmo y qué comprensión tienes de él?

‍

¿No tienes ni idea? Que no cunda el pánico, este artículo está aquí para explicarte qué es YOLO, su importancia en el mundo de la IA y sus diferentes versiones. Después de leer esto, tendrás una buena comprensión de YOLO y sus aplicaciones. Empecemos.

‍

Algoritmos de detección de objetos: ¿qué son?

‍

Los algoritmos de detección de objetos son programas informáticos diseñados para identificar y localizar objetos en una imagen o vídeo. Estos potentes algoritmos de detección pueden identificar varios objetos y clasificarlos en diferentes categorías.

‍

Un ejemplo popular de algoritmo de detección de objetos es YOLO (You Only Look Once), que procesa rápidamente las imágenes en tiempo real, lo que lo hace muy eficaz para aplicaciones como la vigilancia y el control del tráfico. Otro ejemplo es la familia R-CNN (Regiones con Redes Neuronales Convolucionales), que incluye Fast R-CNN y Faster R-CNN, famosas por su precisión a la hora de detectar un único objeto o varios proponiendo primero regiones y clasificándolas después.

‍

Con los avances en inteligencia artificial (Deep Learning), estos algoritmos mejoran constantemente, haciéndose más rápidos y precisos, y juegan un papel esencial en el desarrollo de tecnologías como los vehículos autónomos, donde ayudan a automatizar un sistema de detección de obstáculos en la carretera, por ejemplo.

‍ ¿Qué es YOLO y cuál es su importancia en la IA?

‍

Como hemos visto, 🔗 YOLOo "Sólo se mira una vez", es una herramienta especial que ayuda a los ordenadores a ver con rapidez y precisión cosas en imágenes, archivos de texto o vídeos.

‍

Creado por expertos 🔗 Joseph Redmon y 🔗 Ali Farhadi en 2015, YOLO es más rápido que las herramientas anteriores porque analiza toda la imagen de una sola vez. Esta rápida comprobación permite a YOLO identificar rápidamente si hay otros objetos, como coches, árboles o animales, y en qué parte de la imagen se encuentran.

‍

YOLO es muy importante para la IA, sobre todo en el desarrollo de productos avanzados como los vehículos autónomos. En el caso de los coches autónomos, YOLO puede actuar como los ojos del vehículo, detectando rápidamente cosas en la carretera para evitar accidentes. Además, integrado en cámaras inteligentes, YOLO puede ayudar a mejorar la videovigilancia detectando automáticamente comportamientos inusuales, por ejemplo en aeropuertos o centros comerciales. Esto significa que si alguien deja una mochila sola, YOLO puede informar inmediatamente al equipo de seguridad mediante una notificación.

‍

Los creadores de YOLO siguen actualizando el algoritmo para mejorarlo continuamente; hay muchas versiones, desde YOLOv1 hasta YOLOv9 (la más reciente, lanzada en febrero de 2024), y cada nueva versión es más rápida y precisa. YOLO se ha hecho muy popular porque dota a las máquinas de superpoderes para ver y comprender el mundo con rapidez y localizar objetos para multitud de aplicaciones del mundo real.

‍

¿Cómo se preparan los datos para entrenar los modelos YOLO?

Recurra a nuestros anotadores para sus tareas de anotación de datos más complejas y mejore la calidad de sus datos hasta alcanzar una fiabilidad del 99%. Trabaje hoy mismo con nuestros anotadores de datos.

Contacte con nosotros Anúnciese ahora

‍

¿Cómo funciona YOLO?

‍

He aquí cómo funciona el algoritmo de detección de objetos YOLO (You Only Look Once), explicado en sencillos pasos:

‍

1. Tomar una foto

En primer lugar, el algoritmo YOLO parte de una imagen, igual que cuando se hace una foto con una cámara. Es lo que llamamos detección de objetos basada en la 🔗clasificación de imágenes ¡!

‍

2. Dividir la imagen

A continuación, divide la imagen dada en pequeños cuadrados, como un tablero de damas. Cada cuadrado se comprueba para ver si contiene un objeto (un gato, un perro o una lata, por ejemplo).

‍

3. Buscar pistas

Para cada cuadrado, YOLO busca pistas o características como bordes, formas o texturas que puedan indicar qué objeto hay dentro. Los rodea con recuadros delimitadores. Como YOLO tiene que aprender a entender e interpretar completamente un nuevo conjunto de datos, a veces se le da un conjunto de datos de referencia (o "ground truth") del que puede extraer puntos de comparación.

‍

4. 4. Hacer predicciones

El algoritmo hace una conjetura para cada cuadrado de una imagen: ¿qué objeto podría ser y dónde está exactamente en el cuadrado? Asigna a cada suposición una puntuación para mostrar su nivel de certeza.

‍

5. Eliminación de excedentes

Algunas casillas tienen conjeturas superpuestas de objetos diferentes, como dos casillas que adivinan parte del mismo coche. YOLO elige la mejor suposición para cada objeto, deshaciéndose de suposiciones innecesarias.

‍

6. Mostrar lo que ha encontrado

Al final, YOLO te muestra dónde cree que está cada objeto dibujando recuadros a su alrededor y etiquetándolos, como "coche" o "árbol". Si le das 1.000 imágenes con perros y gatos y le dices que identifique a los gatos, te mostrará imágenes enriquecidas con metadatos que señalan a los gatos.

‍

El punto fuerte de YOLO es que examina todos los elementos de una imagen (descompuesta en "cuadrados") al mismo tiempo. Por eso es rápido e incluso puede trabajar en tiempo real, lo que resulta muy útil para aplicaciones que requieren reacciones rápidas, como los coches autónomos o la videovigilancia.

‍

💡 ¿Lo sabías?

YOLO, abreviatura de "You Only Look Once", es una de las arquitecturas de modelos y algoritmos de detección de objetos más populares. YOLO es capaz de predecir la clase de un objeto y el cuadro delimitador que define su ubicación en la imagen en una sola pasada, lo que lo hace ideal para aplicaciones en tiempo real.

Contacte con nosotros Anúnciese ahora

‍

YOLO vs. R-CNN: ¿cuál es la diferencia?

‍

Tanto YOLO como R-CNN son eficaces para localizar objetos en imágenes o 🔗 vídeospero lo hacen de formas distintas y para casos de uso a menudo diferentes. ¡He aquí en qué se diferencian en los procesos de detección de objetos!

‍

Velocidad

YOLO es muy rápido porque analiza toda la imagen de una sola vez. Pero R-CNN examina partes de la imagen varias veces para encontrar objetos, lo que lleva más tiempo. Así que el modelo YOLO ofrece mayor velocidad en la detección de objetos.

‍

Medidas adoptadas

YOLO divide la imagen en cuadrados, adivina qué hay dentro de cada uno y elimina las conjeturas innecesarias. R-CNN empieza por encontrar partes interesantes de la imagen y, a continuación, examina estas partes más de cerca para determinar lo que contienen.

‍

Precisión

R-CNN es muy meticuloso y preciso porque dedica más tiempo a comprobar cada parte de la imagen. YOLO es más rápido, pero a veces no tan meticuloso como R-CNN.

‍

Casos prácticos

YOLO es adecuado cuando se necesitan respuestas rápidas, como en un coche autónomo que necesita tomar decisiones rápidas. R-CNN es preferible cuando se necesita estar realmente seguro de lo que hay en la imagen y se dispone de más tiempo para comprobarlo, por ejemplo si una imagen médica muestra signos de enfermedad.

‍

Criterios	YOLO	R-CNN
Velocidad	Más rápido	Más lento
Método	Ver una imagen de una sola vez	Mirar fragmentos de una imagen varias veces
Precisión	Menos preciso pero mejorando	Más precisión
Mejor para	Aplicaciones en tiempo real	Análisis detallado cuando la reactividad no es una limitación

Tabla comparativa: YOLO frente a R-CNN

‍

En general, utilizar YOLO es como echar un vistazo rápido a una habitación y detectar rápidamente la mayoría de los objetos que hay en ella. Utilizar R-CNN es como tomarse el tiempo necesario para ver cada rincón de la habitación y asegurarse de que no se pasa nada por alto. Ambos algoritmos son excelentes en este juego, pero lo hacen de forma diferente.

‍

Evolución de la detección de objetos: de YOLO 1 a YOLO 9

‍

YOLO, acrónimo de "You Only Look Once", es un algoritmo de detección de objetos en tiempo real que ha experimentado importantes mejoras desde su creación. Como detector"de una sola vez", procesa imágenes e identifica objetos mediante la predicción de recuadros delimitadores y probabilidades de clase en una sola pasada. Con el tiempo, YOLO se ha hecho cada vez más resistente y potente, como ilustra la última publicación de sus autores:

‍

*Ilustración de la actuación de YOLO de 🔗.* ***GitHub*** *de sus autores, probado en el conjunto MS COCO. En el eje x, el número de parámetros; en el eje y, la precisión media en porcentaje.*

‍

YOLO V1

- La primera versión de YOLO revolucionó el mundo de la investigación en inteligencia artificial y Computer Vision gracias a su capacidad de detección de objetos en tiempo real, con una velocidad de inferencia muy superior a la de métodos existentes como R-CNN.

- YOLO v1 divide la imagen entrante en una cuadrícula y predice varios recuadros delimitadores y probabilidades de clase para cada celda de la cuadrícula.

- Sin embargo, con esta primera versión, la precisión era un compromiso. YOLO tenía problemas con los objetos pequeños y producía numerosos errores de localización.

‍

YOLO V2 y V3

- Las versiones posteriores, como YOLO v2 y v3, introdujeron mejoras significativas y nuevas funciones, como los recuadros de anclaje, utilizando la agrupación k-means para predecir coordenadas de recuadros delimitadores más precisas.

- Estas versiones también se han beneficiado de la normalización por lotes y de la gestión de imágenes de entrada de mayor resolución, lo que ha mejorado significativamente el rendimiento de la detección en pruebas de referencia como los conjuntos de datos Pascal VOC y COCO.

‍

YOLO V4 y V5

- Con el objetivo de lograr tanto una alta velocidad como una gran precisión, YOLO v4 ha introducido funciones como la agrupación de pirámides espaciales y una arquitectura YOLO más compleja basada en redes convolucionales avanzadas.

- YOLO v5 se ha centrado en la simplificación y la optimización, lo que le permite funcionar a gran velocidad en equipos menos potentes sin perder precisión.

‍

YOLO V6 a V8

- Las versiones más recientes de YOLO, a partir de la versión 6, introducen mejoras continuas centradas en aplicaciones reales de YOLO, como los vehículos autónomos o la videovigilancia. A medida que pasa el tiempo, YOLO se aleja de la comunidad investigadora para acercarse al gran público y a los casos de uso en la vida real.

- Estas versiones han perfeccionado el uso de técnicas de Deep Learning, incluyendo diversas formas deaumento de datos y algoritmos de optimización que han ayudado a mejorar la precisión media y la capacidad de detectar una diversa gama de clases de objetos.

‍

YOLO V9

El 21 de febrero de 2024, 🔗 Chien-Yao WangI-Hau Yeh y 🔗 Hong-Yuan Mark Liao han publicado el artículo 🔗 "YOLOv9: Aprendiendo lo que quieres aprender usando Información de Gradiente Programable.", en el que se presenta una nueva arquitectura de modelos de visión por ordenador: YOLOv9.

‍

YOLOv9 representa un gran paso adelante en la serie de modelos YOLO, ofreciendo mejoras significativas en precisión y eficiencia para la detección de objetos en tiempo real. Se distingue de sus predecesores, en particular YOLOv8, por una 🔗 una reducción del 49% en el número de parámetros y del 43% en la complejidad computacionalal tiempo que aumenta la precisión media en el conjunto de datos MS COCO en un 0,6%.

‍

🔗 La serie YOLOv9 consta de cuatro modelos YOLOv9-s (pequeño), YOLOv9-m (medio), YOLOv9-c (compacto) y YOLOv9-e (ampliado), cada uno de los cuales varía en cuanto a número de parámetros y prestaciones. Estos modelos están diseñados para satisfacer una amplia gama de necesidades, desde aplicaciones ligeras hasta otras de mayor rendimiento.

‍

YOLOv9 introduce dos grandes innovaciones:

- 1. Información de gradiente programable (PGI)‍

- 2. la Red Generalizada de Agregación Eficiente de Capas (GELAN)

‍

El ERP es un mecanismo auxiliar de supervisión que consta de tres componentes principales:

- 1. una rama principal

- 2. una rama auxiliar reversible

- 3. información auxiliar multinivel

‍

Esta estructura ayuda a mitigar la pérdida de información causada por los cuellos de botella de información, un problema común en las redes neuronales profundas. GELAN combina elementos de 🔗 CSPNetconocida por su eficiente planificación de trayectorias por gradiente, y 🔗 ELANque prioriza la velocidad de inferencia, creando una arquitectura versátil que se centra en un diseño ligero, una inferencia rápida y una mayor precisión.

‍

Además, YOLOv9 es adecuado para una gran variedad de aplicaciones de Computer Vision, como logística y distribución, vehículos autónomos, recuento de personas en el sector minorista y análisis deportivo. Estas aplicaciones se benefician de la capacidad de YOLOv9 para detectar objetos en tiempo real con gran precisión y eficacia.

‍

En conjunto, YOLOv9 representa un hito importante en la investigación de la inteligencia artificial y refleja el impulso actual de una búsqueda incesante por alcanzar y mantener el estatus de vanguardia en este campo. Los desarrolladores de YOLOv9 han publicado el código fuente en 🔗 GitHublo que facilita su adaptación a una gran variedad de tareas de Visión por Computador.

‍

Versión	Mejoras	Compromiso entre velocidad y precisión	Aplicaciones
V1	Predicción por celda de cuadrícula, método de disparo único	Rápido pero menos preciso	Detección fundamental en tiempo real (investigación)
V2 y V3	Cajas de anclaje, normalización de lotes	Más rápido y preciso	Diversas aplicaciones en tiempo real
V4 y V5	Agrupación de pirámides espaciales, optimización	Equilibrio entre velocidad y precisión	Entornos exigentes, como el transporte
De V6 a V8	Optimización selectiva, arquitecturas mejoradas	Gran precisión y en tiempo real	Aplicaciones especializadas, como la vigilancia
V9	Detección mejorada de objetos pequeños, integración con otros modelos de IA e IA explicable.	Mayor precisión y rapidez	Aplicaciones como imágenes médicas, conducción autónoma y detección de fallos industriales.

Cuadro recapitulativo de las distintas versiones y evoluciones de YOLO

‍

A lo largo de su evolución de YOLO v1 a v9, la familia YOLO de algoritmos de detección de objetos ha consolidado su posición como herramienta clave en Visión por Computador. Con cada versión, YOLO se ha hecho más experto en la detección de objetos de diversa complejidad, en una gran variedad de escenarios, convirtiéndose en un componente esencial en los sistemas de automatización en los que la detección rápida y precisa de objetos es primordial. Para obtener más información y probar YOLOv9, visite 🔗. Cara abrazada ¡🤗 !

‍

¿Cuáles son las principales aplicaciones de YOLO en los distintos sectores?

‍

YOLO, uno de los mejores algoritmos de detección de objetos, se utiliza en una gran variedad de ámbitos de la vida, facilitando considerablemente nuestro día a día. He aquí un breve resumen de los principales sectores en los que se utiliza YOLO.

‍

Sistemas de control

YOLO se utiliza ampliamente en vigilancia para mantener la seguridad en espacios públicos como aeropuertos, centros comerciales y calles de ciudades. Identifica rápidamente objetos desatendidos, como bolsas que puedan contener materiales peligrosos, y movimientos inusuales, alertando a las autoridades en tiempo real. Esto ayuda a prevenir delitos y a responder rápidamente a posibles amenazas, garantizando la seguridad pública.

‍

Control y gestión del tráfico

En el ámbito de la gestión del tráfico por carretera, YOLO puede analizar las pautas de circulación, detectar infracciones de tráfico y detectar accidentes en cuanto se producen. Las autoridades utilizan estos datos en tiempo real para optimizar los flujos de tráfico, reducir la congestión y desplegar los servicios de emergencia con mayor rapidez en caso necesario. Con YOLO, las ciudades inteligentes pueden gestionar eficazmente sus carreteras, lo que puede salvar vidas al reducir los tiempos de respuesta en caso de accidente.

‍

Salud

En el sector sanitario, YOLO se utiliza en imágenes médicas para identificar anomalías en las exploraciones y ayudar en el diagnóstico. Aunque no es tan preciso como las herramientas de diagnóstico especializadas, acelera el análisis preliminar y señala las zonas que requieren un examen más detallado por parte de un profesional sanitario. Esta aplicación de YOLO puede acelerar la exploración de los pacientes y ayudar a la detección precoz de enfermedades.

‍

Automatización industrial

Las industrias manufacturera y logística se benefician de YOLO porque agiliza las operaciones al identificar componentes en las cadenas de montaje, rastrear el inventario en tiempo real y detectar defectos en los productos. Esto permite mejorar el control de calidad, aumentar la eficiencia y reducir los costes operativos al minimizar los errores humanos y aumentar el rendimiento.

‍

Ventas al por menor

Los minoristas utilizan YOLO para conocer el comportamiento de los clientes y mejorar la distribución de las tiendas. Analizando cómo se mueve la gente por una tienda, las empresas pueden optimizar la ubicación de los estantes, mejorar el servicio al cliente y gestionar las colas con más eficacia. Esta información ayuda a mejorar la experiencia del cliente.

‍

Vehículos autónomos

El uso de YOLO para desarrollar IA para vehículos autónomos permite a los coches detectar otros coches, peatones y obstáculos en la carretera, lo que lo hace indispensable para el proceso de toma de decisiones al volante.

Preguntas más frecuentes

¿Qué es el concepto de "supresión no máxima (NMS)" en el contexto de la detección de objetos YOLO?

NMS es una técnica de postprocesamiento utilizada en YOLO para garantizar que cada objeto detectado se tenga en cuenta una sola vez. Después de que YOLO haya predicho varios recuadros delimitadores para los objetos detectados, NMS examina estos recuadros y elimina los menos probables, manteniendo sólo los recuadros delimitadores más probables. De este modo se evitan múltiples detecciones del mismo objeto y se mejora la precisión del algoritmo.

¿Cómo aprovecha YOLO el conjunto de datos Pascal VOC para mejorar su rendimiento?

El conjunto de datos Pascal VOC es un reconocido conjunto de datos de Visión por Computador que proporciona conjuntos de datos de imágenes estandarizados para el reconocimiento de clases de objetos. YOLO utiliza este conjunto de datos, junto con otros como COCO, para el entrenamiento y las pruebas con el fin de lograr mejoras incrementales en la detección de objetos. El entrenamiento en COCO ayuda al modelo a aprender a detectar las 20 clases de objetos incluidas en el conjunto de datos y a validar su precisión y eficacia en imágenes de entrenamiento.

¿Puede YOLO detectar eficazmente dos cajas límite alrededor de un objeto?

YOLO puede detectar más de un recuadro delimitador por objeto; sin embargo, depende del NMS para decidir cuál es el más preciso. El algoritmo predice primero varios recuadros y luego, basándose en las probabilidades de clase y las puntuaciones de intersección en la unión (IoU), selecciona el mejor recuadro delimitador descartando los demás.

¿En qué se diferencia YOLO de una red neuronal convolucional como la CNN en su planteamiento del problema de la detección de objetos?

YOLO está diseñado como detector de un solo disparo, lo que significa que realiza tanto la clasificación como la localización en una sola pasada. No es totalmente convolucional porque se basa en capas totalmente conectadas al final de la arquitectura. Una red neuronal convolucional, por otro lado, no tiene capas totalmente conectadas y realiza la segmentación, produciendo un mapa de segmentación. En el problema de la detección de objetos, YOLO ofrece una forma rápida y eficaz de detectar objetos mediante coordenadas de bounding box y probabilidades de clase, mientras que las CNN suelen utilizarse para la segmentación píxel a píxel.

¿Utiliza YOLO una máquina de vectores soporte (SVM) para clasificar los objetos?

No, YOLO no utiliza máquinas de vectores de soporte (SVM) para clasificar objetos. En su lugar, predice directamente las probabilidades de clase para cada cuadro delimitador utilizando clasificadores softmax o logísticos como parte del mismo modelo de aprendizaje profundo, en lugar de basarse en enfoques tradicionales de aprendizaje automático como las SVM.

‍

Unas palabras finales

‍

En resumen, YOLO es un potente algoritmo de detección de objetos y hay pocos competidores que puedan igualarlo a la hora de diseñar y sacar al mercado productos de IA de alto rendimiento cuyo desarrollo sea relativamente barato. Con un excelente rendimiento de detección de objetos, capacidades de detección de objetos en tiempo real y un rendimiento de detección inigualable, YOLO ya se está utilizando en una amplia gama de industrias. Esperamos que haya disfrutado de la información que le hemos proporcionado en este artículo. Gracias por su lectura.

‍

Y si quieres saber más sobre cómo preparar conjuntos de datos para entrenar tus modelos YOLO, por qué no exploras los servicios que ofrece 🔗 Innovatiana ? En Innovatiana, entendemos la importancia de un conjunto de datos bien estructurado y denso para la eficacia de los modelos de inteligencia artificial. ¡Somos especialistas en preparar y procesar datos de calidad para maximizar el rendimiento de tus modelos YOLO!