Al hacer clic en "Aceptar", acepta que se almacenen cookies en su dispositivo para mejorar la navegación por el sitio, analizar su uso y contribuir a nuestros esfuerzos de marketing. Consulte nuestra política de privacidad para obtener más información.
Conocimientos

Conjuntos de datos para la clasificación de textos: nuestra selección de los más fiables

Escrito por
Daniella
Publicado el
2024-11-23
Tiempo de lectura
Esto es un texto dentro de un bloque div.
min
📘 ÍNDICE
Muchas gracias. Hemos recibido su envío.
¡Uy! Algo ha ido mal al enviar el formulario.

Todos sabemos que los grandes conjuntos de datos de texto son importantes para entrenar modelos de PLN o LLM. Además, la clasificación de textos juega un papel esencial en el desarrollo de aplicaciones de 🔗 procesamiento automático del lenguaje natural (PLN), permitiendo a los modelos de IA categorizar automáticamente la información textual.

En este contexto, los conjuntos de datos de clasificación de texto son recursos esenciales para entrenar y evaluar 🔗 modelos de aprendizaje automático. Ya sea para la 🔗 clasificación de sentimientos, categorización de temas o detección de spam, la calidad y la diversidad de los conjuntos de datos influyen directamente en el rendimiento y la fiabilidad de los modelos.

💡 Este artículo ofrece una selección de 15 conjuntos de datos conocidos y reconocidos, utilizados y probados en la comunidad científica e industrial, que garantizan una base sólida para aprender y evaluar sistemas de clasificación de textos. Y si no encuentras lo que buscas... puedes 🔗 ponerse en contacto con nosotros ¡Estaremos encantados de elaborar un conjunto de datos a tu medida para ayudarte a alcanzar tus objetivos!

📚 Introducción a la clasificación de textos

La clasificación de textos es una tarea fundamental en el campo del procesamiento del lenguaje natural (PLN) y el aprendizaje automático. Consiste en asignar una o varias etiquetas o categorías a un texto en función de su contenido, estilo o contexto. Esta tarea es esencial en muchos ámbitos, como la recuperación de información, la clasificación de sentimientos, la detección de spam, la recomendación de contenidos, etc.

La clasificación de textos puede realizarse mediante diversos algoritmos y modelos, como 🔗 redes neuronales árboles de decisión, bosques aleatorios, máquinas de vectores soporte (SVM), etc. Cada modelo tiene sus puntos fuertes y débiles, y la elección del modelo adecuado depende del tipo de datos, la complejidad de la tarea y los recursos disponibles.

¿Por qué son esenciales los conjuntos de datos para la clasificación de textos?

Los conjuntos de datos son esenciales para la clasificación de textos porque proporcionan a los modelos de aprendizaje automático ejemplos estructurados que les permiten aprender a reconocer y diferenciar entre categorías de texto. En el procesamiento automático del lenguaje natural, un modelo necesita analizar grandes cantidades de datos para comprender los matices lingüísticos y contextuales específicos de cada categoría.

En la práctica, por ejemplo, los archivos CSV pueden utilizarse para estructurar conjuntos de datos para el aprendizaje automático, especificando las columnas necesarias y los formatos esperados para la introducción de datos en diversos modelos, en particular para los bloques de clasificación.

Sin un conjunto de datos bien construido, que abarque una amplia gama de casos y variaciones lingüísticas, el modelo corre el riesgo de ser inexacto, generalizar o carecer de relevancia. Además, los conjuntos de datos permiten probar y validar el rendimiento de un modelo antes de utilizarlo en entornos reales, lo que garantiza que el modelo pueda manejar nuevos datos de forma fiable.

Por tanto, no sólo contribuyen a la fase de aprendizaje, sino también a la de evaluación, lo que permite optimizar continuamente los modelos de clasificación de textos para tareas específicas, como el análisis de sentimientos, la detección de spam o la categorización de documentos.

¿Cuáles son las características de un conjunto de datos PNL fiable?

Un conjunto de datos fiable para el procesamiento automático del lenguaje natural (PLN) tiene una serie de características clave que garantizan su calidad y utilidad para entrenar y evaluar modelos de aprendizaje automático.

Tamaño suficiente

Un conjunto de datos amplio, que incluya una diversidad de casos, permite al modelo aprender matices lingüísticos variados. Esto reduce el riesgo de 🔗 sobreaprendizaje en ejemplos concretos y mejora la generalizabilidad del modelo.

Variedad lingüística y contextual

Un buen conjunto de datos contiene muestras de distintos contextos y estilos lingüísticos, ya sean formales, informales, diversos dialectos o jergas específicas. Esta variedad permite al modelo adaptarse mejor a las diferencias del lenguaje natural.

Etiquetado preciso y coherente

Los datos deben etiquetarse de forma coherente y precisa, sin errores ni ambigüedades. Un etiquetado fiable permite al modelo aprender correctamente a clasificar los textos en categorías bien definidas, ya sean sentimientos, temas u otros tipos de clasificación.

Representatividad de los datos

Un conjunto de datos fiable debe representar los casos de uso reales para los que se utilizará el modelo. Por ejemplo, para una clasificación de sentimientos en redes sociales, es esencial que el conjunto de datos contenga una muestra de textos de plataformas similares.

Equilibrio de clases

En un conjunto de datos de clasificación, cada clase (o categoría) debe estar suficientemente representada para evitar sesgos. 🔗 Un conjunto de datos bien equilibrado garantiza que el modelo no esté sobreentrenado para detectar las categorías más presentes a expensas de las menos frecuentes.

Oportunidad y pertinencia

Como la lengua evoluciona rápidamente, es necesario actualizar periódicamente un conjunto de datos fiable que refleje los cambios de vocabulario, sintaxis y tendencias lingüísticas.

Estas características garantizan que el conjunto de datos sea apto para el procesamiento automático del lenguaje natural, lo que permite a los modelos de aprendizaje automático alcanzar un rendimiento óptimo sin perder solidez ante datos variados y nuevos.

¿Cuáles son los 15 mejores conjuntos de datos para la clasificación de textos?

Cada conjunto de datos tiene sus propias características específicas, adaptadas a objetivos particulares, ya sea para 🔗 Análisis de sentimientosmoderación, detección de spam o categorización de temas.

He aquí nuestra selección de 15 conjuntos de datos utilizados habitualmente para la clasificación de textos, que abarcan diversos casos de uso y tipos de clasificación, y gozan de un amplio reconocimiento por su fiabilidad en el procesamiento automático del lenguaje natural.

1. Reseñas IMDB

Este conjunto de datos incluye críticas de películas etiquetadas como positivas o negativas. Su ventaja radica en su tamaño y popularidad, que lo convierten en un estándar para la clasificación de sentimientos. Su especificidad es que ofrece texto rico en opiniones, ideal para modelos que necesitan comprender los matices del lenguaje en las opiniones de los usuarios.

🔗 Enlace: Kaggle IMDB

2. Reseñas de Amazon

Este conjunto de datos, que contiene opiniones sobre productos con niveles de satisfacción, es especialmente útil para detectar opiniones múltiples y la satisfacción de los clientes. Es extenso, está bien estructurado e incluye metadatos (producto, valoración, etc.), lo que permite analizar en profundidad el comportamiento de compra y las opiniones de los usuarios.

🔗 Enlace: Kaggle Amazon Reviews

3. Reseñas de Yelp

Este conjunto de datos, que contiene opiniones de clientes sobre empresas etiquetadas de una a cinco estrellas, ofrece una granularidad fina para la clasificación de sentimientos. Su particularidad es que contiene información útil en el contexto de la restauración, la hostelería y los servicios locales, una ventaja para los modelos dirigidos a estos sectores.

🔗 Enlace: Reseñas Yelp

4. Noticias AG

Este conjunto de datos se utiliza habitualmente para clasificar temas en artículos de prensa. Está estructurado en cuatro categorías (ciencia, deportes, negocios, tecnología), lo que proporciona una base excelente para los modelos de PNL basados en la clasificación temática o el análisis de noticias.

🔗 Enlace : Noticias AG

5. 20 grupos de noticias

Conjunto de datos compuesto por artículos de 20 grupos de discusión diferentes. Su principal ventaja radica en su diversidad temática, ya que abarca una amplia gama de temas, desde la ciencia hasta el ocio, lo que resulta inestimable para probar la capacidad de los modelos de identificar temas específicos en corpus heterogéneos.


‍ 🔗 Enlace :20 Grupos de noticias

6. Ontología DBpedia

Este conjunto de datos procede de Wikipedia y abarca más de 500 categorías temáticas, perfectas para tareas de clasificación de documentos o enriquecimiento del conocimiento. Su riqueza y estructura pueden utilizarse para entrenar modelos para tareas complejas de categorización de contenidos enciclopédicos.

🔗 Enlace : Ontología DBpedia

7. SST (Stanford Sentiment Treebank)

Un conjunto de datos muy detallado para el análisis de sentimientos, con anotaciones a nivel de frases y palabras. Su granularidad permite captar sentimientos sutiles y formar modelos capaces de captar matices como la positividad o negatividad progresiva en una reseña.

🔗 Enlace: Stanford SST

8. Reuters-21578

Este conjunto de datos, utilizado a menudo en la investigación de PNL, contiene artículos clasificados por temas económicos y financieros. Es muy fiable para clasificar temas financieros y económicos, una ventaja para las empresas y las aplicaciones de inteligencia empresarial.

🔗 Enlace: Reuters-21578

9. Conjunto de datos de análisis del sentimiento en Twitter

Este conjunto de datos agrupa tuits etiquetados según el sentimiento que transmiten, a menudo positivo, negativo o neutro. Es ideal para modelos de PLN dirigidos a redes sociales, ya que incluye lenguaje informal, abreviaturas y expresiones breves propias del formato de los tuits.

🔗 Enlace: Análisis del sentimiento en Twitter

10. Clasificación de preguntas TREC (Text REtrieval Conference)

Diseñado para clasificar las preguntas en categorías (por ejemplo, lugar, persona, número), este conjunto de datos es especialmente útil para desarrollar sistemas de respuesta automática. Su ventaja reside en su estructura única, que ayuda a los modelos a comprender mejor las intenciones de las preguntas.

🔗 Enlace : TREC

11. Conjunto de datos de categorías de noticias

Este conjunto de datos de clasificación periodística reúne artículos de prensa de varias fuentes, lo que proporciona una base diversa y actualizada para los modelos de clasificación temática o el análisis del contenido de los medios de comunicación.

🔗 Enlace : Conjunto de datos de categorías de noticias

12. Corpus público de SpamAssassin

Este corpus de correos electrónicos se utiliza para la detección de spam. Su ventaja es que contiene mensajes de contextos muy variados (phishing, promociones, etc.), lo que permite formar modelos eficaces para detectar spam en correos electrónicos y mensajería.

🔗 Enlace: SpamAssassin

13. Comentarios tóxicos de Wikipedia

Este conjunto de datos está diseñado para detectar comentarios tóxicos, insultantes o cargados de odio en plataformas públicas. Ayuda a desarrollar modelos para aplicaciones de moderación de contenidos, un ámbito cada vez más importante en las redes sociales y los foros.

🔗 Enlace: Comentarios tóxicos

14. Conjunto de datos sobre emociones

Este conjunto de datos está diseñado para clasificar emociones (alegría, tristeza, ira, etc.) en mensajes cortos. Está especialmente indicado para analizar sentimientos en contextos sociales o para aplicaciones de asistencia al usuario que requieran una comprensión detallada de las emociones.

Enlace: Emotion Dataset

15. Conjunto de datos de correo electrónico de Enron

Compuesto por correos electrónicos de la empresa Enron, este conjunto de datos se utiliza habitualmente para analizar los intercambios empresariales, sobre todo en el contexto de la detección de fraudes o la gestión de la comunicación interna. Su especificidad reside en la variedad de sus muestras (respuestas, cadenas de correos electrónicos), una baza para analizar relaciones y temas.

Enlace: Conjunto de datos de correo electrónico de Enron

¿Qué conjuntos de datos deben utilizarse para detectar sujetos o categorías?

Para la detección de temas o categorías, varios conjuntos de datos destacan por su diversidad temática y su estructura adaptada a la clasificación. He aquí las opciones más relevantes:

1.
A G Noticias Compuesto por artículos de prensa clasificados en cuatro categorías principales: ciencia, deportes, negocios y tecnología, este conjunto de datos es ideal para tareas de clasificación temática. Su tamaño y sencillez lo convierten en un excelente punto de partida para modelos que necesitan aprender a identificar una gran variedad de temas en textos de noticias.


2. 20 Newsgroups Este conjunto de datos reúne artículos de 20 foros de discusión, que abarcan una amplia gama de temas como la ciencia, la política, el ocio y la tecnología. Su riqueza temática lo convierte en un recurso ideal para entrenar modelos de reconocimiento de categorías en corpus heterogéneos y captar las particularidades de cada tema.

3.
D Bpedia Ontology Basado en Wikipedia, este conjunto de datos está organizado en varios cientos de categorías temáticas. Su nivel de detalle lo hace especialmente adecuado para tareas de clasificación de documentos y categorización de contenidos enciclopédicos, ideal para proyectos que requieran una categorización fina y un enriquecimiento del conocimiento.

4.
C onjunto de datos de categorías de noticias Compuesto por artículos de prensa de diversas fuentes, este conjunto de datos está organizado en categorías periodísticas. Es ideal para los modelos de clasificación de textos de noticias, ya que permite identificar rápidamente los temas principales de los artículos periodísticos, ya estén relacionados con los negocios, el entretenimiento, la política, etc.

5.
R euters-21578 Este conjunto de datos contiene artículos de prensa clasificados principalmente por temas económicos y financieros. Se utiliza ampliamente para aplicaciones de inteligencia empresarial e investigación económica, permitiendo que los modelos comprendan mejor temas específicos de los negocios, las finanzas y la industria.

💡 Estos conjuntos de datos ofrecen valiosos recursos para la detección de temas, cada uno de ellos adaptado a determinados tipos de contenido (prensa, foros, enciclopedias) y ofreciendo distintos niveles de detalle en función de las necesidades del modelo.

¿Y los conjuntos de datos para clasificar textos en varias lenguas?

Se han diseñado específicamente varios conjuntos de datos multilingües para clasificar textos en varias lenguas. Estos conjuntos de datos permiten a los modelos de aprendizaje automático aprender a reconocer y clasificar textos teniendo en cuenta la diversidad lingüística. He aquí algunos de los más utilizados:

1.
X NLI (Cross-lingual Natural Language Inference) Este conjunto de datos está diseñado para tareas de comprensión y clasificación de textos en 15 idiomas, entre ellos francés, español, chino y árabe. Se utiliza principalmente para la clasificación por vinculación (relaciones de significado), pero puede adaptarse a otras tareas de clasificación, sobre todo en contextos multilingües.

2.
M LDoc Basado en el corpus Reuters RCV1/RCV2, este conjunto de datos contiene documentos de noticias en ocho idiomas (inglés, alemán, español, francés, etc.). Está organizado en cuatro categorías principales (negocios, entretenimiento, salud, ciencia) y es ideal para la clasificación temática multilingüe, especialmente útil para los modelos que tienen que trabajar en un entorno de noticias internacional.

3.
M ARC (Corpus multilingüe de reseñas de Amazon) Este conjunto de datos incluye reseñas de productos de Amazon en varios idiomas (inglés, alemán, francés, japonés, español, etc.), etiquetadas para la clasificación de sentimientos. Es adecuado para proyectos de clasificación de opiniones y sentimientos en plataformas internacionales de comercio electrónico.

4.
Desarrollado para identificar comentarios tóxicos en varios idiomas (inglés, español, italiano, portugués, francés, etc.), este conjunto de datos es especialmente útil para tareas de moderación de contenidos en contextos multilingües. A menudo se utiliza para entrenar modelos de detección de discursos de odio y otras formas de toxicidad.

5.
C C100 Este conjunto de datos, que forma parte del proyecto Common Crawl, ofrece datos multilingües de la web. Aunque no está etiquetado específicamente para la clasificación temática, es lo suficientemente grande como para extraer y construir subcorpus multilingües para tareas específicas de clasificación de textos.

6.
OPUS (Open Parallel Corpus) OPUS es una colección de recursos textuales multilingües que reúne datos procedentes de diversas fuentes, como sitios de prensa, foros e instituciones internacionales. Aunque su contenido es variado, puede utilizarse para crear subconjuntos multilingües destinados a tareas de clasificación temática o de sentimientos, en función de las necesidades del usuario.

💡 Estos conjuntos de datos multilingües permiten a los investigadores y otros entusiastas de la inteligencia artificial desarrollar modelos capaces de procesar datos textuales en varios idiomas, un activo valioso para aplicaciones internacionales o para plataformas que requieren una gestión global de los contenidos.

Conclusión

La clasificación de textos desempeña un papel fundamental en el procesamiento automático del lenguaje natural, y la elección del conjunto de datos adecuado es crucial para el rendimiento y la precisión de los modelos. Los conjuntos de datos proporcionan una base estructurada para entrenar modelos que distingan entre sentimientos, temas y categorías, e incluso para comprender matices lingüísticos en contextos multilingües.

Opciones como IMDB Reviews y Amazon Reviews destacan para el análisis de sentimientos, mientras que conjuntos de datos como AG News y DBpedia Ontology son recursos primordiales para la clasificación temática. Es más, la 🔗 necesidades específicas de moderación o detección del discurso del odio encuentran respuesta en conjuntos de datos como Wikipedia Toxic Comments y Jigsaw Multilingual Toxic Comment Classification, especialmente adecuados para entornos multilingües.

Gracias a esta diversidad de recursos, los investigadores y aficionados a la inteligencia artificial de todos los horizontes tienen acceso a herramientas adaptadas a las particularidades de cada proyecto, ya sea para la moderación de contenidos, el análisis de opiniones o la categorización multilingüe. En última instancia, estos conjuntos de datos permiten entrenar modelos de IA más robustos y mejor adaptados a las variadas exigencias de la clasificación de textos, lo que garantiza una base sólida y mejores resultados para el desarrollo de soluciones avanzadas de PLN.