Estás leyendo la publicación: Este documento de IA explora el potencial de los modelos de lenguaje grande (LLM) para tareas de anotación de texto con un enfoque en ChatGPT
Los datos etiquetados de alta calidad son necesarios para muchas aplicaciones de NLP, particularmente para entrenar clasificadores o evaluar la efectividad de modelos no supervisados. Por ejemplo, los académicos con frecuencia buscan clasificar los textos en varios temas o categorías conceptuales, filtrar datos ruidosos de las redes sociales para determinar su relevancia o medir su estado de ánimo o posición. Los datos etiquetados son necesarios para proporcionar un conjunto de entrenamiento o un punto de referencia contra el cual se pueden comparar los resultados, ya sea que se empleen métodos supervisados, semi-supervisados o no supervisados para estas tareas. Dichos datos pueden proporcionarse para tareas de alto nivel como análisis semántico, incitación al odio y, en ocasiones, objetivos más especializados como la ideología del partido.
Los investigadores normalmente deben hacer anotaciones originales para verificar que las etiquetas correspondan a sus categorías conceptuales. Hasta hace poco, solo había dos enfoques básicos. Los asistentes de investigación, por ejemplo, pueden ser contratados y capacitados como codificadores por investigadores. En segundo lugar, pueden confiar en los trabajadores independientes que trabajan en sitios web como Amazon Mechanical Turk (MTurk). Estos dos enfoques se combinan con frecuencia, con trabajadores colaborativos que aumentan los datos etiquetados mientras que anotadores capacitados producen un pequeño conjunto de datos estándar de oro. Cada táctica tiene ventajas y desventajas propias. Los anotadores de formación a menudo crean datos de alta calidad, aunque sus servicios son caros.
Sin embargo, ha habido preocupaciones sobre la disminución de la calidad de los datos de MTurk. Otras plataformas como CrowdFlower y FigureEight ya no son posibilidades viables para la investigación académica después de que Appen, una organización centrada en los negocios, las comprara. Los empleados colectivos son mucho más asequibles y adaptables, pero la calidad podría ser mejor, especialmente para actividades difíciles e idiomas distintos del inglés. Investigador de la Universidad de Zurich examina el potencial de los modelos de lenguaje grande (LLM) para tareas de anotación de texto, con un énfasis particular en ChatGPT, que se hizo público en noviembre de 2022. Demuestra que, a una fracción del costo de las anotaciones de MTurk, cero Las clasificaciones de ChatGPT -shot las superan (es decir, sin ningún entrenamiento adicional).
Los LLM han funcionado muy bien para varias tareas, incluida la categorización de ideas legislativas, la escala ideológica, la resolución de problemas de psicología cognitiva y la emulación de muestras humanas para la investigación de encuestas. Aunque algunas investigaciones demostraron que ChatGPT sería capaz de llevar a cabo el tipo de tareas de anotación de texto que especificaron, según su conocimiento, aún no se ha llevado a cabo una evaluación exhaustiva. Una muestra de 2382 tuits que recopilaron para una investigación previa es lo que usaron para su análisis. Para ese proyecto, los tweets fueron anotados para cinco tareas separadas: relevancia, postura, temas y dos tipos de identificación de marcos por anotadores capacitados (asistentes de investigación).
Distribuyeron los trabajos a los trabajadores colectivos de MTurk y las clasificaciones de tiro cero de ChatGPT, utilizando los libros de códigos idénticos que crearon para capacitar a sus asistentes de investigación. Después de eso, evaluaron el desempeño de ChatGPT contra dos puntos de referencia: (i) su precisión en comparación con los trabajadores de multitud; y (ii) su acuerdo entre codificadores en comparación con los trabajadores de multitud y sus anotadores capacitados. Descubren que la precisión de tiro cero de ChatGPT es mayor que la de MTurk para cuatro tareas. ChatGPT supera a MTurk y a los anotadores capacitados para todas las funciones relacionadas con el acuerdo entre codificadores.
Además, ChatGPT es mucho más asequible que MTurk: los cinco trabajos de categorización en ChatGPT cuestan aproximadamente $68 (25 264 anotaciones), mientras que las mismas tareas en MTurk cuestan $657 (12 632 anotaciones). Por lo tanto, ChatGPT cuesta solo $ 0.003, o un tercio de un centavo, lo que lo hace aproximadamente veinte veces más asequible que MTurk y brinda una calidad superior. Es posible anotar muestras completas a este costo o construir conjuntos de entrenamiento considerables para el aprendizaje supervisado.
Probaron 100.000 anotaciones y descubrieron que costaría aproximadamente $300. Estos hallazgos muestran cómo ChatGPT y otros LLM pueden cambiar la forma en que los investigadores realizan anotaciones de datos y cambiar algunos aspectos de los modelos comerciales de plataformas como MTurk. Sin embargo, se requiere más investigación para comprender completamente cómo funcionan ChatGPT y otros LLM en contextos más amplios.