Estás leyendo la publicación: ¿ChatGPT escribió esto? Esta técnica de IA puede ayudarlo a identificar texto escrito por IA
Probablemente hayas escuchado o incluso usado ChatGPT en este punto. La nueva herramienta mágica de OpenAI está ahí para responder tus preguntas, ayudarte a escribir documentos, escribir códigos ejecutables, darte recetas con los ingredientes que tienes y aún más, todo con una capacidad similar a la humana.
ChatGPT es probablemente el ejemplo más famoso de modelos de lenguaje extenso (LLM). Estos modelos están entrenados en conjuntos de datos a gran escala y pueden comprender y generar respuestas de texto a las solicitudes dadas. Cuando nos referimos a grandes conjuntos de datos, lo decimos en serio.
A medida que estos LLM se vuelven más avanzados, es posible que necesitemos una forma de identificar si ellos o un humano han escrito algo. “¿Pero por qué?” Podrías preguntar. Aunque estas herramientas son extremadamente útiles para aumentar nuestras habilidades, es posible que no esperemos que todos las usen inocentemente; podría haber casos de uso malicioso en los que no podemos permitir que operen.
Por ejemplo, uno puede usarlo para generar noticias falsas y ChatGPT puede ser realmente convincente. Imagine que su feed de Twitter está inundado de bots LLM que propagan la misma información errónea, pero todos suenan realistas. Esto podría ser un gran problema. Además, las tareas de escritura académica ya no son seguras. ¿Cómo puede asegurarse de si el estudiante escribió el artículo o un LLM? De hecho, ¿cómo puede asegurarse de que ChatGPT no haya escrito este mismo artículo? (PD: no lo es 🙂)
Por otro lado, los LLM se capacitan con los datos obtenidos de Internet. ¿Qué sucederá si la mayoría de nuestros datos son contenido sintético generado por IA? Eso reduciría la calidad de los LLM, ya que los datos sintéticos suelen ser inferiores al contenido generado por humanos.
Podemos seguir hablando de la importancia de detectar contenido generado por IA, pero detengámonos aquí y pensemos cómo se puede hacer. Ya que estamos hablando de LLM, ¿por qué no preguntar a ChatGPT y qué nos recomienda para determinar el texto generado por IA?
Agradecemos a ChatGPT por su respuesta honesta, pero ninguno de estos enfoques puede brindarnos una gran confianza en la detección.
El contenido falso no es un tema nuevo. Hemos tenido este problema durante años con las cosas importantes. Por ejemplo, la falsificación de dinero fue un gran problema, pero hoy en día podemos estar seguros en un 99 % de que nuestro dinero es legal y legítimo. ¿Pero cómo? La respuesta está escondida dentro del dinero. Probablemente haya notado esos pequeños números y símbolos que solo son visibles bajo ciertas condiciones. Estos son marcas de agua; es como una firma oculta incrustada allí por la ceca que indica su originalidad.
Bueno, dado que tenemos un método que ha demostrado ser útil para múltiples casos de uso, ¿por qué no tomarlo y aplicarlo al contenido generado por IA? Esta fue la idea misma que tuvieron los autores de este artículo, y se les ocurrió una solución conveniente.
Estudian la marca de agua de la salida LLM. La marca de agua es un patrón oculto que es poco probable que escriban los escritores humanos. Está oculto de una manera que los humanos no pueden detectar, pero asegura que un LLM escriba el texto. El algoritmo de marca de agua puede ser público, por lo que todos los demás pueden usarlo para verificar si un determinado LLm escribe el texto, o puede ser privado para que solo sea visible para los editores de LLM.
Además, la marca de agua propuesta se puede integrar en cualquier LLM sin necesidad de que se vuelva a entrenar. Además, la marca de agua se puede detectar a partir de una pequeña parte del texto generado, lo que evita que alguien genere un texto largo pero usa partes de él para evitar la detección. Además, si se quiere eliminar la marca de agua propuesta, se debe modificar significativamente el texto. Las modificaciones menores no evitarían la detección.
El algoritmo de marca de agua propuesto funciona bien pero no es perfecto, ya que mencionan ciertos tipos de ataques. Por ejemplo, se puede pedir al LLM que inserte ciertos emojis después de cada palabra y luego los elimine del texto generado. De esta manera, se puede evitar el algoritmo de marca de agua.
El surgimiento de LLM exitosos facilita la mayoría de las tareas, pero también plantean ciertas amenazas. Este documento propuso un método para identificar el texto generado por LLM mediante una marca de agua.