Esta investigación de inteligencia artificial (IA) muestra la viabilidad de permitir interacciones conversacionales con interfaces de usuario móviles utilizando modelos de lenguaje grandes LLM

Estás leyendo la publicación: Esta investigación de inteligencia artificial (IA) muestra la viabilidad de permitir interacciones conversacionales con interfaces de usuario móviles utilizando modelos de lenguaje grandes LLM

En los últimos años, los modelos de lenguaje se han convertido en la comidilla de la ciudad. Estos modelos procesan, producen y usan texto en lenguaje natural para dirigir algunas aplicaciones de IA innovadoras. Los LLM como GPT-3, T5 y PaLM se han desempeñado significativamente mejor. Estos modelos han comenzado a imitar a los humanos aprendiendo a leer, completar códigos, resumir y generar datos textuales. GPT-3, el modelo reciente desarrollado por OpenAI, tiene capacidades asombrosas y muestra un gran rendimiento. Tiene una arquitectura transformadora para procesar texto, lo que da lugar a un modelo que puede producir contenido fácilmente y responder preguntas como lo haría un ser humano.

Los investigadores han estado estudiando constantemente cómo el lenguaje natural puede comunicarse con los dispositivos informáticos. No hace mucho tiempo, los LLM han mostrado algunas mejoras en la interacción con dichos dispositivos sin requerir ningún modelo o grandes conjuntos de datos. Teniendo en cuenta eso, algunos investigadores han desarrollado un documento que explora la practicidad y la viabilidad de usar un solo modelo de lenguaje grande para iniciar conversaciones con una interfaz gráfica de usuario (GUI) móvil. Estudios previos solo han podido encontrar algunos componentes para hacer posible la interacción conversacional con una interfaz de usuario (UI) móvil. Requería modelos específicos de tareas, conjuntos de datos masivos y mucho esfuerzo de capacitación. Además, no se han observado muchos avances en el uso de LLM para tareas de interacción de GUI. Los investigadores ahora han encontrado cómo usar los LLM para tener diversas interacciones con las IU móviles. Han diseñado algunas técnicas de indicación para ajustar un LLM a una interfaz de usuario móvil.

🔥 Recomendado:  Obtenga más respuestas con estos 8 consejos de difusión por correo electrónico

El equipo ha desarrollado los métodos de solicitud para que los diseñadores de interacción puedan crear fácilmente prototipos y probar las interacciones del lenguaje novedoso con los usuarios. Con esto, los LLM pueden modificar cómo se operan y desarrollan los diseños de interacción conversacional. Esto puede ahorrar mucho tiempo, esfuerzo y dinero en lugar de buscar modelos y conjuntos de datos. Los investigadores también diseñaron un algoritmo que puede convertir los datos de la jerarquía de vistas en una sintaxis de Android a HTML. Dado que la sintaxis HTML ya está presente en los datos de capacitación de los LLM, los LLM pueden adaptarse a las interfaces de usuario móviles.

Los investigadores han experimentado con cuatro tareas de modelado para garantizar la viabilidad de su enfoque. Estos son: generación de preguntas en pantalla, resumen de pantalla, respuesta a preguntas en pantalla e instrucción de asignación a la acción de la interfaz de usuario. Los resultados mostraron que su enfoque logra un rendimiento competitivo utilizando solo dos ejemplos de datos por tarea.

  1. Generación de preguntas en pantalla: los LLM superaron a los enfoques anteriores al influir en el contexto de la interfaz de usuario con campos de entrada para generar preguntas.
  2. Resumen de pantalla: en comparación con el modelo de referencia (Screen2Words, UIST ’21), el estudio encontró que los LLM pueden resumir de manera eficiente las funcionalidades vitales de una interfaz de usuario móvil y producir resúmenes más precisos.
  3. Respuesta a preguntas en pantalla: en comparación con el modelo de control de calidad listo para usar que responde correctamente el 36 % de las preguntas, el LLM de 2 intentos produjo respuestas de coincidencia exacta para el 66,7 % de las preguntas.
  4. Instrucción de asignación a la acción de la interfaz de usuario: los LLM predicen el objeto de la interfaz de usuario que se requiere para realizar la acción enseñada. El modelo no superó al modelo de referencia, pero mostró un gran resultado con la ayuda de solo dos disparos.
🔥 Recomendado:  Cómo instalar Magento SUPEE 5994 con o sin SSH

El objetivo de hacer posible la interacción entre el lenguaje natural y los dispositivos informáticos ha sido una búsqueda en la interacción humano-computadora. Estos estudios recientes pueden hacer esto posible y traer un gran avance en Inteligencia Artificial.