Estás leyendo la publicación: Salesforce AI presenta ‘BotSIM’, un kit de herramientas de simulación de bots integral y eficiente en datos para la evaluación, el diagnóstico y la mejora de sistemas comerciales de diálogo orientados a tareas
Al intentar hacer una reserva de hotel en línea o una compra en línea, es probable que un cliente entre en contacto con chatbots en un sitio web comercial. Estos sistemas de diálogo orientados a tareas (TOD) son una clase de chatbots utilizados por muchas empresas para realizar tareas específicas, lo que permite a los clientes tener una mejor experiencia de usuario. A diferencia de los bots de propósito general que pueden comunicarse sobre una amplia gama de temas. Sin embargo, los bots TOD pueden ser una bendición tanto para los clientes como para las empresas. Un chatbot inteligente puede ayudar a los clientes a ejecutar transacciones de manera efectiva y eficiente mientras ahorra tiempo y dinero. Por el contrario, un chatbot pésimo puede frustrar a los clientes e influir negativamente en su disposición a interactuar con los chatbots. Incluso podría cambiar la forma en que ven a la empresa en el peor de los casos. Esto hace que sea vital asegurarse de que los chatbots se prueben exhaustivamente antes de usarse para interactuar con los clientes.
Un bot TOD generalmente consta de varias intenciones que se comunican entre sí para definir diferentes flujos de tareas. Sin embargo, realizar una evaluación automática de extremo a extremo de sistemas TOD tan sofisticados es un procedimiento muy difícil. Además, el proceso sigue siendo en su mayor parte manual, lo que requiere mucho tiempo, es costoso y difícil de escalar, especialmente para las pruebas previas a la implementación. Se necesita el conocimiento de un sólido equipo de soporte de bots para solucionar problemas y mejorar los sistemas de bots. Para las empresas con pocos recursos, esto puede convertirse en un problema. Aunque algunas plataformas incluyen capacidades de prueba, la mayoría prioriza las pruebas de regresión sobre el análisis de rendimiento integral. La demanda y la oferta de herramientas automáticas para la evaluación integral y la resolución de problemas de los sistemas TOD se están superando ampliamente en el mercado.
Para hacer frente a tales desafíos para los sistemas comerciales de diálogo orientado a tareas (TOD) basados en texto, los investigadores de Salesforce crearon BotSIM, un kit de herramientas de simulación de bot de extremo a extremo eficiente en datos. BotSIM es un marco modular impulsado por IA creado específicamente para automatizar las pruebas previas a la implementación de bots comerciales a través de la simulación de diálogo. El marco simula un entorno de chatbot mientras intenta encontrar y corregir cualquier problema que pueda ocurrir durante el proceso. Sin embargo, no implica que todos los problemas se resolverán porque algunos pueden necesitar un rediseño y una nueva capacitación de bots. Las recomendaciones de remediación se ofrecen como consejos para los profesionales de bots en lugar de como una forma de solucionar todos los problemas automáticamente.
BotSIM sigue una tubería de ‘generación-simulación-remediación’ y consta de tres componentes principales. El primer componente es un Generador que usa diseños de bots de entrada como flujos de conversación y entidades para crear diálogos de prueba usando un modelo de paráfrasis. En esencia, este método genera datos sintéticos que se utilizarán en la siguiente etapa. El siguiente componente es un Simulador, que realiza una simulación de usuario de diálogo a gran escala para evaluar los bots usando palabras parafraseadas. Los componentes Generador y Simulador constituyen los componentes más eficientes del diseño, ya que reducen significativamente el tiempo, el costo y el esfuerzo manual. El componente final, Remediator, examina los diálogos simulados y genera informes de salud del bot junto con cualquier otra información útil, como análisis de conversaciones y sugerencias, en un tablero para mejorar aún más la mejora del bot.
BotSIM se puede usar para pruebas previas a la implementación y monitoreo prospectivo del rendimiento posterior a la implementación, lo que lo hace útil para la evaluación de bots en varias etapas. Debido al modelo de paráfrasis basado en el aprendizaje profundo del marco, puede producir una gran cantidad de consultas de intención de prueba, incluso a partir de una pequeña entrada de expresiones de intención, que se pueden utilizar para evaluar el modelo de intención del bot a escala. Además, BotSIM puede identificar problemas y evaluar tanto el rendimiento del diálogo de extremo a extremo (tasas de consecución de objetivos) como el rendimiento de la comprensión del lenguaje natural (NLU), como las tasas de error de NER. Además, ofrece a los profesionales de bots una visión general del rendimiento a través de su panel de informes de salud de bots, que incluye el historial de rendimiento, el rendimiento actual de las pruebas de bots y el rendimiento específico del diálogo. Esto puede ayudar a identificar errores urgentes y la asignación correcta de recursos para la resolución de problemas.
Al minimizar el considerable esfuerzo humano, los gastos y el tiempo de comercialización, los investigadores creen que Salesforce BotSIM puede acelerar significativamente el ritmo de desarrollo y evaluación de bots comerciales. BotSIM puede reducir significativamente la barrera de entrada para realizar la evaluación de bots previa a la implementación y aplanar la curva de aprendizaje para usuarios como administradores de bots y otros profesionales de bots porque se implementa fácilmente localmente o en Heroku. BotSIM tiene muchos efectos beneficiosos. Sin embargo, no es impecable. El sistema utiliza ciertos parafrasistas basados en modelos de lenguaje entrenados previamente que utilizan una gran cantidad de texto extraído de la web que podría tener sesgos dañinos para aquellas personas que son el objetivo de estos estereotipos. Las paráfrasis generadas deben verificarse cuidadosamente, aunque los modelos de paráfrasis solo se usan para generar preguntas de intención de prueba.
En resumen, aunque los chatbots TOD ahora se usan ampliamente para interactuar con los clientes, deben evaluarse adecuadamente antes de implementarse para garantizar que ayuden a los usuarios en lugar de frustrarlos. BotSIM busca utilizar IA para automatizar este laborioso proceso de prueba al proporcionar comentarios perspicaces que ayudarán a los desarrolladores de bots a realizar las mejoras necesarias en estos sistemas de diálogo. Actualmente, BotSIM admite Salesforce Einstein BotBuilder y Google DialogFlow CX. Los investigadores de Salesforce tienen la intención de expandir su marco modular para admitir nuevas plataformas de bots como parte de su trabajo en curso. El equipo cree que esto será bastante fácil de implementar, gracias al diseño agnóstico de tareas de BotSIM. Para aumentar la robustez y la naturalidad, también tienen la intención de incluir modelos NLU y NLG más sofisticados y más estadísticas y recomendaciones en el panel de remediación. El equipo agradece cualquier sugerencia y contribución de la comunidad de código abierto para ayudar a mejorar BotSIM.