▷ AI ayuda a los oradores nerviosos a "leer la sala" durante las videoconferencias

Estás leyendo la publicación: AI ayuda a los oradores nerviosos a “leer la sala” durante las videoconferencias

En 2013, una encuesta sobre fobias comunes determinó que la perspectiva de hablar en público era peor que la perspectiva de la muerte para la mayoría de los encuestados. El síndrome se conoce como glosofobia.

El impulsado por COVID migración desde reuniones ‘en persona’ hasta conferencias de zoom en línea en plataformas como Zoom y Google Spaces, sorprendentemente, no ha mejorado la situación. Cuando la reunión contiene una gran cantidad de participantes, nuestras habilidades naturales de evaluación de amenazas se ven afectadas por las filas e íconos de baja resolución de los participantes, y la dificultad para leer señales visuales sutiles de expresión facial y lenguaje corporal. Se ha descubierto que Skype, por ejemplo, es una plataforma deficiente para transmitir señales no verbales.

Los efectos sobre el desempeño de hablar en público del interés percibido y la capacidad de respuesta son bien documentada ahora, e intuitivamente obvio para la mayoría de nosotros. La respuesta opaca de la audiencia puede hacer que los oradores duden y vuelvan a discurso de rellenosin saber si sus argumentos encuentran acuerdo, desdén o desinterés, lo que a menudo genera una experiencia incómoda tanto para el hablante como para sus oyentes.

Bajo la presión del cambio inesperado hacia las videoconferencias en línea inspiradas por las restricciones y precauciones de COVID, se puede decir que el problema está empeorando, y se han sugerido una serie de esquemas de mejora de comentarios de la audiencia en las comunidades de investigación de visión y afectación por computadora en los últimos dos años.

Soluciones centradas en hardware

La mayoría de estos, sin embargo, involucran equipos adicionales o software complejo que pueden plantear problemas de privacidad o logística: estilos de enfoque de costo relativamente alto o recursos limitados que son anteriores a la pandemia. En 2001, el MIT propuso la Galvactivadorun dispositivo manual que infiere el estado emocional del participante de la audiencia, probado durante un simposio de un día.

A partir de 2001, Galvactivator del MIT, que midió la respuesta de conductividad de la piel en un intento por comprender el sentimiento y el compromiso de la audiencia. Fuente: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

También se ha dedicado una gran cantidad de energía académica a la posible despliegue de ‘clickers’ como un Sistema de respuesta de la audiencia (ARS), una medida para aumentar la participación activa de las audiencias (lo que aumenta automáticamente el compromiso, ya que obliga al espectador a asumir el papel de un nodo de retroalimentación activo), pero que también se ha previsto como un medio de estímulo del orador. .

Otros intentos de ‘conectar’ al orador y la audiencia han incluido monitorización del ritmo cardíacoel uso de equipos complejos que se llevan en el cuerpo para aprovechar la electroencefalografía, ‘medidores de alegría’reconocimiento de emociones basado en visión por computadora para trabajadores de escritorio, y el uso de mensajes enviados por la audiencia emoticonos durante la oración del orador.

Desde 2017, EngageMeter, un proyecto de investigación académico conjunto de LMU Munich y la Universidad de Stuttgart. Fuente: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

Como objetivo secundario del área lucrativa del análisis de audiencia, el sector privado se ha interesado especialmente en la estimación y el seguimiento de la mirada, sistemas en los que cada miembro de la audiencia (que a su vez puede tener que hablar) está sujeto a seguimiento ocular como un índice de compromiso y aprobación.

Todos estos métodos son bastante de alta fricción. Muchos de ellos requieren hardware a medida, entornos de laboratorio, marcos de software especializados y personalizados, y suscripción a costosas API comerciales, o cualquier combinación de estos factores restrictivos.

Por lo tanto, el desarrollo de sistemas minimalistas basados en poco más que herramientas comunes para videoconferencias se ha vuelto interesante en los últimos 18 meses.

Informar discretamente sobre la aprobación de la audiencia

Con este fin, una nueva colaboración de investigación entre la Universidad de Tokio y la Universidad Carnegie Mellon ofrece un sistema novedoso que puede aprovechar las herramientas de videoconferencia estándar (como Zoom) utilizando solo un sitio web habilitado para cámara web en el que la mirada y la pose ligeras el software de estimación se está ejecutando. De esta forma, incluso se evita la necesidad de complementos de navegador locales.

Los asentimientos del usuario y la atención visual estimada se traducen en datos representativos que se visualizan de vuelta al orador, lo que permite una prueba de fuego ‘en vivo’ de la medida en que el contenido atrae a la audiencia, y también al menos un indicador vago de períodos. del discurso donde el hablante puede estar perdiendo el interés de la audiencia.

Con CalmResponses, la atención y el asentimiento del usuario se agregan a un conjunto de comentarios de la audiencia y se traducen en una representación visual que puede beneficiar al orador. Vea el video incrustado al final del artículo para obtener más detalles y ejemplos. Fuente: https://www.youtube.com/watch?v=J_PhB4FCzk0

En muchas situaciones académicas, como conferencias en línea, es posible que el orador no vea a los estudiantes, ya que no han encendido sus cámaras debido a la timidez sobre sus antecedentes o su apariencia actual. CalmResponses puede abordar este obstáculo espinoso para la retroalimentación del hablante al informar lo que sabe sobre cómo el hablante está mirando el contenido y si está asintiendo, sin necesidad de que el espectador active su cámara.

El papel se titula CalmResponses: visualización de las reacciones colectivas de la audiencia en la comunicación remotay es un trabajo conjunto entre dos investigadores de la UoT y uno de Carnegie Mellon.

Los autores ofrecen una demostración en vivo basada en la web y han lanzado el código fuente en GitHub.

El marco CalmResponses

El interés de CalmResponses en asentir, a diferencia de otras posibles disposiciones de la cabeza, se basa en investigaciones (algunas de las cuales provienen volver a la era de darwin) que indica que más del 80% de todos los movimientos de cabeza de los oyentes se componen de asentir (incluso cuando son expresando desacuerdo). Al mismo tiempo, se han demostrado los movimientos de la mirada encima numeroso estudios ser un índice confiable de interés o compromiso.

CalmResponses se implementa con HTML, CSS y JavaScript, y consta de tres subsistemas: un cliente de audiencia, un cliente de orador y un servidor. Los clientes de la audiencia pasan datos de la mirada o el movimiento de la cabeza desde la cámara web del usuario a través de WebSockets sobre la plataforma de aplicaciones en la nube Heroku.

Audiencia asintiendo visualizada a la derecha en un movimiento animado bajo CalmResponses. En este caso, la visualización del movimiento está disponible no solo para el orador, sino para toda la audiencia. Fuente: https://arxiv.org/pdf/2204.02308.pdf

Para la sección de seguimiento ocular del proyecto, los investigadores utilizaron WebGazerun marco ligero de seguimiento ocular basado en navegador basado en JavaScript que puede ejecutarse con baja latencia directamente desde un sitio web (consulte el enlace anterior para ver la implementación basada en la web de los propios investigadores).

Dado que la necesidad de una implementación simple y un reconocimiento de respuesta agregado aproximado supera la necesidad de una alta precisión en la estimación de la mirada y la postura, los datos de entrada de la postura se suavizan de acuerdo con los valores medios antes de ser considerados para la estimación de la respuesta general.

La acción de asentir se evalúa a través de la biblioteca de JavaScript clmtrackrque ajusta los modelos faciales a los rostros detectados en imágenes o videos a través de cambio medio de punto de referencia regularizado. Para fines económicos y de baja latencia, solo el punto de referencia detectado para la nariz se monitorea activamente en la implementación de los autores, ya que esto es suficiente para rastrear las acciones de asentimiento.

El movimiento de la posición de la punta de la nariz del usuario crea un rastro que contribuye al grupo de respuestas de la audiencia relacionadas con el movimiento de cabeza, visualizado de manera agregada para todos los participantes.

Mapa de calor

Mientras que la actividad de asentir está representada por puntos dinámicos en movimiento (vea las imágenes de arriba y el video al final), la atención visual se informa en términos de un mapa de calor que muestra al orador y a la audiencia dónde se enfoca el centro de atención general en la pantalla de presentación compartida o entorno de videoconferencia.

Todos los participantes pueden ver dónde se centra la atención general del usuario. El documento no menciona si esta funcionalidad está disponible cuando el usuario puede ver una “galería” de otros participantes, lo que podría revelar un enfoque engañoso en un participante en particular, por varias razones.

Pruebas

Se formularon dos entornos de prueba para CalmResponses en forma de un estudio de ablación tácita, utilizando tres conjuntos variados de circunstancias: en la ‘Condición B’ (línea de base), los autores replicaron una clase típica de estudiantes en línea, donde la mayoría de los estudiantes mantienen sus cámaras web encendidas. apagado, y el orador no tiene la capacidad de ver las caras de la audiencia; en ‘Condición CR-E’, el hablante podía ver la retroalimentación de la mirada (mapas de calor); en ‘Condición CR-N’, el orador podía ver tanto la actividad de asentir como la mirada de la audiencia.

El primer escenario experimental comprendía la condición B y la condición CR-E; el segundo comprendía la condición B y la condición CR-N. Se obtuvo retroalimentación tanto de los oradores como de la audiencia.

En cada experimento, se evaluaron tres factores: evaluación objetiva y subjetiva de la presentación (incluido un cuestionario autoinformado por el orador sobre sus sentimientos acerca de cómo fue la presentación); el número de eventos de discurso de ‘relleno’, indicativo de inseguridad momentánea y prevaricación; y comentarios cualitativos. Estos criterios son común estimadores de la calidad del habla y la ansiedad del hablante.

El grupo de prueba constaba de 38 personas de 19 a 44 años, 29 hombres y nueve mujeres con una edad promedio de 24,7 años, todos japoneses o chinos, y todos con fluidez en japonés. Se dividieron al azar en cinco grupos de 6 a 7 participantes, y ninguno de los sujetos se conocía personalmente.

Las pruebas se realizaron en Zoom, con cinco oradores dando presentaciones en el primer experimento y seis en el segundo.

Condiciones de relleno marcadas como cuadros naranjas. En general, el contenido de relleno cayó en una proporción razonable a la mayor retroalimentación de la audiencia del sistema.

Los investigadores notaron que los rellenos de un hablante se redujeron notablemente, y que en ‘Condición CR-N’, el hablante rara vez pronunciaba frases de relleno. Consulte el documento para conocer los resultados muy detallados y granulares informados; sin embargo, los resultados más marcados se dieron en la evaluación subjetiva de los ponentes y de la audiencia participante.

Los comentarios de la audiencia incluyeron:

‘Sentí que estaba involucrado en las presentaciones’ [AN2]“No estaba seguro de que los discursos de los oradores mejoraran, pero sentí una sensación de unidad a partir de la visualización de los movimientos de cabeza de los demás”. [AN6]

“No estaba seguro de que los discursos de los oradores mejoraran, pero sentí una sensación de unidad a partir de la visualización de los movimientos de la cabeza de los demás”.

Los investigadores señalan que el sistema introduce un nuevo tipo de pausa artificial en la presentación del orador, ya que el orador se inclina a consultar el sistema visual para evaluar los comentarios de la audiencia antes de continuar.

También notaron una especie de ‘efecto de bata blanca’, difícil de evitar en circunstancias experimentales, donde algunos participantes se sintieron limitados por las posibles implicaciones de seguridad de ser monitoreados por datos biométricos.

Conclusión

Una ventaja notable en un sistema como este es que todas las tecnologías adjuntas no estándar necesarias para dicho enfoque desaparecen por completo una vez que finaliza su uso. No hay complementos residuales del navegador que deban desinstalarse o que arrojen dudas en la mente de los participantes sobre si deben permanecer en sus respectivos sistemas; y no hay necesidad de guiar a los usuarios a través del proceso de instalación (aunque el marco basado en la web requiere uno o dos minutos de calibración inicial por parte del usuario), o navegar por la posibilidad de que los usuarios no tengan los permisos adecuados para instalar el software local, incluyendo complementos y extensiones basados en navegador.

Aunque los movimientos faciales y oculares evaluados no son tan precisos como podrían serlo en circunstancias en las que se podrían usar marcos de aprendizaje automático locales dedicados (como la serie YOLO), este enfoque casi sin fricciones para la evaluación de la audiencia proporciona una precisión adecuada para un amplio análisis de opiniones y posturas. en escenarios típicos de videoconferencia. Por encima de todo, es muy barato.

Consulte el video del proyecto asociado a continuación para obtener más detalles y ejemplos.

Publicado por primera vez el 11 de abril de 2022.

Tabla de Contenido

AI ayuda a los oradores nerviosos a “leer la sala” durante las videoconferencias