Fronteras | Análisis automático de microexpresiones: Desafíos Abiertos | Psicología

Las microexpresiones, la expresión facial fugaz e involuntaria, que a menudo se produce en situaciones de alto riesgo cuando las personas tratan de ocultar o enmascarar sus verdaderos sentimientos, se hicieron bien conocidas desde la década de 1960, a partir del trabajo de Haggard e Isaacs (1966) en el que la microexpresión se denominó por primera vez como expresiones faciales micromomentáneas, y más tarde a partir del trabajo de Ekman y Friesen (1969).

Las microexpresiones son demasiado cortas (de 1/25 a 1/2 s) y sutiles para que los ojos humanos las perciban. Un estudio (Ekman, 2002) muestra que para las tareas de reconocimiento de microexpresiones, las personas normales sin formación sólo obtienen un rendimiento medio ligeramente superior al del azar. Por ello, los métodos de visión por ordenador y de aprendizaje automático para el análisis de microexpresiones resultan atractivos. Pfister et al. (2011) iniciaron una investigación pionera sobre el reconocimiento de microexpresiones espontáneas con el primer conjunto de datos de microexpresiones espontáneas disponible públicamente: SMIC, y lograron resultados muy prometedores que se comparan favorablemente con la precisión humana. Desde entonces, el estudio de las microexpresiones en el campo de la visión por ordenador ha atraído la atención de cada vez más investigadores. Varios trabajos han contribuido al análisis automático de microexpresiones desde los aspectos de la recopilación de nuevos conjuntos de datos (desde la anotación a nivel de emoción hasta la anotación a nivel de unidad de acción; Li et al., 2013; Davison et al., 2018), el reconocimiento de microexpresiones (desde el reconocimiento de fotogramas de vértice de la señal hasta el reconocimiento de vídeos completos; Wang et al, 2015; Liu et al., 2016; Li Y. et al., 2018; Huang et al., 2019) y detección de microexpresiones (desde la detección de picos de microexpresión hasta la detección de inicio y desplazamiento de microexpresiones; Patel et al., 2015; Xia et al., 2016; Jain et al., 2018). El primer sistema completado que integra el reconocimiento y la detección de microexpresiones hacia la lectura de emociones ocultas (Li X. et al., 2018) ha sido reportado por MIT Technology Review (2015) y logró una atención creciente, en la que el método de aprendizaje automático obtuvo un 80,28% para el reconocimiento de tres clases (positivo/negativo/sorpresa) para 71 videoclips de microexpresiones grabados de ocho sujetos y un 57,49% para el reconocimiento de cinco clases (felicidad, asco, sorpresa, represión y otros) para 247 videoclips de microexpresiones grabados de 26 sujetos (Li X. et al, 2018), que ha superado la capacidad de reconocimiento de los sujetos humanos (Li X. et al., 2018).

Sin embargo, todavía hay muchos desafíos abiertos que deben considerarse en la investigación futura. Varios desafíos principales relacionados con el estudio de la microexpresión se discuten en detalle en lo siguiente.

Conjuntos de datos

Los datos son una parte central en la investigación de la microexpresión. Aunque ha habido más conjuntos de datos recopilados y publicados, desde el primer SMIC (Li et al., 2013), hasta CASME (Yan et al., 2013), CASME II (Yan et al., 2014), SAMM (Davison et al., 2018), el conjunto de datos MEVIEW (Husak et al., 2017) y CAS(ME)2 (Qu et al., 2018), que incluyen más sujetos, mayor resolución y más vídeos, la escala de los conjuntos de datos actuales es de solo cientos de vídeos de microexpresión capturados de 30 a 40 sujetos, y todavía faltan datos de microexpresión a gran escala de alta calidad, recogidos de forma natural y bien anotados, capturados por diferentes sensores para entrenar métodos eficientes de aprendizaje profundo, lo que supone un gran obstáculo para la investigación. Como inducir y etiquetar los datos de microexpresión desde cero es extremadamente desafiante y consume mucho tiempo, no es factible para un solo grupo de investigación reunir datos a escala de más de decenas de miles de muestras. Una posible opción para el futuro trabajo de construcción de datos de microexpresión podría ser la utilización de la vasta fuente de vídeos de YouTube y la minería con algunas técnicas de etiquetado de vídeo para los clips candidatos y luego seguir con el etiquetado humano. Otra opción podría ser la recopilación y etiquetado de datos en colaboración y en paralelo a través de la nube.

Además, una aplicación potencial del análisis de microexpresiones es la detección de mentiras. Cuando se miente, se podrían encontrar más comportamientos contradictorios en las señales verbales y no verbales (Navarro y Karlins, 2008), quizás podrían aparecer más microexpresiones. Por lo tanto, nuevos conjuntos de datos que contengan no sólo expresiones faciales y microexpresiones, sino también el habla en audio, podrían ser beneficiosos para el estudio de las microexpresiones.

Detección de Unidades de Acción de Microexpresiones

El Sistema de Codificación de Acciones Faciales (FACS) es un sistema basado en la anatomía para medir los movimientos faciales (Ekman y Friesen, 1978), que se utiliza para describir la actividad facial visualmente distinguible sobre la base de muchas unidades de acción (UA) únicas. En la mayoría de los trabajos anteriores (Wang et al., 2015; Li X. et al., 2018), las microexpresiones se reconocieron a partir de todo el rostro sin estudiar las unidades de acción, y solo se clasificaron las microexpresiones positivas y negativas, o un número limitado de microexpresiones. En lugar de reconocer directamente un cierto número de expresiones prototípicas como en la mayoría de las investigaciones anteriores, las UA pueden proporcionar una abstracción significativa intermedia de las expresiones faciales, y llevan mucha información que puede ayudar a detectar y comprender mejor los sentimientos de las personas. Aunque la detección de UA se ha tenido en cuenta para el análisis de macroexpresiones (Zhao et al., 2016, 2018; Han et al., 2018; Zhang et al., 2018), incluida la detección del dolor y la estimación de la intensidad del dolor (Prkachin y Solomon, 2008; Lucey et al., 2011), se han realizado pocos trabajos para las UA en las microexpresiones. Los estudios futuros podrían prestar más atención a la exploración de la relación entre las UA y las microexpresiones. Por ejemplo: ¿existe un mapeo fijo entre el inicio de una determinada UA (o una secuencia de combinaciones de UA) y una categoría de microexpresión, al igual que los criterios de correspondencia entre UA y expresión facial que figuran en el manual de FACS? La categoría de emociones de microexpresión en cuestión no se limita necesariamente a las emociones básicas prototípicas, es decir, la felicidad, la tristeza, la sorpresa, la ira, el asco y el miedo, sino que también podría considerar otras emociones que están fuera del ámbito de las emociones básicas mencionadas anteriormente, pero que son muy útiles para las aplicaciones del mundo real, como el nerviosismo, el desacuerdo y el desprecio. Además, a excepción de las UA emocionales más comunes (que se consideran estrechamente relacionadas con las expresiones emocionales), por ejemplo, AU1, AU4 y AU12, también vale la pena explorar otras UA que se consideraron formalmente como «irrelevantes para las emociones», ya que los estudios encontraron que algunas (por ejemplo parpadeos y cambios en la mirada) se emplean como comportamientos de disfraz para cubrir los verdaderos sentimientos, por lo que se producen con frecuencia CON el inicio de las microexpresiones.

Situaciones realistas

La mayoría de los esfuerzos existentes en el análisis de las microexpresiones se han realizado para clasificar las microexpresiones básicas recogidas en entornos altamente controlados, por ejemplo, desde la vista frontal (sin cambios de vista), con condiciones de iluminación estables y brillantes (sin variaciones de iluminación), cara entera visible (sin oclusión). Estas condiciones son muy difíciles de reproducir en las aplicaciones del mundo real y las herramientas entrenadas con estos datos no suelen generalizarse bien a las grabaciones naturales realizadas en entornos sin restricciones. Es necesario desarrollar algoritmos eficaces para reconocer microexpresiones naturales que sean robustos en situaciones realistas, con capacidad para hacer frente a los cambios de postura, las variaciones de iluminación y la mala calidad de los vídeos, grabados en un entorno natural.

Macroexpresiones y microexpresiones

Los trabajos anteriores sobre expresión facial se han centrado en las microexpresiones o en las macroexpresiones. En la mayoría de los primeros trabajos sobre microexpresiones, se ha asumido que sólo hay microexpresiones en un clip de vídeo. Por ejemplo, en la recopilación de la mayoría de los conjuntos de datos de microexpresiones (Li et al., 2013; Yan et al., 2013, 2014; Davison et al., 2018; Qu et al., 2018), se pidió a los sujetos que hicieran todo lo posible por mantener una cara neutra al ver clips de películas emocionales. De este modo, el conflicto de la emoción sentida provocada por el clip de película y la fuerte intención de suprimir cualquier expresión facial podría inducir microexpresiones. La consecuencia en los vídeos recogidos es que, si hay microexpresiones en el vídeo grabado, es poco probable que haya otras expresiones faciales naturales. Pero en la mayoría de los casos de la vida real, esto no es cierto. Las microexpresiones pueden aparecer también cuando hay una macroexpresión, por ejemplo, cuando la gente sonríe, puede fruncir la frente muy rápidamente y de forma breve, lo que muestra su verdadero sentimiento (Ekman y Friesen, 1969). Los estudios futuros también podrían referirse a la relación de las macroexpresiones y las microexpresiones, y explorar métodos que puedan detectar y distinguir estas dos cuando coocurren o incluso se superponen entre sí en un escenario, lo que sería muy útil para comprender los sentimientos y las intenciones de las personas con mayor precisión.

Pistas de contexto y aprendizaje multimodal

En las interacciones sociales, las personas interpretan las emociones y las situaciones de los demás basándose en muchas cosas (Huang et al, 2018): las personas en la interacción, su discurso, la expresión facial, la ropa, la pose corporal, el género, la edad, los entornos circundantes, los parámetros sociales, etc. Todo ello puede considerarse información contextual. Algunas personas son mejores lectores de emociones, ya que pueden percibir las emociones de los demás con más precisión que el resto. Estas personas suelen captar pistas sutiles de múltiples aspectos, no sólo de las expresiones faciales (Navarro y Karlins, 2008). Una de las motivaciones originales para el estudio de la microexpresión es explorar las emociones reprimidas y ocultas de las personas, pero no debemos olvidar que la microexpresión es sólo una de las muchas pistas para tal fin. Los estudios futuros deberían intentar ampliar el alcance y considerar la posibilidad de combinar la microexpresión con otros comportamientos contextuales, por ejemplo, el parpadeo de los ojos, el cambio de la mirada, el cambio de los gestos de las manos o incluso la postura de todo el cuerpo, con el fin de lograr una mejor comprensión de las emociones ocultas de las personas en un ámbito más completo.

Las investigaciones psicológicas recientes demuestran que las emociones son un procedimiento multimodal que puede expresarse de diversas maneras. «Las escenas visuales, las voces, los cuerpos, otros rostros, la orientación cultural e incluso las palabras dan forma a cómo se perciben las emociones en un rostro» (Barrett et al., 2011). Además, los datos emocionales pueden registrarse con diferentes sensores, por ejemplo, una cámara de color, una cámara de infrarrojos cercanos, una cámara de profundidad o sensores fisiológicos, para registrar comportamientos emocionales o cambios corporales. Esto también se aplica al estudio de la microexpresión y la emoción reprimida u oculta. Una sola modalidad podría ser poco fiable, ya que un determinado patrón de comportamiento podría estar relacionado únicamente con una incomodidad fisiológica o un hábito personal, pero no tiene nada que ver con los estados emocionales. Por lo tanto, sólo si se tienen en cuenta varias pistas juntas, se puede conseguir un reconocimiento de emociones más fiable. Hasta ahora hay muy poca investigación en este sentido, y los futuros estudios sobre microexpresiones podrían considerar la combinación de datos multimodales para el reconocimiento de microexpresiones y emociones ocultas.

Análisis para múltiples personas en interacciones

La investigación actual sobre microexpresiones se centra en una sola persona que ve películas o anuncios afectivos, lo cual es razonable en la etapa inicial para que las tareas desafiantes sean más fáciles y factibles. Más adelante es seguro que la investigación se desplazará hacia entornos de interacción más realistas y desafiantes en los que participen múltiples personas. Las interacciones naturales inducirán respuestas emocionales más naturales y espontáneas en términos de expresiones faciales y microexpresiones, pero el escenario también se complicará mucho. Sería muy interesante explorar no sólo el nivel individual de los cambios emocionales, sino también la co-ocurrencia interpersonal (por ejemplo, el mimetismo o el contagio), y la dinámica afectiva de todo el grupo.

Discusión

Hemos discutido los avances y los retos abiertos en el análisis automático de micro-expresiones. La resolución de estos problemas necesita de conocimientos interdisciplinares. La colaboración del aprendizaje automático, la psicología, la cognición y el comportamiento social es necesaria para avanzar en la investigación en profundidad de las microexpresiones y las aplicaciones relacionadas en el mundo real.

Contribuciones de los autores

Todos los autores enumerados han hecho una contribución sustancial, directa e intelectual al trabajo, y lo han aprobado para su publicación.

Financiación

Este trabajo fue parcialmente apoyado por la Fundación Nacional de Ciencias Naturales de China (Subvenciones No. 61772419), Infotech Oulu y la Academia de Finlandia (proyecto ICT 2023 con subvención nº 313600).

Declaración de conflicto de intereses

Los autores declaran que la investigación se llevó a cabo en ausencia de cualquier relación comercial o financiera que pudiera interpretarse como un potencial conflicto de intereses.

Ekman, P. (2002). Herramienta de entrenamiento de microexpresiones (METT). San Francisco, CA: Universidad de California.

Ekman, P., y Friesen, W. (1978). Facial Action Coding System: Una técnica para la medición de la consulta del movimiento facial. Palo Alto, CA: Consulting Psychologists Press.

Patel, D., Zhao, G., y Pietikäinen, M. (2015). «Spatiotemporal integration of optical flow vectors for micro-expression detection», en Proceedings of the International Conference on Advanced Concepts for Intelligent Vision Systems (Catania: ACIVS).

Google Scholar

Zhao, K., Chu, W.-S., y Martínez, A. M. (2018). Aprendizaje de unidades de acción facial a partir de imágenes web con clustering escalable débilmente supervisado. Actas de la Conferencia del IEEE sobre Visión por Computadora y Reconocimiento de Patrones (Salt Lake City, UT), 2090-2099.

Resumen de PubMed | Google Scholar

Fronteras de la Psicología