Articles

Frontiers in Psychology

Mikroekspresja, ulotna i mimowolna ekspresja twarzy, często występująca w sytuacjach o wysokiej stawce, kiedy ludzie próbują ukryć lub zamaskować swoje prawdziwe uczucia, stała się znana od lat 60. XX wieku, dzięki pracy Haggarda i Isaacsa (1966), w której mikroekspresja została po raz pierwszy określona jako mikromomentalna ekspresja twarzy, a następnie dzięki pracy Ekmana i Friesena (1969).

Mikroekspresje są zbyt krótkie (1/25 do 1/2 s) i zbyt subtelne, aby mogły być dostrzeżone przez ludzkie oczy. Badania (Ekman, 2002) wykazały, że w przypadku zadań rozpoznawania mikroekspresji zwykli ludzie bez przeszkolenia osiągają średnio wyniki tylko nieznacznie lepsze od przypadkowych. Dlatego też metody widzenia komputerowego i uczenia maszynowego do automatycznej analizy mikroekspresji stają się atrakcyjne. Pfister et al. (2011) rozpoczęli pionierskie badania nad rozpoznawaniem spontanicznych mikroekspresji z pierwszym publicznie dostępnym zbiorem danych spontanicznych mikroekspresji: SMIC, i osiągnęli bardzo obiecujące wyniki, które wypadają korzystnie w porównaniu z dokładnością człowieka. Od tego czasu badania mikroekspresji w dziedzinie widzenia komputerowego przyciągają uwagę coraz większej liczby badaczy. Wiele prac przyczyniło się do automatycznej analizy mikroekspresji w aspekcie zbierania nowych zbiorów danych (od anotacji na poziomie emocji do anotacji na poziomie jednostki akcji; Li i in., 2013; Davison i in., 2018), rozpoznawania mikroekspresji (od rozpoznawania ramki wierzchołka sygnału do rozpoznawania całego wideo; Wang i in, 2015; Liu et al., 2016; Li Y. et al., 2018; Huang et al., 2019) oraz detekcji mikroekspresji (od detekcji szczytu mikroekspresji do detekcji początku i przesunięcia mikroekspresji; Patel et al., 2015; Xia et al., 2016; Jain et al., 2018). Pierwszy ukończony system integrujący rozpoznawanie i wykrywanie mikroekspresji w kierunku odczytywania ukrytych emocji (Li X. i in., 2018) został zgłoszony przez MIT Technology Review (2015) i osiągnął rosnące zainteresowanie, w którym metoda uczenia maszynowego uzyskała 80,28% dla trzech klas (pozytywny/negatywny/niespodzianka) rozpoznawania dla 71 klipów wideo z mikroekspresją nagranych od ośmiu osób badanych i 57,49% dla pięciu klas (szczęście, obrzydzenie, zaskoczenie, represja i inne) rozpoznawania dla 247 klipów wideo z mikroekspresją nagranych od 26 osób badanych (Li X. i in., 2018), co przewyższyło zdolność rozpoznawania przez osoby ludzkie (Li X. i in., 2018).

Jednakże nadal istnieje wiele otwartych wyzwań, które należy rozważyć w przyszłych badaniach. Kilka głównych wyzwań związanych z badaniem mikroekspresji omówiono szczegółowo w dalszej części.

Zestawy danych

Dane stanowią centralną część w badaniach nad mikroekspresją. Mimo że zebrano i udostępniono więcej zbiorów danych, począwszy od pierwszego SMIC (Li i in., 2013), poprzez CASME (Yan i in., 2013), CASME II (Yan i in., 2014), SAMM (Davison i in., 2018), zbiór danych MEVIEW (Husak i in., 2017) oraz CAS(ME)2 (Qu i in., 2018), w tym więcej podmiotów, wyższa rozdzielczość i więcej filmów, skala obecnych zbiorów danych to tylko setki filmów mikroekspresji przechwyconych od 30 do 40 podmiotów, a wciąż brakuje wysokiej jakości, naturalnie zebranych i dobrze opisanych danych mikroekspresji na dużą skalę przechwyconych przez różne czujniki do szkolenia wydajnych metod głębokiego uczenia się, co stanowi dużą przeszkodę dla badań. Ponieważ indukowanie i etykietowanie danych mikroekspresji od podstaw jest niezwykle wymagające i czasochłonne, nie jest wykonalne dla pojedynczej grupy badawczej zebranie danych o skali większej niż dziesiątki tysięcy próbek. Jedną z możliwych opcji dla przyszłych prac związanych z budową danych mikroekspresji może być wykorzystanie ogromnego źródła filmów z YouTube i eksploracja przy użyciu pewnych technik tagowania filmów w celu znalezienia klipów kandydujących, a następnie zastosowanie etykietowania przez człowieka. Inną opcją może być wspólne i równoległe zbieranie danych i etykietowanie poprzez cloud sourcing.

Ponadto, jednym z potencjalnych zastosowań analizy mikroekspresji jest wykrywanie kłamstw. Podczas kłamania, więcej sprzecznych zachowań można znaleźć w werbalnych i niewerbalnych sygnałach (Navarro i Karlins, 2008), być może pojawi się więcej mikroekspresji. Dlatego nowe zbiory danych zawierające nie tylko ekspresję twarzy i mikroekspresję, ale także mowę audio mogą być korzystne dla badania mikroekspresji.

Detekcja jednostek akcji mikroekspresji

System kodowania akcji twarzy (FACS) jest anatomicznie opartym systemem do pomiaru ruchów twarzy (Ekman i Friesen, 1978), który jest używany do opisywania wizualnie rozróżnialnej aktywności twarzy na podstawie wielu unikalnych jednostek akcji (AU). W większości wcześniejszych prac (Wang i in., 2015; Li X. i in., 2018), mikroekspresje były rozpoznawane z całej twarzy bez badania jednostek akcji, a klasyfikowane były tylko pozytywne i negatywne mikroekspresje lub ograniczona liczba mikroekspresji. Zamiast bezpośredniego rozpoznawania pewnej liczby prototypowych wyrażeń, jak w większości poprzednich badań, AU mogą zapewnić pośrednią znaczącą abstrakcję wyrazów twarzy i niosą wiele informacji, które mogą pomóc lepiej wykryć i zrozumieć uczucia ludzi. Mimo, że wykrywanie AU zostało uwzględnione w analizie makroekspresji (Zhao i in., 2016, 2018; Han i in., 2018; Zhang i in., 2018), w tym wykrywanie bólu i szacowanie intensywności bólu (Prkachin i Solomon, 2008; Lucey i in., 2011), rzadka praca została wykonana dla AU w mikroekspresjach. Przyszłe badania mogłyby poświęcić więcej uwagi na zbadanie relacji pomiędzy AU i mikroekspresjami. Na przykład: czy istnieje stałe odwzorowanie pomiędzy początkiem pewnego AU (lub sekwencją kombinacji AU) a jedną kategorią mikroekspresji, tak jak kryteria korespondencji AU i wyrazu twarzy wymienione w podręczniku FACS? Kategoria danych mikroekspresji emocji nie jest koniecznie ograniczona do prototypowych emocji podstawowych, tj. szczęścia, smutku, zaskoczenia, złości, obrzydzenia i strachu, ale może również uwzględniać inne emocje, które są poza wyżej wymienionym zakresem emocji podstawowych, ale są bardzo użyteczne dla zastosowań w świecie rzeczywistym, takie jak zdenerwowanie, niezgoda i pogarda. Poza tymi najbardziej powszechnymi emocjonalnymi AU (które są uważane za ściśle związane z ekspresją emocjonalną), np. AU1, AU4 i AU12, inne AU, które formalnie zostały uznane za „nieistotne dla emocji” również warte są dalszych badań, ponieważ badania wykazały, że niektóre z nich (np, mruganie oczami i zmiana spojrzenia) są wykorzystywane jako zachowania maskujące prawdziwe uczucia, a więc często pojawiają się przed rozpoczęciem mikroekspresji.

Realistyczne sytuacje

Większość istniejących wysiłków w analizie mikroekspresji została podjęta w celu sklasyfikowania podstawowych mikroekspresji zebranych w wysoce kontrolowanych środowiskach, np. z widoku frontalnego (bez zmian widoku), przy stabilnym i jasnym oświetleniu (bez zmian oświetlenia), cała twarz widoczna (bez okluzji). Takie warunki są bardzo trudne do odtworzenia w rzeczywistych zastosowaniach, a narzędzia wytrenowane na takich danych zazwyczaj nie generalizują dobrze na naturalne nagrania wykonane w nieobciążonych warunkach. Należy opracować efektywne algorytmy rozpoznawania naturalnie występujących mikroekspresji, które są odporne na realistyczne sytuacje, ze zdolnością do radzenia sobie ze zmianami pozy, zmianami oświetlenia i słabą jakością nagrań wideo, zarejestrowanych w dzikim środowisku.

Makro- i mikroekspresje

Wcześniejsze prace dotyczące ekspresji twarzy dotyczyły albo mikro- albo makroekspresji. W większości wczesnych prac dotyczących mikroekspresji zakładano, że w klipie wideo występują tylko mikroekspresje. Na przykład, w zbiorze większości zbiorów danych mikroekspresji (Li i in., 2013; Yan i in., 2013, 2014; Davison i in., 2018; Qu i in., 2018), badani zostali poproszeni o to, aby starali się jak najlepiej zachować neutralną twarz podczas oglądania emocjonalnych klipów filmowych. W ten sposób konflikt odczuwanych emocji wywołanych przez klip filmowy i silna intencja stłumienia jakiejkolwiek ekspresji twarzy mogły indukować mikroekspresje. Konsekwencją w zebranych filmach jest to, że jeśli w nagranym filmie występuje mikroekspresja, to jest mało prawdopodobne, by wystąpiła inna naturalna mimika twarzy. Jednak w większości przypadków w prawdziwym życiu nie jest to prawdą. Mikro-ekspresja może pojawić się również w przypadku makro-ekspresji, na przykład, kiedy ludzie uśmiechają się, mogą szybko i krótko marszczyć czoło, co pokazuje ich prawdziwe uczucia (Ekman i Friesen, 1969). Przyszłe badania mogłyby również dotyczyć relacji makro- i mikroekspresji oraz zbadać metody, które mogą wykryć i rozróżnić te dwa elementy, gdy współwystępują lub nawet nakładają się na siebie w jednym scenariuszu, co byłoby bardzo pomocne w dokładniejszym zrozumieniu uczuć i intencji ludzi.

Context Clues and Multi-Modality Learning

W interakcjach społecznych ludzie interpretują emocje i sytuacje innych w oparciu o wiele rzeczy (Huang i in., 2018): osoby w interakcji, ich mowę, wyraz twarzy, ubrania, pozę ciała, płeć, wiek, otaczające środowiska, parametry społeczne i tak dalej. Wszystkie te elementy można uznać za informacje kontekstowe. Niektórzy ludzie są lepszymi czytelnikami emocji, ponieważ potrafią wyczuć emocje innych dokładniej niż pozostali. Osoby te zazwyczaj odbierają subtelne wskazówki z wielu aspektów, nie tylko z wyrazu twarzy (Navarro i Karlins, 2008). Jedną z oryginalnych motywacji do badania mikroekspresji jest chęć poznania tłumionych i ukrywanych emocji, ale nie powinniśmy zapominać, że mikroekspresja jest tylko jedną z wielu wskazówek służących temu celowi. Przyszłe badania powinny spróbować poszerzyć zakres i rozważyć połączenie mikroekspresji z innymi zachowaniami kontekstowymi, np. mrugnięciami oczu, zmianą spojrzenia, zmianą gestów rąk, a nawet postawy całego ciała, w celu osiągnięcia lepszego zrozumienia ukrytych emocji ludzi w pełniejszym zakresie.

Wcześniejsze badania psychologiczne pokazują, że emocje są procedurą multimodalną, która może być wyrażana na różne sposoby. „Sceny wizualne, głosy, ciała, inne twarze, orientacja kulturowa, a nawet słowa kształtują sposób, w jaki emocje są postrzegane w twarzy” (Barrett i in., 2011). Dane emocjonalne mogą być również rejestrowane za pomocą różnych czujników, np. kamery kolorowej, kamery bliskiej podczerwieni, kamery głębi lub czujników fizjologicznych, w celu rejestrowania zachowań emocjonalnych lub zmian w ciele. Odnosi się to również do badania mikroekspresji oraz tłumionych lub ukrytych emocji. Jedna modalność może być zawodna, ponieważ jeden określony wzorzec zachowania może być związany z fizjologicznym dyskomfortem lub osobistym przyzwyczajeniem, ale nie ma nic wspólnego ze stanami emocjonalnymi. Tak więc tylko wtedy, gdy wiele wskazówek jest branych pod uwagę razem, możemy osiągnąć bardziej wiarygodne rozpoznawanie emocji. Jak dotąd jest bardzo mało badań w tym zakresie, a przyszłe badania mikroekspresji mogłyby rozważyć połączenie danych wielomodalnościowych dla rozpoznawania mikroekspresji i ukrytych emocji.

Analiza dla wielu osób w interakcjach

Obecne badania mikroekspresji koncentrują się na pojedynczej osobie oglądającej afektywne filmy lub reklamy, co jest rozsądne we wczesnym stadium, aby uczynić trudne zadania łatwiejszymi i bardziej wykonalnymi. W późniejszym okresie z pewnością badania będą się przesuwały w kierunku bardziej realistycznych i wymagających środowisk interakcyjnych, w których zaangażowanych jest wiele osób. Naturalne interakcje będą wywoływać bardziej naturalne i spontaniczne reakcje emocjonalne w postaci mimiki i mikroekspresji, ale scenariusz stanie się również bardzo skomplikowany. Byłoby bardzo interesujące zbadać nie tylko indywidualny poziom zmian emocjonalnych, ale także współwystępowanie interpersonalne (np. mimika lub zarażanie) oraz dynamikę afektywną całej grupy.

Dyskusja

Przedyskutowaliśmy postępy i otwarte wyzwania w automatycznej analizie mikroekspresji. Rozwiązanie tych problemów wymaga interdyscyplinarnej wiedzy. Współpraca uczenia maszynowego, psychologii, poznania i zachowań społecznych jest niezbędna do pogłębienia badań nad mikroekspresjami i ich zastosowaniami w świecie rzeczywistym.

Wkład autorów

Wszyscy wymienieni autorzy wnieśli znaczący, bezpośredni i intelektualny wkład w tę pracę oraz zatwierdzili ją do publikacji.

Fundacje

Ta praca była częściowo wspierana przez National Natural Science Foundation of China (Grants No. 61772419), Infotech Oulu i Academy of Finland (projekt ICT 2023 z grantem nr 313600).

Oświadczenie o konflikcie interesów

Autorzy deklarują, że badania zostały przeprowadzone przy braku jakichkolwiek komercyjnych lub finansowych powiązań, które mogłyby być interpretowane jako potencjalny konflikt interesów.

Ekman, P. (2002). Narzędzie do treningu mikroekspresji (METT). San Francisco, CA: University California.

Ekman, P., and Friesen, W. (1978). Facial Action Coding System: A Technique for the Measurement of Facial Movement Consulting. Palo Alto, CA: Consulting Psychologists Press.

Patel, D., Zhao, G., and Pietikäinen, M. (2015). „Spatiotemporal integration of optical flow vectors for micro-expression detection,” in Proceedings of the International Conference on Advanced Concepts for Intelligent Vision Systems (Catania: ACIVS).

Google Scholar

Zhao, K., Chu, W.-S., and Martinez, A. M. (2018). Learning facial action units from web images with scalable weakly supervised clustering. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (Salt Lake City, UT), 2090-2099.

PubMed Abstract | Google Scholar

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *