Analyse de visages et d'expressions faciales par modèle acti d'apparence
Analyse de visages et d’expressions faciales par
modèle actif d’apparence
Face and facial expression analysis based on an active
appearance model
Franck Davoine, Bouchra Abboud et Van Mô Dang
HEUDIASYC, UMR 6599 CNRS, Université de Technologie de Compiègne, BP 20529,
60205 Compiègne cedex, France.
prenom.nom@hds.utc.fr
Manuscrit reçu le 9 février 2004
Résumé et mots clés
Dans cet article, nous nous intéressons à l'extraction automatique des traits de visages (yeux, sourcils, nez,
bouche, menton) ainsi qu'à la reconnaissance des six expressions faciales définies par Ekman [19]. Nous
exploitons pour cela des versions modifiées du modèle actif d'apparence initialement proposé par Cootes
et al.
[11] qui permet de représenter à la fois la forme et la texture d'un visage. L'extraction des traits
faciaux est faite à l'aide d'un modèle actif d'apparence hiérarchique, calculé à partir des réponses de
visages à des bancs de filtres de Gabor. Deux modèles d'expressions faciales sont ensuite proposés, calculés
à patir du modèle d'apparence standard (non hiérarchique), pour reconnaître puis supprimer ou modifier
l'expression d'un visage inconnu.
Visages, traits caractéristiques, reconnaissance, filtrage et modification d'expressions faciales,
modèle actif d'apparence, ACP, filtres de Gabor, regression.
Abstract and key words
In this paper, methods are proposed for facial feature detection (eyes, brows, nose, mouth, chin) and for facial expression
recognition. The methods are based on modified versions of the standard Active Appearance Model proposed by
Cootes
et al. [11] to control both the shape and the texture of a given face. The detection algorithm makes use of an
active appearance model computed on hierarchical Gabor descriptions a set of training faces. In a second part, two
expression models are proposed, based on the standard AAM, and used to recognize and then to cancel or modify the
facial expression of a given unknown face.
Faces, facial features, facial expression cancellation, modification or recognition, active appearance model, PCA, Gabor
filters, regression.
traitement du signal
2004_volume 21_numéro 3 179
1. Introduction
L'analyse de visages par traitement d'images est encore aujourd'hui
un sujet de recherche très actif puisqu'il concerne de nombreux
domaines d'application tels que par exemple la sécurité
(biométrie, surveillance), la robotique (interaction hommemachine,
affective computing
), le handicap (communication par
le visage), les jeux vidéo ou les télécommunications à très bas
débits (clones synthétiques). Les recherches englobent la détection,
le suivi, le codage, la reconnaissance et la synthèse de
visages en tenant compte des variations possibles de leur apparence
(pose tridimensionnelle, regard, lèvres, expressions, âge,
genre, mouvements faciaux et comportement facial, occultations,
etc.). Parmi les méthodes proposées, nombreuses sont
celles qui utilisent des modèles permettant une coopération
entre l'analyse et la synthèse d'un visage [54, 23, 36, 24, 37].
Dans cet article, nous nous intéressons plus particulièrement au
modèle actif statistique d'apparence
(AAM) , initialement proposé
par Cootes
et al. [11], et qui permet de contrôler à la fois la
forme et la texture de visages à l'aide d'un nombre réduit de
paramètres. Nous présentons deux utilisations possibles du
modèle pour (i) extraire automatiquement les traits caractéristiques
d'un visage vu de face et (ii) reconnaître et synthétiser des
expressions faciales.
Des travaux de recherche en psychologie ont démontré que les
expressions faciales jouent un rôle prépondérant dans la coordination
de la conversation humaine [6], et ont un impact plus
important sur l'auditeur que le contenu textuel du message
exprimé. Mehrabian [38] remarque que la contribution du contenu
textuel d'un message verbal en « face à face » à son impact
global se limite à 7% alors que les signaux conversationnels
(accentuation de mots, ponctuation, marqueurs d'une question,
indicateurs d'une recherche de mots, etc.) et l'expression faciale
du locuteur contribuent respectivement à 38 % et 55 % de l'impact
global du message exprimé. Par conséquent, l'expression
faciale peut être considérée comme une modalité essentielle de
la communication humaine.
L'analyse automatique des expressions faciales constitue un
outil important pour la recherche dans les domaines de l'étude
du comportement et de la psychologie, ainsi que dans les
domaines de la compression d'images et de l'animation de
visages synthétiques [43]. Elle repose fréquemment sur le système
FACS
, proposé par Ekman et Friesen en 1978 [20], et qui
constitue une description objective de signaux faciaux décrits
par 46 mouvements élémentaires indépendants ou « unités
actions faciales ». Ekman a également montré que les expressions
faciales de six catégories émotionnelles de base sont universellement
reconnues, à savoir : la colère, le dégoût, la peur,
la joie, la surprise et la tristesse [19].
Dans le passé, les travaux de recherche sur l'analyse des expressions
faciales se situaient principalement dans le cadre de la
psychologie [8]. Les progrès effectués dans des domaines
connexes tels que la détection, le suivi et la reconnaissance de
180
traitement du signal 2004_volume 21_numéro 3
Détection robuste par module prohiliste d’apparence : une approche bayésienne
visages [55] ont apporté une contribution significative à la
recherche dans le domaine de l'analyse, de la synthèse et de la
reconnaissance d'expressions faciales [14, 44, 49, 21]. Nous listons
dans ce chapitre d'introduction, sans volonté d'être exhaustifs,
une sélection de travaux relatifs à l'analyse et la synthèse de
visages.
Détection et analyse des traits faciaux
Avant de procéder à l'analyse de l'expression faciale d'un visage
fixe ou en mouvement, il convient de le détecter ou de le suivre
afin d'en extraire des informations pertinentes. Plusieurs
méthodes de détection sont décrites dans [54, 27]. Selon le cas,
elles exploitent une représentation globale ou locale du visage,
codée par exemple sous la forme de vecteurs de couleurs ou de
niveaux de gris de pixels, de vecteurs de mouvement ou de
réponses à différents filtres (ondelettes, Gabor, etc.). Les vecteurs
de visages étant de grande taille, ils sont souvent transformés
à l'aide de méthodes linéaires de réduction de dimension
telles que l'analyse en composantes principales (ACP) ou indépendantes
(ACI). Lorsqu'en plus, les vecteurs exhibent des
caractéristiques non linéaires (dues par exemple à des variations
d'éclairage ou d'orientation dans l'espace), ils peuvent être transformés
à l'aide de méthodes non-linéaires telles que l'analyse en
composantes principales à noyau [47, 34]. Les méthodes locales
permettent une modélisation du visage dans les régions susceptibles
de se modifier selon par exemple les expressions faciales
affichées. Viola
et al. [51] ont récemment proposé une méthode
de détection de visages très rapide et compétitive en terme de
taux d'erreurs par rapport aux méthodes concurrentes. Les
auteurs exploitent un codage multirésolution de l'image, connu
sous le nom d'
image intégrale et obtenu par filtrage. Une variante
de l'algorithme
AdaBoost leur permet de sélectionner un
faible de nombre de caractéristiques faciales, à partir
d'exemples de visages et de contre-exemples, de façon à entraîner
un jeu de classifieurs. Les visages présents dans une image
sont ensuite détectés à l'aide d'une cascade de ces classifieurs.
Dans le but de représenter le mouvement intérieur au visage,
lorsque celui-ci est détecté dans l'image, Black
et al. [4] utilisent
des modèles locaux paramétriques. Ils estiment le mouvement
relatif des traits faciaux dans le repère du visage. Les paramètres
de ce mouvement servent par la suite à représenter l'expression
faciale. De manière similaire, Cohn
et al. [10] utilisent
un algorithme hiérarchique pour effectuer le suivi des traits
caractéristiques par estimation du flot optique. Les vecteurs de
déplacement représentent l'information sur les changements
d'expression faciale. Padgett
et al. [42] utilisent des gabarits
d'oeil et de bouche, calculés par analyse en composantes principales
d'un ensemble d'apprentissage, en association avec des
réseaux de neurones. D'autre part, Hong
et al. [28] utilisent un
modèle global basé sur des graphes étiquetés construits à partir
de points de repère distribués sur le visage. Les noeuds de ces
graphes sont formés par des vecteurs dont chaque élément est la
réponse à un filtrage de Gabor extraite en un point donné de
l'image. Finalement, Cootes
et al. [11] utilisent une représentation
par modèle actif d'apparence
(AAM) pour extraire automatiquement
des paramètres caractérisant un visage.
Reconnaissance d'expressions faciales
Un grand nombre de systèmes d'analyse d'expressions faciales
proposés dans la littérature visent à reconnaître et à mesurer
l'amplitude d'unités d'actions faciales à partir de visages vus de
face, fixes ou en mouvement. D'autres système cherchent plutôt
à reconnaître un ensemble limité d'expressions « prototypes »
telles que la joie, la colère, le dégoût, la tristesse, la peur, la surprise,
ou d'autres actions telles qu'un clignement d'oeil ou un cri.
Dans le cadre de cet article, nous nous intéresserons plus particulièrement
à cette deuxième catégorie de méthodes.
La reconnaissance d'un nombre pré-défini d'expressions faciales
nécessite au préalable le choix d'une représentation parcimonieuse
des visages permettant l'émergence de classes distinctes d'expressions
dans un ensemble d'apprentissage. Différents méthodes
ont été proposées, exploitant par exemple l'analyse en composantes
principales [41] ou indépendantes ou l'analyse discriminante,
linéaire ou non-linéaire [25]. Vient ensuite le choix d'une
méthode de classification s'appuyant sur des mesures de distances
déterministes ou probabilistes entre individus [39], sur des
machines à vecteur de support [1] ou des réseaux de neuronaux.
Afin de reconnaître une expression faciale comme l'une des six
expressions universelles définies par Ekman [19] auxquelles
s'ajoute l'expression neutre, Hong
et al. [28] partent du principe
que deux personnes qui se ressemblent affichent la même
expression de manière similaire. Un graphe étiqueté est attribué
à l'image de test puis la personne connue la plus proche est
déterminée à l'aide d'une méthode de mise en correspondance
de graphes élastiques. La galerie personnalisée de cette personne
est alors utilisée pour reconnaître l'expression faciale de
l'image de test. Un graphe étiqueté par des réponses de filtres de
Gabor est par ailleurs utilisé par Lyons
et al. [35]et Bartlett et al.
[2]. L'ensemble des graphes construits sur un ensemble d'apprentissage
est ensuite soumis à une ACP puis analysé à l'aide
d'une analyse discriminante linéaire (ADL) afin de séparer les
vecteurs dans des classes ayant des attributs faciaux différents.
Le graphe étiqueté de l'image testée sera alors projeté sur les
vecteurs discriminants de chaque classe afin de déterminer son
éventuelle appartenance à cette classe. Dans une finalité identique,
Essa et Pentland [21] extraient des gabarits spatio-temporels
de l'énergie du mouvement du visage pour chaque expression
faciale. Le critère de similarité repose sur la distance euclidienne
entre ces gabarits et l'énergie du mouvement de l'image
observée. Heisele
et al. [26] utilisent des machines à vecteur de
support
(SVM) dans le cadre de la reconnaissance de visages par
des méthodes globales ainsi que par des méthodes reposant sur
des traits caractéristiques. De manière identique, l'algorithme de
reconnaissance de visages
FaceIt est basé sur une analyse locatraitement
du signal
2004_volume 21_numéro 3 181
Détection robuste par module prohiliste d’apparence : une approche bayésienne
le des traits caractéristiques
(LFA) développée par Penev et
Atick [45]. Draper
et al. [15] comparent les performances de
l'analyse en composantes principales et de l'analyse en composantes
indépendantes pour la reconnaissance de visages et d'expressions
faciales en se basant sur le codage
FACS [20]. Yang
propose dans [53] une analyse en composantes principales à
noyau pour la reconnaissance de visages. Finalement, Edwards
et al.
[18] utilisent le modèle actif d'apparence pour reconnaître
l'identité d'un individu observé de manière robuste par rapport à
l'expression faciale ainsi que l'illumination et la pose. Pour ceci,
le critère de similarité utilisé repose sur la distance de
Mahalanobis, et une ADL est appliquée afin de maximiser la
séparation des classes.
Synthèse d'expressions faciales
La synthèse d'expressions faciales est une tâche difficile compte
tenu de la complexité de la forme et de la texture des visages.
De plus, le visage présente des rides et des plis ainsi que d'autres
variations subtiles de forme et de texture qui ont une importance
cruciale dans la compréhension et la représentation des
expressions faciales. Dans cette perspective, les techniques d'interpolation
et de déformation offrent une approche intuitive
pour l'animation de visages. Plusieurs travaux visent à traiter
séparément la texture et la forme d'un visage [3, 5, 50]. Pighin
et al.
[46] utilisent des techniques de morphing 2D combinées
avec des transformations d'un modèle géométrique 3D, pour
créer des modèles faciaux réalistes tridimensionnels à partir de
photographies, et pour construire des transitions lisses entre les
différentes expressions faciales. Dans la même optique, Blanz
et al.
[5] déforment d'un modèle géométrique 3D, sur lequel est
projetée la numérisation 3D de la texture d'un visage. En outre,
dans le cadre du logiciel
Video-Rewrite , Bregler et al. [7] associent
des techniques de suivi de points 2D de la bouche d'un orateur
dans une séquence d'apprentissage à des techniques de
morphing
pour animer les lèvres d'une personne inconnue prononçant
les même paroles. Dans une finalité analogue, Ezzat
et al.
[22] utilisent une représentation par modèle déformable
multidimensionnel et une technique de synthèse de trajectoire
pour contrôler les mouvements de la bouche d'un visage parlant.
Cette représentation permet de synthétiser des configurations
inconnues de lèvres parlantes « vidéo-réalistes » à partir d'une
séquence vidéo initiale. Chuang
et al. [9] utilisent quant à eux
une ACP combinée à un modèle bilinéaire pour synthétiser une
nouvelle expression sur un visage parlant. Finalement, Kang
et al.
[32] utilisent le modèle actif d'apparence combiné avec
une régression linéaire pour annuler l'expression faciale d'un
visage dans le but d'améliorer les performances d'un algorithme
de reconnaissance de visages.
Dans cet article
, nous décrivons la construction d'un modèle
actif d'apparence hiérarchique calculé sur une représentation
multirésolution de visages, à base de filtres de Gabor. Ce modèle
peut être vu comme un intermédiaire entre le modèle actif de
forme
(ASM) [33] et le modèle actif d'apparence [11]. Dans le
cas du modèle d'apparence, la texture du visage est représentée
par les valeurs de l'ensemble des pixels inclus dans l'enveloppe
convexe des points de la forme du visage. Dans le cas du modèle
hiérarchique proposé ici, la texture n'est représentée qu'au
niveau de quelques points intérieurs au visage à l'aide de bancs
de filtres de Gabor. La représentation tient ainsi compte du voisinage
de chacun des points sélectionnés, au travers de différents
niveaux de résolution et selon différentes orientations,
contrairement au cas de l'
ASM pour lequel la texture du visage
n'est prise en compte que sous la forme de profils de niveaux de
gris sur quelques segments de droites orthogonaux aux contours
supposés de l'objet analysé. Les bancs de filtres de Gabor, lorsqu'ils
sont utilisés conjointement avec un maillage triangulaire
de visages, ont en outre montré leur efficacité et leur robustesse
pour la détection de traits faciaux et l'identification de visages
[52]. Dans cet article, nous évaluons l'intérêt du modèle hiérarchique
par rapport à l'
AAM } proposé par Cootes et al. [11], pour
un problème de détection de la pose 2D et des traits caractéristiques
de visages (yeux, bouche, etc.). Dans une deuxième partie,
nous proposons une approche originale de la reconnaissance
d'expressions faciales basée sur le modèle d'apparence standard
de Cootes
et al. (non hiérarchique). Nous présentons une
extension de la méthode décrite dans [32] pour annuler l'expression
d'un visage, à une application de synthèse de nouvelles
expressions faciales. Enfin nous introduisons une nouvelle
méthode d'interpolation pour la synthèse et l'annulation d'expressions
faciales.
2. Modèle actif
d'apparence
Cette section donne une description rapide du modèle actif d'apparence.
Sa construction est d'abord expliquée et quelques
résultats expérimentaux montrant l'adaptation du modèle sur
des visages inconnus sont ensuite donnés. Nous vérifions également
l'efficacité d'une variante du modèle d'apparence, calculée
à partir d'une seule ACP.
A suivre......