Analyse de visages et d'expressions faciales par modèle acti d'apparence

Publié le 9 octobre 2011 par lediacres

Analyse de visages et d’expressions faciales par

modèle actif d’apparence

Face and facial expression analysis based on an active

appearance model

Franck Davoine, Bouchra Abboud et Van Mô Dang

HEUDIASYC, UMR 6599 CNRS, Université de Technologie de Compiègne, BP 20529,

60205 Compiègne cedex, France.

prenom.nom@hds.utc.fr

Manuscrit reçu le 9 février 2004

Résumé et mots clés

Dans cet article, nous nous intéressons à l'extraction automatique des traits de visages (yeux, sourcils, nez,

bouche, menton) ainsi qu'à la reconnaissance des six expressions faciales définies par Ekman [19]. Nous

exploitons pour cela des versions modifiées du modèle actif d'apparence initialement proposé par Cootes

et al.

[11] qui permet de représenter à la fois la forme et la texture d'un visage. L'extraction des traits

faciaux est faite à l'aide d'un modèle actif d'apparence hiérarchique, calculé à partir des réponses de

visages à des bancs de filtres de Gabor. Deux modèles d'expressions faciales sont ensuite proposés, calculés

à patir du modèle d'apparence standard (non hiérarchique), pour reconnaître puis supprimer ou modifier

l'expression d'un visage inconnu.

Visages, traits caractéristiques, reconnaissance, filtrage et modification d'expressions faciales,

modèle actif d'apparence, ACP, filtres de Gabor, regression.

Abstract and key words

In this paper, methods are proposed for facial feature detection (eyes, brows, nose, mouth, chin) and for facial expression

recognition. The methods are based on modified versions of the standard Active Appearance Model proposed by

Cootes

et al. [11] to control both the shape and the texture of a given face. The detection algorithm makes use of an

active appearance model computed on hierarchical Gabor descriptions a set of training faces. In a second part, two

expression models are proposed, based on the standard AAM, and used to recognize and then to cancel or modify the

facial expression of a given unknown face.

Faces, facial features, facial expression cancellation, modification or recognition, active appearance model, PCA, Gabor

filters, regression.

traitement du signal

2004_volume 21_numéro 3 179

1. Introduction

L'analyse de visages par traitement d'images est encore aujourd'hui

un sujet de recherche très actif puisqu'il concerne de nombreux

domaines d'application tels que par exemple la sécurité

(biométrie, surveillance), la robotique (interaction hommemachine,

affective computing

), le handicap (communication par

le visage), les jeux vidéo ou les télécommunications à très bas

débits (clones synthétiques). Les recherches englobent la détection,

le suivi, le codage, la reconnaissance et la synthèse de

visages en tenant compte des variations possibles de leur apparence

(pose tridimensionnelle, regard, lèvres, expressions, âge,

genre, mouvements faciaux et comportement facial, occultations,

etc.). Parmi les méthodes proposées, nombreuses sont

celles qui utilisent des modèles permettant une coopération

entre l'analyse et la synthèse d'un visage [54, 23, 36, 24, 37].

Dans cet article, nous nous intéressons plus particulièrement au

modèle actif statistique d'apparence

(AAM) , initialement proposé

par Cootes

et al. [11], et qui permet de contrôler à la fois la

forme et la texture de visages à l'aide d'un nombre réduit de

paramètres. Nous présentons deux utilisations possibles du

modèle pour (i) extraire automatiquement les traits caractéristiques

d'un visage vu de face et (ii) reconnaître et synthétiser des

expressions faciales.

Des travaux de recherche en psychologie ont démontré que les

expressions faciales jouent un rôle prépondérant dans la coordination

de la conversation humaine [6], et ont un impact plus

important sur l'auditeur que le contenu textuel du message

exprimé. Mehrabian [38] remarque que la contribution du contenu

textuel d'un message verbal en « face à face » à son impact

global se limite à 7% alors que les signaux conversationnels

(accentuation de mots, ponctuation, marqueurs d'une question,

indicateurs d'une recherche de mots, etc.) et l'expression faciale

du locuteur contribuent respectivement à 38 % et 55 % de l'impact

global du message exprimé. Par conséquent, l'expression

faciale peut être considérée comme une modalité essentielle de

la communication humaine.

L'analyse automatique des expressions faciales constitue un

outil important pour la recherche dans les domaines de l'étude

du comportement et de la psychologie, ainsi que dans les

domaines de la compression d'images et de l'animation de

visages synthétiques [43]. Elle repose fréquemment sur le système

FACS

, proposé par Ekman et Friesen en 1978 [20], et qui

constitue une description objective de signaux faciaux décrits

par 46 mouvements élémentaires indépendants ou « unités

actions faciales ». Ekman a également montré que les expressions

faciales de six catégories émotionnelles de base sont universellement

reconnues, à savoir : la colère, le dégoût, la peur,

la joie, la surprise et la tristesse [19].

Dans le passé, les travaux de recherche sur l'analyse des expressions

faciales se situaient principalement dans le cadre de la

psychologie [8]. Les progrès effectués dans des domaines

connexes tels que la détection, le suivi et la reconnaissance de

180

traitement du signal 2004_volume 21_numéro 3

Détection robuste par module prohiliste d’apparence : une approche bayésienne

visages [55] ont apporté une contribution significative à la

recherche dans le domaine de l'analyse, de la synthèse et de la

reconnaissance d'expressions faciales [14, 44, 49, 21]. Nous listons

dans ce chapitre d'introduction, sans volonté d'être exhaustifs,

une sélection de travaux relatifs à l'analyse et la synthèse de

visages.

Détection et analyse des traits faciaux

Avant de procéder à l'analyse de l'expression faciale d'un visage

fixe ou en mouvement, il convient de le détecter ou de le suivre

afin d'en extraire des informations pertinentes. Plusieurs

méthodes de détection sont décrites dans [54, 27]. Selon le cas,

elles exploitent une représentation globale ou locale du visage,

codée par exemple sous la forme de vecteurs de couleurs ou de

niveaux de gris de pixels, de vecteurs de mouvement ou de

réponses à différents filtres (ondelettes, Gabor, etc.). Les vecteurs

de visages étant de grande taille, ils sont souvent transformés

à l'aide de méthodes linéaires de réduction de dimension

telles que l'analyse en composantes principales (ACP) ou indépendantes

(ACI). Lorsqu'en plus, les vecteurs exhibent des

caractéristiques non linéaires (dues par exemple à des variations

d'éclairage ou d'orientation dans l'espace), ils peuvent être transformés

à l'aide de méthodes non-linéaires telles que l'analyse en

composantes principales à noyau [47, 34]. Les méthodes locales

permettent une modélisation du visage dans les régions susceptibles

de se modifier selon par exemple les expressions faciales

affichées. Viola

et al. [51] ont récemment proposé une méthode

de détection de visages très rapide et compétitive en terme de

taux d'erreurs par rapport aux méthodes concurrentes. Les

auteurs exploitent un codage multirésolution de l'image, connu

sous le nom d'

image intégrale et obtenu par filtrage. Une variante

de l'algorithme

AdaBoost leur permet de sélectionner un

faible de nombre de caractéristiques faciales, à partir

d'exemples de visages et de contre-exemples, de façon à entraîner

un jeu de classifieurs. Les visages présents dans une image

sont ensuite détectés à l'aide d'une cascade de ces classifieurs.

Dans le but de représenter le mouvement intérieur au visage,

lorsque celui-ci est détecté dans l'image, Black

et al. [4] utilisent

des modèles locaux paramétriques. Ils estiment le mouvement

relatif des traits faciaux dans le repère du visage. Les paramètres

de ce mouvement servent par la suite à représenter l'expression

faciale. De manière similaire, Cohn

et al. [10] utilisent

un algorithme hiérarchique pour effectuer le suivi des traits

caractéristiques par estimation du flot optique. Les vecteurs de

déplacement représentent l'information sur les changements

d'expression faciale. Padgett

et al. [42] utilisent des gabarits

d'oeil et de bouche, calculés par analyse en composantes principales

d'un ensemble d'apprentissage, en association avec des

réseaux de neurones. D'autre part, Hong

et al. [28] utilisent un

modèle global basé sur des graphes étiquetés construits à partir

de points de repère distribués sur le visage. Les noeuds de ces

graphes sont formés par des vecteurs dont chaque élément est la

réponse à un filtrage de Gabor extraite en un point donné de

l'image. Finalement, Cootes

et al. [11] utilisent une représentation

par modèle actif d'apparence

(AAM) pour extraire automatiquement

des paramètres caractérisant un visage.

Reconnaissance d'expressions faciales

Un grand nombre de systèmes d'analyse d'expressions faciales

proposés dans la littérature visent à reconnaître et à mesurer

l'amplitude d'unités d'actions faciales à partir de visages vus de

face, fixes ou en mouvement. D'autres système cherchent plutôt

à reconnaître un ensemble limité d'expressions « prototypes »

telles que la joie, la colère, le dégoût, la tristesse, la peur, la surprise,

ou d'autres actions telles qu'un clignement d'oeil ou un cri.

Dans le cadre de cet article, nous nous intéresserons plus particulièrement

à cette deuxième catégorie de méthodes.

La reconnaissance d'un nombre pré-défini d'expressions faciales

nécessite au préalable le choix d'une représentation parcimonieuse

des visages permettant l'émergence de classes distinctes d'expressions

dans un ensemble d'apprentissage. Différents méthodes

ont été proposées, exploitant par exemple l'analyse en composantes

principales [41] ou indépendantes ou l'analyse discriminante,

linéaire ou non-linéaire [25]. Vient ensuite le choix d'une

méthode de classification s'appuyant sur des mesures de distances

déterministes ou probabilistes entre individus [39], sur des

machines à vecteur de support [1] ou des réseaux de neuronaux.

Afin de reconnaître une expression faciale comme l'une des six

expressions universelles définies par Ekman [19] auxquelles

s'ajoute l'expression neutre, Hong

et al. [28] partent du principe

que deux personnes qui se ressemblent affichent la même

expression de manière similaire. Un graphe étiqueté est attribué

à l'image de test puis la personne connue la plus proche est

déterminée à l'aide d'une méthode de mise en correspondance

de graphes élastiques. La galerie personnalisée de cette personne

est alors utilisée pour reconnaître l'expression faciale de

l'image de test. Un graphe étiqueté par des réponses de filtres de

Gabor est par ailleurs utilisé par Lyons

et al. [35]et Bartlett et al.

[2]. L'ensemble des graphes construits sur un ensemble d'apprentissage

est ensuite soumis à une ACP puis analysé à l'aide

d'une analyse discriminante linéaire (ADL) afin de séparer les

vecteurs dans des classes ayant des attributs faciaux différents.

Le graphe étiqueté de l'image testée sera alors projeté sur les

vecteurs discriminants de chaque classe afin de déterminer son

éventuelle appartenance à cette classe. Dans une finalité identique,

Essa et Pentland [21] extraient des gabarits spatio-temporels

de l'énergie du mouvement du visage pour chaque expression

faciale. Le critère de similarité repose sur la distance euclidienne

entre ces gabarits et l'énergie du mouvement de l'image

observée. Heisele

et al. [26] utilisent des machines à vecteur de

support

(SVM) dans le cadre de la reconnaissance de visages par

des méthodes globales ainsi que par des méthodes reposant sur

des traits caractéristiques. De manière identique, l'algorithme de

reconnaissance de visages

FaceIt est basé sur une analyse locatraitement

du signal

2004_volume 21_numéro 3 181

Détection robuste par module prohiliste d’apparence : une approche bayésienne

le des traits caractéristiques

(LFA) développée par Penev et

Atick [45]. Draper

et al. [15] comparent les performances de

l'analyse en composantes principales et de l'analyse en composantes

indépendantes pour la reconnaissance de visages et d'expressions

faciales en se basant sur le codage

FACS [20]. Yang

propose dans [53] une analyse en composantes principales à

noyau pour la reconnaissance de visages. Finalement, Edwards

et al.

[18] utilisent le modèle actif d'apparence pour reconnaître

l'identité d'un individu observé de manière robuste par rapport à

l'expression faciale ainsi que l'illumination et la pose. Pour ceci,

le critère de similarité utilisé repose sur la distance de

Mahalanobis, et une ADL est appliquée afin de maximiser la

séparation des classes.

Synthèse d'expressions faciales

La synthèse d'expressions faciales est une tâche difficile compte

tenu de la complexité de la forme et de la texture des visages.

De plus, le visage présente des rides et des plis ainsi que d'autres

variations subtiles de forme et de texture qui ont une importance

cruciale dans la compréhension et la représentation des

expressions faciales. Dans cette perspective, les techniques d'interpolation

et de déformation offrent une approche intuitive

pour l'animation de visages. Plusieurs travaux visent à traiter

séparément la texture et la forme d'un visage [3, 5, 50]. Pighin

et al.

[46] utilisent des techniques de morphing 2D combinées

avec des transformations d'un modèle géométrique 3D, pour

créer des modèles faciaux réalistes tridimensionnels à partir de

photographies, et pour construire des transitions lisses entre les

différentes expressions faciales. Dans la même optique, Blanz

et al.

[5] déforment d'un modèle géométrique 3D, sur lequel est

projetée la numérisation 3D de la texture d'un visage. En outre,

dans le cadre du logiciel

Video-Rewrite , Bregler et al. [7] associent

des techniques de suivi de points 2D de la bouche d'un orateur

dans une séquence d'apprentissage à des techniques de

morphing

pour animer les lèvres d'une personne inconnue prononçant

les même paroles. Dans une finalité analogue, Ezzat

et al.

[22] utilisent une représentation par modèle déformable

multidimensionnel et une technique de synthèse de trajectoire

pour contrôler les mouvements de la bouche d'un visage parlant.

Cette représentation permet de synthétiser des configurations

inconnues de lèvres parlantes « vidéo-réalistes » à partir d'une

séquence vidéo initiale. Chuang

et al. [9] utilisent quant à eux

une ACP combinée à un modèle bilinéaire pour synthétiser une

nouvelle expression sur un visage parlant. Finalement, Kang

et al.

[32] utilisent le modèle actif d'apparence combiné avec

une régression linéaire pour annuler l'expression faciale d'un

visage dans le but d'améliorer les performances d'un algorithme

de reconnaissance de visages.

Dans cet article

, nous décrivons la construction d'un modèle

actif d'apparence hiérarchique calculé sur une représentation

multirésolution de visages, à base de filtres de Gabor. Ce modèle

peut être vu comme un intermédiaire entre le modèle actif de

forme

(ASM) [33] et le modèle actif d'apparence [11]. Dans le

cas du modèle d'apparence, la texture du visage est représentée

par les valeurs de l'ensemble des pixels inclus dans l'enveloppe

convexe des points de la forme du visage. Dans le cas du modèle

hiérarchique proposé ici, la texture n'est représentée qu'au

niveau de quelques points intérieurs au visage à l'aide de bancs

de filtres de Gabor. La représentation tient ainsi compte du voisinage

de chacun des points sélectionnés, au travers de différents

niveaux de résolution et selon différentes orientations,

contrairement au cas de l'

ASM pour lequel la texture du visage

n'est prise en compte que sous la forme de profils de niveaux de

gris sur quelques segments de droites orthogonaux aux contours

supposés de l'objet analysé. Les bancs de filtres de Gabor, lorsqu'ils

sont utilisés conjointement avec un maillage triangulaire

de visages, ont en outre montré leur efficacité et leur robustesse

pour la détection de traits faciaux et l'identification de visages

[52]. Dans cet article, nous évaluons l'intérêt du modèle hiérarchique

par rapport à l'

AAM } proposé par Cootes et al. [11], pour

un problème de détection de la pose 2D et des traits caractéristiques

de visages (yeux, bouche, etc.). Dans une deuxième partie,

nous proposons une approche originale de la reconnaissance

d'expressions faciales basée sur le modèle d'apparence standard

de Cootes

et al. (non hiérarchique). Nous présentons une

extension de la méthode décrite dans [32] pour annuler l'expression

d'un visage, à une application de synthèse de nouvelles

expressions faciales. Enfin nous introduisons une nouvelle

méthode d'interpolation pour la synthèse et l'annulation d'expressions

faciales.

2. Modèle actif

d'apparence

Cette section donne une description rapide du modèle actif d'apparence.

Sa construction est d'abord expliquée et quelques

résultats expérimentaux montrant l'adaptation du modèle sur

des visages inconnus sont ensuite donnés. Nous vérifions également

l'efficacité d'une variante du modèle d'apparence, calculée

à partir d'une seule ACP.

A suivre......