apprentissage coopératif semi-Supervisé de concepts Multimédias pour l'Aide à la Catégorisation et la détection de Concepts
La recherche d'entités sur Internet est un problème qui a pris une
dimension particulière avec l'augmentation rapide des volumes de
contenus multimédia et le besoin croissant d'outils de recherche
intelligents. Sur le texte, il s'agit d'un sujet bien exploré et les
techniques d'identification sont aujourd'hui relativement efficaces, en
particulier lorsqu'on limite la recherche à des entités assez
concrètes. A la difficulté de modélisation d'entités abstraites, le
contexte multimédia ajoute celles qui sont liées à la diversité des
supports, des formes, des contextes d'apparition. Cette variabilité des
instances d'un même concept rend toute modélisation générique très
complexe à définir : comment estimer la signature multimédia d'un
concept tel que « objet technologique » qui peut se réaliser sur un ou
plusieurs des média (texte, image, audio, vidéo), dans des contextes
très variés (de la vidéo de test générée par l'utilisateur à la fiche
technique de l'appareil photo numérique), évoqués de façons plus ou
moins directes (de l'appareil photo numérique à la vidéo « Gadgets and
business » sur l'impact écologique de l'électronique domestique) ?
Les techniques classiques se concentrent sur un média et estiment des
signatures sur de très grands corpus qui doivent couvrir l'ensemble des
situations d'utilisation. L'extension au multimédia et le passage à
l'échelle du Web nécessite à ce qu'un certain nombre de verrous
scientifiques et technologiques soient levés :
- comment collecter ces corpus et les annoter à un coût raisonnable ? La plupart des techniques de catégorisation texte, audio ou vidéo reposent sur des modèles statistiques qui sont estimés sur des grands corpus. Le coût d'une telle annotation est extrêmement élevé et constitue une limite importante à l'utilisation des systèmes en conditions réelles.
- quels modèles et quelles méthodes d'apprentissage dans un contexte multimédia ? L'identification de concepts à partir d'un seul média est une tâche difficile qui a fait l'objet de nombreuses études ces dernières années, en catégorisation de texte, en identification des individus ou des thèmes sur l'audio ou la vidéo. Malgré ces efforts, les performances restent variables dans des situations aussi diverses et potentiellement inattendues que celle des données WEB. Utiliser l'ensemble des sources d'informations disponibles est une piste prometteuse pour améliorer la robustesse des systèmes, mais qui suppose que les modèles et les stratégies d'apprentissage associées soient reconsidérés dans le contexte global de la catégorisation multimédia.
- quelles stratégies de catégorisation ? Généralement, la catégorisation à partir de plusieurs sources est vue comme un problème de représentation, dans un espace commun, de descripteurs hétérogènes ou de combinaison de classifieurs. La catégorisation multimédia comporte des particularités qui doivent être prises en compte, notamment la façon très variable dont un concept peut se projeter sur un ou plusieurs médias.
SuMACC propose d'explorer des stratégies
d'apprentissage originales pour l'identification d'entités multimédias
à partir de patrons d'identification.
Un patron d'identification est un modèle de combinaison
inter-médias;
il représente la façon dont un ou plusieurs concepts se projettent
sur l'ensemble des médias. En reprenant l'exemple des objets
technologiques, on peut considérer qu'une vidéo générée par
l'utilisateur, sans métadonnées, devra être identifiée par la
reconnaissance de l'objet dans l'image et par l'analyse de la
transcription automatique du canal audio; c'est cette stratégie
globale d'identification qui est modélisé par le patron
d'identification multimédia.
L'utilisation des patrons offre un cadre unifié dans lequel
différentes règles de combinaison peuvent être formulées. Dans ce
contexte, des approches faiblement supervisées seront proposées pour
l'estimation de la signature du concept sur chacun des médias. Nous
développerons les techniques d'apprentissage actif et de
co-apprentissage inter-média, avec pour objectif une diminution
considérable de l'effort de supervision de l'apprentissage.
Le projet précisera d'abord l'environnement expérimental et
technologique de l'étude, puis se concentrera sur les tâches à forte
plus value scientifique. Les techniques proposées seront évaluées
dans le cadre du portail Wikio, qui offre des possibilités de
structuration initiale des données et d'évaluation en conditions
réelles.
Les retombés attendues du projet sont multiples. D'un point de vue
strictement scientifique, la collaboration des médias est un sujet qui
a connu des développements récents autours de la recherche de
concepts dans des flux audiovisuels. L'originalité de l'approche
proposée ici est de considérer que l'architecture des classifieurs
doit être adaptée à la nature des objets cherchés. En développant
cette idée dans le contexte du portail Wikio, on peut espérer
démontrer la validité des propositions dans un contexte industriel
réel, et ses possibilités d'application à l'annotation, la
structuration et la fouille de grandes collections multimédias. Bien
que SuMACC soit un projet de recherche fondamentale, les enjeux
socio-économiques liés à ces questions sont considérables.