apprentissage coopératif semi-Supervisé de concepts Multimédias pour l'Aide à la Catégorisation et la détection de Concepts


La recherche d'entités sur Internet est un problème qui a pris une dimension particulière avec l'augmentation rapide des volumes de contenus multimédia et le besoin croissant d'outils de recherche intelligents. Sur le texte, il s'agit d'un sujet bien exploré et les techniques d'identification sont aujourd'hui relativement efficaces, en particulier lorsqu'on limite la recherche à des entités assez concrètes. A la difficulté de modélisation d'entités abstraites, le contexte multimédia ajoute celles qui sont liées à la diversité des supports, des formes, des contextes d'apparition. Cette variabilité des instances d'un même concept rend toute modélisation générique très complexe à définir : comment estimer la signature multimédia d'un concept tel que « objet technologique » qui peut se réaliser sur un ou plusieurs des média (texte, image, audio, vidéo), dans des contextes très variés (de la vidéo de test générée par l'utilisateur à la fiche technique de l'appareil photo numérique), évoqués de façons plus ou moins directes (de l'appareil photo numérique à la vidéo « Gadgets and business » sur l'impact écologique de l'électronique domestique) ?
Les techniques classiques se concentrent sur un média et estiment des signatures sur de très grands corpus qui doivent couvrir l'ensemble des situations d'utilisation. L'extension au multimédia et le passage à l'échelle du Web nécessite à ce qu'un certain nombre de verrous scientifiques et technologiques soient levés :

  • comment collecter ces corpus et les annoter à un coût raisonnable ? La plupart des techniques de catégorisation texte, audio ou vidéo reposent sur des modèles statistiques qui sont estimés sur des grands corpus. Le coût d'une telle annotation est extrêmement élevé et constitue une limite importante à l'utilisation des systèmes en conditions réelles.
  • quels modèles et quelles méthodes d'apprentissage dans un contexte multimédia ? L'identification de concepts à partir d'un seul média est une tâche difficile qui a fait l'objet de nombreuses études ces dernières années, en catégorisation de texte, en identification des individus ou des thèmes sur l'audio ou la vidéo. Malgré ces efforts, les performances restent variables dans des situations aussi diverses et potentiellement inattendues que celle des données WEB. Utiliser l'ensemble des sources d'informations disponibles est une piste prometteuse pour améliorer la robustesse des systèmes, mais qui suppose que les modèles et les stratégies d'apprentissage associées soient reconsidérés dans le contexte global de la catégorisation multimédia.
  • quelles stratégies de catégorisation ? Généralement, la catégorisation à partir de plusieurs sources est vue comme un problème de représentation, dans un espace commun, de descripteurs hétérogènes ou de combinaison de classifieurs. La catégorisation multimédia comporte des particularités qui doivent être prises en compte, notamment la façon très variable dont un concept peut se projeter sur un ou plusieurs médias.

SuMACC propose d'explorer des stratégies d'apprentissage originales pour l'identification d'entités multimédias à partir de patrons d'identification.
Un patron d'identification est un modèle de combinaison inter-médias; il représente la façon dont un ou plusieurs concepts se projettent sur l'ensemble des médias. En reprenant l'exemple des objets technologiques, on peut considérer qu'une vidéo générée par l'utilisateur, sans métadonnées, devra être identifiée par la reconnaissance de l'objet dans l'image et par l'analyse de la transcription automatique du canal audio; c'est cette stratégie globale d'identification qui est modélisé par le patron d'identification multimédia.
L'utilisation des patrons offre un cadre unifié dans lequel différentes règles de combinaison peuvent être formulées. Dans ce contexte, des approches faiblement supervisées seront proposées pour l'estimation de la signature du concept sur chacun des médias. Nous développerons les techniques d'apprentissage actif et de co-apprentissage inter-média, avec pour objectif une diminution considérable de l'effort de supervision de l'apprentissage. Le projet précisera d'abord l'environnement expérimental et technologique de l'étude, puis se concentrera sur les tâches à forte plus value scientifique. Les techniques proposées seront évaluées dans le cadre du portail Wikio, qui offre des possibilités de structuration initiale des données et d'évaluation en conditions réelles.
Les retombés attendues du projet sont multiples. D'un point de vue strictement scientifique, la collaboration des médias est un sujet qui a connu des développements récents autours de la recherche de concepts dans des flux audiovisuels. L'originalité de l'approche proposée ici est de considérer que l'architecture des classifieurs doit être adaptée à la nature des objets cherchés. En développant cette idée dans le contexte du portail Wikio, on peut espérer démontrer la validité des propositions dans un contexte industriel réel, et ses possibilités d'application à l'annotation, la structuration et la fouille de grandes collections multimédias. Bien que SuMACC soit un projet de recherche fondamentale, les enjeux socio-économiques liés à ces questions sont considérables.