Projet ANR SuMACC, apprentissage coopératif semi-Supervisé de concepts Multimédias pour l'Aide à la Catégorisation et le détection de Concepts

apprentissage coopératif semi-Supervisé de concepts Multimédias pour l'Aide à la Catégorisation et la détection de Concepts

La recherche d'entités sur Internet est un problème qui a pris une dimension particulière avec l'augmentation rapide des volumes de contenus multimédia et le besoin croissant d'outils de recherche intelligents. Sur le texte, il s'agit d'un sujet bien exploré et les techniques d'identification sont aujourd'hui relativement efficaces, en particulier lorsqu'on limite la recherche à des entités assez concrètes. A la difficulté de modélisation d'entités abstraites, le contexte multimédia ajoute celles qui sont liées à la diversité des supports, des formes, des contextes d'apparition. Cette variabilité des instances d'un même concept rend toute modélisation générique très complexe à définir : comment estimer la signature multimédia d'un concept tel que « objet technologique » qui peut se réaliser sur un ou plusieurs des média (texte, image, audio, vidéo), dans des contextes très variés (de la vidéo de test générée par l'utilisateur à la fiche technique de l'appareil photo numérique), évoqués de façons plus ou moins directes (de l'appareil photo numérique à la vidéo « Gadgets and business » sur l'impact écologique de l'électronique domestique) ?
Les techniques classiques se concentrent sur un média et estiment des signatures sur de très grands corpus qui doivent couvrir l'ensemble des situations d'utilisation. L'extension au multimédia et le passage à l'échelle du Web nécessite à ce qu'un certain nombre de verrous scientifiques et technologiques soient levés :

comment collecter ces corpus et les annoter à un coût raisonnable ? La plupart des techniques de catégorisation texte, audio ou vidéo reposent sur des modèles statistiques qui sont estimés sur des grands corpus. Le coût d'une telle annotation est extrêmement élevé et constitue une limite importante à l'utilisation des systèmes en conditions réelles.
quels modèles et quelles méthodes d'apprentissage dans un contexte multimédia ? L'identification de concepts à partir d'un seul média est une tâche difficile qui a fait l'objet de nombreuses études ces dernières années, en catégorisation de texte, en identification des individus ou des thèmes sur l'audio ou la vidéo. Malgré ces efforts, les performances restent variables dans des situations aussi diverses et potentiellement inattendues que celle des données WEB. Utiliser l'ensemble des sources d'informations disponibles est une piste prometteuse pour améliorer la robustesse des systèmes, mais qui suppose que les modèles et les stratégies d'apprentissage associées soient reconsidérés dans le contexte global de la catégorisation multimédia.
quelles stratégies de catégorisation ? Généralement, la catégorisation à partir de plusieurs sources est vue comme un problème de représentation, dans un espace commun, de descripteurs hétérogènes ou de combinaison de classifieurs. La catégorisation multimédia comporte des particularités qui doivent être prises en compte, notamment la façon très variable dont un concept peut se projeter sur un ou plusieurs médias.

SuMACC propose d'explorer des stratégies d'apprentissage originales pour l'identification d'entités multimédias à partir de patrons d'identification.
Un patron d'identification est un modèle de combinaison inter-médias; il représente la façon dont un ou plusieurs concepts se projettent sur l'ensemble des médias. En reprenant l'exemple des objets technologiques, on peut considérer qu'une vidéo générée par l'utilisateur, sans métadonnées, devra être identifiée par la reconnaissance de l'objet dans l'image et par l'analyse de la transcription automatique du canal audio; c'est cette stratégie globale d'identification qui est modélisé par le patron d'identification multimédia.
L'utilisation des patrons offre un cadre unifié dans lequel différentes règles de combinaison peuvent être formulées. Dans ce contexte, des approches faiblement supervisées seront proposées pour l'estimation de la signature du concept sur chacun des médias. Nous développerons les techniques d'apprentissage actif et de co-apprentissage inter-média, avec pour objectif une diminution considérable de l'effort de supervision de l'apprentissage. Le projet précisera d'abord l'environnement expérimental et technologique de l'étude, puis se concentrera sur les tâches à forte plus value scientifique. Les techniques proposées seront évaluées dans le cadre du portail Wikio, qui offre des possibilités de structuration initiale des données et d'évaluation en conditions réelles.
Les retombés attendues du projet sont multiples. D'un point de vue strictement scientifique, la collaboration des médias est un sujet qui a connu des développements récents autours de la recherche de concepts dans des flux audiovisuels. L'originalité de l'approche proposée ici est de considérer que l'architecture des classifieurs doit être adaptée à la nature des objets cherchés. En développant cette idée dans le contexte du portail Wikio, on peut espérer démontrer la validité des propositions dans un contexte industriel réel, et ses possibilités d'application à l'annotation, la structuration et la fouille de grandes collections multimédias. Bien que SuMACC soit un projet de recherche fondamentale, les enjeux socio-économiques liés à ces questions sont considérables.

actu

contact

apprentissage coopératif semi-Supervisé de concepts Multimédias pour l'Aide à la Catégorisation et la détection de Concepts