Extraction multimodale de la structure narrative des épisodes de séries télévisées

Résumé :
Nos contributions portent sur l’extraction de la structure narrative d’épisodes de séries télévisées à
deux niveaux hiérarchiques. Le premier niveau de structuration consiste à retrouver les transitions entre
les scènes à partir d’une analyse de la couleur des images et des locuteurs présents dans les scènes. Nous
montrons que l’analyse des locuteurs permet d’améliorer le résultat d’une segmentation en scènes basée
sur la couleur.
Il est courant de voir plusieurs histoires (ou lignes d’actions) racontées en parallèle dans un même
épisode de série télévisée. Ainsi, le deuxième niveau de structuration consiste à regrouper les scènes en
histoires. Nous cherchons à désentrelacer les histoires pour pouvoir, par exemple, visualiser les différentes
lignes d’actions indépendamment.
La principale difficulté consiste à déterminer les descripteurs les plus pertinents permettant de re-
grouper les scènes appartenant à une même histoire. A ce niveau, nous étudions également l’utilisation de
descripteurs provenant des trois modalités différentes précédemment exposées. Nous proposons en outre
des méthodes permettant de fusionner les informations provenant de ces trois modalités.
Pour répondre à la variabilité de la structure narrative des épisodes de séries télévisées, nous proposons
une méthode qui s’adapte à chaque épisode. Elle permet de choisir automatiquement la méthode de
regroupement la plus pertinente parmi les différentes méthodes proposées.
Enfin, nous avons développé StoViz, un outil de visualisation de la structure d’un épisode de série
télévisée (scènes et histoires). Il permet de faciliter la navigation au sein d’un épisode, en montrant les
différentes histoires racontées en parallèle dans l’épisode. Il permet également la lecture des épisodes
histoire par histoire, et la visualisation d’un court résumé de l’épisode en donnant un aperçu de chaque
histoire qui y est racontée.