Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle - Association Francophone de la Communication Parlée

Résumé : Le développement
croissant des données numériques et l’explosion des accès multimédia à l’information,
sont confrontés au manque d’outils automatiques efficaces. Dans ce cadre,
plusieurs approches relatives à l’indexation et la structuration de la bande sonore
de documents audiovisuels sont proposées. Leurs buts sont de détecter les
composantes primaires telles que la parole, la musique et les sons clés (jingles,
sons caractéristiques, mots clés…).

Pour
la classification parole/musique, trois paramètres inhabituels sont extraits : la
modulation de l’entropie, la durée des segments (issue d’une segmentation
automatique) et le nombre de ces segments par seconde. Les informations issues
de ces trois paramètres sont ensuite fusionnées avec celle issue de la
modulation de l’énergie à quatre hertz. Des expériences sur un corpus
radiophonique montrent la robustesse de ces paramètres : notre système possède
un taux de classification correcte supérieur à 90%. Le système est ensuite
comparé, puis fusionné à un système classique basé sur des Modèles de Mélanges
de lois Gaussiennes (MMG) et une analyse cepstrale.

Un
autre partitionnement consiste à détecter des sons clés. La sélection de
candidats potentiels est effectuée en comparant la « signature » de chacun des
jingles au flux de données. Ce système est simple par sa mise en œuvre mais
rapide et très efficace : sur un corpus audiovisuel d’une dizaine d’heures (environ
200 jingles) aucune fausse alarme n’est présente. Il y a seulement deux
omissions dans des conditions extrêmes. Les sons caractéristiques (applaudissements
et rires) sont modélisés à l’aide de MMG dans le domaine spectral. Un corpus télévisuel
permet de valider cette première étude par des résultats encourageants. La détection
de mots clés est effectuée de manière classique : il ne s’agit pas ici d’améliorer
les systèmes existants mais de se placer toujours dans un besoin de
structuration. Ainsi, ces mots clés renseignent sur le type des émissions (journal,
météo, documentaire…).

Grâce
à l’extraction de ces composantes primaires, les émissions audiovisuelles
peuvent être annotées de manière automatique. Au travers de deux études, une réflexion
est conduite quant à l’utilisation de ces composantes afin de trouver une
structure temporelle aux documents. La première étude permet une détection d’un
motif récurrent dans une collection d’émissions, dites de plateau, alors que la
seconde réalise la structuration en thèmes d’un journal télévisé. Quelques
pistes de réflexions sur l’apport de l’analyse vidéo sont développées et les
besoins futurs sont explorés.