Résumé:
Depuis quelques années se développe le concept général d’espace perceptif ou salle intelligente qui répond de diverses façons aux besoins, demandes, attentes des acteurs humains. Les espaces perceptifs traitent des signaux de parole, des signaux vidéo, les données de l’environnement, la localisation des personnes, le suivi et la reconnaissance des gestes, etc. Ce travail de thèse se situe à la frontière entre les espaces perceptifs et la télémédecine qui a récemment évolué vers la télésurveillance des malades, le télédiagnostic, etc. La télésurveillance est notamment utilisée pour suivre l’évolution de personnes à risques (maladies chroniques ou personnes exposées à des situations critiques) . Cela peut être à domicile (personnes âgées) ou dans un environnement professionnel dangereux. L’analyse et l’extraction des informations du son est un aspect important des espaces perceptifs pour la télésurveillance médicale. Dans ce contexte, cette thèse analyse et propose des solutions aux problématiques spécifiques au traitement du son dans les espaces perceptifs plus particulièrement pour la télésurveillance médicale. Parmi ces problématiques la classification automatique de sons de la vie courante a été très peu explorée jusqu’à aujourd’hui.
Dans ce travail, un système d’analyse sonore en deux étapes est proposé pour éviter d’analyser un flux audio continu. Le rôle de la détection des événements sonores est d’extraire du bruit environnemental les signaux à identifier. Appliquée en même temps sur un ensemble de capteurs sonores répartis dans l’appartement, elle permet également une première localisation de la source sonore. Les algorithmes issus de l’état de l’art se montrant insuffisamment efficaces dans nos conditions, de nouveaux algorithmes mieux adaptés aux signaux impulsionnels, comme ceux utilisant la transformée en ondelettes sont proposés. Pour la classification des sons proprement dite, l’utilisation de techniques issues de la reconnaissance automatique de la parole est d?abord envisagée. Ces techniques sont ensuite enrichies par l’ajout de paramètres acoustiques mieux adaptés, parmi lesquels ceux issus de la transformée en ondelettes et de la détection de signaux musicaux. Les performances de la classification sont aussi évaluées dans le bruit et une solution de pré-traitement est présentée. Les problématiques liées au couplage entre la détection et la classification, ainsi que le problème de l’évaluation d’un tel système sont aussi abordées dans ce travail.
En fin de manuscrit, l’évolution vers un système de reconnaissance de «sons clés», inspirée de la reconnaissance de mots clés en parole, est ébauchée. Une implémentation en temps réel des algorithmes proposés a été réalisée pour l’application de télésurveillance médicale et est en cours de validation dans l’appartement test disponible pour le projet. Certains résultats expérimentaux présentés dans le document proviennent directement de cet appartement test.