Séparation de sources audio et deep learning F/H

NEURONES S.A.
Canton de Grenoble-2, France
4 days ago

Role details

Contract type
Internship / Graduate position
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French, English
Compensation
€ 26K

Job location

Canton de Grenoble-2, France

Tech stack

Artificial Intelligence
Instant Messaging Technology
Python
PyTorch
Deep Learning
Convolutional Neural Networks

Job description

L'objectif du stage est d'adapter ces approches génératives à la séparation de sources multicanale. Plus précisément, on s'intéressera à l'application d'approches de type GAN pour extraire une source d'intérêt identifiée par sa position, position que l'on supposera connue. On pourra notamment s'inspirer d'architecture de type auto-encodeur utilisées en codage neuronal comme les U-net, par exemple, en intégrant des couches de séparation de sources sous la forme de filtrage spatial neuronal, comme dans. Au cours du stage, l'accent sera mis sur la recherche de métriques pertinentes pour entraîner un réseau génératif de séparation. La question des métriques est primordiale car les modèles génératifs peuvent synthétiser deux signaux proches d'un point de vue perceptif mais dont les formes d'onde peuvent différer significativement, ce qui rend problématique la comparaison des signaux prédits avec la vérité terrain., Le plus de l'offre Vous travaillerez au sein de l'équipe de traitement de la parole et du son. Vous serez amené à échanger avec les différents membres de l'équipe, experts sur les domaines du traitement audio multicanal, le développement informatique et l'intelligence artificielle liés à l'audio. Ce stage s'inscrit également dans le cadre des tâches du projet ANR DEESSE, auquel participe des laboratoires académiques de TélécomParis, CentraleSupelec et Grenoble Université. Ainsi, vous serez amené à échanger régulièrement avec les doctorants impliqués sur ce projet. Vous contribuerez sur des domaines en plein essor, le traitement du signal et les dernières technologies de deep learning dites génératives. Vous travaillerez ainsi sur des technologies qui seront de plus en plus utilisées dans le futur. Vous pourrez être amené à déposer un ou plusieurs brevets, et à participer à la publication d'articles. Vous serez entouré.e par des spécialistes du format Ambisonique et de traitement d'antenne neuronal et travaillerez, en sus des doctorants et post-doctorats impliqués dans DEESSE, avec une doctorante Orange impliquée sur le codage spatial neuronal. Entité Le département Audio et Telco Services a pour ambition d'offrir à nos clients la meilleure expérience digitale, en anticipant, développant et intégrant de bout en bout les services de communication temps réel multicanaux. Le département porte également une expertise sur les devices mobiles et une expertise audio/voix, de la recherche au delivery. 3 équipes constituent le département : Equipe Rich Instant Messaging (RIM) qui porte le Skill center Google RCS et les activités de messaging Equipe Mobile Service and Sollicitation (MSS) qui assure le développement des services mobiles et des plateformes associées Equipe Immersive Communications and Audio Expertise (ICAE) qui travaille sur les activités de recherche et de standardisation dans le domaine de l'audio

Requirements

Formation souhaitée Vous préparez une formation de niveau Bac+5 dans le domaine du traitement du signal et/ou de l'audio Pré-requis techniques Maîtrise du traitement du signal audioConnaissances en méthodes d'apprentissage statistique et réseaux de neurones (deep learning)Maîtrise du langage Python et connaissances en programmation de réseaux de neurones sous Python/PyTorch Aptitudes personnelles Forte appétence pour le traitement du signalVous maîtrisez l'anglais

Benefits & conditions

Contrat Stage Durée : 6 mois Date souhaitée de prise de poste : 02 févr. 2026 Niveau d'études préparé pendant le stage Indemnité brute selon école Bac+5 de 1621 € à 2162 € / mois #J-18808-Ljbffr

About the company

Les communications mains-libres, si elles offrent l'avantage de l'ergonomie en libérant les mains de l'utilisateur, souffrent d'artefacts liés à l'éloignement du locuteur du système de prise de son : bruit ambiant, réverbération, écho, interférences sonores. Aussi, tout système de communication se doit d'instancier des modules qui visent à supprimer, tout au moins fortement atténuer, ces artefacts : annulation d'écho, réduction de bruit, ... Parmi ces modules, la séparation de sources s'intéresse à supprimer les interférences, généralement la voix d'autres interlocuteurs, en isolant chacune des sources présentes dans la scène sonore. Depuis une dizaine d'années, l'IA avec les réseaux de neurones profonds ou DNN a bousculé le paysage des technologies à même de traiter ces perturbations, en repoussant les limites en termes de performances. Et tout dernièrement, les approches génératives, historiquement associées aux modèles de langage naturel, ont fait irruption dans ce paysage. Ce type de réseau, comme les GANs (Generative Adversarial Networks) ou les modèles de diffusion, montrent des performances encore accrues par rapport à leurs homologues entraînés de manière discriminative : suppression totale des artefacts, tout en garantissant une moindre distorsion.

Apply for this position