Collaborateur·trice Ra&D HES en Infrastructures d'IA
Role details
Job location
Tech stack
Job description
L'utilisation efficace des modèles d'IA à grande échelle reste un problème non résolu. Comment planifier les charges de travail d'inférence sur des GPU hétérogènes ? Comment minimiser sans sacrifier le débit ? Nous abordons ces questions et d'autres questions connexes dans le cadre d'un portefeuille de projets de recherche appliquée menés en collaboration avec des partenaires universitaires et industriels.
Nous recherchons un ingénieur de recherche pour concevoir et construire une infrastructure pour les charges de travail IA, allant des opérateurs Kubernetes et des planificateurs personnalisés aux pipelines d'inférence et aux systèmes de surveillance. Les projets varient en termes de portée et d'orientation, mais leur essence reste la même : écrire du code de qualité production et le défendre à l'aide de données.
La HEIG-VD recherche un·e
Collaborateur·trice Ra&D HES en Infrastructures d'IA
MISSIONS PRINCIPALES :
- Participer à la réalisation des projets de Ra&D de l'institut
-
Concevoir et mettre en œuvre des opérateurs, ordonnanceurs et contrôleurs k8s pour l'inférence
-
Intégrer et étendre les moteurs d'inférence (vLLM, llama.cpp, Ray)
-
Instrumenter des clusters et exécuter des benchmarks reproductibles qui évaluent diverses métriques : TTFT, précision, débit, latence, utilisation de la RAM / GPU
-
Étudier l'optimisation batch, les algorithmes de planification et le placement économe en énergie sur du matériel hétérogène, en contribuant à la rédaction d'articles academiques
-
Collaborer avec des partenaires industriels tout au long du processus, de la formulation du problème au transfert de technologie
Requirements
-
Bachelor ou Master en informatique, génie logiciel ou domaine connexe
-
Compétences avérées dans : C/C++, Go et/ou Python
-
Expérience pratique de l'administration Kubernetes et Linux, conteneurs
-
Connaissance du calcul GPU (CUDA, gestion des périphériques)
-
Compétences techniques en anglais et en français, * Expérience avec les moteurs d'inférence (vLLM, llama.cpp, Ray, LiteLLM)
-
Connaissance de : quantification, décodage, KV cache
-
Expérience avec monitoring stacks et réseaux haute performance
-
Contributions open source et/ou publications
Benefits & conditions
Taux d'activité : 80% à 100%