Aller au contenu

Post doctorante ou Post doctorant en apprentissage par renforcement basé sur un modèle - CDD de 24 mois

  • Hybride
    • Palaiseau, Île-de-France, France
  • Informatique

Description de l'offre d'emploi

Qui sommes-nous ?

Télécom Paris, école de l’IMT (Institut Mines-Télécom) et membre fondateur de l’Institut Polytechnique de Paris, est une grande école du top 5 des écoles d’ingénieurs généralistes françaises.

La Raison d’Être de Télécom Paris est de former, imaginer et entreprendre pour concevoir des modèles, des technologies et des solutions numériques au service d’une société et d’une économie respectueuses de l’humain et de son environnement.


Nous recherchons notre futur(e) post-doctorant(e) en apprentissage par renforcement basé sur un modèle pour rejoindre le département

Informatique et Réseaux (INFRES) à Telecom Paris.

L’apprentissage par renforcement (AR) s’est imposé comme un paradigme pertinent pour entraîner des agents à réaliser des tâches complexes. L’apprentissage par renforcement basé sur un modèle (ARbM), en particulier, promet une meilleure efficacité en termes d’échantillons et des capacités de lanification sophistiquées en permettant à un agent d’apprendre un modèle prédictif de son environnement. Cependant, l’application directe des méthodes actuelles d’ARbM à des domaines critiques pour la sécurité, tels que la robotique autonome, les transports ou le contrôle industriel, est entravée par des défis non résolus.

Le défi scientifique principal : Les limites des modèles du monde actuels. Les approches standards de l’ARbM apprennent généralement un modèle du monde monolithique et de type « boîte noire », utilisant souvent un grand réseau de neurones comme approximateur de fonction. Bien que ces modèles puissent être très efficaces pour la prédiction au sein de leur distribution d’entraînement, ils souffrent de deux limitations majeures pour leur déploiement dans des systèmes sociotechniques :

  1. Fragilité et défaillances imprévisibles : Les modèles appris sont sujets à des défaillances imprévisibles lorsque l’agent rencontre des états ou des dynamiques jamais vus (c’est-à-dire un décalage de distribution). Ces défaillances sont difficiles à anticiper et peuvent conduire à des comportements dangereux, car les prédictions du modèle ne sont plus fiables.

  2. Manque de vérifiabilité : Les modèles appris sont opaques et ne sont assortis d’aucune garantie formelle. Il n’est pas possible de prouver que le modèle respectera de manière cohérente les contraintes fondamentales du monde réel ou sera aligné avec des valeurs attendues, telles que les lois physiques, les règles de sécurité ou les invariants logiques. Ce manque de correction vérifiable constitue un obstacle majeur à la construction de systèmes autonomes fiables et bien calibrés.

Axe de recherche : Modèles du monde vérifiables. La recherche se concentrera sur le développement d’une nouvelle classe de modèles du monde structurés et vérifiables qui intègrent la flexibilité de l’apprentissage profond (deep learning) à la rigueur des méthodes formelles et du raisonnement compositionnel. Les axes de recherche principaux de ce poste sont :

• Modèles structurés et neuro-symboliques : La recherche portera sur des architectures de modèles qui ne sont pas apprises à partir de zéro. Au lieu de cela, elles seront conçées pour intégrer des connaissances symboliques explicites. Ceci pourrait inclure des lois physiques connues, des règles logiques ou des contraintes de sécurité, qui sont traitées comme des composantes fixes et vérifiables du modèle. Le processus d’apprentissage se concentre alors sur la modélisation des aspects plus complexes et inconnus de l’environnement autour de ces vérités établies.

• Raisonnement compositionnel pour la sécurité : Nous explorerons comment un modèle du monde complexe peut être construit en composant des sous-modèles plus petits et plus spécialisés. Une question de recherche clé est de savoir comment vérifier formellement les propriétés du modèle composite en se basant sur les propriétés connues de ses composants individuels. Ceci offre une voie modulaire et scalable pour certifier que le modèle interne du monde de l’agent est, et reste, cohérent avec ses spécifications de sécurité.

• Adaptation de modèle : Un agent véritablement intelligent doit être capable d’adapter sa compréhension du monde à partir de l’expérience. Cette recherche développera un cadre pour l’adaptation sûre des modèles. Cela implique de créer des algorithmes d’ARbM où l’agent peut proposer des mises à jour de la structure de son propre modèle du monde, mais ces mises à jour ne sont acceptées qu’après qu’une étape de vérification formelle confirme que le nouveau modèle respecte toujours ses propriétés de sécurité fondamentales.

• Apprentissage multi-tâches : La décomposition des tâches permet aux agents d’apprendre des compétences transversales qui peuvent être utiles dans différents contextes. Les représentations partagées, les paradigmes d’AR multi-tâches et multi-objectifs améliorent la généralisation. La recherche dans ce domaine explorera comment capturer la décomposition des tâches dans les modèles du monde pour permettre des spécifications multi-tâches avec des garanties vérifiables.

Le candidat ou la candidate retenu(e) dirigera la résolution de ces problèmes ouverts à travers le développement et l’implémentation d’algorithmes d’AR. Il ou elle aura l’opportunité d’avoir un impact significatif dans le domaine de l’intelligence artificielle (IA) fiable et bien calibrée grâce à des collaborations internationales (par ex., UT Austin, MIT).

Vos principales missions seront:

  • Assurer des missions de recherche dans le domaine de l’apprentissage par renforcement basé sur un modèle (ARbM).

  • Assurer des missions d’encadrement et de tutorat

  • Participer à la notoriété de l’Ecole, de l’Institut Mines-Télécom et de l’Institut Polytechnique de Paris

Pré-requis du poste

Nous recherchons un(e) candidat(e) possédant une solide maîtrise théorique de l’apprentissage par renforcement, accompagnée de bases solides en mathématiques. Vous devrez également avoir une expérience avérée dans la programmation d’agents d’apprentissage par renforcement, en particulier avec des outils tels que JAX, PyTorch, Gym, etc.

Une capacité démontrée à publier dans des conférences et revues scientifiques de premier plan est essentielle, tout comme une aptitude à partager et diffuser vos connaissances au sein de l’équipe. Enfin, vous devez maîtriser l'anglais afin d’évoluer dans un environnement international. Vous détenez un doctorat ou équivalent. Votre niveau d’anglais est professionnel.

Pourquoi nous rejoindre ?

Vous travaillerez dans un environnement en plein développement, agréable, verdoyant et accessible (notamment pour les personnes en situation de handicap) à seulement 20 km de Paris (RER B et C, proximité des grands axes routiers, navette mutualisée en partance de la Porte d'Orléans). Vous bénéficierez de :

  • 49 jours de congés annuels (CA + RTT)

  • flexibilité des horaires de travail (en fonction de l'activité du service)

  • télétravail 1 à 3 jours/semaine possible

  • Remboursement abonnement transports en commun à 75%

  • Proximité de nombreuses infrastructures sportives, conciergerie, parking souterrain, restauration interne...

  • A savoir : nos cotisations sociales sont moins élevées que dans le secteur privé

Informations diverses :

Date limite de candidature : 10 janvier 2026

Type d'emploi : CDD de 24 mois
Description de poste ici

Contact scientifique : Georgios Bakirtzis

Contacta administratif : Najoua Kharmaze


Nos recrutements sont fondés sur les compétences, sans distinction d’origine, d’âge, d'identité de genre et d’orientation sexuelle et tous nos postes sont ouverts aux personnes en situation de handicap.

ou