Aller au contenu

Post-doctorant ou Post-doctorante en Génération de données de cyberattaques par interaction Humain-IA - CDD 2 ans

Sur site, Hybride
  • Palaiseau, Île-de-France, France
Risques et Cybersécurité

Description de l'offre d'emploi

Télécom SudParis

Présentation de Télécom SudParis :

Télécom SudParis est une grande école publique d'ingénieurs reconnue au meilleur niveau des sciences et technologies du numérique. La qualité de ses formations est basée sur l’excellence scientifique de son corps professoral et une pédagogie mettant l’accent sur les projets d’équipes, l’innovation de rupture et l’entreprenariat. Télécom SudParis compte 1 000 étudiantes et étudiants dont 700 élèves ingénieurs et environ de 150 doctorantes et doctorants. Télécom SudParis fait partie de l’Institut Mines-Télécom, premier groupe d’école d’ingénieurs en France, et partage son campus avec Institut Mines-Télécom Business School. Télécom SudParis est co- fondatrice de l'Institut Polytechnique de Paris (IP Paris), Institut de Sciences et Technologies à vocation mondiale avec l’École polytechnique, l’ENSTA Paris, l’ENSAE Paris et Télécom Paris. Vidéo présentation de Télécom SudParis

À propos de l'Institut Mines-Télécom :

L'Institut Mines-Télécom (IMT) est un établissement public dédié à l'enseignement supérieur et la recherche pour l'innovation dans les domaines de l'ingénierie et du numérique. À l’écoute permanente du monde économique, l'IMT conjugue une forte légitimité académique et scientifique, une proximité avec les entreprises et un positionnement unique sur les transformations majeures au XXIe siècle : numériques, énergétiques, industrielles et éducatives siècle. Ses activités se déploient au sein des grandes écoles Mines et Télécom sous tutelle du ministre en charge de l’Industrie et des communications électroniques, de deux filiales et de partenaires associés ou sous convention. L'IMT est membre fondateur de l’Alliance Industrie du Futur. Il est doublement labellisé Carnot pour la qualité de sa recherche partenariale.

Vidéo de présentation de l'Institut Mines-Télécom

Missions


Le déploiement de fonctions de détection et de classification d’attaques à l’aide d’intelligence artificielle (IA) vise à faciliter le travail des analystes dans les Centres Opérationnels de Cybersécurié (SOC) et les équipes de réponse à incident (CSIRT) qui sont confrontés à des volumes excessifs de rapports de sécurité (alertes, logs, etc.). A l’aide d’outils d’IA, les analystes humains peuvent identifier et prioriser les activités malveillantes rapidement afin de faire face au rythme croissant des attaques. Néanmoins, les modèles d’IA pour la détection de menaces connaissent encore de nombreux verrous qu’il faut résoudre, y compris la couverture insuffisante de ces modèles quant aux comportements des attaquants. En effet, les modèles d’IA nécessitent de très grands volumes de données d’entraînement afin d’apprendre le plus de comportements d’attaque possibles. Mais, en pratique, les sondes déployées ne peuvent garantir une couverture complète de ces comportements, qui plus est de ceux émergents (nouvelles attaques de type 0-day). Ce manque de couverture de certains comportements d’attaque–que l’on peut qualifier d’exemples hors distribution (out-of-distribution samples)–est ainsi problématique pour la classification précise des menaces.

Dans le cadre du projet CKRISP (appel ANR « Thématiques Spécifiques de l’IA »), nous avons pour objectif de tirer avantage de la connaissance des attaques et des liens de causalité entre incidents de sécurité, extraits d’un graphe de connaissances cybersécurité (« cybersecurity knowledge graph » ou CSKG), pour créer une méthode de génération d’attaques pilotée par IA. Notre approche implique le développement d’un modèle de politiques de prédiction de comportements d’attaques basé sur de l’apprentissage par renforcement (« Reinforcement Learning » ou RL). Ce modèle sera capable de reproduire des stratégies de cyberattaques utilisées par des attaquants ou analystes humains (dans le cadre de tests d’intrusion, par exemple). Qui plus est, le modèle doit permettre d’explorer de nouvelles méthodes d’attaques en se référant aux connaissances du contexte des actifs ciblés. En synthétisant des données d’attaque par cette approche, nous pourrons aider des experts humains à explorer les possibles chemins d’attaque qui n’apparaissaient pas dans les observations précédentes. Cela permettra de non seulement améliorer la couverture de détection des systèmes de détection d’intrusions (ou IDS) basés sur l’IA, mais aussi de permettre aux analystes humains d’identifier des vulnérabilités potentielles.

CKRISP permettra d’établir un processus coopératif entre l’humain et l’IA pour résoudre le verrou de l’exploration et la prédiction de comportements d’attaque. Premièrement, de nouvelles attaques (par ex., les attaques 0-day), pouvant éluder la vigilance des analystes humains, peuvent être découvertes dans les logs comportementaux ; deuxièmement, la plupart des événements de sécurité collectés en pratique peuvent être non labellisés ou incomplets, dus à des sondes défectueuses. Inspirés par le succès récents des applications d’IA basées sur les grands modèles de langage (« Large Language Models » ou LLM), la coopération humain-IA envisagée permettra :

  • 1) l’exploration de structures de sous-graphes dans les CSKGs afin de révéler de possibles chemins d’attaque ;
  • 2) la valorisation de la vérification humaine de comportements suspects découverts par IA et l’ajout de la connaissance des analystes humains pour guider l’exploration d’attaques par apprentissage actif (« active learning ») ;
  • 3) la récupération d’entités absentes dans les CKSGs par l’adoption de LLMs pour estimer les données d’attaque manquantes ou pour synthétiser des comportements d’attaque



Activités


Le travail proposé se concentre sur la génération de données d’attaque par la combinaison des CSKGs produits dans CKRISP et la connaisance des analystes humains selon 2 axes. Premièrement, nous utiliserons des LLMs pré-entraînés à l’aide de CSKGs pour synthétiser les données d’attaques. Deuxièmement, nous développerons une langage de correspondance entre les actions permises dans les CSKGs explorés à l’aide d’agents RL d’un côté, et les charges utiles (« payloads ») générés par cadriciels de tests d’intrusion, de l’autre.

Cette contribution vise à construire un agent IA de requête sur un CSKG ou de malware, afin de prédire/catégoriser les comportements d’attaque. L’agent peut être entraîné en utilisant de l’apprentissage par renforcement ou en combinaison avec un LLM pour réaliser des requêtes sur le CSKG. Un modèle de réseaux de neurones de type graphe (« Graph Neural Network » ou GNN) peut aussi être considéré pour la génération d’entrées de requête (ou « prompt ») légers d’un LLM pour comprendre et interroger ce CSKG. Prédire et catégoriser les comportements d’attaque peut mener à la génération de données comportementales d’attaque, par ex., la génération de scans de ports ou de flux réseaux d’une attaque DDoS, en utilisant le CSKG.

En résumé, le travail proposé utilisera le CKSG construit par CKRISP comme base de connaissances. Il utilisera un agent d’IA (en construction) pour synthétiser les motifs comportementaux d’attaque. Ces motifs seront utilisés pour deux objectifs : prédire les comportements d’attaque et générer des données d’attaque.



Pré-requis du poste

Formation

  • Doctorat ou PhD depuis moins de 3 ans

Compétences, connaissances et expériences indispensables

  • Expériences en IA ou machine learning (ML) appliquée à la cybersécurité, en particulier, la détection d’intrusion
  • Connaissances sur les LLMs, les GNNs ou l’apprentissage par renforcement (RL)
  • Connaissances en graphes de connaissances
  • Anglais parlé, écrit

Compétences, connaissances et expériences souhaitables

  • Expériences avec des plateformes expérimentales ou de génération de données

Capacités et aptitudes

  • Rigueur
  • Autonomie
  • Capacité à travailler en équipe

Informations complémentaires et candidature

  • Date limite de candidature : 30 septembre 2024
  • Nature du contrat : CDD 2 ans
  • Catégorie et métier du poste (usage interne): II - P, Post-doctorant ou A (fonction publique)
  • Localisation du poste: Palaiseau (91)
  • Les postes offerts au recrutement sont ouverts à toutes et tous avec, sur demande, des aménagements pour les candidats en situation de handicap
  • Conditions de travail : télétravail possible, restaurant et cafétéria sur site, accessibilité en transport en commun (avec participation de l'employeur) ou proche des axes routiers, association du personnel et association sportive sur le campus
  • Personnes à contacter : Grégory BLANC - gregory.blanc@telecom-sudparis.eu

ou