Post-doctorant en Génération de données de test par traffic morphing - CDD - 18 mois (F/H)

Description de l'offre d'emploi

Télécom SudParis

Présentation de Télécom SudParis :

Télécom SudParis est une grande école publique d'ingénieurs reconnue au meilleur niveau des sciences et technologies du numérique. La qualité de ses formations est basée sur l’excellence scientifique de son corps professoral et une pédagogie mettant l’accent sur les projets d’équipes, l’innovation de rupture et l’entreprenariat. Télécom SudParis compte 1 000 étudiantes et étudiants dont 700 élèves ingénieurs et environ de 150 doctorantes et doctorants. Télécom SudParis fait partie de l’Institut Mines-Télécom, premier groupe d’école d’ingénieurs en France, et partage son campus avec Institut Mines-Télécom Business School. Télécom SudParis est co- fondatrice de l'Institut Polytechnique de Paris (IP Paris), Institut de Sciences et Technologies à vocation mondiale avec l’École polytechnique, l’ENSTA Paris, l’ENSAE Paris et Télécom Paris.

À propos de l'Institut Mines-Télécom :

L'Institut Mines-Télécom (IMT) est un établissement public dédié à l'enseignement supérieur et la recherche pour l'innovation dans les domaines de l'ingénierie et du numérique. À l’écoute permanente du monde économique, l'IMT conjugue une forte légitimité académique et scientifique, une proximité avec les entreprises et un positionnement unique sur les transformations majeures au XXIe siècle : numériques, énergétiques, industrielles et éducatives siècle. Ses activités se déploient au sein des grandes écoles Mines et Télécom sous tutelle du ministre en charge de l’Industrie et des communications électroniques, de deux filiales et de partenaires associés ou sous convention. L'IMT est membre fondateur de l’Alliance Industrie du Futur. Il est doublement labellisé Carnot pour la qualité de sa recherche partenariale.

Missions

L’évaluation de mécanismes de sécurité est un pilier de la certification de produits. La supervision de sécurité souffre d’un manque de méthodes ou de plateformes permettant une évaluation reproductible. En particulier, afin de garantir un haut niveau de sécurité, les détecteurs d’intrusion doivent être soumis à un échantillon suffisamment large, divers et réaliste de comportements, à la fois malveillants – pour évaluer leur capacité de détection – mais aussi de comportements normaux – pour s’assurer qu’ils ne génèrent pas ou peu de faux positifs.

Un autre aspect important de l’évaluation vise à mesurer la capacité du détecteur à passer à l’échelle. La génération de données de test peut ainsi amplement compléter des jeux de test, afin de leur donner une taille critique, permettant de réaliser des tests de résistance (stress tests).

Le type de données générés vient à compléter la génération de trafic synthétique par apprentissage de modèles de trafic légitime ou malveillant, en proposant plus rapidement et plus largement (la question de l’efficacité reste à résoudre) des jeux de données similaires aux jeux de données en entrée, mais possédant des caractéristiques susceptibles de générer des erreurs. Ce type de trafic est tout indiqué dans le test de détecteurs d’intrusion (notamment ceux basés sur les méthodes d’apprentissage machine).

Dans ce projet, nous souhaitons générer de nouveaux échantillons (inconnus), notamment pour des détecteurs d’intrusions réseau, par modification de trafics existants. Cette approche aura pour effet de générer du trafic normal qui pourrait être classé comme (faux) positif, ou du trafic malveillant qui pourrait contourner le détecteur (faux négatif). Dans le second cas, cette approche a été efficace dans la transformation de malware Android. Un dernier objectif est le passage à l’échelle de l’évaluation des détecteurs d’intrusion par la génération d’un volume critique de données de test et l’adaptation du trafic à un environnement cible. Cette génération devra s’inscrire dans une méthodologie d’évaluation des détecteurs d’intrusion basée sur les données comprenant outre la formalisation de propriétés à évaluer, les approches de constructions de jeu de données (sélection, génération, représentation, qualité, etc.) et les mesures permettant de les évaluer. Un écueil reste cependant que beaucoup de méthodes de génération ont démontré leurs limites, dont le réalisme et la praticité des données générées.

Activités

Nous proposons de nous inspirer de l’approche de trafic morphing qui permet de transformer la forme d’un flux réseau afin de contourner des analyseurs statistiques. Cependant, cette approche reste très limitée (modification de la distribution de la taille des paquets) et nécessite de connaître la distribution cible. Notre approche se base sur l’usage de réseaux de neurones génératifs afin de générer une plus grande diversité de trafics. A cet effet des autoencodeurs variationnels permettent de reproduire du trafic qui paraîtrait issu d’une même distribution, sans pour autant que le trafic soit identique. Une autre méthode serait de tirer avantage des méthodes issues du Natural Language Processing (NLP) pour générer du trafic dans le style d’un trafic de référence. Une autre application vise à générer ou transformer du trafic malveillant afin qu’il soit plus difficile à détecter.

L’approche vise dans un premier temps à identifier pour des détecteurs les frontières entre classes selon les paramètres de classification. Puis à proposer des transformations permettant de réduire la distance entre traffic (ou paquet) d’attaque et trafic légitime. Le défi principal d’une telle transformation est la dégradation de la nocivité du trafic ainsi obtenu.

Par ailleurs, nous cherchons à étendre le nombre de paramètres à générer au-delà de la taille des paquets, pour prendre aussi en compte des paramètres temporels (temps inter-arrivée). Une généralisation de cette approche vise à analyser systématiquement les paramètres au niveau flux et paquet afin de déterminer ceux susceptibles d’être altérés. S’en suit la possibilité de proposer diverses pistes de recherche qui permettront de déterminer des transformations ou des générations pertinentes pour le paramètre ou le type de paramètre (numérique, textuelle, catégorielle, périodique, discret, continu, etc.).

Pré-requis du poste

Formation

- Doctorat ou PhD depuis moins de 3 ans

Compétences, connaissances et expériences indispensables

- Expérience en modélisation et/ou simulation

- Connaissances en langages et formalismes de modélisation

- Connaissances en virtualisation et sécurité réseau

- Anglais parlé et écrit

Compétences, connaissances et expériences souhaitables

- Expérience en jumeau numérique

Capacités et aptitudes

- Rigueur

- Autonomie

- Travail en équipe

Informations complémentaires et candidature

  • Date limite de candidature : 28 février 2023
  • Nature du contrat : CDD de 18 mois
  • Catégorie et métier du poste (usage interne) : II - P, Post doctorant ou A (fonction publique)
  • Poste ouvert aux métiers de niveau immédiatement inférieur (usage interne)
  • Localisation du poste : Palaiseau (91)
  • Les postes offerts au recrutement sont ouverts à toutes et tous avec, sur demande, des aménagements pour les candidats en situation de handicap
  • Emploi ouvert aux titulaires de la fonction publique et/ou aux contractuels
  • Conditions de travail : télétravail possible, restaurant et cafétéria sur site, accessibilité en transport en commun (avec participation de l'employeur) ou proche des axes routiers, association du personnel