Internship/Trainee

STAGE - Assistant Data Scientist – Confidentialité des IA Génératives textuelles H/F

Modified on 09/05/2024

  • Montrouge - France
  • IT, Digital et Data
  • 2023-82104

Job description

Contexte et objectif du stage :

 Les modèles de langage génératifs, tels que les grands modèles de langage (LLM), ont récemment connu un essor considérable dans de nombreux domaines, tels que la traduction, la génération et la synthèse de texte, ou encore la réponse aux questions. Ces modèles sont entraînés sur des ensembles de données textuelles très volumineux, ce qui leur permet de générer des textes cohérents et pertinents. Cependant, il a été démontré que ces modèles de langage génératifs sont vulnérables à des attaques permettant de reconstituer une partie des données sur lesquelles ils ont été entraînés.

 Le stage proposé vise dans un premier temps à étudier les vulnérabilités des modèles de langage génératifs, finetunés sur des données confidentielles, aux attaques de reconstruction des données d'entraînement ; et dans un second temps à explorer les techniques de défense pour protéger ces données.

 

 Dans l’objectif de livrer des fonctionnalités nativement industrielles, déployables en production, les stages se déroulent :

 

  • Sous l’encadrement d’experts Data/IA au sein d’une Squad pluridisciplinaire (IA Documentaire),
  • Avec un Chef de Projet référent fonctionnel,
  • Et selon la méthode Projet du DataLab Groupe qui fait l’objet d’une certification.

 

Les étapes clés du stage sont les suivantes :

  • Veille bibliographique sur la problématique des attaques de reconstruction des données d’entraînement,
  • Sélection et implémentation des approches les plus adaptées pour protéger les données d’entrainement,
  • Réalisation d’une étude comparative sur des données internes et externes,
  • Intégration des développements dans les produits du DataLab Groupe,
  • Documentation rigoureuse du stage pour faciliter la reproductibilité et la capitalisation des connaissances acquises,
  • Publication scientifique si les travaux aboutissent à de nouvelles approches plus performantes que l’état de l’art.

    • Starting date
    • 01/04/2023
    • Duration
    • 6 mois
    • Position with management
    • No
    • Executive / Non Executive
    • Non cadre
    • Minimum level of study
    • Postgraduate degree – MA/MSc/PhD/Doctorate or equivalent
    • Training / Specialization
    • ☒Université ☒Ecole d’ingénieurSpécialisation data science avec une dominante traitement de langage naturel (NLP), deep Learning et développement logiciel.
    • Minimum experience level
    • 0-2 years
    • Compétences recherchées
    • Compétences techniques ou spécifiques au poste :
      • Deep Learning
      • Traitement de langage naturel
      • Développement python
       Compétences générales et transverses :
      • Grande rigueur et autonomie
      • Aptitude pour le travail en équipe
    • IT tools
    • PyTorch, NLTK, Hugging Face, ONNX, etc.
    • Languages
    • Français
  • Join a company at the centre of Crédit Agricole Group activities, evolutions and transformation. As the Group holding listed company and listed company, Crédit Agricole S.A ensures coordination, consistency and synergies between the entities to support the ambitions of the Group Project. The missions of our employees offer a transversal and global view of the Group economic and strategic challenges. By working every day in the interest of society, we are a group committed to diversity and inclusion. All our positions are open to people with disabilities.

Crédit Agricole S.A.
Crédit Agricole S.A.
Crédit Agricole S.A.

Crédit Agricole S.A.

STAGE - Assistant Data Scientist – Confidentialité des IA Génératives textuelles H/F

Published the 19/09/2023

Internship/Trainee
  • Montrouge - France
  • IT, Digital et Data
  • 2023-82104

These offers may interest you!