41911
RAPPEL 2019
trending_flat Voir l’événement
240
Participants
4166
Taille cible
117
Entreprises
 
Michel GROSBOST
Directeur Général
IMA
DO TANK DATA SCIENCE : NLP

La pseudonymisation de données en texte libre est aujourd’hui devenue une pratique courante car elle est indispensable à leur diffusion en libre accès ou à leur conservation sur une longue durée. L’intelligence artificielle permet désormais d’automatiser ce processus, les modèles de type réseaux neuronaux comptant parmi les plus performants en la matière. Pour les textes en langue française, le modèle camemBERT, dérivé de l’architecture transformers et entraîné sur un large corpus de textes en français est actuellement considéré comme l’une des meilleures solutions avec Spacy et Flair,

Cette web conférence sera illsustrée par 3 use cases

Use case d’Ellisphere :
Sujet de Machine translation semi-supervisé en domaine de NLP
Solution basée principalement sur la papier publié par le groupe de facebook comme suit :
https://arxiv.org/abs/1804.07755

Use case de la SNCF :
la SNCF a un certain savoir-faire sur le NLP, en particulier avec le chatbot de réservation de billet
Ce bot est motorisé par un Open Source, « TOCK » https://doc.tock.ai/fr/ qui :
- est utilisé dans plusieurs projets
- a donné lieu à plusieurs conférences et récompenses
La dernière conf s’est tenue au salon AIParis le 15/09, conjointement avec la MAIF

Use case de la Gendarmerie Nationale




 

NLP : Modèles de langue pré-entrainés pour le français : Bert, Camembert, Modèles de langues spécialisés sur corpus métier (secteur Finance, ?), Services cognitifs on prem et/ou souverains : Translation ...


Ludovic GIBERT
Data Science Leader @CA-CIB & Vice-Président @ IMA
CA-CIB
Michel GROSBOST
Directeur Général
IMA
IMA

16H00
Introduction & IMA What's UP (Conférence)
Webconférence
Présentation de l’IMA et des parcours Data Science et Intelligence

Jean-Baptiste Delfau
Data scientist
Gendarmerie Nationale
Daphné PERTSEKOS
data scientist
Gendarmerie
Gendarmerie
16H15
Use Case de la Gendarmerie Nationale : Brique d'anonymisation / pseudonymisation de texte libre (Use Case)
Webconférence
L'objectif est de masquer automatiquement des informations sensibles apparaissant dans des textes libres (application sur un corpus issu des pré-plaintes en ligne).

BENEFICES : - Conservation des données sur une longue durée. Cela permet de constituer des datasets suffisamment conséquents pour entrainer des modèles d'IA complexes.
- Mise à disposition possible de données en open data.

CHALLENGES : Des modèles camemBERT couplés à des fonctions utilisant des expressions régulières ont été utilisés pour repérer certains types d'entités dans le texte et les remplacer au besoin.
- Le corpus des pré-plaintes est très hétérogène. Cette grande variabilité rend la détection d'entités d'autant plus compliquée; - la mise en production est rendue délicate par la taille et le nombre des modèles utilisés (pseudonymisation simultanée difficile);
- L'entrainement des modèles requiert une grande puissance de calcul.

16H35
Use Case Elisphère - Machine translation non-supervisé et semi-supervisé en domaine du NLP (Use Case)
Webconférence
La solution est basée principalement sur le papier publié : https://arxiv.org/abs/1804.07755

François NOLLEN
Delivery Manager, Factory IA - e.Voyageurs Technologies
SNCF
SNCF
16H55
Use Case OUISNCF : Bots, Conversationnel & Open Source (Use Case)
Webconférence
Depuis 5 ans e.Voyageurs SNCF développe les bots de OUI.sncf, Transilien, AlloCovid, etc… et partage la plateforme opensource « Tock » (https://doc.tock.ai) maintenant utilisée hors de la SNCF.
·         Pourquoi le choix de l’opensource et passer de consommateur à producteur
·         Quel chemin des POC à l’industrialisation, du NLP à une plateforme d’entreprise
·         Quels ont été les vrais critères de succès de ces projets, pour maintenir les investissements sur des années
·         Quelles perspectives : état de l’art NLP, orchestration de bots, modèle communautaire, nouveaux enjeux de l’IA…


 

Jean-Baptiste Delfau
Data scientist
Gendarmerie Nationale
Ludovic GIBERT
Data Science Leader @CA-CIB & Vice-Président @ IMA
CA-CIB
François NOLLEN
Delivery Manager, Factory IA - e.Voyageurs Technologies
SNCF
Daphné PERTSEKOS
data scientist
Gendarmerie
17H15
Table Ronde (Table Ronde)
Webconférence

S’inscrire S’inscrire : Les inscriptions sont closes
Les inscriptions à l'événement sont désormais closes.
Vous pouvez néanmoins suivre l'événement en direct et en totalité à partir de Lundi matin (27/05) 9h via notre livestream directement sur le site de l'IMA.

Il vous suffit pour cela de cliquer sur le lien suivant : Live Stream IMAgine Day 'Journée de la Data Science'

Si vous souhaitez en savoir plus sur nos événements et accéder au prochain IMAgine Day, ou si vous souhaitez faire une demande spécifique pour participer à cet événement exceptionnel, vous pouvez contacter : michel.grosbost@ima-dt.org

N'hésitez pas à nous contacter si vous avez la moindre question, l'IMA est à votre écoute !
L'équipe IMA
Les données personnelles qui vous sont demandées nous permettent de mieux vous connaître, de vous proposer les contenus qui vous intéressent et de vous mettre en relation avec des partenaires pertinents pour vos besoins et recherches
J’accepte les Conditions Générales d’Utilisation du site www.ima-dt.org
Conformément à notre politique générale en matière de données personnelles, vous disposez d’un droit d’accès vous permettant à tout moment de connaître la nature des données collectées vous concernant et leur durée de rétention, de demander leur rectification ou leur effacement. Ce droit s’exerce par simple envoi d’un email à contact@ima-dt.org. Pour tout savoir sur la manière dont l'IMA gère les données personnelles, vous pouvez vous reporter à notre Charte sur les Données Personnelles. Les données personnelles qui vous sont demandées nous permettent d’une part de partager avec vous les dernières solutions innovantes des partenaires de l'IMA, d’autre part de mieux vous connaître et enfin de vous proposer les contenus qui vous intéressent. L’accès aux contenus produits par les partenaires de l'IMA est gratuit. En contrepartie vos coordonnées personnelles prénom, nom, fonction, société, email seront transmises au partenaire ayant produit le contenu auquel vous voulez accéder.
Valider ma demande