IMA - Evénement

	06 Octobre 2020 15h45 - 17h45
	MS TEAMS

Contribuer

IMAgine Day

Do Tank Data Science : NLP

NLP : Modèles de langue pré-entrainés pour le français : Bert, Camembert, Modèles de langues spécialisés sur corpus métier (secteur Finance, ?), Services cognitifs on prem et/ou souverains : Translation ...

	06 Octobre 2020 15h45 - 17h45
	MS TEAMS

La pseudonymisation de données en texte libre est aujourd’hui devenue une pratique courante car elle est indispensable à leur diffusion en libre accès ou à leur conservation sur une longue durée. L’intelligence artificielle permet désormais d’automatiser ce processus, les modèles de type réseaux neuronaux comptant parmi les plus performants en la matière. Pour les textes en langue française, le modèle camemBERT, dérivé de l’architecture transformers et entraîné sur un large corpus de textes en français est actuellement considéré comme l’une des meilleures solutions avec Spacy et Flair,

Cette web conférence sera illsustrée par 3 use cases

Use case d’Ellisphere :
Sujet de Machine translation semi-supervisé en domaine de NLP
Solution basée principalement sur la papier publié par le groupe de facebook comme suit :
https://arxiv.org/abs/1804.07755

Use case de la SNCF :
la SNCF a un certain savoir-faire sur le NLP, en particulier avec le chatbot de réservation de billet
Ce bot est motorisé par un Open Source, « TOCK » https://doc.tock.ai/fr/ qui :
- est utilisé dans plusieurs projets
- a donné lieu à plusieurs conférences et récompenses
La dernière conf s’est tenue au salon AIParis le 15/09, conjointement avec la MAIF

Use case de la Gendarmerie Nationale

PROGRAMME

Michel GROSBOST

Directeur Général

IMA

Gibert Ludovic

CDO & Innovation Leader for Global Coverage & Investment Banking

CA-CIB

16H00

Introduction & IMA What's UP (Conférence)

Webconférence

Présentation de l’IMA et des parcours Data Science et Intelligence

Jean-Baptiste Delfau

Data scientist

Gendarmerie Nationale

Daphné PERTSEKOS

data scientist

GENDARMERIE

16H15

Use Case de la Gendarmerie Nationale : Brique d'anonymisation / pseudonymisation de texte libre (Use Case)

Webconférence

L'objectif est de masquer automatiquement des informations sensibles apparaissant dans des textes libres (application sur un corpus issu des pré-plaintes en ligne).

BENEFICES : - Conservation des données sur une longue durée. Cela permet de constituer des datasets suffisamment conséquents pour entrainer des modèles d'IA complexes.
- Mise à disposition possible de données en open data.

CHALLENGES : Des modèles camemBERT couplés à des fonctions utilisant des expressions régulières ont été utilisés pour repérer certains types d'entités dans le texte et les remplacer au besoin.
- Le corpus des pré-plaintes est très hétérogène. Cette grande variabilité rend la détection d'entités d'autant plus compliquée; - la mise en production est rendue délicate par la taille et le nombre des modèles utilisés (pseudonymisation simultanée difficile);
- L'entrainement des modèles requiert une grande puissance de calcul.

ELLISPHERE

16H35

Use Case Elisphère - Machine translation non-supervisé et semi-supervisé en domaine du NLP (Use Case)

Webconférence

La solution est basée principalement sur le papier publié : https://arxiv.org/abs/1804.07755

François NOLLEN

Delivery Manager, Factory IA - e.Voyageurs Technologies

SNCF CONNECT & TECH

16H55

Use Case OUISNCF : Bots, Conversationnel & Open Source (Use Case)

Webconférence

Depuis 5 ans e.Voyageurs SNCF développe les bots de OUI.sncf, Transilien, AlloCovid, etc… et partage la plateforme opensource « Tock » (https://doc.tock.ai) maintenant utilisée hors de la SNCF.
·         Pourquoi le choix de l’opensource et passer de consommateur à producteur
·         Quel chemin des POC à l’industrialisation, du NLP à une plateforme d’entreprise
·         Quels ont été les vrais critères de succès de ces projets, pour maintenir les investissements sur des années
·         Quelles perspectives : état de l’art NLP, orchestration de bots, modèle communautaire, nouveaux enjeux de l’IA…

ELLISPHERE

Jean-Baptiste Delfau

Data scientist

Gendarmerie Nationale

Gibert Ludovic

CDO & Innovation Leader for Global Coverage & Investment Banking

CA-CIB

François NOLLEN

Delivery Manager, Factory IA - e.Voyageurs Technologies

SNCF CONNECT & TECH

Daphné PERTSEKOS

data scientist

GENDARMERIE

17H15

Table Ronde (Table Ronde)

Webconférence

#Data Intelligence#datascience

S’inscrire : Les inscriptions sont closes

Qui Sommes-Nous ?
Nous Contacter
Nous Recommander Mentions Légales

Services
Événements
Membres

Espace Startup
ITiForums

Nos Applications

Télécharger sur iOS Télécharger sur Android

Nos Associations Sœurs
le Cercle NextGen IT