Projet de recherche & développement

Déceler la tromperie
en ligne par l'IA

Projet Thémis développe une boîte à outils algorithmique pour détecter automatiquement les faux noms de domaine, les fake news et les contenus générés par IA — en combinant apprentissage profond, modèles de langage et analyse sémantique.

Le problème

La tromperie en ligne prend de nombreuses formes

Faux sites, deepfakes, fake news, noms de domaine captieux — les vecteurs de désinformation se multiplient et deviennent de plus en plus difficiles à distinguer du contenu authentique.

Faux noms de domaine
Le typosquatting exploite des variations subtiles d'URLs légitimes pour piéger les utilisateurs — une lettre changée suffit à créer un site frauduleux crédible.
Fake news
Des informations basées sur des faits réels, mais modifiées pour rester plausibles tout en propageant des messages faux ou manipulés à grande échelle.
Contenus générés automatiquement
Articles scientifiques plagiés intelligemment, deepfakes textuels ou visuels — la génération automatique rend la détection humaine insuffisante.

Innovation

Une boîte à outils algorithmique
pour déceler la tromperie

Thémis combine plusieurs familles d'algorithmes complémentaires, dont les résultats sont agrégés par fusion d'information de haut niveau pour produire un indice de confiance global.

01
Détection de faux noms de domaine
Techniques issues de l'algorithmique des chaînes de caractères : distance d'édition, distance de Levenshtein, distance de Hamming et leurs variantes pour identifier le typosquatting.
LevenshteinHammingDistance d'édition
02
Détection de fake news
Apprentissage profond et modèles de langage de grande taille pour classifier les contenus. Approches sémantiques par identification de topoï pour détecter les glissements argumentatifs.
TransformeursModèles de langueSémantiqueTopoï
03
Détection de textes générés automatiquement
Détection de réutilisations, réemplois et allusions via des travaux sur l'intertextualité issus des humanités numériques. Identification des patterns propres à la génération automatique.
IntertextualitéHumanités numériquesPlagiat IA
04
Fusion d'information de haut niveau
Agrégation des indices produits par chaque module — faux nom de domaine, origine géographique, analyse du contenu — en un score de confiance global exploitable.
Fusion symboliqueScore composite

Organisation du projet

6 Lots pour structurer
la recherche et le développement

Le projet Thémis est découpé en six lots de travail couvrant la gestion, les cas d'usage, les données, les algorithmes, le développement et la validation.

Lot 1
Responsable : GANDI
Gestion du projet
Coordination générale, suivi des livrables, pilotage des partenaires et reporting.
Lot 2
Responsable : ANEMOD
Les cas d'usage
Description des quatre cas d'usage : fake news, faux sites IA, noms de domaine d'attaque, articles de recherche plagiés intelligemment.
Lot 3
Responsable : GANDI
Jeux de données
Constitution et récupération de jeux de données fiables pour chacun des quatre cas d'usage (PHEME, PolitiFact, GossipCop, base ANEMOD de 4 500 sites étiquetés…).
Lot 4
Responsable : Sorbonne Université
Algorithmes intelligents
Recherche de la meilleure algorithmique par cas d'usage et étude de la convergence vers un algorithme unifié.
Lot 5
Responsable : Sorbonne Université
Développement algorithmique
Développement de prototypes avancés à partir des résultats de recherche, en vue de la commercialisation après industrialisation.
Lot 6
Responsable : GANDI
Validation et exploitation
Tests approfondis des solutions développées et packaging de l'ensemble pour amorcer l'industrialisation du produit.

Partenaires

Un consortium recherche & industrie

Partenaires du projet

Logo GANDIGANDI
GANDI SAS
Pionnière française du web créée en 1999, spécialisée dans les noms de domaine et l'hébergement cloud. Disposant d'une large base d'exemples de typosquatting, elle s'occupe de la gestion du projet, la constitution des jeux de données et la validation finale.
Logo Sorbonne UniversitéSorbonne Université
Sorbonne Université
Traite la modélisation d'agents cognitifs, le raisonnement abductif, la représentation des connaissances et la fusion symbolique de données. Elle s'occupe de la recherche algorithmique.
Logo ANEMODANEMOD
ANEMOD
Start-up spécialisée en Cyber Threat Intelligence (CTI), ANEMOD surveille les actifs numériques d'entreprises via une plateforme IoB traitée par IA augmentée. Elle apporte une base de 4 500 sites web étiquetés manuellement.

Financeurs

Logo BPI Francebpifrance
BPI France
Informations sur BPI France à compléter.
Logo Région Île-de-FranceRégion Île-de-France
Région Île-de-France
Informations sur la Région Île-de-France à compléter.

Dispositifs

Logo I-DÉMOI-DÉMO
I-DÉMO — Soutien aux projets structurants de R&D
Informations sur I-DÉMO à compléter.
Logo France 2030France 2030
France 2030
Informations sur France 2030 à compléter.

L'équipe

Les responsables du projet

Une équipe pluridisciplinaire alliant expertise en science des données, ingénierie système, traitement du langage naturel et cybersécurité.

Kamel Haddadou
Directeur R&D — GANDI
Jean-Gabriel Ganascia
Responsable projet — Sorbonne Université
Guy Pujolle
Responsable projet — ANEMOD

Prêt à tester la plateforme ?

Accédez à l'environnement de démonstration et soumettez vos propres URLs ou textes à l'analyse Thémis.

Accéder à la démo