Projet de recherche & développement

Déceler la tromperie
en ligne par l'IA

Projet Thémis développe une boîte à outils algorithmique pour détecter automatiquement les faux noms de domaine, les fake news et les contenus générés par IA — en combinant apprentissage profond, modèles de langage et analyse sémantique.

Voir la démo En savoir plus

Analyse en cours

Typosquatting détecté — distance d'édition : 1

Contenu trompeur confirmé — confiance : 94 %

Contenu généré automatiquement — intertextualité suspecte

Fusion des indices — rapport prêt

Indice de tromperie

Agrégation multi-sources

27 / 100

Le problème

La tromperie en ligne prend de nombreuses formes

Faux sites, deepfakes, fake news, noms de domaine captieux — les vecteurs de désinformation se multiplient et deviennent de plus en plus difficiles à distinguer du contenu authentique.

Faux noms de domaine

Le typosquatting exploite des variations subtiles d'URLs légitimes pour piéger les utilisateurs — une lettre changée suffit à créer un site frauduleux crédible.

Fake news

Des informations basées sur des faits réels, mais modifiées pour rester plausibles tout en propageant des messages faux ou manipulés à grande échelle.

Contenus générés automatiquement

Articles scientifiques plagiés intelligemment, deepfakes textuels ou visuels — la génération automatique rend la détection humaine insuffisante.

Innovation

Une boîte à outils algorithmique
pour déceler la tromperie

Thémis combine plusieurs familles d'algorithmes complémentaires, dont les résultats sont agrégés par fusion d'information de haut niveau pour produire un indice de confiance global.

Détection de faux noms de domaine

Techniques issues de l'algorithmique des chaînes de caractères : distance d'édition, distance de Levenshtein, distance de Hamming et leurs variantes pour identifier le typosquatting.

LevenshteinHammingDistance d'édition

Détection de fake news

Apprentissage profond et modèles de langage de grande taille pour classifier les contenus. Approches sémantiques par identification de topoï pour détecter les glissements argumentatifs.

TransformeursModèles de langueSémantiqueTopoï

Détection de textes générés automatiquement

Détection de réutilisations, réemplois et allusions via des travaux sur l'intertextualité issus des humanités numériques. Identification des patterns propres à la génération automatique.

IntertextualitéHumanités numériquesPlagiat IA

Fusion d'information de haut niveau

Agrégation des indices produits par chaque module — faux nom de domaine, origine géographique, analyse du contenu — en un score de confiance global exploitable.

Fusion symboliqueScore composite

Organisation du projet

6 Lots pour structurer
la recherche et le développement

Le projet Thémis est découpé en six lots de travail couvrant la gestion, les cas d'usage, les données, les algorithmes, le développement et la validation.

Lot 1

Responsable : GANDI

Gestion du projet

Coordination générale, suivi des livrables, pilotage des partenaires et reporting.

Lot 2

Responsable : ANEMOD

Les cas d'usage

Description des quatre cas d'usage : fake news, faux sites IA, noms de domaine d'attaque, articles de recherche plagiés intelligemment.

Lot 3

Responsable : GANDI

Jeux de données

Constitution et récupération de jeux de données fiables pour chacun des quatre cas d'usage (PHEME, PolitiFact, GossipCop, base ANEMOD de 4 500 sites étiquetés…).

Lot 4

Responsable : Sorbonne Université

Algorithmes intelligents

Recherche de la meilleure algorithmique par cas d'usage et étude de la convergence vers un algorithme unifié.

Lot 5

Responsable : Sorbonne Université

Développement algorithmique

Développement de prototypes avancés à partir des résultats de recherche, en vue de la commercialisation après industrialisation.

Lot 6

Responsable : GANDI

Validation et exploitation

Tests approfondis des solutions développées et packaging de l'ensemble pour amorcer l'industrialisation du produit.

Partenaires

Un consortium recherche & industrie

Partenaires du projet

GANDI

GANDI SAS

Pionnière française du web créée en 1999, spécialisée dans les noms de domaine et l'hébergement cloud. Disposant d'une large base d'exemples de typosquatting, elle s'occupe de la gestion du projet, la constitution des jeux de données et la validation finale.

Sorbonne Université

Traite la modélisation d'agents cognitifs, le raisonnement abductif, la représentation des connaissances et la fusion symbolique de données. Elle s'occupe de la recherche algorithmique.

ANEMOD

Start-up spécialisée en Cyber Threat Intelligence (CTI), ANEMOD surveille les actifs numériques d'entreprises via une plateforme IoB traitée par IA augmentée. Elle apporte une base de 4 500 sites web étiquetés manuellement.

Financeurs

bpifrance

BPI France

Informations sur BPI France à compléter.

Région Île-de-France

Informations sur la Région Île-de-France à compléter.

Dispositifs

I-DÉMO

I-DÉMO — Soutien aux projets structurants de R&D

Informations sur I-DÉMO à compléter.

France 2030

Informations sur France 2030 à compléter.

L'équipe

Les responsables du projet

Une équipe pluridisciplinaire alliant expertise en science des données, ingénierie système, traitement du langage naturel et cybersécurité.

Kamel Haddadou

Directeur R&D — GANDI

kamel@gandi.net

Jean-Gabriel Ganascia

Responsable projet — Sorbonne Université

Jean-Gabriel.Ganascia@lip6.fr

Guy Pujolle

Responsable projet — ANEMOD

Guy.Pujolle@anemod.com

Publications

Travaux de recherche issus du projet

Les avancées scientifiques de Thémis donnent lieu à des publications et à des jeux de données partagés avec la communauté de recherche en traitement du langage et en analyse de corpus de presse.

Zve, E., Icard, B., Breton, A., Sainero, L., Bourgne, G., & Ganascia, J. G. (2025). From Outliers to Topics in Language Models: Anticipating Trends in News Corpora. In Proceedings of the 8th International Conference on Natural Language and Speech Processing (ICNLSP-2025) (pp. 385-398).

SU/LIP6

Zve, E., Icard, B., Breton, A., Sainero, L., Ganascia, J-G. (2025). Controversy and Consensus in NewsHotspots: Using Outliers to Identify Emerging Trends in Press Corpora. Workshop Infox-sur-Seine 2025.

SU/LIP6

Breton, A., Sainero, L., Kaşıkçı, E., Zve, E., Icard, B., Ganascia, J-G. (2025). Fr-EngClimateIPCC [Corpus]. ORTOLANG (Open Resources and TOols for LANGuage).

SU/LIP6

Icard, B., Zve, E., Sainero, L., Breton, A., Ganascia, J-G. (2025). Embedding Style Beyond Topics: Analyzing Dispersion Effects Across Different Language Models.

SU/LIP6

https://www.ortolang.fr/market/corpora/fr-engclimateipcc/v2

SU/LIP6

Measuring Embedding Sensitivity to Authorial Style in French: Comparing Literary Texts with Language Model Rewritings.

SU/LIP6

Déceler la tromperieen ligne par l'IA

La tromperie en ligne prend de nombreuses formes

Une boîte à outils algorithmiquepour déceler la tromperie

6 Lots pour structurerla recherche et le développement

Un consortium recherche & industrie

Les responsables du projet

Travaux de recherche issus du projet

Prêt à tester la plateforme ?

Déceler la tromperie
en ligne par l'IA

Une boîte à outils algorithmique
pour déceler la tromperie

6 Lots pour structurer
la recherche et le développement