Les 10 principales failles de sécurité des grands modèles de langage (LLM)

Les grands modèles de langage (LLM) révolutionnent l’intelligence artificielle, mais présentent des vulnérabilités importantes qui méritent une attention particulière. Voici une analyse détaillée des dix failles majeures identifiées par les experts en sécurité.

1. L’injection de prompts (Prompt Injection)

L’injection de prompts permet à un attaquant de manipuler le comportement d’un LLM en insérant des instructions malveillantes dans les entrées utilisateur. Cette technique exploite la difficulté du modèle à distinguer les instructions légitimes des données utilisateur.

Mécanisme : Un attaquant peut contourner les garde-fous en formulant des requêtes qui redéfinissent les instructions initiales du modèle. Par exemple, une instruction cachée dans un document pourrait demander au LLM d’ignorer ses directives de sécurité.

Impact : Fuite de données sensibles, génération de contenu malveillant, contournement des politiques de sécurité.

2. L’empoisonnement des données (Data Poisoning)

L’empoisonnement des données survient lorsque des acteurs malveillants injectent des informations corrompues dans les ensembles de données d’entraînement ou de fine-tuning d’un LLM.

Mécanisme : Les attaquants peuvent introduire des biais, des portes dérobées (backdoors) ou des informations trompeuses dans les données d’entraînement. Cela peut se produire via des sources publiques utilisées pour l’entraînement ou lors du fine-tuning avec des données contaminées.

Impact : Réponses biaisées, comportements malveillants déclenchés par des mots-clés spécifiques, dégradation de la qualité générale du modèle.

3. La fuite d’informations sensibles (Sensitive Information Disclosure)

Les LLM peuvent involontairement révéler des informations confidentielles présentes dans leurs données d’entraînement ou accessibles via leurs intégrations.

Mécanisme : Le modèle peut mémoriser et restituer des données sensibles comme des informations personnelles, des secrets commerciaux ou du code propriétaire présents dans son corpus d’entraînement. Les attaques par extraction de données (data extraction attacks) exploitent cette vulnérabilité.

Impact : Violation de la vie privée, exposition de propriété intellectuelle, non-conformité réglementaire (RGPD, etc.).

4. Le déni de service (Denial of Service)

Les attaques par déni de service visent à rendre un LLM indisponible ou à épuiser ses ressources computationnelles.

Mécanisme : Un attaquant peut soumettre des requêtes complexes nécessitant d’importantes ressources de calcul, créer des boucles infinies de génération, ou exploiter les limitations de tokens pour saturer le système.

Impact : Indisponibilité du service, coûts opérationnels élevés, dégradation des performances pour les utilisateurs légitimes.

5. Les hallucinations et désinformation

Les LLM peuvent générer des informations factuellement incorrectes présentées avec assurance, un phénomène appelé « hallucination ».

Mécanisme : Le modèle génère du contenu plausible mais faux en raison de lacunes dans ses données d’entraînement, de confusion entre concepts similaires, ou simplement par la nature probabiliste de sa génération.

Impact : Diffusion de fausses informations, décisions basées sur des données erronées, atteinte à la crédibilité des systèmes basés sur les LLM.

6. La gestion inadéquate des plugins et extensions

Les LLM modernes s’intègrent souvent avec des plugins et APIs externes, créant de nouvelles surfaces d’attaque.

Mécanisme : Des plugins malveillants ou compromis peuvent être utilisés pour exfiltrer des données, exécuter du code arbitraire, ou accéder à des ressources non autorisées. Le LLM peut également mal interpréter les capacités ou permissions d’un plugin.

Impact : Exécution de code malveillant, accès non autorisé à des systèmes externes, escalade de privilèges.

7. Le Contrôle d’Accès Insuffisant

Une gestion inadéquate des permissions peut permettre aux utilisateurs d’accéder à des fonctionnalités ou données pour lesquelles ils ne sont pas autorisés.

Mécanisme : Absence de vérification appropriée des autorisations, contrôles d’accès basés uniquement sur les prompts utilisateur, ou mauvaise isolation entre utilisateurs dans des environnements multi-tenants.

Impact : Accès non autorisé à des données sensibles, utilisation abusive de fonctionnalités privilégiées, violations de la ségrégation des données.

8. L’Inférence de membership et attaques de reconstruction

Ces attaques permettent de déterminer si des données spécifiques ont été utilisées pour l’entraînement du modèle, voire de les reconstruire.

Mécanisme : En analysant les réponses du modèle, un attaquant peut déduire la présence de certaines données dans l’ensemble d’entraînement ou extraire partiellement des informations mémorisées.

Impact : Violation de la confidentialité des données d’entraînement, exposition d’informations personnelles ou propriétaires.

9. La Dépendance excessive aux LLM (Over-Reliance)

Les organisations et utilisateurs peuvent développer une confiance excessive dans les LLM, négligeant la vérification et la validation humaine.

Mécanisme : Automatisation de décisions critiques sans supervision humaine appropriée, acceptation inconditionnelle des sorties du LLM, ou remplacement de l’expertise humaine dans des domaines sensibles.

Impact : Erreurs dans des décisions importantes, problèmes éthiques et légaux, responsabilité mal définie en cas d’erreur.

10. L’injection indirecte via sources externes

Les LLM qui interagissent avec des sources de données externes peuvent être compromis par du contenu malveillant présent dans ces sources.

Mécanisme : Un attaquant place des instructions malveillantes dans des sites web, emails ou documents que le LLM va ensuite traiter. Le modèle exécute alors ces instructions comme si elles provenaient d’une source légitime.

Impact : Manipulation du comportement du LLM, extraction de données via des sources contrôlées par l’attaquant, actions non autorisées au nom de l’utilisateur.

Conclusion

La sécurisation des LLM nécessite une approche multicouche combinant des mesures techniques (filtrage des entrées/sorties, validation, monitoring), organisationnelles (formation, politiques d’utilisation) et architecturales (isolation, principes de moindre privilège). La recherche continue dans ce domaine est essentielle pour anticiper et contrer les menaces émergentes.

Sources recommandées pour approfondir :

OWASP Top 10 for LLM Applications
https://owasp.org/www-project-top-10-for-large-language-model-applications/
NIST AI Risk Management Framework
https://www.nist.gov/itl/ai-risk-management-framework
ArXiv – Recherches académiques sur la sécurité des LLM
https://arxiv.org/search/?query=LLM+security&searchtype=all
OpenAI – Safety Best Practices
https://platform.openai.com/docs/guides/safety-best-practices
Anthropic – Responsible Scaling Policy
https://www.anthropic.com/index/anthropics-responsible-scaling-policy
Microsoft – AI Security Guidelines
https://www.microsoft.com/en-us/security/business/ai-machine-learning
MITRE ATLAS – Adversarial Threat Landscape for AI Systems
https://atlas.mitre.org/
Black Hat Conference – AI/ML Security Track
https://www.blackhat.com/
NeurIPS – Conference Papers on ML Security
https://neurips.cc/