Prendre RDV
Confidentialité des API IA - Jarvis-Med
Toutes les références bibliographiques sont en fin de d'article
L'adoption d'API de modèles de langage large (LLM) en entreprise nécessite une compréhension claire des politiques de confidentialité et de sécurité des données des fournisseurs. Cette synthèse analyse les approches d'OpenAI, Anthropic et Google Cloud (via Vertex AI) pour garantir la confidentialité des données des clients professionnels, en mettant l'accent sur l'absence d'utilisation des données d'API pour l'entraînement des modèles et les mesures de protection mises en place.
Table des matières
Garanties clés de confidentialité et absence d'utilisation des données pour l'entraînement
OpenAI (ChatGPT API)
Par défaut, les données clients transmises via l'API (après le 1er mars 2023) ne sont pas utilisées pour entraîner ou améliorer les modèles OpenAI. Il existe un engagement contractuel clair à ne pas exploiter les données clients sans consentement explicite. L'utilisation des données pour l'entraînement n'intervient que si le client choisit explicitement de partager des données via des mécanismes de feedback opt-in pour contribuer à l'amélioration. Le client conserve la propriété de ses contenus d'entrée et de sortie.
Anthropic (Claude API)
De manière similaire, les données transmises via l'API Claude ne sont pas utilisées par défaut pour entraîner ou affiner le modèle Claude dans le cadre des produits commerciaux. Vos prompts et outputs ne servent pas à améliorer Claude, sauf si vous y consentez explicitement (par exemple, en soumettant volontairement un feedback). Une autre exception concerne les contenus enfreignant les règles d'usage, qui peuvent être examinés pour renforcer les systèmes de sécurité (affinage des filtres de modération). En dehors de ces cas spécifiques nécessitant un opt-in ou liés à la sécurité, aucune exploitation à des fins d'entraînement n'a lieu sur les données des clients professionnels.
Google (Gemini via Vertex AI)
Google, via Vertex AI, s'engage contractuellement à ne pas utiliser les données clients pour entraîner ses modèles d'IA, y compris Gemini, sans votre permission préalable. Une clause spécifique de « Training Restriction » dans les termes de service de Google Cloud garantit que les données client (prompts, réponses, données d'entraînement de modèles d'adaptateur) ne sont pas utilisées pour l'entraînement des modèles de fondation de Google. Google a été un pionnier dans la publication d'un engagement public sur la confidentialité en AI/ML, soulignant le contrôle client sur les données.

En résumé, ces trois fournisseurs partagent un principe fondamental pour leurs offres professionnelles : les interactions via l'API ne sont pas exploitées pour l'entraînement de leurs modèles généraux sans un consentement spécifique du client ou pour des raisons de sécurité documentées. Ceci élimine un risque majeur lié au partage de données sensibles.
Collecte, stockage et rétention des données
OpenAI
Collecte le contenu des requêtes (prompts) et réponses, ainsi que des métadonnées techniques (identifiants API, horodatage). Ces données sont stockées temporairement (logs). Par défaut, les requêtes et réponses de l'API sont conservées jusqu'à 30 jours pour le service et la détection d'abus. Elles sont supprimées automatiquement après 30 jours, sauf obligation légale. Une option "Zero Data Retention" (ZDR) est disponible sur demande pour certains endpoints, permettant de ne rien conserver au-delà de la durée de traitement.
Anthropic
Traite le contenu des prompts et des réponses. Les conversations peuvent être stockées pour la continuité du service si vous utilisez des interfaces comme Claude for Work ou la console. Via l'API seule, l'historique persistant n'est pas stocké par défaut. Des métadonnées standard (timestamps, identifiant, IP pour la sécurité) sont enregistrées. Les inputs et outputs de l'API sont automatiquement supprimés sous 30 jours. Les clients Enterprise peuvent négocier une durée de rétention personnalisée, incluant le "zero retention". Les conversations sauvegardées via une interface peuvent être supprimées manuellement, entraînant leur suppression du backend sous 30 jours. En cas de violation des règles, les données incriminées peuvent être conservées jusqu'à 2 ans (prompts/réponses) et 7 ans (métadonnées de classification).
Google
Collecte les données de requête et de réponse pour le service immédiat. Par défaut, les entrées et sorties sont mises en cache jusqu'à 24 heures pour améliorer la latence. Ce cache est compartimenté par projet client. Le client peut désactiver cette mise en cache pour obtenir une "zero retention" complète des données de prompt/output au-delà du traitement immédiat. Un système de journalisation pour la détection d'abus existe, mais il ne s'applique pas par défaut aux clients entreprise sous contrat Google Cloud. L'activation de la fonction "Grounding avec Google Search" entraîne le stockage des prompts liés à cette fonction pendant 30 jours.

La conservation est donc majoritairement très courte par défaut (24h à 30 jours) pour ces trois acteurs, avec des options pour réduire cette durée à zéro dans la plupart des cas pour les clients professionnels.
Conformités, Certifications et Hébergement
OpenAI
  • Propose un avenant de traitement des données (DPA) conforme au RGPD
  • Est certifié SOC 2 Type II
  • Les données sont chiffrées au repos et en transit
  • S'appuie sur des centres de données conformes aux standards de l'industrie (via Microsoft Azure notamment)
  • Offre un hébergement via son cloud OpenAI (mutualisé ou instances dédiées) ou via Azure OpenAI, qui permet l'hébergement dans une région Azure choisie, renforçant la résidence des données
  • Pas d'option on-premise pour les modèles propriétaires
Anthropic
  • Agit en tant que sous-traitant RGPD et propose un Data Processing Addendum
  • Son Trust Center détaille le chiffrement systématique et la minimisation de la rétention
  • S'appuie sur des infrastructures cloud (AWS, partenaires comme Google Cloud)
  • Est disponible via des plateformes cloud tierces comme Amazon Bedrock (dans l'environnement cloud du client) et Google Cloud Vertex AI (où Google gère l'accès au modèle Anthropic dans son propre environnement, les données client restant chez Google)
  • Pas d'offre on-premise directe
Google
  • Les services Google Cloud, inclus Vertex AI, sont conformes à de nombreuses normes et certifications : RGPD (via le Cloud Data Processing Addendum - CDPA), ISO/IEC 27001, SOC 2/3, etc.
  • Les données sont chiffrées au repos et en transit
  • Les clients peuvent choisir la localisation géographique de leurs données générées via Vertex AI parmi une dizaine de régions, garantissant la résidence des données
  • Vertex AI est l'option native, permettant d'exploiter Gemini au sein de l'environnement Google Cloud du client
  • Pas d'option on-premise pour Gemini

Ces trois fournisseurs démontrent un niveau élevé de maturité en matière de sécurité et de conformité, essentiel pour les usages professionnels, avec des options permettant de répondre aux exigences de résidence des données et de DPA.
Synthèse et absence de risque (dans un usage adéquat)

Pour une entreprise, utiliser l'API d'OpenAI, Anthropic ou Google dans un cadre contractuel professionnel et avec les configurations de rétention appropriées présente un niveau de risque faible à négligeable concernant la confidentialité des données soumises.
  • Pas d'utilisation des données pour l'entraînement général par défaut : C'est la garantie fondamentale offerte par les trois, essentielle pour protéger la propriété intellectuelle et les données sensibles.
  • Rétention minimale : Les données sont conservées très temporairement (quelques heures à 30 jours) ou pas du tout ("zero retention") si configuré ainsi, réduisant l'exposition en cas de brèche.
  • Cadre légal et contractuel clair : DPA, rôle de sous-traitant, et conformités (RGPD, SOC 2, ISO) offrent un cadre juridique robuste protégeant les données.
  • Sécurité technique : Chiffrement systématique, accès restreint aux données, et audit des infrastructures (souvent via les certifications cloud) sont en place.
  • Contrôle client : Les entreprises peuvent souvent gérer la rétention (voire l'annuler), choisir la résidence des données, et s'appuyer sur les garanties de leur environnement cloud (pour Vertex AI, Bedrock, Azure OpenAI).
Contrairement à certains autres acteurs du marché (comme DeepSeek, dont la politique indique explicitement l'utilisation des données pour l'entraînement et le stockage en Chine sans garanties de conformité occidentale), OpenAI, Anthropic et Google ont mis en place des mécanismes, des contrats et des certifications qui adressent directement les préoccupations des entreprises en matière de confidentialité et de sécurité des données. Utiliser ces API dans un contexte professionnel, en s'assurant que le contrat commercial inclus bien les clauses de DPA et de non-utilisation des données pour l'entraînement (ce qui est la norme pour leurs offres entreprises/API), et en configurant la rétention au plus bas si la sensibilité des données l'exige (options de zéro rétention), permet d'exploiter la puissance de ces modèles tout en respectant les obligations légales et les politiques internes de confidentialité. Le risque de compromission ou d'utilisation abusive des données clients est ainsi minimisé de manière très significative.
Listes des références qui ont servi à écrire cet article :