Nous opérons nos propres modèles de langage en interne pour les données sensibles. Quand l'IA publique apporte une valeur, nous l'utilisons, mais sur des données anonymisées. Voici comment.
Notre setup actuel : Mac Studio M1 Ultra dédié, Ollama, modèles open-weight (Llama, Mistral, Qwen…) hébergés en interne. Aucune donnée ne sort de notre infrastructure pour ces traitements. C'est lent à déployer, c'est plus cher au quotidien, mais c'est la seule architecture acceptable pour les données identifiantes de nos clients.
Quand un cas d'usage justifie la qualité supérieure d'un modèle public (Claude Sonnet, GPT, Gemini), nous anonymisons en pré-traitement : identifiants remplacés par des tokens, montants normalisés, noms propres hashés. L'IA traite, la réponse revient, nous dé-anonymisons côté client. Le modèle public ne voit jamais qui est qui.
Reevio, génération de réponses aux avis Google. Nudgi, extraction de données depuis PDF de factures. Fiabli, détection de phishing : modèle rapide local d'abord, escalade publique si nécessaire. Logiciels métier clients, assistance call center temps réel et chiffrage automatique de devis. Chacun de ces pipelines mélange local et public selon la sensibilité.
Honnêteté technique : les LLM publics restent supérieurs sur certaines tâches, raisonnement complexe, langues rares, génération de code de haute qualité. Nous le disons. Mais nous garantissons que vos données identifiantes ne sortent jamais.
Parce que pour certaines données, médicales, juridiques, financières nominatives, la seule architecture acceptable est locale. Nous le savons, nos clients le savent. C'est non négociable.
Vos données ne sont jamais utilisées pour entraîner un modèle. Jamais. Pas par nous, pas par nos sous-traitants. C'est dans le contrat, et c'est techniquement vérifiable parce que nous opérons les modèles nous-mêmes.