Je suis Head of IT dans une société financière en Suisse. Multi-sites, switches Cisco, firewalls Palo Alto, data center, systèmes de trading critiques, téléphonie, le quotidien d'une infra on-prem dans un environnement réglementé.
Depuis début 2026, j'utilise Claude AI (Anthropic) comme co-pilote pour gérer cette infrastructure. Pas un chatbot à qui je pose des questions. Un agent qui se connecte en SSH à mes équipements, lit les configs, audite, documente.
Voici ce que j'ai appris en 3 mois. Les résultats, les limites, et pourquoi je pense que chaque IT manager devrait s'y intéresser maintenant.
Le contexte : une petite équipe face à une infra qui ne dort jamais
Si vous gérez une infrastructure IT avec une équipe réduite, vous connaissez la réalité :
- Des dizaines d'équipements réseau répartis sur plusieurs sites
- Des firewalls, des VPNs, du stockage, de la virtualisation
- Des systèmes critiques qui ne tolèrent pas de downtime
- Et une liste de tâches qui grandit plus vite que vous ne pouvez la traiter
C'est là que l'IA est entrée dans mes opérations.
Le déclencheur : "Et si l'IA pouvait lire mes configs ?"
J'ai commencé par utiliser Claude Code (le CLI d'Anthropic) pour documenter du code. Puis j'ai réalisé que l'agent pouvait se connecter en SSH, lire des running configs, et les analyser.
J'ai créé un utilisateur dédié en lecture seule sur tous mes équipements :
- Switches Cisco (NX-OS, IOS, IOS-XE) :
showcommands uniquement - Firewalls Palo Alto (Panorama) : role
superreader - Stockage, serveurs : accès en lecture aux CLIs
Pas d'accès en écriture. Pas de configure terminal. Pas de modification possible. Lecture seule, audit seul.
Et là, tout a changé.
Résultat n°1 : Audit complet du parc switches, des dizaines de findings en une journée
Le premier vrai test a été un audit de sécurité sur l'ensemble de mes switches.
L'IA s'est connectée en SSH à chaque équipement, a récupéré la running config, et a analysé selon une grille standardisée :
- Chiffrement des mots de passe
- ACLs sur les lignes d'administration
- Protocoles non sécurisés actifs (HTTP server, Telnet, CDP)
- Spanning Tree protection (BPDU Guard, Root Guard)
- Ports inutilisés ouverts
- NTP, logging, bannières de connexion
- Firmware et CVE connues
Les findings critiques étaient des choses que je savais quelque part dans ma tête, mais que je n'avais jamais formalisées :
- Un switch avec le serveur HTTP encore actif
- Des lignes d'administration sans ACL sur un site distant
- Des firmwares avec des CVE connues non corrigées
Le rapport m'a forcé à les traiter. Documenter, c'est rendre visible.
Résultat n°2 : Documentation complète de l'infra, de zéro à un repo structuré
Avant l'IA, ma documentation était dispersée : des notes ici, des emails là, des configs sauvegardées manuellement, des schémas dans ma tête.
En quelques mois, j'ai constitué un repo Git unique avec une documentation structurée et générée depuis les configs réelles :
- Inventaire complet : chaque switch, chaque port, chaque VLAN
- Topologie réseau : schémas WAN en ASCII art
- Analyse par équipement : documentation détaillée de chaque config (core, distribution, edge, DMZ)
- Sécurité : tunnels VPN inventoriés, règles firewall documentées, politique d'accès
- Par site : chaque bureau distant a sa propre section
Chaque fichier a été généré par l'IA après lecture directe de la config en production, puis validé par moi. Ce n'est pas de la documentation théorique, c'est le reflet exact de ce qui tourne en prod.
Résultat n°3 : Audit stockage, diviser les findings par 3
Mon système de stockage (baie SAN, HA, iSCSI + CIFS) n'avait jamais été audité en profondeur depuis sa mise en service.
L'IA a analysé la configuration complète et a produit un rapport avec des dizaines de findings :
- Configuration haute disponibilité incomplète
- Alertes SNMP non routées
- Volumes sans politique de snapshot
- Comptes de service avec des droits excessifs
Après correction des points critiques, un second audit a divisé le nombre de findings par 3. Tous les restants : informatifs ou faible priorité.
Sans l'IA, cet audit n'aurait probablement jamais été fait. Pas par négligence, par manque de temps.
Résultat n°4 : Migration du monitoring vers une stack open source
Le monitoring est le domaine où l'IA a eu le plus d'impact structurel.
J'avais déjà une stack de monitoring complète, mais propriétaire. Le problème avec les solutions propriétaires, c'est que l'IA ne peut pas vraiment travailler avec : APIs fermées, documentation limitée, formats opaques. L'agent bute sur des interfaces qu'il ne peut ni lire ni automatiser.
Ça tombait bien. Je suis un expert des solutions open source depuis des années, et je cherchais une raison de migrer. L'IA m'a donné l'accélérateur qu'il me manquait.
En quelques semaines, j'ai déployé une stack 100% open source avec l'aide de l'IA :
- Prometheus : collecte de métriques (ICMP, SNMP switches/firewalls/stockage)
- Grafana : dashboards réseau, sécurité, stockage, compute
- Loki : agrégation de logs centralisés
- Wazuh SIEM : détection d'intrusion et compliance
- Alertes : latence, disques, CPU, tunnels VPN down, certificats expirants
Chaque composant a été installé, configuré, testé, documenté. Chaque nouvelle machine ajoutée à l'infrastructure suit maintenant une checklist obligatoire : hardening, fail2ban, agent SIEM, collecte de logs, métriques, dashboard.
Une machine non monitorée est une machine invisible. L'IA m'a aidé à systématiser ce principe, et l'open source lui a donné les moyens de le faire.
Ce que l'IA ne peut PAS faire
Après 3 mois d'utilisation intensive, voici les limites réelles. Et elles sont importantes.
Elle ne prend pas de décisions business
L'IA peut me dire qu'un firmware a des CVE. Elle ne peut pas décider si le risque de mise à jour en production (downtime sur des systèmes critiques) est acceptable un mardi à 14h. C'est mon job.
Elle ne remplace pas l'expérience
Quand elle analyse une config et signale un "problème", il faut du contexte humain pour savoir si c'est un vrai problème ou un choix architectural volontaire. Désactiver certaines fonctionnalités de sécurité avancées peut être un choix délibéré, pas un oubli. L'IA ne peut pas savoir ça sans qu'on le lui dise.
Elle ne gère pas les relations humaines
Négocier avec un fournisseur, convaincre une direction d'investir dans l'infrastructure, gérer une équipe sous pression, ça reste 100% humain.
Elle peut se tromper
Elle peut mal interpréter une config, confondre un artefact legacy avec un problème actif, ou proposer une commande qui ne fonctionne pas sur une version spécifique d'un OS réseau. La relecture humaine est non négociable.
Elle a besoin de guardrails
J'ai configuré des accès en lecture seule partout. Pas d'écriture, pas de modification. Si l'IA pouvait exécuter des commandes de configuration sur un switch en production, le risque serait inacceptable. La confiance se construit incrémentalement.
Le vrai changement : passer de réactif à proactif
Le plus grand impact de l'IA dans mes opérations n'est pas la vitesse. C'est le changement de posture.
Avant, je passais la majorité de mon temps en mode réactif : incidents, demandes, urgences. La documentation, les audits, l'optimisation, tout ça était perpétuellement "pour plus tard".
Maintenant, avec un agent IA qui peut lire, analyser et documenter en parallèle de mon travail quotidien, j'arrive enfin à faire ce travail de fond :
- Audits réguliers au lieu d'audits "quand j'ai le temps" (jamais)
- Documentation à jour au lieu de notes éparses
- Monitoring proactif au lieu de découvrir les problèmes quand ça tombe
- Décisions informées au lieu d'intuitions non documentées
Pour une petite équipe IT qui gère une infrastructure multi-sites dans un environnement exigeant, c'est un multiplicateur de force.
Comment commencer (guide pratique)
Si vous êtes IT manager, sysadmin, ou ingénieur infra et que vous voulez explorer cette approche, voici la méthode que je recommande :
1. Commencez par la lecture seule
Créez un utilisateur dédié avec des droits minimaux sur vos équipements. show commands uniquement sur les switches. Role read-only sur vos firewalls. SNMP read-only. Construisez la confiance avant d'élargir les accès.
2. Commencez par la documentation
C'est le cas d'usage le plus safe et le plus immédiatement utile. Faites analyser vos running configs et générez de la documentation structurée. Vous allez découvrir des choses que vous aviez oubliées.
3. Passez aux audits
Une fois la documentation en place, utilisez l'IA pour auditer systématiquement : sécurité, compliance, best practices constructeur. Formalisez ce que vous savez intuitivement.
4. Déployez du monitoring
Utilisez l'IA pour déployer et configurer une stack de monitoring. Prometheus, Grafana, Wazuh, les outils sont open source et matures. L'IA accélère énormément la phase de configuration et de tuning des alertes.
5. Gardez le contrôle
L'IA est un outil, pas un collègue autonome. Relisez tout. Validez tout. Versionnez tout dans Git. Si vous ne comprenez pas ce que l'IA propose, ne l'appliquez pas.
Les outils que j'utilise
Pour ceux qui veulent reproduire cette approche :
- Claude Code (Anthropic) : le CLI qui permet à l'IA de se connecter en SSH, lire des fichiers, exécuter des commandes. C'est le coeur du setup.
- Git (Gitea self-hosted) : tout est versionné. La documentation, les configs rédigées, les rapports d'audit.
- Prometheus + Grafana + Loki : monitoring open source, déployé sur des conteneurs Linux.
- Wazuh : SIEM open source pour la détection et la compliance.
Le tout tourne sur de l'infrastructure self-hosted. Pas de données dans le cloud, pas de dépendance SaaS pour les opérations critiques. C'est un choix.
Conclusion
En 3 mois, l'IA m'a permis de :
- Auditer l'ensemble de mon parc réseau et découvrir des findings critiques invisibles
- Documenter toute l'infrastructure depuis les configs réelles, dans un repo Git structuré
- Déployer une stack de monitoring complète (métriques, logs, SIEM, alertes)
- Auditer mon stockage et diviser les findings par 3
- Systématiser la sécurité avec des checklists obligatoires pour chaque nouvelle machine
Tout ça en continuant à gérer le quotidien d'une infrastructure multi-sites exigeante.
Si vous attendez que l'IA soit parfaite pour commencer, vous attendrez trop longtemps. Commencez petit, en lecture seule, sur un cas d'usage concret. Les résultats parlent d'eux-mêmes.