Résoudre la perte intermittente d’appartenance au domaine sur Windows Server 2019 virtualisé (VMware)

Vous perdez régulièrement l’accès au domaine AD depuis une VM Windows Server 2019 exécutée dans vSphere ? Cette fiche pas‑à‑pas explique comment diagnostiquer la panne « le domaine n’est pas disponible » et éradiquer définitivement la cause, qu’elle soit réseau, VMware Tools, DNS ou canal sécurisé.

Sommaire

Vue d’ensemble du problème

  • Lors d’une connexion interactive, le message d’erreur affiche : « We can’t sign you in with this credential because your domain isn’t available… ».
  • Aucun autre serveur ni poste du même réseau ne rencontre le symptôme.
  • Un simple redémarrage de la VM suffit à rétablir l’authentification… jusqu’à la prochaine coupure.
  • Un rapide contrôle montre pourtant un horodatage correct et une résolution DNS apparemment saine.

Analyse des causes possibles

PisteVérifications clésRésultat attendu si problème
Perte de connectivité réseau transitoireping continu vers chaque DC, pathping, journaux ESXi/VDSPaquets perdus, latence fluctuante
DNS mal résolu au moment critiquenslookup dc1.contoso.local, ipconfig /displaydnsÉchecs sporadiques de résolution
Canal sécurisé machine ↔ DC rompuTest-ComputerSecureChannel –Verbose, nltest /sc_verifyRetour « False » ou erreur 5
Mot de passe du compte ordinateur expirénet user <Nom_machine$> /domainDate pwdLastSet trop ancienne
Service Netlogon arrêté ou instableObservateur d’événements Système : ID 5719/5722Échecs de connexion au DC
Version VMware Tools / pilote vmxnet3 obsolèteComparaison avec dernière build ESXiTimeouts réseau, warnings driver
NIC en mode économie d’énergieGestionnaire de périphériques → Onglet AlimentationDésactivation du lien logique aléatoire
Surcharge ponctuelle des contrôleurs de domainedcdiag /v, supervision CPU/RAM DCPics corrélés aux heures de blocage
Snapshots, reverts ou clones mal maîtrisésHistorique vSphere, traces sysprepRecréation répétée du canal sécurisé

Pourquoi le canal sécurisé est souvent coupable

Chaque machine membre possède un mot de passe d’ordinateur renouvelé toutes les 30 jours. Si la VM reste arrêtée plus longtemps, ou si un snapshot est restauré après le changement de mot de passe côté DC, les tickets Kerberos ne sont plus valides ; Netlogon rejette alors la demande de session. Un simple redémarrage force parfois la renégociation, d’où l’illusion que « ça revient tout seul ». C’est pourtant un signal fort qu’il faut réparer le canal sécurisé plutôt que de multiplier les redémarrages.

Plan de remédiation pas‑à‑pas

1. Vérifier et réparer immédiatement le canal sécurisé

# Diagnostic en lecture seule
Test-ComputerSecureChannel -Verbose

# Réparation automatique

Test-ComputerSecureChannel -Repair -Verbose

# ou

nltest /sc\_reset\:CONTOSO 

Une réparation réussie restaure instantanément l’accès au domaine. Si elle échoue, retirez provisoirement la machine du domaine, redémarrez, puis rejoignez‑le à nouveau.

2. Corréler les journaux d’événements

  • Système : ID 5719, 5783 (Netlogon), 40960/40961 (LSA) indiquent un problème d’authentification ou de localisation de DC.
  • Sécurité : échecs Kerberos 0xC000006D, 0xC000018B confirment la négociation ratée.
  • Application : ID 1014 DNS Client Events révèle des temporisations de résolution.

3. Surveiller la latence réseau en continu

Exécutez ping -t vers chacun des contrôleurs de domaine et exportez le résultat dans un fichier CSV. Un simple graphique mettra en évidence des pics de latence ou des pertes de paquets au moment précis où Netlogon déclenche l’erreur 5719.

4. Stabiliser la couche virtuelle

  • Mettez à jour VMware Tools et le pilote vmxnet3 à la version recommandée pour votre hôte ESXi.
  • Désactivez toute option d’économie d’énergie (Energy-Efficient Ethernet, Wake‑on‑LAN) dans les propriétés avancées de l’adaptateur.
  • Vérifiez que l’ordre de démarrage réseau de la VM référence en premier la carte connectée au VLAN corporate.
  • Contrôlez la MTU du vSwitch : des trames jumbo non supportées peuvent fragmenter les paquets Kerberos (UDP 88).

5. Sécuriser et tracer la synchronisation temporelle

# Forcer une source unique et fiable, ici le DC principal
w32tm /config /manualpeerlist:"dc1.contoso.local 0x8" /syncfromflags:manual /reliable:no /update
# Purger puis resynchroniser
w32tm /resync /force
# Exporter l'état détaillé
w32tm /query /status /verbose

Un décalage supérieur à 5 minutes entre la VM et le DC invalide immédiatement tous les tickets Kerberos. Surveillez la dérive horaire et activez le verrouillage de fréquence NTP (slew mode) pour éviter les corrections brusques.

6. Auditer la santé des contrôleurs de domaine

dcdiag /e /c /v /f:C:\Temp\dcdiag_full.txt
repadmin /replsummary
repadmin /queue

Une réplication AD en erreur ou un contrôleur saturé allonge les temps de réponse LDAP : Netlogon peut alors déclarer le DC indisponible, même si les paquets ICMP passent.

7. Mettre en place des alertes proactives

Un script PowerShell planifié toutes les 15 minutes peut exécuter Test-ComputerSecureChannel et envoyer une alerte e‑mail ou Telegram lorsqu’il retourne False. Les solutions de supervision comme Zabbix, PRTG ou Centreon disposent déjà de modèles d’écoute des ID 5719/5722 Netlogon.

Correctifs de fond

Cause confirméeCorrectif définitif
Mot de passe du compte ordinateur expiréConservez la valeur par défaut « 30 jours » de la stratégie Domain member: Maximum machine account password age. Évitez de maintenir la VM éteinte plus d’un mois ou recyclez le mot de passe manuellement avant l’arrêt prolongé.
Service Netlogon instableAjoutez une dépendance au service LanmanWorkstation afin que Netlogon démarre après l’établissement du réseau, ou créez un déclencheur de redémarrage automatique lorsqu’il passe à l’état STOPPED.
VLAN ou trunk mal configuréUniformisez les paramètres de port sur tous les commutateurs physiques ; désactivez STP PortFast si le port hébergeant l’hôte ESXi est déjà protégé contre les boucles.
Serveur DNS externe défini en tertiaireSupprimez toute référence à 8.8.8.8 ou autres DNS publics sur la carte réseau de la VM ; ne conservez que les IP des DC internes.
Snapshots restaurés trop anciensRéduisez la durée de vie des snapshots à 72 h maximum ; pour les clones, exécutez sysprep /generalize afin de générer un nouveau SID de machine.

Bonnes pratiques pour prévenir toute récidive

  • Documentation : notez systématiquement la date de création des snapshots et prévoyez leur suppression dans votre runbook.
  • Seuils de supervision : configurez des alertes dès 5 % de paquets perdus ou 200 ms de latence moyenne vers les DC.
  • Haute disponibilité DC : déployez au moins deux contrôleurs sur des hôtes VMware différents ; désactivez l’affinité DRS pour ne pas les regrouper.
  • Sauvegarde de l’état système : programmez wbadmin start systemstatebackup chaque semaine afin de pouvoir restaurer rapidement un DC.
  • Tests périodiques : insérez une tâche mensuelle d’exécution de Test-ComputerSecureChannel dans vos job PowerShell DSC ou Ansible.

Ressources complémentaires utiles

  • KB5021131 — NLA fails due to secure channel issues (mise à jour 2023).
  • Microsoft Docs — Secure Channel Broken – How to troubleshoot.
  • Livre blanc VMware — Windows Timekeeping in Virtual Machines.

Conclusion

Dans l’immense majorité des cas, la perte intermittente d’appartenance au domaine est liée à un canal sécurisé cassé ou à une fragilité réseau masquée. En appliquant la matrice de vérification puis le plan de remédiation détaillé ci‑dessus, vous éliminerez durablement les messages « domain not available » et restaurerez une authentification AD fiable pour vos serveurs Windows Server 2019 virtualisés.

Sommaire