Un gel reproductible au bout d’une dizaine de minutes après l’allumage, des événements WHEA liés au bus PCI Express et un redémarrage matériel qui rétablit la stabilité : voici l’enquête, le diagnostic et la correction durable d’un cas réel.
Symptômes observés
- Le PC se fige exactement autour de la dixième minute après un démarrage à froid ; un hard‑reset permet ensuite une session stable pendant des heures.
- Dans l’Observateur d’événements, on voit d’abord un avertissement PCA file tracing session reached maximum size, suivi d’un événement critique 4502 émis par Windows RE.
- Après le gel et le redémarrage, des erreurs WHEA apparaissent (Event ID 16), ainsi qu’un code 0x10 sur le PCI Express Root Port identifié comme
VEN_8086 / DEV_460D— erreur matérielle non corrigeable.
Ce que disent les journaux
Les événements matériels Windows (WHEA) décrivent des anomalies détectées par le processeur ou par le contrôleur PCIe. Ici, ils ciblent systématiquement le triplet Bus 0 – Device 1 – Function 0, ce qui correspond au connecteur PCIe principal accueillant la carte graphique via un câble riser dans un boîtier mini‑ITX.
| Source / ID | Symptôme | Interprétation terrain |
|---|---|---|
| PCA / avertissement | file tracing session reached maximum size | Signal « bruit » sans lien causal : saturation d’une session de traces, pas de plantage direct. |
| Windows RE / 4502 | Événement critique corollaire du gel | Conséquence du blocage, pas la cause. |
| WHEA / 16 | Erreur matérielle sur un Root Port PCIe | Pointage vers le bus PCIe ; liaisons et intégrité du signal en cause. |
| PCIe / 0x10 | Erreur non corrigeable | Aggrave la piste matérielle : faux contact, câble ou carte mal insérés. |
Investigations et tests effectués
| Domaine | Actions | Résultat |
|---|---|---|
| Logiciel | Mise à jour GPU, chipset, WLAN et Windows (KB5035942). Réinstallation propre du pilote graphique avec DDU. Désinstallation complète d’un antivirus suspect. Clean Boot (démarrage minimal). | Aucun effet durable ; le gel persiste. |
| Matériel | Diagnostic mémoire Windows et vérification SMART : RAS. Températures nominales (pas de surchauffe). Réglages BIOS : désactivation XMP, Re‑Bar, IRST ; forçage du lien PCIe en Gen3. Démarrage en configuration minimale (un seul DIMM, aucun périphérique superflu). | Gel toujours présent ; suspicion concentrée sur le bus PCIe. |
| Observation journaux | Erreurs Metadata staging failed (0x80070490) récurrentes. | Informations secondaires, sans corrélation temporelle avec le gel. |
Hypothèse déterminante
Les erreurs WHEA visent toujours Bus 0 – Device 1 – Function 0. Dans une configuration mini‑ITX où la carte graphique est montée verticalement via un câble riser PCIe coudé à quatre‑vingt‑dix degrés, le poids du GPU crée un très léger bras de levier. Résultat : contrainte mécanique sur le connecteur et risque accru de faux contact. Dans cette hypothèse, un micro‑défaut d’insertion suffit à provoquer des erreurs de lien PCIe, parfois latentes puis fatales lorsqu’un état d’économie d’énergie ou un changement de puissance de lien survient.
Pourquoi cela survient souvent au bout d’une dizaine de minutes
Le timing peut faire penser à un job planifié, mais dans des cas comme celui‑ci, il coïncide souvent avec un changement d’état d’alimentation de la liaison PCIe :
- Passage en Link State Power Management (ASPM/L1.x) après une phase d’inactivité ;
- Modification de l’état de performance (P‑state/D‑state) du GPU ;
- Ré‑entraînement du lien PCIe (renégociation de vitesse/largeur) déclenchant des erreurs si l’intégrité du signal est fragile.
Un connecteur ou un riser à l’insertion imparfaite peut rester « à la limite » et ne basculer en erreur qu’au moment de ces transitions.
Correctifs appliqués et résultat
- Retrait du GPU et du riser, nettoyage des contacts, démarrage en iGPU : stabilité parfaite durant plusieurs jours, aucun WHEA.
- Remontage soigné du riser et du GPU, appui ferme jusqu’au clic mécanique, visserie uniformément serrée, carte graphique soutenue : plus aucune erreur WHEA ni gel sur plusieurs sessions.
Conclusion : la cause était un faux contact sur le chemin PCIe, très probablement un riser mal emboîté ou soumis à contrainte. Le logiciel n’était pas en cause.
Procédure pas‑à‑pas pour corriger un faux contact PCIe
- Sécurité : éteindre, couper l’alimentation, appuyer quelques secondes sur le bouton d’alim pour décharger, puis ouvrir le boîtier. Se relier à la masse (bracelet antistatique idéalement).
- Déposer la carte graphique : retirer les vis du bracket, déverrouiller le loquet du slot, extraire la carte en ligne droite.
- Déconnecter le riser côté carte mère et côté GPU.
- Nettoyer délicatement les contacts dorés de la carte et les connecteurs du riser à l’aide d’un chiffon non pelucheux légèrement imbibé d’alcool isopropylique. Laisser sécher.
- Inspecter à la loupe : languettes tordues, broches oxydées, gaine endommagée, pli trop serré sur le riser, détrompeurs abîmés.
- Ré‑emboîter le riser côté carte mère jusqu’au clic net ; vérifier l’alignement parfait.
- Réinstaller la carte graphique : appuyer de manière uniforme jusqu’au verrouillage. Remettre les vis du bracket sans forcer le châssis.
- Soutenir la carte : support réglable, entretoises, entretoile souple ou sangle selon le boîtier, afin d’annuler la flèche.
- Ranger le câble : aucun rayon de courbure excessif, pas de torsion, pas de contrainte transmise aux connecteurs.
- Tester : démarrer, laisser au repos une quinzaine de minutes, puis exercer une charge GPU et surveiller l’Observateur d’événements.
Vérifications rapides avant démontage complet
- Dans les options d’alimentation Windows, mettre État d’alimentation du lien PCI Express sur Désactivé pour voir si le gel se déplace ou disparaît (piste ASPM fragile).
- Forcer temporairement le lien PCIe en Gen 3 dans l’UEFI lorsque la carte et le riser sont certifiés Gen 4, juste pour isoler un problème d’intégrité à haute vitesse.
- Démarrer sans carte graphique dédiée (iGPU). Si le problème disparaît durablement, la chaîne GPU ↔ riser ↔ slot est fortement mise en cause.
- Vérifier la visserie du bracket : un serrage en biais peut désaligner la carte d’une fraction de millimètre.
- Examiner les connecteurs d’alimentation PCIe du GPU : broches enfoncées, jeu latéral, adaptateurs douteux.
Comment confirmer le port incriminé
Deux approches complémentaires : l’Observateur d’événements et PowerShell.
Avec l’Observateur d’événements
- Ouvrir Observateur d’événements → Journaux Windows → Système.
- Filtrer par Source : Microsoft‑Windows‑WHEA‑Logger.
- Repérer les événements 16 et vérifier les champs Bus, Device et Function dans les détails.
Avec PowerShell
# Lister les événements WHEA récents
Get-WinEvent -FilterHashtable @{
LogName = 'System';
ProviderName = 'Microsoft-Windows-WHEA-Logger';
StartTime = (Get-Date).AddDays(-7)
} | Select-Object TimeCreated, Id, LevelDisplayName, Message | Format-List
# Inventorier les Root Ports et périphériques PCIe
Get-PnpDevice -Class 'System' | Where-Object {
$_.FriendlyName -like '*Root Port*'
} | Sort-Object FriendlyName | Format-Table -AutoSize
# Vérifier l'état du Link State Power Management
powercfg /query SCHEME_CURRENT SUB_PCIEXPRESS
Analyse causale
Pourquoi un hard‑reset rend‑il la session suivante stable ? Une fois la machine légèrement réchauffée et la carte remise en contrainte, le contact peut devenir suffisant pour que les transitions d’alimentation n’entraînent plus d’erreur de lien. Ce phénomène « mécanique » trompeur conduit fréquemment à suspecter le logiciel, jusqu’à l’évidence fournie par WHEA : l’erreur se déclenche sur un Root Port précis.
Solution retenue
Un simple ré‑emboîtement correct du câble riser PCIe et de la carte graphique a éliminé le gel. Le problème était matériel, lié à une connexion PCIe intermittente, et non à Windows, ni aux pilotes, ni à une mise à jour cumulative.
Recommandations complémentaires
- Dans les boîtiers compacts ou verticalisés : utiliser un support de carte graphique pour soulager le riser et le slot, et éviter les torsions du câble.
- Choisir un riser de qualité, certifié Gen appropriée (Gen 3/Gen 4), blindage sérieux, connecteurs rigides ; fuir les nappes trop souples ou non certifiées.
- Après tout transport ou changement de position, vérifier l’insertion du riser et du GPU.
- En cas de gel mystérieux, commencer par lire WHEA : un bus ou un port récurrent dans les logs est un indice fort d’un composant mal connecté ou défaillant.
- Procéder en configuration minimale, puis réinsérer les éléments un à un pour isoler le maillon en faute.
- Reporter les mises à jour UEFI/firmware tant que la cause matérielle n’est pas écartée ; mettre à jour ensuite seulement si utile.
Autres causes qui peuvent mimer un faux contact PCIe
| Cause possible | Comment la distinguer | Contre‑mesure |
|---|---|---|
| Alimentation marginale du GPU | Artefacts sous charge, redémarrages aléatoires, WHEA variables | Vérifier câbles PCIe séparés, test avec autre PSU |
| Overclocking/undervolt agressif | Stabilité fluctuante, plantages 3D | Revenir aux fréquences/volts d’origine |
| Riser Gen inadaptée | OK en Gen 3, erreurs en Gen 4 | Forcer Gen 3 pour tester, remplacer par riser certifié |
| Slot PCIe de la carte mère abîmé | Persiste sans riser, disparaît sur un autre slot | Inspection et prise en charge SAV si possible |
| Carte graphique défectueuse | Erreurs WHEA même carte testée sur une autre machine | Diagnostic croisé, RMA |
Exemple de plan de test reproductible
- Démarrer à froid, laisser au repos un quart d’heure et noter le comportement.
- Effectuer un test de charge GPU court (jeu, bench) puis revenir au repos ; observer les événements.
- Reproduire avec iGPU uniquement ; si la stabilité revient, ne réinsérer que le GPU sans riser lorsque c’est possible, puis avec riser.
- Répéter en forçant la vitesse de lien (Gen 3 vs Gen 4) pour cerner le seuil d’instabilité.
Bonnes pratiques de montage avec riser
- Respecter un rayon de courbure large et progressif ; éviter les coudes « cassés » près des connecteurs.
- Éviter toute contrainte permanente : si, une fois le panneau fermé, le riser pousse le GPU ou la carte mère, revoir le chemin.
- Visser le bracket en maintenant la carte parfaitement perpendiculaire au slot ; ne pas compenser un mauvais alignement en forçant la vis.
- Préférer des risers courts et rigides aux nappes longues : moins de pertes, meilleure tenue.
Foire aux questions
Faut‑il remplacer le riser à la moindre alerte ?
Pas nécessairement. Commencez par un démontage/nettoyage/remontage. Si les erreurs reviennent, testez un riser de prêt ou certifié meilleur.
Le passage en Gen 3 dégrade‑t‑il beaucoup les performances ?
Pour beaucoup d’usages, l’écart est faible ; cela suffit pour confirmer un problème d’intégrité du signal et vous laisser le temps de vous procurer un riser Gen 4 fiable.
Les messages PCA et Windows RE sont‑ils la cause ?
Non : ils accompagnent le gel mais ne l’initient pas. Les événements WHEA pointent, eux, vers la cause matérielle.
Pourquoi la machine reste‑t‑elle stable après le redémarrage ?
La remise en place mécanique, un alignement légèrement différent, ou des conditions électriques un peu modifiées peuvent suffire à stabiliser temporairement la liaison jusqu’au prochain démarrage à froid.
Récapitulatif
Dans un boîtier compact avec carte graphique déportée, des gels mystérieux apparus au bout de quelques minutes ont été résolus par un ré‑emboîtement ferme et soigné du câble riser PCIe et du GPU. Les journaux WHEA — en identifiant le Root Port fautif — ont été l’élément décisif du diagnostic. Si vous rencontrez un scénario similaire, commencez par inspecter la chaîne PCIe, puis validez votre correctif par plusieurs sessions complètes sans la moindre erreur WHEA.
Mémo express
- Gels récurrents après quelques minutes + WHEA sur un Root Port : suspectez le chemin PCIe.
- Test iGPU : si RAS, ciblez le riser et le slot.
- Nettoyer, ré‑emboîter, soutenir, puis surveiller les événements pendant plusieurs jours.

