La fréquence des pannes et le temps de récupération du réseau sont deux mesures cruciales utilisées pour évaluer la fiabilité et les performances du réseau. Ils ne sont pas mesurés comme une valeur combinée unique, mais plutôt comme des indicateurs distincts.
* Fréquence de défaillance : Cette métrique mesure la fréquence à laquelle un réseau subit des pannes. Elle peut s'exprimer de plusieurs manières :
* Temps moyen entre les pannes (MTBF) : Le temps moyen entre des pannes successives. Un MTBF plus élevé indique une plus grande fiabilité. Il est généralement exprimé en heures ou en jours.
* Échecs par an/mois/semaine : Une mesure plus simple et directe du nombre de pannes qui se produisent au cours d’une période donnée.
* Taux d'échec : Souvent exprimé en échecs par 1 000 heures de fonctionnement ou en une mesure similaire.
* Temps de récupération du réseau : Cette métrique mesure le temps nécessaire au réseau pour revenir à un état pleinement opérationnel après une panne. Cela inclut le temps nécessaire pour identifier la panne, mettre en œuvre une solution (par exemple, réacheminer le trafic, redémarrer un appareil) et vérifier que le réseau fonctionne correctement. Elle se mesure généralement en minutes ou en heures. Parfois, il est décomposé en sous-composants :
* Temps moyen de détection (MTTD) : Le temps qu'il faut pour découvrir qu'une panne s'est produite.
* Délai moyen de réparation (MTTR) : Le temps nécessaire pour résoudre le problème une fois qu'il a été détecté.
* Temps moyen de restauration (MTTR) : Semblable au MTTR, mais se concentre souvent sur la restauration du service aux utilisateurs finaux.
En résumé, la fréquence des pannes vous indique *à quelle fréquence* les problèmes surviennent, tandis que le temps de récupération du réseau vous indique *combien de temps* il faut pour les résoudre. Les deux sont essentiels pour une compréhension complète de la fiabilité du réseau. Ils sont souvent suivis et analysés ensemble pour identifier les domaines à améliorer dans la conception, la maintenance et la réponse aux incidents du réseau.
|