|
Un article de Wikipedia.y-project.com.Le concept de tolérance aux pannes se réfère à une méthode de conception d'un système de telle façon qu'il puisse continuer à fonctionner, potentiellement de manière réduite, au lieu de tomber complètement en panne dès que l'un de ses composants ne fonctionne plus correctement. Il est à noter la différence entre :
[] Critères de tolérance aux pannesAucune machine, y compris en électronique et en informatique, n'est fiable à 100 %, ni inusable. Le fabricant, ou un laboratoire d'essais indépendant, définit, après des tests traduisant une utilisation plus ou moins sévère, un critère de tolérance aux pannes de ladite machine. Ce critère s'exprime soit en un nombre moyen d'heures pour une panne (en anglais MTBF, ou mean time between failure), soit en un nombre d'heures de fonctionnement avant la fin de vie de la machine. On lui associe en général un autre paramètre, le MTTR (mean time to repair), le temps moyen de réparation. La combinaison des deux permet d'établir le taux de disponibilité prévisible. La disponibilité correspond à <math>\frac{MTBF + MTTR}</math>. [] Degrés de gravité des défaillances
[] Classification de la tolérance aux pannesLa classification des systèmes en terme de tolérance aux pannes conduit communément à 7 classes de non prise en compte (système disponible 90% du temps, et donc indisponible plus d'un mois par an) à ultra disponible (disponible 99,99999% du temps et donc indisponible seulement 3 secondes par an) : ces différentes classes correspondent au nombre de 9 dans le pourcentage de temps durant lequel les systèmes de la classe sont disponibles.
NB : Une année dure 8760 heures, soit 525.600 minutes. [] Systèmes tolérants aux pannesUn exemple hors de l'informatique est un véhicule conçu pour être toujours conduisible même si l'un des pneus est crevé. [] Les méthodes
[] DésavantagesLes avantages d'un système tolérant aux pannes sont évidentes, mais qu'en est-il des désavantages ?
[] Quand utiliser un système de tolérance aux pannes ?Fournir un système tolérant aux pannes pour chaque composant n'est généralement pas effectué. Dans de tels cas, le critère suivi peut être utilisé pour déterminer lequel des composants doit être tolérant aux pannes :
Un exemple d'un composant qui passe tous les tests est le système d'immobilisation des passagers. Nous ne pensons pas en premier lieu au système d'immobilisation des passagers qu'est la gravité. Si la voiture fait des tonneaux ou est sévèrement freinées à plusieurs G, alors la méthode première du système peut ne pas fonctionner. Immobiliser les passagers pendant un tel accident est critique pour leur sécurité, alors on passe le premier test. Les accidents qui provoquent l'éjection de leurs passagers étaient courant avant les ceintures de sécurité, alors on passe le second test. Le coût d'un système redondant de méthode de blocage des passagers est peu élevé, économiquement et en terme de poids et d'espace, alors on passe le troisième test. Ensuite, ajouter des ceintures de sécurité à toutes les voitures est une excellente idée. D'autres systèmes supplémentaires d'immobilisation des passagers tels les airbags, sont plus chers et pourraient ne pas passer ce test. C'est la raison pour laquelle les véhicules peu cher n'ont pas autant d'airbags que les autres. [] ExemplesLa tolérance aux pannes matérielle peut parfois nécessiter que les parties défaillantes soient retirées puis remplacées par les nouvelles pendant que le système reste opérationnel. Un tel système implémenté avec une simple redondance est appelé single point tolerant (à tolérance simple), et représente une vaste majorité de systèmes tolérants aux pannes. Dans de tels systèmes le taux d'échecs moyens entre les pannes doit être suffisament long pour que les administrateurs aient le temps de réparer l'ancien avant que la sauvegarde ne tombe en panne à son tour. Plus la durée entre les pannes est longue, et plus c'est facile, mais ce n'est pas indispensable dans un système de tolérance aux pannes. La tolérance aux pannes fonctionne particulièrement bien dans les systèmes informatiques. Tandem Computers ont basés leur business tout entier sur de telles machines, single point tolerant, pour créer leurs systèmes NonStop avec un uptime (temps écoulé depuis le dernier démarrage) mesuré en dizaine d'années. [] Remarque sur la notion de tolérance aux pannesIl est à noter qu'il existe une différence entre la tolérance aux pannes (système qui fonctionne même lorsqu'une défaillance apparaît) et les systèmes qui ont rarement de problèmes. Par exemple, la crossbar de Western Electric a un taux de défaillance de deux heures pour quarante ans, et donc hautement résistant aux pannes. Mais lorsqu'une panne apparaît, ils s'arrêtent tout de même, et ne sont donc pas véritablement tolérants aux pannes. [] Fiabilité de fonctionnement (ou dependability)La fiabilité de fonctionnement est la possibilité de se fier aux services délivrés. [] L'origine des pannesL'origine des erreurs à prendre en compte peut varier :
[] État d'erreur interneUne erreur interne, provoquée par les circonstances précédentes, reste interne tant qu'elle n'a pas eu de conséquences sur le fonctionnement externe du système. Cet erreur peut rester interne longtemps (latence de la faute) mais conduit à court ou long terme à un état d'erreur externe par une défaillance ou panne. [] État d'erreur externeL'état d'erreur externe se manisfeste par des défaillances, des pannes (failures) au niveau du service rendu d'une faute. Le système est en panne si suite à l'un des phénomènes précédents il ne respecte pas l'une de ses spécifications. En général, seules sont visibles les états d'erreurs externes, comment repérer le problème qui a conduit à la défaillance ? [] Évitement des pannes (Fault avoidance)L'évitement des pannes est l'ensemble des moyens permettant, en amont, d'éviter que le système ne tombe en panne. Cela passe notamment par :
[] Voir aussiDernierMirror La source est wikipedia http://fr.wikipedia.org/wiki/ Tolérance aux pannes |