Plan de reprise d'activité
Gestion de pannes, ITIL C05- Semestre 1 Bloc 1 © 2022 Francois Kieffer. Ajouter le notions de temps de références (mtbf, etc. ..) différence incident/problème
ajouter matrice incidents 1
Abstract Gestion de pannes contexte et enjeux définitions : demande, incident, problème, ticket, impact, urgence, indicateurs de performance PRA, PCA de base gestion de panne analyse : keep it simple stupid exemples de symptômes exemples d'outils Bonnes pratiques exemples PRA PCA
2
Contexte Votre ESN vous propose un poste dans le service de hotline pour : Répondre aux appels des clients. Un client, L'Atelier, a déposé une demande d'assistance. fr : https://www.youtube.com/watch?v=pMf8DhEea1w en : https://www.youtube.com/watch?v=pQHX-SjgQvQ 3
Contexte : ça commence … Allo ? - Tiens, t'as vu ? Interruption : changement de contexte Jusqu'à 15' pour reprendre l'activité = temps perdu Dis, tu sais pourquoi ? L'expert est plus souvent interrompu Manque de partage de connaissances Quoi encore ? Perte de motivation, agressivité Perte des capacités de réflexion, blocage du projet Démission ? Allo Houston ? nous avons un problème fr : https://www.youtube.com/watch?v=pMf8DhEea1w en : https://www.youtube.com/watch?v=pQHX-SjgQvQ 4 Les 3 coûts cachés des interruptions quotidiennes Le premier de ces coûts - et le plus évident - est le changement de contexte : à chaque fois qu’un collaborateur est interrompu dans son travail, il perd son contexte de travail, prend le temps de répondre à son interlocuteur puis doit se replonger dans ses tâches. Or, une fois que notre état d’extrême concentration et de productivité a été interrompu - également défini sous la notion de Flow -, il nous faut parfois jusqu’à 15 minutes pour se retrouver dans un état similaire. Par ailleurs, si l’on observe ce phénomène d’interruptions du travail au sein d'une équipe, on remarque que le collaborateur interrompu est souvent le même, “celui qui sait”, quel que soit l’objet de la demande. Le manque de partage de connaissances représente un coût important pour l’entreprise. Outre le fait que cette personne sur sollicitée est dans l’incapacité de faire avancer ses tâches, ce mode de fonctionnement l’enferme dans une position de sachant. Il est le seul à savoir et aucun autre membre de l’équipe ne pourra le remplacer. Il s’agit donc de trouver un moyen de briser ce cercle vicieux. Partager la connaissance au sein d’une équipe, améliorer sans cesse la connaissance individuelle et collective est la garantie d’un risque moindre pour l’entreprise et la possibilité donnée à chacun de progresser. En cas de problème, si la connaissance est détenue par plusieurs collaborateurs, l’entreprise sera capable de réagir vite avec des idées claires et originales et d’aboutir à une bonne solution. La conséquence immédiate des interruptions permanentes et de la concentration de connaissances, c’est la perte de motivation. Comment est-ce que je peux me réaliser si je ne progresse pas ? Comment est-ce que je peux faire avancer mes projets si je suis sans cesse interrompu dans mon travail ? Jusqu’au jour où ce collaborateur quitte l’entreprise pour mieux s'accomplir ailleurs.
Contexte : Enjeux Les appels émanent de différentes personnes situées dans différents locaux utilisant un matériel varié
Question : Que doit-on savoir pour mieux gérer le parc ? limiter les coûts processus de gestion des incidents mémoriser les solutions pour accélérer leur résolution fr : https://www.youtube.com/watch?v=pMf8DhEea1w en : https://www.youtube.com/watch?v=pQHX-SjgQvQ 5 Les 3 coûts cachés des interruptions quotidiennes Le changement de contexte : à chaque interruption, on perd son contexte de travail, il faut parfois jusqu’à 15 minutes pour retrouver sa concentration. Le manque de partage de connaissances au sein d'une équipe : le collaborateur interrompu est souvent le même. Ceci représente un coût important pour l’entreprise. La personne sur sollicitée est dans l’incapacité de faire avancer ses tâches, ce mode de fonctionnement l’enferme dans une position de sachant. Il est le seul à savoir et aucun autre membre de l’équipe ne pourra le remplacer. Partager la connaissance au sein d’une équipe, améliorer sans cesse la connaissance individuelle et collective est la garantie d’un risque moindre et la possibilité de chacun de progresser. En cas de problème, si la connaissance est détenue par plusieurs collaborateurs, l’entreprise sera capable de réagir vite avec des idées claires et originales et d’aboutir à une bonne solution. Perte de motivation, conséquence immédiate des interruptions permanentes et de la concentration de connaissances. Comment peut-on se réaliser si on ne progresse pas ? Comment peut-on faire avancer les projets si on est sans cesse interrompu dans le travail ? Pour limiter au maximum ces coûts cachés, il est essentiel de mettre en place un processus de gestion d’incidents. Ceci afin de réduire les interruptions et de préserver la concentration sur les tâches à valeur ajoutée. Ensuite mettre en place un système, soit par des outils ou des pratiques, qui permet de mémoriser les incidents passés afin d’accélérer la résolution des incidents en cours.
Contexte global Entreprise, organisation importante de nombreux utilisateurs, de nombreux postes et matériels un taux de panne statistique supérieur à 0 Gérer les incidents ? les demandes des utilisateurs ? Pourquoi faire ? contenter les utilisateurs ? Comment faire ? avec un carnet, par téléphone ? Qui va le faire ? fr : https://www.youtube.com/watch?v=pMf8DhEea1w en : https://www.youtube.com/watch?v=pQHX-SjgQvQ 6
Gestion de pannes
Pourquoi faire
Enjeux financiers et fonctionnels ($, légitimité, transparence)
Accélérer la réaction aux incidents (formation, plans, normalisation)
Gestion de pannes : définitions et vocabulaire
Gestion de pannes : Le plus simple
analyse,
exemples et exercice
Bonnes pratiques
Éviter les pannes, normalisation, méthodes
Conclusion, Et ensuite ?
7
Connaître son parc Inventaire matériel, soft, licences, contrats Faire vivre le parc fin des contrat, échéance garanties, obsolescence entretien Gestion des pannes Coût d'un arrêt = ? Dépend de paramètres (durée, coût, rentabilité, criticité) La triade CIA Confidentialité, Intégrité, Disponibilité Cékoi ? 8 Intégration numérique en croissance : l'informatique, la numérisation pénètre tous les secteurs de communication mais aussi du traitement et de la synthèse de l'information. On ne peut plus se passer de l'informatique dans une organisation (à tort ou à raison ?)
Enjeux financiers : Les pannes (arrêt, erreurs, ralentissements, …) informatiques ont donc un impact de + en + grand sur l'organisation et sur le coût des traitements. En cas de panne, le traitement des pannes peut être long avant reprise de l'activité, d'où la profondeur de l'analyse, de l'investissement de la réparation modulés en fonction de l'impact et de l'urgence de l'incident pour ne pas dépasser le coût de la panne [schéma optimum]
Selon le Rapport sur le coût d’une violation de données d’IBM, le coût total moyen d’une violation de données a atteint le nouveau record de 4,45 millions de dollars en 2023. Ce chiffre représente une augmentation de 15,3 % par rapport aux 3,86 millions de dollars évoqués dans le rapport de 2020. (https://www.ibm.com/fr-fr/topics/information-security#:~:text=Les%20menaces%20peuvent%20%C3%A9galement%20%C3%AAtre,'information%20d'une%20entreprise.)
Le plus simple : prévoir avec la normalisation du parc et les bonnes pratiques ISO : les points à contrôler, les conditions à respecter dans les installations, les traitements, les procédures de contrôle et de gestion ITIL : Les bonnes pratiques pour éviter et anticiper les incidents, minimiser leur conséquences.
Croissance de l'intégration numérique Enjeux financiers : Coût d'un arrêt = ? Dépend de paramètres (durée, coût, rentabilité, criticité) investigation : pas trop approfondie => coût investissement : réparation/dev/débogage complexité de la solution La triade CIA Confidentialité, Intégrité, Disponibilité Pourquoi faire ? - enjeux 9 Intégration numérique en croissance : l'informatique, la numérisation pénètre tous les secteurs de communication mais aussi du traitement et de la synthèse de l'information. On ne peut plus se passer de l'informatique dans une organisation (à tort ou à raison ?)
Enjeux financiers : Les pannes (arrêt, erreurs, ralentissements, …) informatiques ont donc un impact de + en + grand sur l'organisation et sur le coût des traitements. En cas de panne, le traitement des pannes peut être long avant reprise de l'activité, d'où la profondeur de l'analyse, de l'investissement de la réparation modulés en fonction de l'impact et de l'urgence de l'incident pour ne pas dépasser le coût de la panne [schéma optimum]
Selon le Rapport sur le coût d’une violation de données d’IBM, le coût total moyen d’une violation de données a atteint le nouveau record de 4,45 millions de dollars en 2023. Ce chiffre représente une augmentation de 15,3 % par rapport aux 3,86 millions de dollars évoqués dans le rapport de 2020. (https://www.ibm.com/fr-fr/topics/information-security#:~:text=Les%20menaces%20peuvent%20%C3%A9galement%20%C3%AAtre,'information%20d'une%20entreprise.)
Le plus simple : prévoir avec la normalisation du parc et les bonnes pratiques ISO : les points à contrôler, les conditions à respecter dans les installations, les traitements, les procédures de contrôle et de gestion ITIL : Les bonnes pratiques pour éviter et anticiper les incidents, minimiser leur conséquences.
Normalisation & bonnes pratiques Standardiser l'infrastructure, les postes, les pièces (Taylor) Normaliser les pratiques : ISO, ITIL Démarche EBIOS Expression des besoins et identification des objectifs de sécurité Objectifs : Rechercher de la qualité de service Réduire le nombre d'incidents ; Diminuer les temps de résolution ; Mieux gérer les changements ; Améliorer la disponibilité ; Maîtriser les coûts ; Augmenter la productivité des employés, du service helpdesk Démarches de recherche de qualité (ITIL) 10 Le plus simple : prévoir avec la normalisation du parc et les bonnes pratiques ISO : les points à contrôler, les conditions à respecter dans les installations, les traitements, les procédures de contrôle et de gestion ITIL : Les bonnes pratiques pour éviter et anticiper les incidents, minimiser leur conséquences.
Objectifs de ITIL et de la normalisation des processus et de l'infrastructure
Comment faire ? ⇒ prévoir : contrôler, documenter, superviser Comment ? FAQ, base de connaissances, formation des utilisateurs Trouver la panne ? investigation : du plus probable, facile à réparer au + compliqué faire appel à un spécialiste ? réparer ou remplacer ?
11
Définitions : Demande (ITIL) Demande = Sollicitation exprimant un besoin d'un utilisateur, non lié à une interruption de service Tâche ou réponse planifiée Matériel, logiciel ou service réseau Détecté par l'utilisateur
12 Exemples incidents : souris, clavier en panne, mal configurés bug logiciel non accès à une ressource (quel que soit le mode d'accès : NFS, http, menu déroulant/recherche vide, etc…) lenteur du système : poste local, réponse du serveur manque toner, imprimante bloquée par d'autres docs, bourrage.
Conséquences service bloqué service fonctionnel mais partiel service ralenti
Définitions : incident (ITIL) Incident = Événement isolé qui perturbe le fonctionnement normal du système d'information Non planifié Matériel ou logiciel, équipement réseau Conséquences : Statuts : nominal ou normal => dégradé ou interrompu Arrêt, dégradation ou ralentissement du service Détecté par l'utilisateur un outil de contrôle du service : supervision
13 Exemples incidents : souris, clavier en panne, mal configurés bug logiciel non accès à une ressource (quel que soit le mode d'accès : NFS, http, menu déroulant/recherche vide, etc…) lenteur du système : poste local, réponse du serveur manque toner, imprimante bloquée par d'autres docs, bourrage.
Conséquences service bloqué service fonctionnel mais partiel service ralenti
Dico agreg : Incident : un incident est une interruption non planifiée d’un service ou la réduction de la qualité d’un service (le service normal n’est plus fourni) ou la défaillance d’un élément de configuration (CI) n’ayant pas encore impacté le service. Le temps d'interruption augmente MTTR (Mean Time To Repair" = temps moyen de réparation) et diminue le MTTF (Mean Time To Failure = temps moyen jusqu'à la défaillance = délai moyen avant la panne). Voir haute disponibilité Exemple de critères, en référence à la norme ITIL, qui permettent au centre de service (SPOC) de définir la priorité d’un incident : l’impact sur l’activité, se mesure au niveau du nombre de personnes ou de systèmes affectés par l’incident. Cet impact est évalué par le centre de service ; l’urgence à mettre en place une solution définitive ou de contournement pour l’utilisateur. Un incident est un événement isolé et la gestion de cet incident doit permettre de restaurer le fonctionnement normal du service (contournement ou résolution définitive). Problème : Si un incident se répète', ou que plusieurs incidents résultent de la même cause, il est qualifié comme un problème. La gestion d’un problème consiste cette fois-ci à traiter la cause de l’incident pour que celui-ci ne se reproduise plus. Demande : sollicitation d’un utilisateur qui n’est pas une interruption de service.Ticket : permet d’enregistrer l’identité de l’utilisateur et l’incident ou l’objet de sa demande.
Définitions : problème (ITIL) Problème = Incident répétitif ou cause de plusieurs incidents Détecté par un outil de gestion et d'analyse des incidents Analyse automatisée ou non Résolution demandant un approfondissement Élimination de la cause des incidents Fonctionnement en mode normal ou dégradé 14 Exemples de problèmes : perte de configuration, d'accès à une ressource bug logiciel erreur de configuration du serveur etc.
Conséquences service bloqué, partiellement fonctionnel, ralenti
Définitions : Ticket (ITIL) Ticket = Enregistrement de la demande ou de l'incident (QQOQCP) Qui : qui demande, répond ; nbre de personnes concernées ⇒ Impact Quoi : identification du matériel concerné Où : Lieu pour un éventuel déplacement Quand : Dates des événements (demande, analyse, réponse, questions intermédiaires) Comment : sur place, à distance, logiciel, matériel, remplacement ? Pourquoi : motif = demande, panne ⇒ Urgence
15
Définitions : Impact et Urgence Impact : périmètre de l'incident/demande personnes/matériels/services sont concernés, quelle importance des personnes dans l'organisation déterminé par le centre de service/helpdesk Urgence : délai de conséquences sur l'activité de l'organisation déterminé par l'organisation, la victime
Priorité : Déterminée en fonction de l'impact et l'urgence Solution : définitive ou de contournement 16 l’impact sur l’activité, se mesure au niveau du nombre de personnes ou de systèmes affectés par l’incident. Cet impact est évalué par le centre de service ; l’urgence à mettre en place une solution définitive ou de contournement pour l’utilisateur.
Attention, ne pas confondre avec le bloc 3 : Gravité Vraisemblance/plausibilité
Définitions : Impact et Urgence Impact et urgence = > priorité Solution : définitive ou de contournement 17 l’impact sur l’activité, se mesure au niveau du nombre de personnes ou de systèmes affectés par l’incident. Cet impact est évalué par le centre de service ; l’urgence à mettre en place une solution définitive ou de contournement pour l’utilisateur.
Attention, ne pas confondre avec le bloc 3 : Gravité Vraisemblance/plausibilité
Définitions : indicateurs de performance nbre de ticket résolus Attention, certains tickets pourraient être clos sans résolution (incident non résolu, obsolète, remplacement du matériel, du logiciel, …) délai de prise en compte Délai entre la date d'ouverture et la date de début de résolution (attribution) durée de traitement Durée entre la date de début de résolution et la clôture du ticket 18
Plan de reprise d'activité : processus de redémarrage après un incident Procédure pour reprendre l'activité rapidement Exemple : tout est planté. Comment redémarrer sans accentuer les dégâts ? Restaurer les sauvegardes Remonter le SI : les services de base d'abord Lancer les applis qd tout est stable Tests de charge Reprise d'activité partielle avant de tout lancer Définition : PRA IRP = Incident Response Plan : Plans de réponse aux incidents 19 Tout est planté, comment redémarrer sans accentuer les dégâts ? restaurer les sauvegardes (si pas corrompues …) remonter le SI : les services de base d'abord lancer les applis qd tout est stable tests de charge reprise d'activité partielle avant de tout lancer terminer les saisies en attente, régulariser les erreurs de cohérence des données etc…
Plan de reprise d'activité
procédure établie afin de reprendre l'activité dans les meilleurs délais plus facile avec des serveurs virtualisés ? IRP : https://www.ibm.com/fr-fr/topics/incident-response
Plan de continuité d'activité : moyens mis en place pour éviter l'incident Et si on évitait la panne ? clusif : en 2020, 30% des E ne sont pas protégées Technologies multiples pour assurer la continuité Redondance des serveurs, des données, répartition Automatiser les tâches : Sauvegarde, surveillance et statistiques, supervision inventaire et analyse des configurations, Définition : PCA 20 Et si on évitait la panne ? clusif : en 2020, 30% des E ne sont pas protégées Technologies multiples pour assurer la continuité Redondance des serveurs, synchronisation des machines Synchronisation des disques (RAID, rsync), des applications (Bdd commune) Réplication des données Répartition des tâches, des applications, de la charge Virtualisation (qd même) Automatisation des tâches sauvegarde, clonage (fog, clonezilla, driveimage, …) surveillance des logs, statistiques d'accès supervision de l'activité (charge machine, réseau, pics de fréquentation) inventaire et analyse des configurations, mises à jour (glpi + fusion/ocs inventory)
Observer, interviewer, s'informer, … PEBCAK : L'erreur est entre le clavier et … la chaise ? Trouver la panne ? Observer et écouter les utilisateurs /!\ une réclamation est toujours légitime !!! la mauvaise foi est assez rare S'informer et constater, tester test, supervision, contrôles Bugs, données fausses, incomplètes, indisponibles, etc… Ralentissements, plantage 21 PEBCAK : Problem Exist Between Chair And Keyboard pas toujours
Écouter les utilisateurs Analyser les tickets d'incidents, discuter à la machine à café /!\ une réclamation est toujours légitime !!! Compréhension, adaptation produit ⇔ besoin, manque de fonctionnalité la mauvaise foi est assez rare Constater par soi-même (test, supervision, contrôles) Bugs, données fausses, incomplètes, indisponibles, etc… Ralentissement du réseau
Le plus probable Clusif : services essentiels (rapport 2010) Soft Erreur de saisie, de manipulation (pbm d'interface, de sac) Bug : erreurs de programmation, de traduction Infra Erreurs de manipulation (ici aussi) Erreurs de connexion, de configuration Panne matérielles : peu probables, faciles à détecter câble arrachés, chute, matériel éteint, déconnecté
Palmarès : 5ème place : Virus : 10ème : attaque 20ème : malveillance 22 https://clusif.fr/wp-content/uploads/2024/10/ipsos-clusif-enquete-cybersecurite-rapport-complet-avec-compression_1.pdf
Lire les messages d'erreur !!! Matériel et logiciel : Alim, câblage ? Messages ? Erreur de manip ? Réseau : Câblage d'abord (voyants, état des câbles) Tests, config : adresse, proxy, dns ping, tracert, nslookup Analyser les pannes : Redémarrer dans l'ordre 23 Matériel et logiciel : Câblage vers le secteur, les périphériques, inter alim ? Système : messages au boot ? OS : message à la connexion ? (à lire absolument) Applications : messages divers : erreur de version, de lecture de fichiers (droits), etc. … Réseau : Câblage d'abord (présence du câble, voyants, état apparent des câbles) Ping vers l'extérieur (un dns public, google) ip => config IP, connectivité, passerelle url => config PC : DNS Ping successifs vers le routeur, firewall, dns, dhcp ; route, nslookup config navigateur
… diagnostiquer, résoudre, … Redémarrer avant dépannage Reproduire la panne, redémarrer les applis Dernier ressort : Réinitialiser les applications, restaurer un point de restauration, réinstaller l'OS (bof) Éléments fragiles ? Pas l'électronique, parfois l'alim, disque dur (HD & SSD) attention aux extinctions brutales, coupures de courant, court-circuits (liquides, kusb) Matériel non détecté : pilote (rare) => désinstaller/supprimer découverte nouveau matos Complexité du système, du code des applis Voir l'alimentation, les éléments manipulés (câbles) Il est plus efficace de répondre à la réalité que de chercher la perfectionIl est plus facile de concevoir un objet parfait qu'un objet répondant à la réalité 24
… Documenter : prévoir et réfléchir Alimenter la FAQ Bonnes idées Matos de rechange : disques, cartes, câbles, PC Tester sur un autre PC (le matériel, les logiciels, périphériques, câbles) KISS : Keep it simple Stupid => Efficience et simplicité Chercher le maillon faible (retour du côté de la chaise …), la panne la plus probable 25 La complexité mène à la fragilité
Analyse : exemples de symptômes
Symptôme Vérification PC (téléphone) ne démarre pas (aucune réaction à l'appui du bouton) 220V ? branchement PC, interrupteur arrière, Etat de l'alimentation, de la batterie. Vérifier l'absence d'odeur suspecte (ozone, bakélite brûlée, chaud), de trace noire (brûlé, suie) ou de composants détériorés (condensateurs bombés). Vérifiez la garantie … L'alim démarre. Aucun signal Composants incompatibles ? Enlever toutes les cartes d'extension (même la RAM ou le Proc) et redémarrer la machine en installant successivement les composants : CPU, RAM, carte graphique, carte réseau… Au besoin, tester les composants sur d'autres PC Signaux d'erreur (beeps, messages, leds, code) Vérifier la signification de signaux qui sont audio (beeps), lumineux (leds de diagnostics sur la CM) ou visuels (messages, codes POST – Power On Start Tests) "Tant qu'il y a du bruit, il y a de la vie…" Aucun affichage : a) pas de mire b) affichage de la mire puis extinction a) Vérifier les branchements de l'écran (220V, interr., câble, carte), essayer avec un autre écran. Pour les portables, ça sent mauvais … b) Voir si on peut avoir le BIOS, utiliser un disque de diagnostic en mode texte, redémarrer en mode sans échec, vérifier le pilote, la résolution, la fréquence de balayage, … Couleur d'affichage bizarre (dominante, moirage) Vérifier le câble, les branchements, éventuellement changer le câble, changer de connexion (VGA/HDMI/DVI), changer l'écran pour vérifier si c'est le même problème, sur l'écran, sur le PC Bruit continu, frottements, claquement Pbm de ventilo, de disque ? selon le type de bruit : Ventilo encrassé, avec des objets (allumettes, trombones, cheveux), axe usé (le huiler, le remplacer) Disque HS ou en cours de panne Freeze au boot Vérifier le trio CPU-RAM-overclocking RAM incompatibles, avec la CM, entre elles, température trop élevée, courant trop fort, trop bas. Vérifier la position de la RAM dans les bancs. Tester chaque RAM séparément, redescendre les paramètres d'overclocking. Rarement, le contact avec le ventirad est incorrect, le ventirad ne démarre pas, etc. … Lire la doc de la CM ! Matériels non détectés Vérifier le SETUP du BIOS, paramétrage automatique à remettre, faire un reset si besoin (reset soft, via l'interface, reset hard : voir doc de la CM et les cavaliers sur la CM) Si la RAM n'est pas détectée, augmenter légèrement le voltage pour voir et tester les barrettes séparément. Crossfire : si un GPU n'est pas détecté, la carte graphique est probablement mal branchée ou le port PCI-Xpress est défectueux/mort. Tester chaque carte/port Pas de périph de stockage ou freeze à ce moment, vérifier les câbles (SATA, IDE : branchement, polarité, sens, état). Pbm de RAID : voir s'il faut flasher le BIOS. Disque de plus de 2,2To vus comme 2, 2To : passer à l'uefi, flasher le firmware du disque. 26
Analyse : exemples de symptômes Symptôme Vérification Le PC rame (cas le plus courant) /!\ l'utilisateur est tjrs impatient … Origine : le soft Trop de veilles de mises à jour, vider le dossier prefetch Trop de services inutilement démarrés, Application trop gourmande (pc trop vieux ? Passer sous linux :D) Trop de barres de menu ouvertes auto exécutées par des téléchargements sans contrôle ou d'onglets (navigateur) Antivirus ? mal configuré, trop restrictif, en double Un virus ou autre malware Une appli sature le réseau (virus, logiciel en boucle, téléchargement sauvage) Origine : la configuration matérielle, plus rare Pas assez de RAM (moins courant) Partition système trop petite trop encombrée ou en cours de crash (gasp!) Raccourci absent, Fonctionnalité bloquée, Le pgm ne démarre pas Vérifier les droits de l'utilisateur, Le pgm est corrompu, buggé, mal fait, affiche des messages d'alerte L'antivirus bloque le pgm ou son installation Pbm de corruption du soft (téléchargé avec un virus), Pgm non reconnu comme sûr par l'antivirus … vous avez programmé un virus ? 27
Analyse : exemples d'outils PC : faire un point de restauration avant d'agir Retour à ce point pour régler un pbm.
Boîtes à outils Pstools (µ$) analyse des ps, svces, fichier, ports, … process explorer, tcpview, cports … Commandes : ping, netstat, tracert, etc… Explorer les logs Ccleaner, et autres, clonezilla, testdisk, etc… 28
Exercice : Incident du poste de présentation 2 M. Yeoh, intervenant à L'Atelier, appelle le helpdesk via le standard. La personne du standard vous transmet qu'un poste de présentation montre des défaillances avec les symptômes suivants : L'écran est instable, il clignote n'importe quand et le vidéo projecteur perd l'image Elle vous demande d'aller sur site pour régler le problème d'urgence .
Quelles sont les précisions à demander pour cerner le problème ? Quelles sont les informations à rechercher dans la base d'inventaire ? Proposer une série d'actions Déterminer la priorité de l'incident Quel problème voyez-vous dans la chaîne de transmission de l'information ? Quelle différences entre sûreté et sécurité ? 29
Bonnes pratiques : exemples Dev : Effectuer des tests positifs si oui alors test négatif = si non, alors faire tant que plutôt que faire jusqu'à (php, java, C, etc…) Dev : Mettre en place des détrompeurs (listes déroulantes) Dev : Documenter les événements : LOG explicites CF les erreurs Apache … Réseau : respecter les normes, les conventions normes de câblage réseau masque réseau de la "classe" même si elles ont disparu 30
Source des incidents en 2010
31 IT Infrastructure Library : Bibliothèque pour l'infrastructure des technologies de l'information, ensemble d'ouvrages recensant les bonnes pratiques (« best practices ») du management du système d'information. Centré sur le client, intégré au plutôt, basé sur les processus (ps) C'est un référentiel méthodologique très large qui aborde les sujets suivants : Comment organiser un système d'information ? Comment améliorer l'efficacité du système d'information ? Comment réduire les risques ? Comment augmenter la qualité des services informatiques ? Fondamentaux d'ITIL V3 Gestion des incidents Ce ps propose un ensemble de bonnes pratiques pour une gestion et une résolution efficaces des incidents, permettant aux opérations de fonctionner avec peu ou sans période d'indisponibilité. Gestion des changements Ce ps propose un ensemble de bonnes pratiques permettant de gérer, de prioriser et de déployer les changements de manière efficace. Gestion des problèmes Mettre en place une stratégie de communication efficace et suivre une approche proactive pour éviter que des incidents majeurs ne se produisent. Un problème est défini comme un ou plusieurs incidents dont la cause première est inconnue. La gestion des problèmes conserve une base de données des erreurs connues (KEDB) dont la solution est inconnue. ITIL V4 - février 2019 C'est la dernière version dictant les bonnes pratiques de gestion des IT. ITIL v4 => solution sur-mesure = approche plus flexible et pratique que les versions précédentes. Comporte 2 composants, améliorations à la V3 : Les 4 dimensions du modèle (O et membres, info & techno, partners et fourn, fx de valeurs et ps qui les activent), Le système de valeur de l’ITIL (vue d'ensemble des data, elmts de l'O impliqués ds la création de valeur) Historique Rédigée à l'origine par des experts de l'Office public britannique du Commerce (OGC), ITIL a fait intervenir à partir de sa V3 des experts issus de plusieurs entreprises de services telles qu'Accenture, Ernst & Young, Hewlett-Packard, Deloitte, BearingPoint, CGI ou PriceWaterhouseCoopers. ITIL a été développé à la fin des années 80 par l’organisme anglais CCTA (Central Computer & Telecommunications Agency). Il promeut le concept de processus IT orientés vers le service délivré au client et propose un cadre de « meilleures pratiques » axé sur l’excellence en matière de processus IT. ITIL fournit un glossaire conséquent de termes IT. Dans le cadre de benchmark de processus standards, ITIL permet de se comparer avec d’autres organisations à l’aide de KPIs (indicateurs clés de performance). Les éditeurs de logiciels de gestion des environnements IT font référence à leurs compatibilités avec l’ITIL « standard based ».
ET VOUS ? 2022 32 IT Infrastructure Library : Bibliothèque pour l'infrastructure des technologies de l'information, ensemble d'ouvrages recensant les bonnes pratiques (« best practices ») du management du système d'information. Centré sur le client, intégré au plutôt, basé sur les processus (ps) C'est un référentiel méthodologique très large qui aborde les sujets suivants : Comment organiser un système d'information ? Comment améliorer l'efficacité du système d'information ? Comment réduire les risques ? Comment augmenter la qualité des services informatiques ? Fondamentaux d'ITIL V3 Gestion des incidents Ce ps propose un ensemble de bonnes pratiques pour une gestion et une résolution efficaces des incidents, permettant aux opérations de fonctionner avec peu ou sans période d'indisponibilité. Gestion des changements Ce ps propose un ensemble de bonnes pratiques permettant de gérer, de prioriser et de déployer les changements de manière efficace. Gestion des problèmes Mettre en place une stratégie de communication efficace et suivre une approche proactive pour éviter que des incidents majeurs ne se produisent. Un problème est défini comme un ou plusieurs incidents dont la cause première est inconnue. La gestion des problèmes conserve une base de données des erreurs connues (KEDB) dont la solution est inconnue. ITIL V4 - février 2019 C'est la dernière version dictant les bonnes pratiques de gestion des IT. ITIL v4 => solution sur-mesure = approche plus flexible et pratique que les versions précédentes. Comporte 2 composants, améliorations à la V3 : Les 4 dimensions du modèle (O et membres, info & techno, partners et fourn, fx de valeurs et ps qui les activent), Le système de valeur de l’ITIL (vue d'ensemble des data, elmts de l'O impliqués ds la création de valeur) Historique Rédigée à l'origine par des experts de l'Office public britannique du Commerce (OGC), ITIL a fait intervenir à partir de sa V3 des experts issus de plusieurs entreprises de services telles qu'Accenture, Ernst & Young, Hewlett-Packard, Deloitte, BearingPoint, CGI ou PriceWaterhouseCoopers. ITIL a été développé à la fin des années 80 par l’organisme anglais CCTA (Central Computer & Telecommunications Agency). Il promeut le concept de processus IT orientés vers le service délivré au client et propose un cadre de « meilleures pratiques » axé sur l’excellence en matière de processus IT. ITIL fournit un glossaire conséquent de termes IT. Dans le cadre de benchmark de processus standards, ITIL permet de se comparer avec d’autres organisations à l’aide de KPIs (indicateurs clés de performance). Les éditeurs de logiciels de gestion des environnements IT font référence à leurs compatibilités avec l’ITIL « standard based ».
Bonnes pratiques : 5 à 7 étapes 33 Identification & déclaration de l’incident le ticket, urgence Qualification de l'impact, priorisation du traitement Communication à l’attention des parties prenantes Mobilisation d’une équipe dédiée à la résolution Affectation de l’incident Résolution de l'incident escalade ? Validation de la solution Bilan post-correction Clôture de l’incident Enrichir la base de connaissances (FAQ)
6 1
5
4
2
3
https://www.iceboard.co/blog/de-lincident-a-la-crise-comment-eviter-lescalade https://www.iceboard.co/blog/la-gestion-des-incidents-les-7-etapes-cles
Les sept étapes de la gestion des incidents
- Identification et déclaration de l’incident : le ticket La première étape du plan de réponse aux incidents consiste à identifier l’incident en le déclarant dans un outil de suivi des incidents, par le biais d’un ticket. Le ticket d’incident contient tout le suivi des actions techniques tout au long de la vie de l’incident. La fiche de déclaration d’incident doit contenir a minima un titre clair et concis, un niveau de priorité ainsi qu’un descriptif exhaustif des impacts identifiés.
- Qualification des impacts et priorisation du traitement de l’incident L’étape suivante consiste à qualifier l’incident. Il s’agit ici de classifier l’incident selon un niveau de priorité pouvant être défini en fonction du niveau d’impact de l’incident, de la population concernée, des risques,... Pour plus de détails sur cette partie, vous pouvez consulter notre article “De l’incident à la crise : comment éviter l’escalade ?” 3. Communication à l’attention des parties prenantes Pour la plupart des incidents l’ensemble de l’activité sera suivi dans l’outil de ticketing. Dans le cadre d’un incident majeur, le dispositif mis en place doit insister sur la communication à l’ensemble des parties prenantes. La qualité de la communication déterminera le niveau de sérénité des acteurs de l’incident. Quatre groupes d’acteurs jouent un rôle essentiels : Les gestionnaires d’incidents : C’est le groupe clé qui fera le liant avec les autres acteurs. Ils vont décider d'une ligne de conduite, suivre, relancer et communiquer au bon moment les bonnes informations aux autres acteurs. Le management : le fait d’informer le management, notamment le directeur informatique (DSI, CTO, RSSI), des incidents majeurs en cours contribue à la responsabilisation de l’entreprise. Le management doit être tenu informé de toutes les mesures prises et doit être sollicité aussi souvent que nécessaire pour prendre des décisions. Les équipes support / techniques / opérationnelles : Impliquées depuis la création du ticket, les équipes supports doivent rester concentrées sur la résolution de l’incident. Ils doivent rester dans un état de Flow et n’être dérangé que pour faire avancer les investigations. Leur rôle est crucial. Utilisateurs finaux / clients internes : pour un climat apaisé, les clients internes et/ou les utilisateurs finaux doivent être tenus informés aussi souvent que nécessaire pour éviter “l’effet tunnel”. En tant que chef d’orchestre, les gestionnaires d’incidents vont gérer l’engagement des parties prenantes tout le long de la procédure de gestion de l’incident. Les acteurs clés doivent être continuellement informés de toutes les actions menées et à mener. Le plan de communication de gestion d’incidents doit contenir à minima : la liste des canaux de communication la fréquence des communications les types d'événements qui doivent générer des notifications ou des alertes à l'attention des différents acteurs
- Mobilisation d’une équipe dédiée à la résolution de l’incident Pour garder une qualité de service optimale, il faut savoir résoudre les incidents de manière efficace et pour ça, la bonne pratique est de régulièrement se poser ces 3 questions : A-t-on mobilisé les bonnes équipes techniques ? A-t-on le bon niveau d’expertise ? Doit-on préparer la relève ? Et agir en conséquence, sans attendre. Encore une fois, les gestionnaires d’incidents ont un rôle important. Ils sont au centre des débats et au-delà du rythme, ils vont donner le cadre et faire respecter la direction des investigations.
- Résolution de l'incident Il s’agit de l’étape de la résolution effective de l’incident pour les utilisateurs finaux, avec potentiellement une solution temporaire. La priorité des équipes techniques est de rétablir le service dans les meilleurs délais. Point. Trouver la solution définitive n’est pas prioritaire. Cela peut être fait dans un deuxième temps, après de nouvelles investigations.
- Bilan post-correction Le suivi de l’incident après l'application du correctif ne doit pas être négligé. Il s’agit de rédiger un post-mortem qui permettra d’apporter une conclusion à la résolution d’un incident. La rédaction d’un post-mortem est un travail collaboratif qui permet de dresser un bilan exhaustif d’un incident et de sa résolution. C’est le moment de se poser les bonnes question sur : L’apparition de l’incident (dû à quoi ?) Sa récurrence Sa cause sous-jacente (root cause) Le respect des procédures La réactivité des équipes La fiabilisation avec les actions d’amélioration (procédures, infrastructures, outils, analyse, …)
- Clôturer l’incident et enrichir votre base de connaissances Une fois le correctif définitif appliqué, l’incident peut être clôturé. La base de connaissances de l’organisation doit ensuite être enrichie avec les données suivantes : la cause sous-jacente à la source de l’incident les impacts négatifs de l’incident les traitements appliqués pour résoudre l’incident les personnes et/ou leur profil, ayant travaillé à la résolution de l’incident le délai de résolution, en précisant le temps écoulé entre :- la déclaration de l’incident et sa prise en charge- la prise en charge de l’incident et sa résolution- la résolution et la clôture de l’incident Ces données constitueront le rapport de gestion d'incidents.
Bonnes pratiques : Méthodes : ITIL ITIL (Information Technology Infrastructure Library) référentiel (livres « blancs ») ensemble de processus de gestion de services technologiques démarche pragmatique gestion des services liés aux TI, un ensemble des « meilleures pratiques » issues des expériences d’entreprises Client->Cycle de vie->maîtrise des ps Bonnes pratiques Matériels, Fourniture de services, Supports de services 34 IT Infrastructure Library : Bibliothèque pour l'infrastructure des technologies de l'information, ensemble d'ouvrages recensant les bonnes pratiques (« best practices ») du management du système d'information. Centré sur le client, intégré au plutôt, basé sur les processus (ps) C'est un référentiel méthodologique très large qui aborde les sujets suivants : Comment organiser un système d'information ? Comment améliorer l'efficacité du système d'information ? Comment réduire les risques ? Comment augmenter la qualité des services informatiques ? Fondamentaux d'ITIL V3 Gestion des incidents Ce ps propose un ensemble de bonnes pratiques pour une gestion et une résolution efficaces des incidents, permettant aux opérations de fonctionner avec peu ou sans période d'indisponibilité. Gestion des changements Ce ps propose un ensemble de bonnes pratiques permettant de gérer, de prioriser et de déployer les changements de manière efficace. Gestion des problèmes Mettre en place une stratégie de communication efficace et suivre une approche proactive pour éviter que des incidents majeurs ne se produisent. Un problème est défini comme un ou plusieurs incidents dont la cause première est inconnue. La gestion des problèmes conserve une base de données des erreurs connues (KEDB) dont la solution est inconnue. ITIL V4 - février 2019 C'est la dernière version dictant les bonnes pratiques de gestion des IT. ITIL v4 => solution sur-mesure = approche plus flexible et pratique que les versions précédentes. Comporte 2 composants, améliorations à la V3 : Les 4 dimensions du modèle (O et membres, info & techno, partners et fourn, fx de valeurs et ps qui les activent), Le système de valeur de l’ITIL (vue d'ensemble des data, elmts de l'O impliqués ds la création de valeur) Historique Rédigée à l'origine par des experts de l'Office public britannique du Commerce (OGC), ITIL a fait intervenir à partir de sa V3 des experts issus de plusieurs entreprises de services telles qu'Accenture, Ernst & Young, Hewlett-Packard, Deloitte, BearingPoint, CGI ou PriceWaterhouseCoopers. ITIL a été développé à la fin des années 80 par l’organisme anglais CCTA (Central Computer & Telecommunications Agency). Il promeut le concept de processus IT orientés vers le service délivré au client et propose un cadre de « meilleures pratiques » axé sur l’excellence en matière de processus IT. ITIL fournit un glossaire conséquent de termes IT. Dans le cadre de benchmark de processus standards, ITIL permet de se comparer avec d’autres organisations à l’aide de KPIs (indicateurs clés de performance). Les éditeurs de logiciels de gestion des environnements IT font référence à leurs compatibilités avec l’ITIL « standard based ».
Conclusion Mieux vaut prévenir … Mais avec méthode en utilisant les bons outils La réponse doit être adaptée en termes de résultats et de coûts A suivre : les principes ITIL, les normes ISO, les SLA En TP : GLPI. Puis RAID ? 35 https://openclassrooms.com/fr/courses/1730486-gerez-vos-incidents-avec-le-referentiel-itil-sur-glpi cours complet GLPI : 6 heures de travail
Gestion de panne C03-B1S1-B Scripting icons icons8.com, Samurais : Samurai Shamploo, IBM : Mathieux, KISS : fleximedtraining.co.uk, First case of bug : National Geographic, graphics : fk The end (may be) 36
37