Suivez l’assistance le Soleil – Un an après

3 August 2017 by Catalyst

Catalyst a démarré en 1997, et depuis des débuts modestes en tant qu’entreprise de services externalisés, nous sommes passés à plus de 250 employés dans le monde, avec sept bureaux en Australie, en Nouvelle-Zélande et au Royaume-Uni. Fournir des solutions logicielles open source à de grands et petits clients, c’est ce que nous faisons. C’est ce que nous aimons.

Notre approche consiste pour chaque bureau à desservir sa propre région, en connectant les membres de notre équipe locale aux projets et engagements locaux. C’est l’une de nos forces et de nos différences. Nous visons à établir des relations continues à long terme avec des clients locaux, où il s’agit de plus qu’une simple relation de projet transactionnelle.

De temps en temps, nous travaillons entre les bureaux, par exemple un grand projet pourrait atterrir à Sydney pour lequel nous avons besoin d’un peu plus de muscle. Cela nous a permis de dépasser notre poids avec de grands projets lorsque nous avons créé un bureau dans une nouvelle région géographique.

Le bureau européen de Catalyst est situé à Brighton, au Royaume-Uni, et compte une équipe grandissante de développeurs, d’analystes commerciaux et d’administrateurs système. Certains des plus grands engagements de services gérés Moodle LMS pour nos clients universitaires européens nécessitent une infrastructure et une surveillance des applications 24h/24 et 7j/7. Notre plate-forme cloud mondiale actuelle pour la prestation de services aux entreprises est Amazon Web Services. Catalyst est un partenaire AWS et nous connaissons bien l’ensemble d’outils, ayant créé et géré un certain nombre de charges de travail importantes.

Catalyst est impliqué dans la conception et l’architecture d’applications à haute disponibilité (HD) depuis un certain temps. Cependant, même le système parfait a toujours besoin d’un cadre d’escalade défini lorsque des problèmes surviennent. Nous visons à détecter et à résoudre les problèmes avant même que nos clients ne s’en rendent compte.

Historiquement, Catalyst a utilisé une liste de téléavertisseurs « sur appel » (même si les téléavertisseurs sont presque morts) pour notre équipe d’infrastructure. Les responsabilités sont partagées au sein de l’équipe pour le service en dehors des heures de travail. Bien sûr, nous payons un supplément pour cela, mais personne ne préfère que nos employés restent debout toute la nuit pour gérer les alertes et les pannes. Dans au moins un cas, un téléavertisseur bruyant a été la cause d’un grave stress conjugal – une femme avec un nouveau-né envoyant son mari avec un bip au salon pour dormir !

Dans l’intérêt de fournir le plus haut niveau de service et de fiabilité à nos clients (et de permettre à notre équipe d’infrastructure de dormir davantage), les bureaux australiens, néo-zélandais et européens ont décidé de mettre en place un modèle de support Follow le Soleil (FTS). L’idée étant que nous partagerions la responsabilité des systèmes à travers les fuseaux horaires, idéalement le technicien qui répond et enquête sur une alerte est «en plein soleil», c’est-à-dire qu’il ne se réveille pas à 3 heures du matin. Cette approche est de plus en plus courante avec des équipes techniques et de développement réparties dans le monde entier.

Notre programme FTS est maintenant opérationnel depuis plus de 18 mois. Nous avons commencé à en discuter en 2015, et la première série d’alertes inter-équipes a été lancée en janvier 2016. Cela a été tout un voyage.

Voici quelques-unes des choses que nous avons apprises en cours de route.

Communications inter-équipes obligatoires

Cela signifie des conférences téléphoniques, des vidéos de rattrapage sur une base régulière avec un agenda. Ces réunions ne se feront pas d’elles-mêmes. Maintenir la régularité entre l’Australie et le Royaume-Uni est un défi lorsqu’il n’y a pas de chevauchement des heures de travail. C’est soit tôt le matin, soit tard le soir pour un côté. Les choses doivent être planifiées et convenues bien à l’avance.

C’est toujours mieux de parler que de ne pas parler. Même s’il n’y a rien à dire, nous discutons de ce qui s’est passé récemment, des notifications d’événements ou des changements de chaque côté.

 

Marcher ensemble techniquement

Catalyst est tout au sujet de l’application de technologies libres et open source pour offrir de la valeur à nos clients. Cela signifie que nous adoptons l’utilisation de nouveaux outils et technologies, l’innovation est dans notre ADN.

Cependant, lorsque nous sommes chargés de réparer une application Web compliquée hébergée dans AWS que le technicien n’a peut-être pas créée. Il est essentiel que tous les membres de l’équipe comprennent bien comment les choses s’emboîtent. Encore mieux si l’équipe d’architecture de la solution s’est engagée à construire des systèmes de manière standard.

Compte tenu de l’évolution rapide des services d’hébergement cloud et des vastes exigences de nos différents clients mondiaux. Toutes les équipes régionales doivent être libres de faire ce qu’elles doivent faire pour de meilleurs résultats clients. Cela doit être équilibré avec un certain niveau de standardisation en termes de politique de construction et de déploiement. C’est un problème difficile qui n’est pas nouveau.

Nous avons appris que trop de contrôle sur le changement ou les ensembles d’outils est contre-productif. Mais un écart énorme dans les opérations standard n’est pas non plus idéal.

Il n’y a pas de baguette magique ici. Le plus important, ce sont les gens qui parlent aux gens – en particulier au niveau technique supérieur. Combiné à de bonnes pratiques de documentation, cela renforce la confiance et un ton collaboratif. Cela signifie que les innovations d’une équipe sont susceptibles d’être adoptées par tous, et non ignorées ou rejetées.

Les bons outils de communication et d’alerte

La capacité de communiquer au sein de l’équipe, à partir de n’importe quel appareil, est essentielle. Cela ne devrait pas être difficile à atteindre. Et il devrait y avoir une piste d’audit claire et concise des événements et des actions entreprises.

Dans notre cas, cela s’est traduit par l’utilisation de pagerduty, rocketchat et icinga, avec une politique d’examen et d’évaluation continue. En nous demandant si ces outils fonctionnent pour nous ?

Nous devons également être sûrs que dans le cas d’une alerte manquée, le cadre global d’escalade est solide et parvient jusqu’au CTO si nécessaire.

Ne pas se cacher des erreurs

Les responsabilités de gestion des applications d’entreprise n’ont rien de nouveau pour Catalyst. Et nous avons les cicatrices et les histoires pour le prouver.

Dans le monde réel, les systèmes se brisent et les gens font des erreurs… de mauvaises choses arrivent. Malgré cela, la plus grosse erreur est de balayer ces événements sous le tapis ou de tomber dans le jeu du blâme. L’accent doit être mis sur la prise de mesures pour analyser et améliorer le système sous-jacent afin de s’assurer que les problèmes ne se reproduisent pas.

Ne soyez pas frustré. Aller mieux.

Les avantages

Il y a eu au moins six mois de planification et de discussions avant la première alerte inter-équipes. Alors après tous ces efforts, quels sont les vrais bénéfices pour notre équipe et nos clients ?

  • Catalyst peut fournir un meilleur support système à nos clients. Plus d’attention pendant la journée aux systèmes lorsqu’ils en ont besoin.
  • Moins d’interruptions de sommeil pour nos précieux administrateurs système ! Avant de réveiller quelqu’un, un autre membre de l’équipe capable sous le soleil de l’autre côté de la planète examine et (idéalement) résout le problème. Et dans le passé, trop d’activités d’alerte nocturne ont poussé certains membres de notre équipe à trouver un autre emploi.
  • Capacité à effectuer des mises à jour et des mises à niveau en dehors des heures de bureau pour nos clients. C’est maintenant très simple pour nous de déployer les changements à 3h du matin heure locale avec un jour ou deux de planification.
  • Plus de flexibilité pour la taille de l’équipe pour le travail de projet et de construction. Nous sommes en mesure de nous appuyer les uns sur les autres dans toutes les régions, car nous travaillons davantage les uns avec les autres.
  • Dans l’ensemble, une meilleure communication entre les bureaux de Catalyst. Une bonne chose et quelque chose que vous ne pouvez pas tenir pour acquis lorsque tout le monde est occupé sur des projets et fait face à une activité commerciale sans fin.

Nous considérons cette initiative comme un grand succès. Il permet à toutes les parties du groupe Catalyst de fournir de meilleurs services à nos clients.

Un merci spécial à Alex Lawn de l’équipe de Sydney qui dirige cette initiative.