La panne d'AWS nous rappelle que le sort d'Internet est entre les mains de quelques-uns

La panne d'AWS nous rappelle que le sort d'Internet est entre les mains de quelques-uns

À cette époque, nous exploitons des sites à partir de serveurs personnels et d'entreprise, généralement situés dans nos maisons et bureaux. Au fur et à mesure qu'Internet se développait, nous avons construit des racks de serveurs, des emplacements et des centres de données. Cependant, au fil du temps, des entreprises et des services de toutes tailles ont confié les sacrifices de serveurs à des tiers, ou comme on les appelle maintenant, des services cloud.

La logique est solide. Nous vivons dans des maisons, mais nous ne construisons pas physiquement nos maisons. L'acte de servir et de développer des sites n'est pas essentiel au service qu'ils fournissent. Eh bien, c'est comme si sans serveurs il n'y avait pas de service. Mais le serveur utilise des API, des scripts et d'autres algorithmes et programmes développés par la société pour fournir des éléments tels que votre flux Netflix, les détails de votre compte de portefeuille Coinbase ou le prochain utilisateur potentiel de Tinder.

La capacité des services cloud tels que Amazon Web Services (AWS) et Azure de Microsoft à, si vous payez suffisamment, augmenter rapidement (ou réduire, selon les besoins) en fait une résolution commerciale intelligente pour toute entreprise de toute taille. On ne sait jamais, par exemple, quand une petite entreprise deviendra une grande entreprise et quand elle devra servir dix utilisateurs simultanés sur un site de cinq cents.

C'est l'avantage évident des services Web basés sur le cloud. L'inconvénient est ce qui s'est passé cette semaine avec AWS.

Panne AWS

D'énormes morceaux d'AWS se sont effondrés mardi après-midi. Le tableau de bord AWS Health donne un bon aperçu de la panne de près de 7 heures. En arrière-plan il y avait, du moins selon Amazon, une attaque, un piratage ou une attaque par déni de service (DDoS). Il s'agissait de quelques API qui se comportaient mal dans une industrie de services massive.

Nous vivons tous dans la peur d'une attaque DDoS essentielle ou d'une attaque qui violera ces systèmes (en fait, quel que soit le système dont nous dépendons) et les mettra à genoux, mais le fait rarement. Lorsque Cloudflare est tombé en panne en deux mille dix-neuf, il a d'abord été admis qu'il s'agissait d'une attaque contre leur système. Cependant, nous avons rapidement découvert qu'il s'agissait simplement d'une mauvaise implémentation logicielle, principalement d'un échec humain.

Même avec la panne AWS contenue dans ce qu'Amazon appelle la « région US-EAST-1 », l'impact a été important et généralisé. Cela s'est fait sentir sur les plateformes destinées aux consommateurs comme Disney + et, naturellement, Amazon.com et certains services Alexa.

Lorsque j'ai posté l'actuel sur Twitter, j'ai apprécié le nombre de personnes qui se cognaient pratiquement la tête et s'exclamaient : "Par conséquent, j'étais sorti !"

Il m'est venu à l'esprit que bon nombre de ces utilisateurs n'avaient aucune idée qu'AWS était derrière leurs systèmes d'utilisateur et d'entreprise préférés. En plus de cela, absolument personne n'a le nombre précis (à part Amazon), mais des rapports récents affirment qu'AWS sert des millions de personnes. Azure de Microsoft signale également des millions d'utilisateurs et la plupart des entreprises Fortune XNUMX. Google Cloud a de grands noms comme Verizon, NewsCorp et Fb.

Est-ce que quelque chose doit changer ?

L'utilisation généralisée des services cloud n'est pas une mauvaise chose, bien que le manque d'informations puisse entraîner de la confusion et des empreintes digitales, comme le gars qui ne pouvait pas déplacer les commandes sur son système et a reçu plusieurs messages d'échec blâmant ses systèmes pour un distributeur externe . comme AWS).

La combinaison de la portée étendue des systèmes cloud et du manque général d'informations et de commentaires en temps réel pour les clients de services défavorisés est préoccupante. L'ampleur d'un éventuel black-out est surement inquiétante, surtout si l'on considère que le prochain est inéluctable.

Fini le temps où le rack de serveur de quelqu'un tombait en panne et le site tombait en panne. Nous avons maintenant de petites pannes dans de grands systèmes cloud comme AWS, Axure et Cloudflare qui provoquent un tsunami de pannes.

Quelqu'un sur Twitter a demandé : "Qu'est-il arrivé à la mise à l'échelle et à l'équilibrage de charge ?" "C'est une bonne question. AWS est construit sur des centaines de clusters de serveurs cloud distincts et offre des tonnes de redondance, de mise à l'échelle et d'équilibrage de charge. Et encore une fois, parfois cela ne suffit pas. Les systèmes complexes peuvent mal se comporter et sont particulièrement fragiles aux mises à jour logicielles qui peuvent entrer en conflit avec du code obsolète. En raison du fait que, aussi puissants et distribués que soient tous ces services cloud, y compris AWS, ils sont toujours programmés, exécutés et entretenus par des humains faillibles.

Alors, comment pouvons-nous mieux éduquer le public et, plus important encore, protéger AWS, Azure, Cloudflare et autres contre ce genre de défaillances, qui entraînent non seulement des sites et des services inactifs, mais plutôt la perte de millions de personnes ? Dollars américains?

Il est peut-être temps de prendre du recul et d'examiner l'intégrité et la sécurité des systèmes cloud, exactement de la même manière que nous surveillons les systèmes d'eau. Rien de tout cela n'est trop gros pour échouer, semble-t-il, mais tous sont trop essentiels pour être endommagés, violés ou perdus.