Talvez o maior efeito da era digital seja que a conectividade é uma necessidade básica para todos.

Não é de se admirar que a Gestão de Riscos considere as interrupções na rede como um risco de alto nível:

  • 83% dos entrevistados de uma pesquisa Open Gear relataram que a resiliência da rede era sua maior preocupação;
  • 92% relataram perdas financeiras devido a interrupções na rede.

Apesar dos grandes esforços para limitar o impacto da indisponibilidade da rede por meio de redundância e outros meios, fornecer 100% de tempo de disponibilidade ainda continua sendo um grande desafio, principalmente devido a fatores imprevistos.

Vamos dar uma olhada em algumas interrupções de rede que afetaram significativamente os usuários em todo o mundo no ano de 2021.

Pausa para um recado: para obter mais informações, consulte os artigos no blog. Também é importante se inscrever para receber textos como este. Para isso, deixe seu nome e endereço de e-mail no formulário abaixo:


Apagão do Facebook

No dia 4 de outubro de 2021, o mundo teve uma surpresa quando, por cerca de seis horas, a rede do Facebook, juntamente com seus serviços associados ao WhatsApp e Instagram ficaram fora do ar.

A equipe de infraestrutura do Facebook explicou explicou como uma alteração na configuração derrubou todas as conexões em sua rede, desconectando seus data centers do resto da Internet. Isso então resultou em um efeito cascata na maneira como os data centers se comunicavam, interrompendo os serviços.

Infelizmente, devido às medidas de segurança que dependiam da rede para funcionar, os engenheiros do data center enfrentaram desafios ao tentar acessar fisicamente os roteadores para reconfigurá-los manualmente.

Isso nos lembra de que algumas redes, mas principalmente a internet, depende de milhões de sistemas e protocolos trabalhando em sincronia para funcionarem.

Esta foi a segunda grande interrupção afetando os a rede social em 2021, com a primeira ocorrendo por 45 minutos em 19 de março e afetando os mesmos serviços. Um porta-voz do Facebook disse mais tarde que a interrupção foi devido a um problema técnico que já havia sido resolvido.

Lentidão da Fastly

Em 08 de junho de 2021, a Fastly teve uma falha que durou quase uma hora, causando indisponibilidade em grandes sites como Amazon, eBay, Reddit, Spotify, Twitch, The Guardian, The New York Times, e até mesmo sites do governo britânico.

A empresa é uma das líderes mundiais em Content Delivery Networks e, como CDN, opera uma rede em nuvem de ponta que aproxima o conteúdo da web dos usuários, reduzindo a latência, ao mesmo tempo que facilita o manuseio de picos de tráfego e oferece proteção contra ataques DDoS.

A Fastly explicou que no mês anterior, uma implantação de software introduziu um bug latente em sua rede. Esse bug foi então acionado por uma alteração de configuração enviada por um cliente, resultando no retorno de erros de sua rede em 85% das solicitações de roteamento. Os usuários relataram o erro 503, o que significa que houve um problema temporário ao acessar os servidores de hospedagem da web.

A equipe da Fastly foi rápida em isolar a causa e desabilitar a configuração. Logo após, implantaram uma correção de bug e diversas medidas preventivas e corretivas para evitar a recorrência.

Inatividade na Akamai

Em 22 de Julho de 2021, o DNS da Akamai teve um problema que afetou um grande número de sites por cerca de uma hora. Dado que a empresa se orgulha de ter 85% dos usuários de Internet do mundo dentro de um único “salto de vlan” de um servidor CDN, o tempo de inatividade seria sentido de forma significativa por todos.

Os serviços afetados incluíram PlayStation Network, Airbnb, FedEx, iFood e Mercado Livre.

Em uma série de tweets , a Akamai relatou que uma atualização de configuração de software acionou um bug no sistema DNS, resultando no incidente.

Reverter a atualização solucionou o problema, mas o dano já havia sido feito. Segundo o site Down Detector, que registra a instabilidade da rede, os acessos foram interrompidos por volta das 13h, e seguiram até às 14h30.

Um futuro sem Indisponibilidades?

A Internet impulsiona a economia de hoje e a infraestrutura precisa fornecer a capacidade necessária para suportar os serviços. Os clientes desejam acesso mais rápido aos dados de que precisam, seja para uso comercial ou pessoal.

A necessidade de entender o que acontece e se prevenir para o que pode acontecer é algo extremamente necessário na Gestão de Serviços.

O ITIL entra nesse cenário com o seu poder de disponibilizar conhecimento para que os gestores consigam analisar um universo imenso de possíveis pontos de falhas e aplicar medidas de soluções proativas.