×

Cloudflare explica queda global: problema interno causou pane em serviços como X e ChatGPT

Quase todo mundo que estava online ontem percebeu que havia algo errado com a internet. Um grande problema no provedor de serviços de rede Cloudflare derrubou tudo, desde X e ChatGPT até as telas de pedidos em restaurantes do McDonald’s. Agora, a Cloudflare postou uma explicação completa sobre a interrupção, e descobriu-se que o problema foi totalmente interno e autoinfligido.

A mea culpa do CEO da Cloudflare, Matthew Prince, foi notavelmente clara. Logo de cara e literalmente em negrito, ele inicia com a seguinte declaração:

‘O problema não foi causado, direta ou indiretamente, por um ataque cibernético ou qualquer atividade maliciosa.’

Ele complementa isso com um pedido de desculpas totalmente sem ressalvas. ‘Lamentamos o impacto para nossos clientes e para a Internet em geral. Dada a importância da Cloudflare no ecossistema da Internet, qualquer interrupção de qualquer um de nossos sistemas é inaceitável. O fato de ter havido um período em que nossa rede não foi capaz de rotear o tráfego é profundamente doloroso para todos os membros de nossa equipe. Sabemos que os decepcionamos hoje.’

Então, o que exatamente aconteceu? A Cloudflare inicialmente suspeitou de má-fé, provavelmente um ataque massivo de DDoS (negação de serviço distribuída). No entanto, uma investigação mais aprofundada revelou que ‘o problema foi acionado por uma mudança nas permissões de um de nossos sistemas de banco de dados, o que fez com que o banco de dados gerasse múltiplas entradas em um ‘arquivo de recurso’ usado pelo nosso sistema de Gerenciamento de Bots. Esse arquivo de recurso, por sua vez, dobrou de tamanho. O arquivo de recurso maior que o esperado foi então propagado para todas as máquinas que compõem nossa rede.’

Infelizmente, o software de gerenciamento de bots da Cloudflare tinha um limite de tamanho de arquivo embutido no código, que o novo arquivo de recurso, com o dobro do tamanho, excedeu. Boom, esse software falhou.

O problema começou às 11:20 UTC, e a Cloudflare afirma que identificou corretamente a questão, interrompeu a propagação do arquivo de recurso maior que o esperado e conseguiu que o tráfego principal ‘fluísse amplamente como normal’ às 14:30. Às 17:06, ‘todos os sistemas da Cloudflare estavam funcionando normalmente’.

A Cloudflare afirma que o evento foi sua pior interrupção desde 2019. Várias medidas de mitigação estão sendo implementadas para evitar uma repetição, incluindo mais opções de desativação global para recursos e a eliminação da capacidade de despejos de núcleo ou outros relatórios de erro sobrecarregarem os recursos do sistema.

Concluindo sua postagem no blog, Prince finaliza: ‘uma interrupção como a de hoje é inaceitável. Arquitetamos nossos sistemas para serem altamente resilientes a falhas, garantindo que o tráfego sempre continue fluindo. Quando tivemos interrupções no passado, isso sempre nos levou a construir sistemas novos e mais resilientes. Em nome de toda a equipe da Cloudflare, gostaria de me desculpar pela dor que causamos à Internet hoje.’

Se você estiver interessado nos detalhes mais específicos, a postagem no blog de Prince é absolutamente forense sobre todos os aspectos do problema e dos sistemas e práticas relevantes da Cloudflare. É uma visão intrigante de como uma parte muito importante da internet funciona e do impacto de ter grandes partes do mundo moderno da informação dependentes de uma única empresa.

Share this content:

Publicar comentário