A empresa de cibersegurança CrowdStrike explicou na quarta-feira (24) que um problema no seu sistema de validação causou a falha de milhões de dispositivos Windows em um amplo apagão ocorrido no final da semana passada. “Na sexta-feira, 19 de julho de 2024, às 04:09 UTC, como parte das operações regulares, a CrowdStrike lançou uma atualização de configuração de conteúdo para o sensor Windows para coletar telemetria sobre possíveis novas técnicas de ameaça,” disse a empresa em sua Revisão Preliminar do Incidente (PIR). “Essas atualizações são uma parte regular dos mecanismos de proteção dinâmica da plataforma Falcon. A atualização problemática de configuração de conteúdo de resposta rápida resultou em uma falha no sistema Windows.”
O incidente afetou hosts Windows executando a versão 7.11 do sensor e superiores, que estavam online entre 19 de julho de 2024, 04:09 UTC e 05:27 UTC e receberam a atualização. Sistemas Apple macOS e Linux não foram afetados. A CrowdStrike afirmou que entrega atualizações de configuração de conteúdo de segurança de duas maneiras: uma via Sensor Content, que é enviada com o Falcon Sensor, e outra através do Rapid Response Content, que permite sinalizar novas ameaças usando várias técnicas de correspondência de padrões comportamentais.
A falha foi atribuída a uma atualização do Rapid Response Content que continha um erro previamente não detectado. Vale ressaltar que essas atualizações são entregues na forma de Instâncias de Template correspondentes a comportamentos específicos que são mapeados para Tipos de Template específicos, para permitir novas telemetrias e detecções. As Instâncias de Template, por sua vez, são criadas usando um Sistema de Configuração de Conteúdo, após o qual são implantadas no sensor pela nuvem através de um mecanismo denominado Channel Files, que são, em última análise, gravados no disco na máquina Windows. O sistema também abrange um componente de Validação de Conteúdo que realiza verificações de validação no conteúdo antes de ser publicado.
Em resposta às interrupções causadas pela falha e para prevenir que ocorram novamente, a empresa afirmou que melhorou seus processos de teste e aprimorou seu mecanismo de tratamento de erros no Content Interpreter.