Поради интерна грешка во системот за управување со ботови (Bot Management), Cloudflare во вторникот доживеа повеќечасовен прекин во работата што ги погоди бројни корисници и сервиси ширум светот, а не беше последица на хакерски напад.
Глобалниот интернет-сервис Cloudflare се огласи за вчерашниот пад на системот, кој доведе до верижна реакција и „го сруши пола интернет“. На својата веб-страница објавија детално објаснување за инцидентот од 18 ноември. Значајниот прекин започнал во 11:20 часот (по UTC време) и резултирал со недостапност на голем број интернет-страници и апликации. Корисниците кои се обидувале да пристапат до страниците добивале пораки за грешка, а од компанијата изрично нагласија дека проблемот не бил предизвикан од никаква форма на кибер-напад или злонамерна активност.

Неколку часа маки
Проблемот траел неколку часа и се манифестирал преку таканаречени „5xx грешки“, што укажува на проблеми со серверите. Во Cloudflare првично посомневале на DDoS напад од големи размери, но истрагата покажала дека причината сепак била внатрешна. Главниот дел од сообраќајот бил нормализиран до 14:30 (UTC), додека сите системи целосно проработеле по 17 часот.
До прекинот, велат, дошло поради промена во дозволите на еден од системите на базите на податоци, што довело до генерирање на неисправна конфигурациска датотека за системот за управување со ботови (Bot Management). Таа датотека, која се користи за разликување легитимен од автоматизиран сообраќај, поради грешката се удвоила. Софтверот задолжен за насочување на сообраќајот, кој ја користи таа датотека, имал поставено ограничување на големината што со тоа било надминато, што предизвикало негово уривање и каскаден пад на бројни страници и апликации што Cloudflare ги штити – па, иронично, дури и системот Downdetectвr, на кој многумина веднаш се упатуваат за да проверат што се случува кога некој интернет-сервис ќе падне.

Отежната детекција на причината
Дополнително е интересно што проблемот се појавувал во интервали од пет минути, бидејќи конфигурациската датотека се генерирала периодично. Во зависност од тоа кој дел од базата на податоци го обработил барањето, датотеката понекогаш била исправна, а понекогаш неисправна, што доведувало до флуктуации во работата на системот и дополнително ја отежнувало дијагностиката.
Откако бил идентификуван основниот причинител, инженерите на Cloudflare ја стопирале дистрибуцијата на неисправната датотека и рачно ја замениле со претходната, исправна верзија. Тоа овозможило постепено закрепнување на системот.

Matthew Prince, коосновач и главен извршен директор на Cloudflare, им се извини на корисниците поради проблемите, нарекувајќи го најлошиот прекин на работата на компанијата од 2019 година. Тој најави чекори за зајакнување на отпорноста на системот, откривајќи дека планираат да воведат построги контроли за внатрешно генерираните конфигурациски датотеки, да овозможат побрзо глобално исклучување на одделни функционалности и да направат анализа на сите модули со цел спречување на слични сценарија во иднина.


