Mục lục bài viết
Xin chào anh em, lại là Tricker Channel đây!
Ngày 18 tháng 11 năm 2025 có lẽ là một ngày đen tối đối với nhiều website và dịch vụ trên toàn thế giới. Nếu bạn thấy website của mình (hoặc các trang web lớn khác) đồng loạt báo lỗi 5xx và không thể truy cập, thì xin chúc mừng... bạn vừa chứng kiến vụ sập mạng nghiêm trọng nhất của gã khổng lồ Cloudflare trong nhiều năm trở lại đây.
Vụ việc đã gây ra sự hoang mang tột độ, thậm chí Cloudflare ban đầu còn nghi ngờ đây là một cuộc tấn công DDoS quy mô lớn. Nhưng sự thật đằng sau nguyên nhân gây ra sự cố này lại khiến giới công nghệ phải "hoa mắt".
Hãy cùng Tricker Channel "mổ xẻ" chi tiết sự cố Cloudflare 18/11/2025, xem lỗi kỹ thuật "trời ơi đất hỡi" nào đã khiến cả Internet chao đảo!
I. Sự Cố Cloudflare Sập Mạng Ngày 18/11/2025
Sự cố bắt đầu vào khoảng 11:20 UTC (tức khoảng 18:20 giờ Việt Nam) ngày 18/11. Chỉ trong vài phút, mạng lưới Cloudflare bắt đầu gặp trục trặc nghiêm trọng trong việc phân phối lưu lượng truy cập cốt lõi.
Hậu quả: Hàng loạt người dùng Internet khi truy cập các trang web được bảo vệ bởi Cloudflare đã nhìn thấy các trang lỗi HTTP 5xx (lỗi máy chủ).
Cloudflare đã phải mất nhiều giờ đồng hồ vật lộn. Mãi đến 14:30 UTC, lưu lượng truy cập cốt lõi mới được khôi phục phần lớn, và phải đến 17:06 UTC (tức 00:06 sáng ngày 19/11 VN) toàn bộ hệ thống mới trở lại trạng thái hoạt động bình thường.
II. Nguyên Nhân Thực Sự: Sai Lầm Từ Một Thay Đổi Permissions Đơn Giản
Điều đáng chú ý nhất là: Sự cố này KHÔNG phải do tấn công mạng (DDoS) hay bất kỳ hoạt động độc hại nào!
Cloudflare tiết lộ, nguyên nhân thực sự bắt nguồn từ một lỗi kỹ thuật phát sinh trong quá trình thay đổi quản lý quyền (permissions) trên một cụm cơ sở dữ liệu (Database Cluster) ClickHouse nội bộ.
1. Thủ phạm: Feature File của Bot Management "Tăng Cân" Bất Thường
Vào 11:05 UTC, một thay đổi về quyền truy cập database đã được triển khai. Mục đích là để cải thiện tính bảo mật và độ tin cậy của các truy vấn phân tán.
Tuy nhiên, thay đổi này vô tình làm cho một truy vấn được sử dụng để tạo tệp cấu hình (configuration file) cho hệ thống Bot Management của Cloudflare trả về các hàng dữ liệu trùng lặp (duplicate rows).
Kết quả là: Tệp cấu hình "feature file" này, dùng để cập nhật các tính năng và mối đe dọa bot mới, đã tăng kích thước gấp đôi so với bình thường.
2. Kết Liễu: Lỗi Vượt Giới Hạn Bộ Nhớ (Memory Limit)
Tệp "feature file" quá khổ này sau đó đã được phân phối đến tất cả các máy chủ trên toàn mạng lưới Cloudflare.
Vấn đề là, phần mềm proxy cốt lõi của Cloudflare (hệ thống FL/FL2) có một giới hạn cứng về kích thước tệp cấu hình Bot Management (hiện tại là 200 features, trong khi nhu cầu sử dụng thực tế chỉ khoảng 60).
Khi phần mềm proxy tải tệp mới đã bị nhân đôi (vượt quá 200 features), nó đã chạm phải giới hạn này, gây ra lỗi nghiêm trọng (Cloudflare gọi là "panic") và khiến hệ thống trả về lỗi 5xx cho người dùng.
Tóm lại: Chỉ một thay đổi nhỏ về quyền database đã dẫn đến việc tạo ra một tệp cấu hình bị lỗi, tệp lỗi này lại vượt quá giới hạn cứng của phần mềm, gây ra sự sập mạng quy mô toàn cầu.
III. Mức Độ Thiệt Hại và Sự Nhầm Lẫn Ban Đầu
Sự cố đã ảnh hưởng đến hàng loạt dịch vụ cốt lõi của Cloudflare:
-
Core CDN & Security: Gặp lỗi HTTP 5xx.
-
Workers KV & Cloudflare Access: Gặp lỗi do phụ thuộc vào hệ thống proxy cốt lõi.
-
Cloudflare Dashboard: Người dùng không thể đăng nhập do hệ thống Turnstile bị ảnh hưởng.
Ban đầu, việc chẩn đoán gặp khó khăn vì sự cố có tính chất dao động: hệ thống sập rồi lại phục hồi, rồi lại sập. Điều này là do tệp cấu hình mới được tạo 5 phút một lần, và đôi khi nó tạo ra tệp "tốt," đôi khi lại tạo ra tệp "xấu."
Thêm vào đó, trang trạng thái (status page) của Cloudflare (dù được host ở nơi khác) cũng gặp sự cố trùng hợp, khiến đội ngũ kỹ thuật ban đầu nghi ngờ đây là một cuộc tấn công phối hợp nhằm vào cả hệ thống và trang thông báo.
IV. Cloudflare Đã Khắc Phục Sự Cố Thế Nào?
Sau khi xác định được tệp cấu hình Bot Management lỗi là nguyên nhân, Cloudflare đã thực hiện các bước sau:
-
Dừng tạo và phân phối các tệp cấu hình Bot Management mới.
-
Khôi phục một phiên bản tệp cấu hình "tốt" và đẩy nó ra toàn mạng lưới.
-
Khởi động lại các dịch vụ proxy cốt lõi.
Việc này giúp giải quyết vấn đề chính vào khoảng 14:30 UTC. Các dịch vụ phụ thuộc khác phải mất thêm vài giờ để khởi động lại và trở lại trạng thái bình thường hoàn toàn.
V. Lời Hứa "Cải Tạo" Của Cloudflare
Matthew Prince, CEO của Cloudflare, đã thay mặt toàn đội ngũ gửi lời xin lỗi sâu sắc. Ông thừa nhận đây là sự cố tồi tệ nhất kể từ năm 2019 và là điều không thể chấp nhận được.
Họ cam kết thực hiện ngay các bước khắc phục, bao gồm:
-
Tăng cường kiểm tra tệp cấu hình do chính Cloudflare tạo ra, tương tự như cách họ kiểm tra đầu vào do người dùng tạo.
-
Thiết lập thêm các "công tắc ngắt khẩn cấp" (global kill switches) cho các tính năng.
-
Xem xét lại các chế độ lỗi trên tất cả các module proxy cốt lõi.
Kết luận
Vụ sập mạng 18/11/2025 của Cloudflare là một bài học đắt giá, chứng minh rằng ngay cả những hệ thống phức tạp và phân tán nhất cũng có thể bị hạ gục bởi một sai lầm cấu hình tưởng chừng đơn giản.
Chỉ một thay đổi nhỏ về quyền database, kết hợp với việc thiếu kiểm soát giới hạn cứng trong phần mềm, đã gây ra thiệt hại trên quy mô toàn cầu.
Anh em nghĩ sao về sự cố này? Hãy để lại bình luận và đừng quên nhấn theo dõi Tricker Channel để cập nhật các tin tức công nghệ "nóng hổi" và các sự kiện "sập mạng" đình đám khác nhé!
Nguồn tham khảo: The Cloudflare Blog.
Facebook: Dịch Vụ Mạng Xã Hội Đà Nẵng
Zalo: Dịch Vụ Đà Nẵng
Phone: 0333.110304
Gmail: mxhdn.xyz@gmail.com
Thanh toán: Ngân hàng, thẻ cào siêu rẻ, Momo, ViettelPay, card + 35% phí,...





