Toàn cảnh: Internet “khựng” vì AWS
Amazon Web Services (AWS) xác nhận một sự cố lớn khiến hàng loạt dịch vụ trực tuyến khắp thế giới gặp trục trặc. Ban đầu, AWS nói đã “giảm thiểu hoàn toàn” lỗi, nhưng ngay sau đó lại thừa nhận xuất hiện thêm vấn đề kết nối ở khu vực US-EAST-1, dẫn tới tỉ lệ lỗi API tăng cao và độ trễ bất thường. Tác động lan rộng từ các ứng dụng phổ biến, hệ thống ngân hàng, sàn giao dịch tiền mã hoá, hãng hàng không cho tới thiết bị nhà thông minh trong gia đình.
Diễn biến chính trong ngày
Rạng sáng theo giờ ET: AWS báo “tỉ lệ lỗi đáng kể” với DynamoDB tại US-EAST-1, kéo theo nhiều dịch vụ AWS khác.
Sau đó: AWS nói đã xác định “nguyên nhân gốc tiềm năng” và triển khai nhiều biện pháp song song để khôi phục.
Tiếp theo: AWS thông báo “đã giảm thiểu hoàn toàn” vấn đề DNS, song một số yêu cầu có thể vẫn bị giới hạn (throttling) trong lúc xử lý backlog (như CloudTrail, Lambda).
Gần trưa theo giờ ET: AWS cập nhật mới – lại có lỗi kết nối mạng, lần này bắt nguồn từ mạng nội bộ EC2, buộc tạm hạn chế việc tạo instance EC2 mới để ổn định hệ thống.
Mức độ ảnh hưởng: con số biết nói
Downdetector ghi nhận khoảng 6,5 triệu báo cáo từ người dùng toàn cầu trong những giờ đầu. Riêng tại Mỹ hơn 1,4 triệu báo cáo; Anh hơn 800.000; Hà Lan & Úc hơn 400.000; Pháp & Nhật mỗi nước khoảng 350.000. Hàng loạt dịch vụ chịu tác động: Amazon, AT&T, Disney+, Hulu, Snapchat, PlayStation, Fortnite, Roblox, McDonald’s, cùng nhiều website thương mại và truyền thông.
Ngân hàng, hàng không, tiền mã hoá, AI: ai bị khựng?
Ngân hàng Anh như Lloyds, Halifax, Bank of Scotland: khách hàng từng được khuyến nghị “thử lại sau”, rồi dần khôi phục.
Hàng không Mỹ: United nói app/website và một số hệ thống nội bộ bị gián đoạn nhưng đã dùng phương án dự phòng; Delta ghi nhận một số chậm chuyến nhỏ lúc đầu giờ sáng.
Tiền mã hoá & AI: Coinbase cho biết “tất cả tài sản an toàn” nhưng truy cập bị ảnh hưởng; Perplexity xác nhận dịch vụ gián đoạn do lỗi AWS.
Kinh nghiệm thực tế từ người dùng
Nhóm làm việc từ xa ghi nhận: Slack có người bị, có người không; Zoom tự thoát sau vài giây đăng nhập.
Nhà thông minh: phích cắm thông minh Alexa tê liệt khiến người dùng gặp khó, đặc biệt với người có nhu cầu hỗ trợ di chuyển.
Giải trí/học tập: YouTube, RokuTV, game online và công cụ học tập Canva từng ngưng hoạt động, ảnh hưởng ôn thi và giải trí đầu ngày.
AWS nói gì về kỹ thuật?
Có hai lớp vấn đề được nhắc tới hôm nay:
DNS liên quan đến DynamoDB: dữ liệu vẫn “an toàn” nhưng các dịch vụ không “tìm thấy nhau” – giống như Internet bị “mất trí nhớ tạm thời”, khiến ứng dụng tách rời khỏi dữ liệu vài giờ.
Mạng nội bộ EC2: một tiểu hệ thống giám sát tải của EC2 “trục trặc”, gây lỗi kết nối chéo nhiều dịch vụ (DynamoDB, SQS, Amazon Connect…). Để giảm áp lực, AWS giới hạn tạo instance EC2 mới và ưu tiên bình ổn lưu lượng hiện hữu.
Vì sao các sự cố kiểu này lặp lại?
Internet được thiết kế “phân tán và bền bỉ”, nhưng thực tế hạ tầng số toàn cầu tập trung vào vài khu vực/nhà cung cấp đám mây lớn. Khi một mắt xích “hắt hơi”, hiệu ứng dây chuyền lan rất nhanh: từ ứng dụng tiêu dùng, tài chính đến khu vực công. Chuyên gia nhấn mạnh rủi ro tập trung và nhu cầu đa vùng/đa đám mây, kiểm thử kịch bản khẩn cấp, cũng như thiết kế dịch vụ chịu lỗi theo vùng thay vì “đặt tất cả trứng vào một giỏ”.
AWS by the numbers
Thị phần: ~37% thị trường đám mây toàn cầu (2024).
Doanh thu: khoảng $107,6 tỷ (2024).
Hạ tầng: 6+ triệu km cáp quang; 38 khu vực địa lý.
Khách hàng tiêu biểu: Disney, Quân đội Mỹ, Capital One, United Airlines, NFL…
Những con số này lý giải vì sao mỗi lần AWS “đứng hình”, độ lan toả ảnh hưởng là cực lớn.
Bài học hạ tầng: từ CrowdStrike 2024 đến hôm nay
Sự cố CrowdStrike tháng 7/2024 từng làm đình trệ toàn cầu và gây thiệt hại trực tiếp ước tính hàng tỷ USD, phơi bày tính mong manh của nền kinh tế số trước các lỗi phần mềm/hạ tầng. Vụ hôm nay một lần nữa gióng chuông: khả năng dự phòng tức thời phải là chuẩn mặc định, không phải “xa xỉ phẩm”.
Bạn nên làm gì ngay bây giờ?
Người dùng phổ thông:
Thử xoá bộ nhớ đệm (cache) của trình duyệt/app, đăng xuất-đăng nhập lại.
Kiểm tra tuỳ chọn điều khiển thủ công cho thiết bị nhà thông minh (công tắc cơ, điều khiển nội bộ).
Nếu ứng dụng còn chậm, đợi thêm và thử lại – nhiều dịch vụ đang xử lý backlog.
Doanh nghiệp/kỹ thuật:
Kích hoạt đa vùng (multi-AZ/multi-region), cân nhắc đa đám mây cho các dịch vụ thiết yếu.
Thiết lập failover DNS và tách lớp dữ liệu/ứng dụng để giảm phụ thuộc chéo.
Diễn tập runbook khẩn cấp: giới hạn tạo resource mới, ưu tiên phục hồi phiên/luồng hiện hữu, giám sát hàng đợi/backlog.
Kết lại: Tình hình đã khá hơn nhưng còn “dư âm”
AWS nói sự cố DNS đã được khống chế và phần lớn dịch vụ đã phục hồi, song độ trễ và giới hạn yêu cầu có thể vẫn xảy ra khi hệ thống “dọn dẹp” hàng đợi. Đợt “hụt hơi” mới ở mạng nội bộ EC2 cho thấy việc ổn định hoàn toàn có thể cần thêm thời gian và điều phối cẩn trọng. Với một Internet gắn chặt vào vài “xương sống” đám mây, mỗi lần “khó ở” của AWS đều là lời nhắc mạnh mẽ về khả năng chịu lỗi và giảm rủi ro tập trung cho toàn bộ hệ sinh thái số.