Coinbase hứa sẽ phân tích nguyên nhân gốc rễ đầy đủ sau sự cố lớn của sàn giao dịch

Các sự cố hạ tầng AWS và vấn đề phục hồi Kafka tạm thời đã ngăn chặn hoạt động giao dịch trên toàn Coinbase.

Coinbase đã gặp phải một sự cố dịch vụ lớn vào ngày 7 tháng 5 khiến hoạt động giao dịch, truy cập sàn và cập nhật số dư khách hàng bị gián đoạn trên nhiều nền tảng. Các vấn đề ảnh hưởng đến thị trường giao ngay, phái sinh, dịch vụ Prime và hoạt động giao dịch quốc tế trong vài giờ. Các kỹ sư sau đó đã truy nguyên nguyên nhân do sự cố hệ thống làm mát trong một trung tâm dữ liệu AWS tại Hoa Kỳ. Coinbase cho biết quỹ của khách hàng vẫn an toàn và không có dữ liệu nào bị mất trong sự cố này.

Vấn đề phục hồi Kafka làm trầm trọng thêm sự cố của Coinbase

Coinbase tiết lộ rằng hệ thống giám sát lần đầu phát hiện các lỗi báo giá lan rộng vào khoảng 23:50 UTC. Nhiều sự cố Sev1 đã xảy ra ngay sau đó, thúc đẩy các quy trình ứng phó khẩn cấp của các nhóm kỹ thuật. Các hệ thống nội bộ liên quan đến hạ tầng cốt lõi của sàn bắt đầu gặp sự cố khi nhiệt độ trong một số rack được đặt trong AWS us-east-1 tăng cao.

Hôm qua @coinbase đã trải qua một sự cố dịch vụ kéo dài nhiều giờ ảnh hưởng đến giao dịch, truy cập sàn và cập nhật số dư. Đây là nhận định ban đầu của kỹ sư Coinbase về những gì đã xảy ra, cách chúng tôi phục hồi, và những gì chúng tôi đang xử lý.

Khoảng 23:50 UTC ngày 07-05-2026, chúng tôi…

— rob (@rwitoff) 8 tháng 5, 2026

Theo các kỹ sư của Coinbase, các sự cố phần cứng đã ảnh hưởng đến các hệ thống kết nối với bộ xử lý khớp lệnh của sàn. Bộ xử lý này xử lý các lệnh và duy trì sổ lệnh trên các thị trường của Coinbase. Các vấn đề hạ tầng trong trung tâm bị ảnh hưởng khiến chỉ một phần các nút hoạt động. Do đó, cụm máy chủ không đạt được đa số phiếu, tạm thời chặn hoạt động giao dịch cho người dùng cá nhân và tổ chức.

Các kỹ sư cũng gặp phải các phức tạp liên quan đến các cụm Kafka phân tán dùng cho nhắn tin nội bộ. Coinbase cho biết các cụm này xử lý hàng terabyte dữ liệu hàng ngày và được thiết kế để duy trì hoạt động trong suốt sự cố trung tâm dữ liệu. Các đảm bảo phục hồi đã thất bại trong sự cố, buộc các nhóm phải khôi phục thủ công các phân vùng trên các broker phần cứng thay thế.

Sự cố phần cứng riêng biệt làm chậm quá trình phục hồi

Khách hàng gặp phải sự chậm trễ trong cập nhật số dư trong khi quá trình sao chép dữ liệu của Kafka phục hồi. Coinbase cho biết số dư sẽ tự động được đồng bộ khi hệ thống bắt kịp. Đại diện công ty bổ sung rằng không có dữ liệu khách hàng hay giao dịch nào bị mất trong thời gian xảy ra sự cố.

Các công cụ tự động phục hồi đã xóa bớt khối lượng công việc khỏi khoảng 10 cụm Kubernetes liên quan đến vùng bị ảnh hưởng. Hầu hết các dịch vụ nội bộ đã trở lại hoạt động trong khoảng 30 phút sau khi các kỹ sư cô lập được vấn đề.

Quá trình phục hồi mất nhiều thời gian hơn đối với các hệ thống liên quan trực tiếp đến bộ xử lý khớp lệnh của sàn và hạ tầng Kafka vì cả hai đều dựa trên phần cứng và cấu hình lưu trữ riêng biệt.

Sau khi ổn định môi trường, Coinbase đã mở lại các thị trường theo từng giai đoạn. Giao dịch ban đầu chuyển sang chế độ chỉ hủy bỏ trước khi các nhóm kiểm tra trạng thái sản phẩm. Các thị trường sau đó bước vào chế độ đấu giá trước khi hoạt động giao dịch toàn diện được khôi phục trên toàn sàn.

Coinbase Khẳng định Không Có Dữ Liệu Nào Bị Mất Trong Sự Cố Nhiều Giờ

Coinbase thừa nhận rằng một phần kiến trúc của họ tập trung hạ tầng quan trọng của sàn trong một vùng khả dụng duy nhất. Các kỹ sư cho biết rằng các hệ thống dự phòng đã được thiết lập để xử lý các tình huống chuyển đổi dự phòng, mặc dù các biện pháp cô lập đã thất bại trong sự kiện này. Điều này đã kéo dài thời gian và mở rộng phạm vi của sự cố vượt quá giới hạn dự kiến.

Các giám đốc điều hành của công ty đã khen ngợi sự phối hợp nội bộ trong quá trình phục hồi. Các nhóm kỹ thuật và trực ca đã theo đúng quy trình khắc phục thảm họa đã được thiết lập trong khi thử nghiệm và xác nhận các sửa chữa trong điều kiện hạ tầng hạn chế.

Coinbase xin lỗi khách hàng đã tạm thời mất quyền truy cập vào tài khoản và dịch vụ giao dịch của họ. Các giám đốc điều hành cho biết sẽ công bố phân tích nguyên nhân đầy đủ trong những tuần tới, cùng với các kế hoạch cải thiện độ tin cậy nhằm ngăn chặn các sự cố tương tự trong tương lai.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim