Gangguan Microsoft 365 pada 9 Oktober waktu setempat bikin banyak kantor berhenti sejenak. Pengguna mengeluh tidak bisa mengakses Teams, Exchange, hingga portal Office. Microsoft mengakui ada masalah pada sebagian infrastruktur jaringan mereka di Amerika Utara yang berujung gangguan akses ke sejumlah layanan inti.
Pemadaman ini tidak lama. Setelah mitigasi dan pengalihan rute trafik, layanan berangsur normal. Dari sisi pengguna, durasinya kira kira satu jam sampai status kembali hijau. Di puncak keluhan, situs pemantau outage mencatat belasan ribu laporan yang menggambarkan skala dampak meski angka tersebut berbasis input sukarela.
Apa yang bisa dipelajari tim TI dari kasus ini.
- Ketahanan arsitektur perlu diuji rutin, khususnya terkait perubahan konfigurasi yang berpotensi memicu cascading failure.
- Observabilitas harus tajam. Deteksi dini dan rerouting otomatis mempersingkat durasi insiden.
- Komunikasi status yang jelas membantu bisnis mengambil keputusan sementara, misalnya beralih ke saluran komunikasi cadangan.
- Rencana kontinuitas bisnis jangan berhenti di dokumen. Latih skenario nyata agar tim siap ketika layanan inti tersendat.
Buat perusahaan yang bertumpu pada SaaS, insiden semacam ini adalah pengingat bahwa single point of failure tetap ada di level penyedia. Strategi praktisnya sederhana. Siapkan jalur komunikasi alternatif, pastikan data penting punya jalur ekspor dan backup, serta dokumentasikan prosedur kerja saat layanan utama bermasalah.



Komentar