️왜 이런 일이 생긴 거야?
처음에는 MS 클라우드의 문제라고 봤어. 제주항공도 자기네 사이트에 알림 공고로 ’MS 클라우드 장애로 이 사태가 벌어졌다’고 썼을 정도. MS 클라우드를 쓰는 곳들에서 에러가 났으니까.
️근데 아니다?
MS가 조사해보니 자기네 클라우드가 다 뻗어버린 건 아니다, 윈도 운영체제에서 돌아가는 보안 제품 중 하나인 크라우드스트라이크가 업데이트 파일을 올린 것 중에 결함이 있어서 이렇게 됐다고 하는 거야.
️크라우드스트라이크의 문제다?
클라우드 서비스는 데이터 센터를 기반으로 해. 그 서버에도 운영체제가 필요하지. 그걸 윈도로 돌리는 것들이 일부 멈춘 거고. 모든 MS의 서버가 다 윈도를 운영체제로 쓰는 건 아니거든. MS가 파악해보니 1% 정도의 윈도 기기에만 영향을 미쳤다는 거야. 그러니 MS는 더더욱 이건 우리 클라우드의 문제가 아니다, 외부 보안 회사가 일으킨 문제다, 이렇게 강조하는 거지.
️클라우드의 문제는 아닌 거네.
그렇지. 일반 개인이 (클라우드를 안 쓰더라도) 윈도 운영 PC에서 크라우드스트라이크를 이용하고 있었으면 충돌이 났을 테니까. 그래서 처음에는 MS 클라우드발 먹통으로 표현하다가 뒤에는 크라우드스트라이크 장애라든지 IT 대란이라든지로 표현을 다르게 하고 있어.
️MS 책임도 있긴 해?
응. 사실 클라우드 서비스를 이용하는 대다수 기업들은 이런 분야에 전문적이지도 않고 MS가 다 알아서 해주길 바라며 맡기는 거잖아. 보안 문제도 알아서 대처해주고, 잘 돌아갈 거로 믿고 비용을 주고 맡긴 건데.
️MS도 문제네.
실제 MS 같은 클라우드 회사들이 고객사 대상으로 영업을 할 때는 자기네 클라우드에 맡기면 서버 공간도 아끼고 전력, 보안, 기술 인력 등 다 신경 쓸 필요가 없으니 좋다고 강조하거든. 제일 중요한 게 보안인데, 안정성이 높아 끊기지 않는다고 제일 강조해.
️근데 끊겼잖아!
MS는 그래서 이번 사건은 자기네 사고는 아니지만, 글로벌 클라우드 공급업체, 소프트웨어 플랫폼, 보안 공급업체 및 기타 소프트웨어 공급업체, 마지막으로 고객까지 광범위한 생태계의 상호 연결된 특성을 보여준다고 밝혔어. 연결성을 인정하지만, 문제가 터진 건 보안 회사라는 걸 명확히 했고.
️하필 자기네 클라우드 서비스 애저에 오류가 생겨서 어쩔 수 없었다?
그렇지. 클라우드가 (오류 대상에) 포함되면 여기에 이어진 생태계가 워낙 거대하니까. 클라우드는 각 기업의 전산센터를 대체할 정도로 의존도가 높고 AI 시대에는 더 높아지고 있잖아. 무엇보다 고객사 당사자들이 즉각 대처를 할 수도 없고 말야.
️대처?
예를 들면 내 PC에서 문제가 생겼으면 서버 선이라도 뺐다가 꽂아보든지 할 텐데, 클라우드는 가상을 연결해서 내 서버처럼 쓰는 거잖아. 접속이 끊기면 고객은 할 수 있는 게 아무것도 없어. 기업들은 먹통 상태로 자체 인력이 있어도 아무것도 할 수 없는 거야. 손 놓고 MS만 쳐다봐야 하는 거지.
️지금 오류는 다 복구된 거야?
복구라 하면, 잘못된 파일을 각각 PC나 윈도 서버에서 삭제해야 하는 것인데. 수동으로 해야 해. 19일에 발생했는데 20일에는 대부분 복구됐어. 시스템만 복구된 거지 그로 인한 피해가 복구된 건 아니고.
️피해액이 10억 달러 이상이라는데?
크라우드스트라이크가 아직 배상 얘기는 하고 있지 않은데. 보도 중 이런 내용이 있어. 약관에, 에러가 일어났을 경우 크라우드스트라이크에 다달이 내는 돈만 환불해주는 정도로 배상한다고. 그래서 배상 범위가 크지 않을 수 있다고.
️MS는 배상 책임이 없고?
그건 더 봐야 할 텐데. 국내 사례를 보면 2022년 10월 카카오톡 먹통이 길게 발생했는데, 원인이 SK C&C가 운영하는 데이터 센터 화재였거든. 카카오톡은 사용자들에게 이모티콘을 주거나 소상공인 대책을 마련했어. 직접 나선 거지.
️MS도 여러 나라 고객사에 배상을 해야겠네?
제대로 보상을 받으려면 소송으로 갈 수밖에 없는데, 이번이 워낙 초유의 사태잖아. 예를 들면 병원은 수술을 못 하고, 방송사는 생방송을 못 해서 광고도 영향을 다 받았어. 미국 뉴욕 타임스퀘어도 꺼졌고. 화물 배송이 미뤄져 복구할 수 없는 피해가 발생한 곳도 있어. 이에 대한 정산과 판단이 어떻게 될지는 더 지켜봐야 할 거 같아.
️정말 보통 일이 아니구나.
연결성을 기반으로 한 클라우드 사업이 큰 위험성을 안고 있는 것을 이번에 정말 제대로 보여줬지.
️클라우드 사업자들도 그걸 알았을 텐데.
물론이지. MS와 구글 같은 클라우드 사업자들은 안정성을 높이려고 해왔어. 계속 보안 회사를 비싼 값에 사들이기도 했고. 이게 끊어지면 끝이 나버리니까. 데이터 센터 자체도 각종 위협에 대비시키기 위해 노력했고.
️데이터 센터를?
예를 들면 지진이 발생할 수도 있잖아. 물리적 위협이 생기는 거지. 각 지역에 데이터 센터를 계속해서 짓고 있는데 한국에 지을 때도 서울과 부산으로 떨어뜨려서 지었거든. 한 곳에 문제가 생겨도 다른 한 곳이 움직이게 하려고. 그렇게 안정성을 굉장히 신경 써왔어.
️그래도 셧다운이 발생해?
그렇지. 그런데 가입자도 할 말은 많아. 너네 프로그램 위에 많은 소프트웨어가 돌아가고 그게 오류가 나서 접속이 안 되는 게 너네 책임이 아니라는 설명, 무슨 말인지는 알겠다. 하지만, 너네 그런 식으로 사업 할 거야? 그렇게 해서 클라우드 사업이 존속 가능하겠어? 이런 질문을 할 수 있는 거지. 가입자 입장에선 하나의 클라우드에 소위 ’몰빵(몰방)’하는 게 얼마나 위험한지 제대로 알게 된 거고.
️한 곳에 안 하면?
여러 개를 쓰는 거지. MS 한 군데에 핵심 서비스를 올려놓고 그거로만 사업을 돌리는 기업은 정말 위험해. 비용이 2배 이상 들겠지만 복수의 클라우드에 위탁해야 한다는 거지. 이에 더해서 자체 전산센터를 운영해야 하고.
️자체?
자기 서버를 꼭 가져야 해. 그래서 핵심 서비스의 경우 자체 서버에다가 둬야 하고. 혹시라도 어딘가에 오류가 생겨 접속이 끊겨도 직접 대응할 수 있게 해야 한다는 거지. 클라우드의 복수화와 자체 센터 보유, 이걸 동시에 해야 그나마 안전하다고 볼 수 있어.
️그러려면 너무 비싼 거 아니야?
맞아. 비용이 너무 많이 들어서 작은 회사들은 그렇게 하기가 쉽지 않지.
|