미니 근데 카카오가 왜 안일한 설계인가요?
- 요크
- 조회 수 894
- 2022.10.17. 15:22
HA 구성 다 되어있을거고, DR 전환도 자동으로 되었을텐데
주축을 담당했던 대부분의 서버가 내려갔을테니 백업 서버의 메세지 브로커 클러스터로 데이터 전송해주던 서버도 다 내려갔을거고, 순차적으로 내려간게 아닌 한번에 내려간거고
그냥 서버 뿐만이 아니고 메인 라우터, 하드웨어적으로 데이터 카피해주는 장비도 전원 내려갔을거고
DR 전환이 되어도 분산해서 담당하던 서버에 트래픽이 몰리니 계속 터질 수 밖에 없는 구조고
그렇다고 카카오 서버의 트래픽만큼의 1:1 대응이 가능한 백업 서버 구성하기엔 엄청난 비용이 들거고
사실상 방법이 없었다고 생각합니다.
네이버도 주축이었던 IDC 전원 통째로 내려갔으면 마찬가지 상황 아니었을까 싶습니다.
AZ 분산도 가산으로 넘어갔는데 트래픽 커버가 안됐다고도 하니까요.
그냥 인프라 담당자, 백엔드 코어 개발자, DBA 분들이 고생하겠구나 싶네요.
DR전환이 제대로 됬는지 안됬는지는 지금 알려진게 없지만... 제가 알고 있기로는 DR전환 완료된게 대략 사건 터지고 한 3시간 뒤였던걸로 알고 있습니다.
이쯤이면 자등으로 DR 안됬다고 보는게 맞죠...
DR 후 가산 IDC쪽에서 트래픽 터져나간다고 얘기도 나왔는데, 사실상 트래픽별, 중요도별로 분산된 구조가 아니였다는것도 대충 어림잡아볼 수 있지요. 트래픽 터져나갈만한 서비스는 일단 중지해놓고 순차 복구를 해도 될건데,, 그게 안되니 결국 새벽 1시쯤 겨우 트래픽 내려가면서 대응가능한 것 같고...
거대 서비스 치고는 그 구성이 너무 주먹구구식이었다고 추측 되서 많은 얘기가 오가는것 같은데, 일단 기다려보면 더 많은 정보가 나올거고 결국 어떤게 문제였는지 등이 나오겠쥬...
익명을 요구한 한 보안전문가는 “카카오 정도의 규모라면 데이터 이원화, 핫사이트(비상시 서버와 데이터 등에 미리 설치해둔 백업 사이트)는 물론, 아예 사고지점을 차단하고 메인 서버에 있는 정보를 그대로 복제한 새로운 데이터센터와 연결하는 재해복구(DR) 시스템을 갖췄을 것이다”며 “다만, 카카오톡을 비롯해 여러 계열사를 거느린 카카오의 서비스 영역이 워낙 방대하고 복잡한 만큼 데이터 복구에 무리가 있었을 것 같다”고 했다.
IT업계의 한 관계자는 "데이터센터 한곳이 화재가 났다고 카카오톡과 카카오T(카카오택시, 대리), 카카오페이 등 수천만명이 사용하는 대국민 서비스가 7시간 가까이 멈춰 있고, 전원이 들어와야만 서비스가 정상화된다는 게 이해될 해명이냐"며 "서비스 실시간 백업 시스템이 없다는 얘기나 다름없다"고 꼬집었다.
1. DR전환이 안되었고,
2. 로그인을 그렇게 다양한곳에서 쓸꺼면 로그인 서버라도 이중화 또는 실시간 절체등이 되게 설계를 하는게 맞는거죠.
3. 그래서 네이버는 데이터센터 여러곳 쓰는것 아닌가요?