3만2천대의 서버가 SK 데이터센터에 있던 LG CNS 데이터 센터에 있던 그게 중요한게 아닙니다.
가장 중요한것은
"일반적으로 대기업이나 금융권들은 메인데이터센터와 재해복구센터를 별도로 운용해야합니다 또한 서버들을 분산배치해야합니다"
메인데이터 센터에 3만2천대의 서버가 있다면
재해복구센터에 3만2천대의 서버를 설치해야합니다.
또한 그 데이터들은 실시간으로 복제되어서 메인데이터센터에 화재가 발생하여도 재해복구센터에 있는 시스템으로 돌릴수 있게 해야 하는거죠.
한곳의 데이터센터에 재해복구용 서버까지 모두 넣어놨다는건 있을수 없는 일입니다.
대부분의 큰 메이저 회사들의 경우 메인데이터센터와 재해복구센터와의 거리도 최대한 멀리 둡니다 (최소 20km이상)
지진이나 미사일공격등 여러가지 상황을 대비하기 위해서죠
따라서 SK 데이터 센터에 큰 장애가 발생했을때 재해복구센터에 있는 서버들로 서비스를 제공해야 함에도 불구하고
카카오는 그러한 대처를 1도 하지 않은거죠. 그냥 SK데이터 센터에 모든 장비들을 다 때려박은것이시지요
이런경우 건물 화재나 지진, 그리고 전력락다운이 발생했을때 또다시 이런 장애가 발생합니다.
카카오는 SK데이터센터에 메인서버 및 재해복구용 서버들을 모두 넣어놨을것입니다. 이건 관리자입장에서 말이 안되는 행위입니다.
따라서 이번사건은 좇소기업에서나 발생했을법한 사고입니다.
IT 고위직들은 이미 이런 장애가 발생할것을 예상못할수가 없습니다.
또한 고위직들도 이정도 기본적인 사항들을 몰랐다는것도 거짓말일것입니다.
이것은 명백한 인재가 맞습니다.
카카오에서 무슨 변명을 하더라도 단순 책임회피용밖에는 되지 않아요
저도 IT-네트워크 전공자로서..
말씀하신 좆소 기업도.. DR을 운영하는 순간.. 같은 장소에 두지 않습니다.
단순히 장비 이중화야 옆에다 놓겠지만.. 재해 복구 차원에서 같은 장소에 두지 않습니다..
아무리 작은 회사라도..(작은 회사는 DR 운영할 여건은 안되지만..)
카카X는 DR 운영과 이중화를 구분 못하고 얘기하고 있는거 아닐까요??
말도 안되는 짓을 해놨어요..
조선시대때도 서고를 지역을 나눠 분산배치 시켰었죠? ITC센터 재난 메뉴얼도 아주아주 오래전에 만들어 졌고. 그런데, 이런 말도안되는 사고가 일어났다는 건 기본이 안되어 있었다는 거죠. 이런 말도 안되는 시스템을 우리가 쓰고 있는 것입니다. 분산 관리는 아주 중요하고 기본적인 것이죠. 특히나 거래가 오가는 시스템은...
WEB3.0 시대가 오고 있고, 탈 중앙화. 즉, 블록체인 같은 기술들이 발전되고 있음에도 IT 입장에서는 아주아주 기본적인 분산관리를 안했다는 이해하기가 쉽지 않네요. 행여 기본이 되어 있다면 무언가 공작을 펼치기 위함이 아니었나 생각도 들구요.
요즘 최신 기술의 DR은 3.2만 *2 또는 *3 의 개념이 아닙니다.
A.B,C 라는 IDC센터에 각 1만대씩의 서버를 넣어두고 ABC를 병렬로 연결을 합니다.
이렇게 구성하면 A IDC 센터가 셧다운되었을때에 정상적인 서비스를 할 수 있습니다. 비용은 1/3로 줄어들겠죠.
카카오 사태의 중요한 문제는 한곳의 IDC센터에 서버가 몰빵이 되어있다는겁니다. 1/3씩 정확하게 나눠져 있었다면 remap작업이 원할하게 이루어졌을꺼에요. 하지만 판교에 몰빵이 되어있기 때문에 실질적인 데이터가 1/3이 아닌 1/2 또는 그 이상이었다는거에서 문제가 발생한거에요.
또한 모든 서버가 그렇지만 1~2년만에 재부팅하면 재부팅서버중 10%이상 정상적으로 구동을 안합니다. 3.2만대에서 10%만 안켜졌다면 콘솔 붙여서 3200대를 다 확인해야된다는거죠. 말이 3200대지...부팅되는거 다 확인을 하려면 대당 10분만 잡아도...32000분입니다. 혼자 24시간 했을때 22일이죠. 20명이 붙어도 2일이 걸린다는 소리죠.
카카오톡은 구글링해보시면 아시겠지만.. 오픈소스 기반의 커스터마이징된 Openstack과 ceph 스토리지로 구성되어있고요....어떤 세미나에서 openstack과 ceph 스토리지를 운영하는 운영팀이 3인이라는 예기가 있었네요...
0/2000자