황범 한산씨엔에스 상무

▲ 황범 한산씨엔에스 상무
[컴퓨터월드]

진단의 목적

데이터센터의 시설수준과 레벨 등 주요 항목은 프로젝트 초기에 의사결정 과정을 통해 결정(요건정의)된다. 의사결정과정을 거친 이들 항목은 디자인(Design)에 반영되고 이후 시설의 완성과 나아가 운영까지 각 단계(Step)별로 계획된 절차에 따라 수행된다.

일반적으로 프로젝트 초기에 실시하는 컨설팅과 엔지니어링은 시설의 구성에만 관여하게 되며 그 운영은 사용자의 몫으로 프로젝트가 완료될 때 구성되는 운영팀이 맡는 경우가 일반적이다. 따라서 새롭게 구성되는 운영팀은 프로젝트의 결과물인 도면과 매뉴얼만 인계받으며 프로젝트 초기에 의도했던 요건정의 항목들의 충족여부 등은 등한시하는 경우가 있다.

이러한 상황에서 데이터센터의 진단은 시간이 경과하면서 변화된 환경(각기 다른 입주사의 요구사항, 부하용량 증가, 기술변화에 따른 장비의 온도환경 변화, 장비의 노화 등)에서 초기에 의도했던 디자인 개념(Design concept)이 유지되고 있는지, 보다 진보된 기기 및 설계기법과 비교해 부족함은 없는지, 위험(Critical risk point) 발생 요인은 없는지 등 데이터센터를 생명체라 가정했을 때 어느 곳에 아픔과 상처가 있으며 얼마나 위험한지를 평가하고 나아가 개선방안을 제시하는 의사의 역할이라 할 수 있다.


진단의 순서와 내용

데이터센터의 진단은 다음과 같이 디자인 리뷰, 시설현황 및 상태점검 그리고 분석 및 방안제시 등 3단계로 진행된다.
 

▲ 데이터센터의 진단 3단계

처음 디자인 리뷰 단계에서는 데이터센터의 설계내용을 파악하며 주로 설계도서와 준공도면이 그 대상이 된다. 요건정의와 각 계통의 시스템 구성이 일치하는지, 장비의 구성과 용량은 충분한지, 장비의 용량은 적합한 온습도 조건을 기준으로 계산되었는지, 데이터센터 및 부속실의 온습도 기준은 적합한지, 에너지 절약을 위한 시스템은 적용되었는지 등이 중점 점검사항이다.

시설현황 및 상태 점검에서는 실제 사이트(Site)의 시설을 점검하는 행동단계(Activation)를 의미한다. 도면에 맞게 시설되었는지, 장비의 상태는 양호한지, 제어는 잘 되고 있는지, 주요 Transfer 시스템의 동작 상태와 설정은 적합한지 등을 확인한다.

개별 장비의 상태를 확인하기 위해서는 테스트 장비가 필요하며 아래 테이블은 일반적으로 사용되는 테스터의 종류들이다. 모든 측정 장비는 사용 전에 그 기기의 성능을 확인해야 하며 전문 검·교정 업체의 확인을 받은 유효성이 입증된 제품을 사용해야 한다.
 

▲ 일반적으로 사용되는 테스트의 종류

최근 관심이 집중되고 있는 에너지절약은 주로 공조시설과 연관된다. 이는 Free-cooling과 같은 시스템 상의 방안 외에 아래처럼 센터의 운영과 관련된 요소가 많으므로 운영자의 교육 및 지식전달도 진단의 내용에 포함된다.
 

▲ 데이터센터 운영과 관련된 내외부적 요소

대부분 인프라 시설은 자동제어 시스템에 의해 운영된다. 제어성능에 문제가 생기면 시스템이 오동작 하거나 온도/유량/풍량의 Unbalancing을 초래해 효율이 떨어지며 리스크(Risk)가 상승한다. 이러한 문제를 해결하기 위해 자동제어 시스템의 모니터링 포인트(Monitoring point) 확인과 함께 감시/연산/조절 기능이 적합한지 여부를 확인해야 한다.

모든 데이터센터는 높은 가용성(Reliability)과 함께 낮은 PUE, 즉 보다 효율성이 좋은 저비용의 센터 운영을 목표로 한다. PUE는 소비전력의 간략한 연산으로 센터의 효율을 판단하는 지표로 사용된다. 위의 내부적/외부적 요소들의 조정만으로 상당한 개선이 될 수 있으며, 이 또한 진단항목에 포함된다. 경우에 따라서는 CFD(Computational Fluid Dynamics)를 활용해 센터 내의 온도분포와 그 개선 방안에 보다 구체적으로 접근하기도 한다.

분석 및 방안제시 단계에서는 실제 점검 결과(Data)를 기준으로 적합성/효율성/안정성의 관점에서 필요한 항목들을 분석한다. 전력분석, 열화상 측정, 온습도 분포 측정, 유량측정, 풍량 측정 등 정밀점검 및 측정 결과물이 개별 항목으로 정리되며 이 중 리스크(Risk) 또는 이슈(Issue)가 되는 부분은 별도로 요약해 정리된다.

일반적으로 가용성은 Tier level을, 효율성은 PUE를 판단의 척도로 사용한다. 검토 항목별로 발견된 리스크와 Inefficiency 요소들은 개선을 위한 대안과 함께 대략적인 비용을 포함하고 있다.
 

진단 결과와 의미

시설의 수준(Level), 가용성(Reliability), 효율성(PUE), 위험요소(Risk), 문제점 및 개선사항(Issue) 등과 같은 진단의 결과물은 센터 운영자에게 제공되는데, 이 때 각종 결과물은 센터운영자가 모든 상황을 제대로 파악할 수 있도록 상세하고도 객관적이어야 한다.

개선사항에는 비용뿐 아니라 비즈니스에 미치는 영향의 정도와 예상시간을 포함해야 한다. 센터운영자 또는 의사결정자가 개선을 위한 프로세스(Process)의 진행, 자본투입 여부를 결정하는 근거를 제공할 수 있어야 하며, 필요할 경우에는 리모델링(Remodeling), 센터 이전 등 다른 대안을 모색할 수 있는 방향을 제시할 수 있어야 한다.

의사에 따라 같은 환자에 대해 다른 처방이 나올 수 있는 것처럼 데이터센터의 진단 또한 참여하는 엔지니어에 따라 다른 결과가 나올 수 있다.

적합하지 못한 진단결과와 방향 제시는 의사결정권자로 하여금 잘못된 결정을 내릴 수 있게 한다. 진단은 엔지니어링(Engineering)에 기반을 두고 있다. 이는 개량화에 의한 객관적이며 구체적인 데이터(Data) 작성을 의미한다. 따라서 진단에 참여하는 엔지니어는 능력, 수준, 경험이 풍부해야 한다. 시설들의 상호간 연관관계와 영향을 한 눈에 파악할 수 있는 경험과 능력을 갖추어야 한다는 의미이다.

가장 중요한 점은 시설의 책임자가 내 시설의 건강상태를 정확하게 인지하려는 의지이다. ‘내 센터는 괜찮겠지…’하는 막연한 생각은 자칫 대처하기 어려운 상황을 초래할 수 있다. 정기 건강검진처럼 시설물 또한 정기적인 리스크(Risk) 진단을 필요로 한다.

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지