나창용 한산씨엔에스 대표

▲ 나창용 한산씨엔에스 대표

[컴퓨터월드] 클라우드 빅데이터 등이 이슈가 되면서 데이터센터의 중요성이 강조되고 있다. 지난 호(4월호) 데이터센터의 안정성과 가용성 등을 인증해주는 '업타임 인증'에 이어 이번 호에서는 데이터센터 기반설비 통합 시험(DiiT: Data Center infrastructure integrated Test)에 대해 알아본다.

 

데이터센터 기반설비 통합 시험(DiiT)이란 데이터 센터(또는 전산실) 전체 기반 설비들이 설계에 맞게 제조&설치가 되었는지와 각 기반설비들이 설계에 맞게 서로 연동해 작동하는지 그리고 특히 기반설비 사고 시나리오를 미리 준비해 사고에 적절하게 설비들이 대응하는지를 테스트 하는 것이다.

 

모든 데이터 센터와 전산실 '통합시험' 필요

통합 시험은 데이터 센터나 전산실 운영에 있어 필수적인 요소이다. 이 테스트는 인프라의 개별 점검과는 달리 구체적인 시나리오를 마련해 총체적으로 인프라의 상단부터 하단까지 점검하기 때문에 기존에 발견하지 못했던 문제점들을 발견할 수 있을 뿐 아니라, 향후 발생될 문제점까지 확인할 수 있어 예방적인 차원에서도 큰 의미를 갖는다.

이러한 통합시험은 크게 2가지로 나누어 볼 수 있다. 첫째는, 데이터 센터나 전산실을 이전하거나 신규로 구축할 때 하는 테스트이다. 사전에 모든 제반 기능의 정상적인 동작과 연계설비의 신뢰성을 검토하는 것이 주된 목적이다.

모든 설비를 설치한 후 시방서와 비교해 오류가 없는지, 정전 등의 비상 상황에서 시스템이 정상적으로 동작하는지, 유지보수를 할 때 시스템의 안정성에 문제는 없는지, 100%부하(한계상황)에서 시스템의 가동이 원만한지, 개별 시스템과 설비들이 통합적으로 상호 연동되는지를 확인한다.

이 때 주의해야 할 점은 모든 제반 설비의 구축이 정상적으로 이루어져 시스템이 제대로 될 수 있는 환경이 형성됐다는 것을 확인하는 것과 더불어, 오류 혹은 문제점을 사전에 발견해 실제로 데이터 센터나 전산실이 운영되었을 때 장애를 막는 것이 목적이라는 것을 상기하는 것이다.

데이터센터나 전산실을 실제로 운영하기 전에 문제점을 발견하는 것이 이 테스트의 가장 핵심적인 요소이기 때문에 아주 사소한 부분까지 인위적으로 부하를 걸어 향후 장애를 일으킬 가능성이 있는 인프라들을 최대한 세밀하게 파악하는 것이 무엇보다 중요하다.

둘째는 이미 구축돼 있는 데이터 센터나 전산실을 테스트 하는 것이다. 현재 구축돼 있는 인프라들이 제대로 작동되고 있는지 장애나 문제점이 없는지를 총체적으로 확인해야 한다. 시스템의 전반적인 안정성을 확인한다는 관점에서는 신규데이터 센터나 전산실과 테스트 목적이 동일하지만, 운영 중 설비의 노후와 시설물 변경, 증설 등의 이유로 운영환경이 변화된 부분이 있으므로 이 것이 전체적인 시스템에 어떠한 영향을 미치는지를 시험을 통해 검증하게 된다.

 

최소 1년에 1회 통합시험 실시

처음에 아무리 완벽하게 구축했다 할지라도, 지속적인 관리가 수행되지 않아 서버에 장애가 발생한다면 큰 피해를 초래할 수 있다. 데이터 센터 혹은 전산실의 규모에 따라 테스트의 주기에는 차이가 있겠지만 최소 1년에 1회 이상은 전문적으로 이를 수행하는 회사에 통합테스트를 의뢰하여 운영의 안정성을 검증해야 한다. 이는 선택이 아니라 필수 사항이다.

필자가 관리하는 몇몇 금융회사들은 이런 통합 시험을 사전에 계획해 1년에 한번씩 통합 시험을 실시하고 있다. 이런 통합시험을 통해 사전에 위험요소를 없앨 수 있으며 이러한 활동으로 인하여 운영관리자들은 마음 편하게 또 1년을 지낼 수 있는 여건이 마련된다.

기반설비와 관련된 대부분의 전산실 사고는 통합 시험으로 사전에 충분히 막을 수 있다. 우리가 경험하는 대부분의 사고는 사고를 막기 위해 우리가 취할 수 있는 모든 것을 하지 않았을 따름이다.

 

통합시스템 신뢰성시험 방법

데이터 센터나 전산실의 규모나 운영방식 등에 따라 테스트의 방법은 가변적이지만 기본적으로 다음과 같은 4가지를 대상으로 통합시험을 한다.

1. 전기설비

전기설비의 종류로는 발전기, 수변전설비, 간선계통설비, UPS(무정전전원공급설비), VTS(Vacuum Transfer Switch, 진공절체스위치), CTTS(Closed Transition Transfer Switch, 동기절체스위치), 접지설비 등을 들 수 있다. 각각의 설비에 인위적으로 부하를 줘(순차적, 급변적) 실제 설계된 용량만큼 원활하게 작동을 하는지를 확인하고, 체결부위를 점검해 과전류, 과열 혹은 접속불량 부분 등을 점검한다. 또한, 인위적으로 정전 상황을 구현해 절체가 제대로 되는지, 절체 시간은 얼마나 되며 다른 설비들이 제대로 연계ㆍ작동해 전산장비 운영에 지장이 없는지를 점검한다.

2. 기계설비

기계설비의 종류로는 항온항습기, 냉각탑, 급배수시설, 공조시설 등이 있다. 항온항습는 인위적으로 부하를 줘(순차적, 급변적) 설계된 용량과의 일치 여부와, 온ㆍ습도를 확인한다. 또한, 서버가 내장돼 있는 랙 존(Rack Zone)에서 Dead Zone(바람이 미치지 않는 곳)이나 특정하게 뜨거운 부분이 없는지도 확인한다.

냉각탑의 경우 온도설정 및 출구온도를 측정해 최대, 최소 제어 한계온도 설정이 제대로 되어 있는지, 펌프의 유량이 설계유량과 일치하는지, 글리콜의 농도가 설계 농도와 일치하는지 등을 확인한다.

3. 소방설비

소방설비의 종류로는 자동화재탐지설비, 가스소화설비와 VESDA(화재감지기)등이 있다. 화재의 상황을 구현해 실제 화재가 발생할 때 소화설비가 제대로 작동하는지? 가스농도유지를 얼마나 하는지를 확인하는 것이 목적이다.

4. 기타설비

기타시험에는 자동제어 시스템, 감시설비, 미세먼지, 수질 등을 측정하는 것이 있다. 자동제어 시스템은 전기, 기계 시설물의 제어와 감지 및 감시대상 측정값, 발생된 알람 등의 모니터링, 통신전송 등이 설계된 대로 작동하는지 확인하는 것이다.

미세먼지 측정은 데이터센터나 전산실의 내부 공기 중 유해물질(일산화탄소, 이산화탄소, 포름알데히드, 총휘발성유기화합물 등)을 측정해 쾌적한 환경을 방해하는 요소를 분석한 뒤 개선방안을 마련하는 것이다.

수질 측정은 냉각탑, 부동액, 시수의 수질상태를 측정하고 분석해 냉각수 순환계통의 부식과 스케일을 유발하는 성능을 찾아 제거하는 등의 냉각효율 향상을 위한 점검을 하는 것을 일컫는다.

위의 검사들을 마친 후에는 반드시 '오류 및 이상사항 원인분석'이 이루어져야 하며, 분석이 완료되면 장ㆍ단기적인 개선사항을 고객에게 제시해야 한다. 또한 발주사의 현 실정에 맞게 에너지를 절감할 수 있는 방안을 제시해 주는 것도 필요하다.

 

▲ 통합 시험 중인 전기설비

 

테스트 수행자의 독립성 확보가 중요

필자에게 통합시험에서 가장 중요한 요소는 무엇이냐고 묻는 다면 테스트 수행자의 독립성 확보를 우선으로 꼽고 싶다.

종종 테스트를 수행하는 업체가 시공사의 하도급 형태로 업무를 진행하는 경우가 있는데 이 경우 시공사의 부실을 적나라하게 밝히는 것이 구조상 매우 힘들다.

그러므로 테스트를 수행하는 업무는 반드시 사용자가 개별로 발주처리를 해야 하며 그래야만 정확하고 정직하게 부실을 찾아 내고 문제점을 개선할 수 있다.

통합시험은 우리가 종합건강검진을 받는 것과 같은 이치라고 할 수 있다. 소리 없이 불쑥 찾아오는 질병을 미리 알고 예방하는 것이 중요하듯, 우리의 데이터센터와 전산실이 늘 건강하게 운영될 수 있도록 주의ㆍ관리하는 것이 매우 중요하다. 통합시험으로 사고를 미연에 방지하고 365일 안정적인 운영환경을 유지하기 위해 통합 시험이 필요한 이유이다.

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지