11.17
뉴스홈 > 칼럼
[전문가 기고] 데이터센터 기반설비 사고 사례 (2)실패에서 배운다

   
▲ 나창용 한산씨앤에스 대표

[컴퓨터월드] 지난 호에서는 기반설비 사고를 방지하는 기본적인 관리자의 태도에 대해 알아봤다. 관리자는 리스크를 관리하는 입장에서 낙관적인 마인드보다는 끊임없이 의심하는 태도를 가져야 한다. 장비도 의심하고 사람도 의심을 해야 한다. 의심하지 않으면 사고를 막으려는 의지도 줄어들게 된다.

최근 각 분야에서 일어나고 있는 대부분 안전사고 역시 이정도 쯤이야 하는 낙관적 태도 때문이라 할 수 있다. 이런 낙관적인 태도는 우리 사회에 더 많은 희생을 가져올 것이다. 사회 구성원 모두가 안전의식에 대한 수준이 높아지지 않는다면 지금과 같은 위험요소는 항시 우리 주변에서 우리의 생명을 노릴 것이다.

지난 호에서 언급한 각종 기반사고 통계 중에 몇 가지를 구체적으로 살펴 보자.

장비를 의심하라

새로운 장비를 도입할 경우 담당자는 통상 그 장비를 무조건 신뢰하는 경향이 있다. 그 장비를 소개한 사람에 대한 신뢰인지, 그 장비의 명성에 대한 신뢰인지 모르겠지만 담당자는 그 제품에 대해 전혀 의심하지 않는다.

그러나 필자는 어떤 장비를 도입할 때 의심부터 하고 본다. 주위에서 의심병이 있다고 말할 정도다. 특히 검증되지 않은 장비는 절대 믿지 않는다. 그 이유는 의외로 간단하다. 믿었던 장비에 대해 실망한 경험 때문이다. 이런 상황을 몇 번 겪어보면 누구나 다 그렇게 될 것이다.

한 번은 UPS 설치를 위해서 생산업체로부터 장비를 인수받기로 했었다. 현장 납품 몇 일 전에 필자는 생산업자를 찾아가 기본적인 테스트를 진행했다. 그 생산업체는 테스트를 모두 할 것이라 생각하지 않았던 것 같다. 과부하 테스트 중에 장비에서 부품이 타 들어가는 현상을 목격했다. 대부분 전산실에서 UPS를 과부하 상태로 사용하는 경우는 없기 때문에 생산업자가 제조 규격대로 생산하지 않았던 것이다.

여기서 중요한 것은 Factory Test를 반드시 시행해야 한다는 것이다. 특히 공장에서는 현장에서 할 수 없는 많은 테스트가 가능하다. 그런데 이런 테스트는 주로 생산업자가 담당하는 경우가 많다. 이 경우 당연히 신뢰성을 담보할 수 없다. 그래서 제 3의 검증단을 꾸리는 것이 매우 중요하다. 생산업체보다 더 전문적인 엔지니어를 이용해 테스트한다면 그 센터에는 가장 좋은 제품이 납품될 수밖에 없다.

또 한 번은 수입장비의 부품이 갑자기 소손되고 전산실이 정전되는 사고를 목격했다. 그런데 그 부품의 소손 원인을 찾을 수 없었던 것이 더 큰 문제였다. 그러나 한참 시간이 지난 후 그 수입장비의 내부 직원을 통해 전해 들은 이야기는 그 장비의 부품이 대부분의 현장에서 소손돼 소문나지 않게 모두 교체했다는 이야기를 들었다.

세계적인 제품들도 알게 모르게 문제점들이 있을 수 있으며 담당자는 어떤 제품이든 문제를 일으킬 수 있다는 점을 생각하고 이에 대비해야 한다. 항상 의심을 해야 한다는 의미이다. 제품 또는 공급회사의 명성이 아닌 테스트를 통해서만 품질을 입증할 수 있다는 것을 인식해야 한다.

문제는 항상 '배터리'

대형 전산센터의 경우 나름대로 UPS나 배터리를 정기적으로 점검하고 있기 때문에 배터리에 의한 정전사고가 일어나는 경우는 드물다. 그러나 중소형 전산실의 경우는 상황이 다르다. UPS나 배터리의 관리에 문제점이 노출되고 있는 것이다. 정전사고 원인의 대부분이 배터리에서 기인하고 있는 것만 봐도 관리에 문제가 있다는 것을 알 수 있다.

관리자는 현재 사용중인 배터리에 대해 항상 고민해야 한다. 필자의 경험에 따르면 실제와 같은 정기적인 테스트만이 문제를 해결할 수 있는 방안이다. 실제적인 테스트란 실제 정전상황을 만들어 내가 요구하는 백업시간을 만족시키는 지를 알아보는 것이다. 실제 테스트가 아닌 측정기를 통한 점검도 매우 유용하기는 하지만 한계가 있다는 것을 알아야 한다.

   
▲ 실제 배터리 방전 테스트 시행이 중요하다

수명관리 실패의 교훈

모두가 알고 있겠지만 생명체에게만 수명이 있는 것은 아니다. 지구도 수명이 있듯이 모든 장비(특히 UPS & BATTERY) 또는 부품들은 저마다 수명이 있다는 것을 간과해서는 절대로 안 된다. 다음은 필자가 모 공공기관의 전산센터를 관리할 때 경험한 것이다.

그 전산센터는 오래된 건물의 일부 층을 이용하고 있었다. 금요일 오후 늦게 지하 변전실에서 화재가 발생해 전산센터가 정전되는 사고가 일어났다. 권장수명이 꽤 지난 전기 부품이 폭발해 화재가 발생한 것이다. 그 부품은 정기점검 대상에 들어있는 부품도 아니었다. 적정한 시기에 무조건 교체를 해야 하는 부품이었으나 관리자들이 이를 어겼던 것이다. 장비가 고장이 난 후에 수리하는 경우가 많은데 부품에는 수명이 있다는 것을 알고 관리해야 한다. 수명이 지난 부품 또는 제품을 사용하는 경우가 있다는 것은 관리가 허술하다는 방증이다.

눈 앞에 보이는 비용 절감보다는 장비 고장에 의한 비즈니스 손실을 먼저 생각해야 한다. 실제 전산센터 정지에 따른 손실이 별로 없다면 수명관리를 해야 할 이유가 없을 것이다. 전산센터 정지에 따른 손실이 많다고 생각한다면 지금 당장 수명이 다 된 장비나 혹은 부품(장비 내부에 있는)에 대해 조사를 해야 한다.

   
▲ 발전기/UPS설비는 실제적인 로드뱅크 테스트 시행이 매우 중요하다

다시 한 번 강조하고 싶은 내용은 다음과 같다.

1) 세계 1등 제품도 의심하라

- 테스트에 의해 검증되지 않은 제품을 믿으면 반드시 문제가 발생한다.
- 어이없는 고장은 RE-CALL 대상일 확률이 매우 높다. 이런 고장은 소비자들과 공유를 하라. 분명히 RE-CALL 대상일 것이다.
- 가능하면 전문가를 동원해 FACTORY TEST를 반드시 실시하라.
- 대부분의 제조사들은 유지보수 관리의 부적절성을 이유로 책임을 회피한다.
- 그러므로 적절한 관리시스템을 유지해야 한다.

2) 배터리에 의한 정전사고가 의외로 가장 많다는 것을 잊지 말자

각종 테스트 장비에 의한 점검보다는 실제로 정전 작업을 하는 것이 가장 정확하게 배터리의 성능을 파악할 수 있다.

3) 수명관리에 실패하면 반드시 문제가 생긴다

현재 우리 전산센터에는 수명이 다 된 부품이 얼마나 많을까? 그 부품들이 정전을 일으키는 시한 폭탄이라는 것을 잊어서는 안 된다. 지금 당장 교체해야 할 부품들이 꽤 많을 것이다.

 

인기기사 순위
(우)08503 서울특별시 금천구 가산디지털1로 181 (가산 W CENTER) 1713~1715호
TEL : 02-2039-6160  FAX : 02-2039-6163  사업자등록번호:106-86-40304
개인정보/청소년보호책임자:김선오  등록번호:서울 아 00418  등록일자:2007.08  발행인:김용석  편집인:김선오