[아이뉴스24 심지혜 기자] KT가 지난 25일 발생한 유무선 통신망 장애 사고가 작업 기준과 관리 감독을 소홀히하면서 발생했다는 점을 인정하고 재발방지를 약속했다. 다만 이번 이같은 사례가 빈번한 것이 아닌 상당히 이례적인 사고였다는 점을 강조했다.
KT는 29일 입장자료를 내고 "이번 장애에 대해 전적으로 책임을 통감하고, 불편을 겪으신 고객들께 고개 숙여 사과 드린다"며 이번 사고에 대한 해명과 대응책을 발표했다.
이날 과학기술정보통신부가 KT네트워크 장애 원인분석 결과를 발표하자 사과문과 함께 대응책을 내놓은 것이다.
과기정통부 분석에 따르면 지난 25일 오전 KT 부산국사에서 기업망 라우터(네트워크 장치간 통신을 위해 트래픽을 전달하는 장비) 교체작업을 하던 중 작업자가 잘못된 설정 명령을 입력하면서 오류가 발생, 전국적으로 장애가 발생했다. 협력업체 직원이 라우팅(네트워크 경로 설정) 작업을 하다가 정보를 입력하는 과정에서 특정 명령어(exit)를 빠뜨린 것이다.
게다가 작업계획서상 야간에 진행해야 할 작업을 주간에 했고, 작업 관리자가 동행해야 함에도 협력업체 직원들끼리 작업을 수행하도록 했다. 또한 네트워크 연결을 끊고 작업을 해야했는데, 그렇지 않았다.
KT는 사전 검증하는 과정에서도 문제를 발견하지 못했다. 1~2차에 걸친 사전검증 단계가 존재했음에도 알아채지 못한 것이다.
이에 대해 KT는 우선 네트워크 야간작업이 이뤄진 것부터 해명했다. KT는 "일반적으로 KT 네트워크 장비와 관련된 작업은 야간에 진행하는 것이 원칙이며, 작업계획서를 제출 및 승인 이후 KT직원의 입회 하에 진행된다"고 설명했다.
이어 "이번 장애의 경우 야간작업으로 승인을 받았음에도 이를 위반해 주간에 작업이 이뤄졌고, KT 직원도 이를 양해하고 관리 감독을 소홀히 했다"며 실수를 인정했다.
다만 이러한 문제가 이례적이라는 점을 짚었다. 대부분의 작업이 원칙적으로 이뤄지는 데 이번에 어겨지면서 사고가 발생했다는 설명이다.
KT는 "일탈이 이뤄진 예외적인 사례이며 앞으로 이런 사례가 재발되지 않도록 프로세스를 강화하겠다"고 다짐했다.
재발방지를 위해서는 테스트베드를 전국단위로 적용한다는 방침이다. KT는 현재 우면동 연구개발센터에서 실제 환경과 동일하게 적용한 테스트베드를 운영하고 있다. 이 곳은 연동 사전에 네트워크 작업의 안정성을 확인할 수 있는 기능을 갖고 있다.
이는 현장까지 확산되지 않았지만 이번 일을 계기로 전국단위로 적용, 이와 같은 장애가 재발하지 않도록 만전을 기한다는 계획이다.
이번 사고 원인이 된 '라우팅(네트워크 경로설정) 오류'가 전국적으로 확산되지 않도록 하는 대책도 내놨다.
KT의 전국망은 크게 센터망-중계망-엣지망으로 구성된다. 라우팅 오류 확산 방지 기능은 센터망과 중계망 단위에는 이미 적용돼 있다. 그러나 이번 장애가 엣지 단에서 발생하면서 전국적 사고가 발생했다.
KT는 엣지망 단위 라우팅 오류도 국지적으로 차단할 수 있도록 엣지망에도 라우팅 오류 확산방지를 적용하기로 했다.
KT는 "재발방지대책을 면밀히 수립하고, 피해보상방안도 최종 결정되는 대로 발표하겠다"고 전했다.
/심지혜 기자(sjh@inews24.com)
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기