[아이뉴스24 김국배 기자] "데이터 레이크를 구축하라."
대량의 데이터를 처리하기 위한 데이터 저장·분석 방법으로 데이터 레이크가 주목받고 있다. 모든 데이터를 한 곳에 저장할 수 있다는 것이 데이터 레이크를 사용하는 가장 큰 이유 중 하나다.
양승도 아마존웹서비스(AWS)코리아 솔루션 아키텍트 상무는 서울 강남구 GS타워에 위치한 AWS코리아 본사에서 열린 기술 세션을 통해 "굉장히 다양한 유형의 데이터를 모두 담을 수 있는 공통 공간"이라고 데이터 레이크의 특징을 소개했다.
데이터 레이크는 빅데이터 분석을 위한 토대다. 관계형 데이터와 비정형 데이터를 모두 저장한다. 전통적인 데이터 분석 방식에서 확장된 시스템이다.
기존에는 데이터가 여러 장소에 분산돼 있고 원본 데이터를 찾기 어렵다는 문제가 존재했다.
또한 데이터 로딩을 위해 미리 스키마(데이터베이스에서 자료의 구조, 표현방법 등을 정의한 것)를 정의할 필요가 없다. 있는 그대로 데이터를 저장하면 돼 빠르게 데이터를 수집할 수 있다는 의미다.
양승도 상무는 "(데이터 레이크는) 하나의 중앙 저장소에 모든 종류의 데이터를 저장하고 분석하는 것이 특징"이라며 "별도의 스키마 정의 없이도 빠르게 데이터를 수집하게 된다"고 설명했다.
데이터 저장과 처리를 분리한 것도 또 다른 특징이다.
양 상무는 "데이터 저장공간과 분석을 위한 컴퓨팅 자원을 분리해 언제든지 필요한 자원만 추가할 수 있고, 데이터를 저장 시점이 아닌 사용하는 시점에 정의해서 사용함으로써 언제든지 '애드혹' 분석이 가능하다"고 강조했다.
그러면서 "데이터 레이크는 낮은 비용의 스토리지와 분석 가능한 아키텍처를 선호하는 확장된 분석 시스템"이라고 덧붙였다.
넷플릭스의 경우 AWS 클라우드를 기반으로 데이터 레이크를 구축했다. AWS가 말하는 데이터 레이크 서비스는 '아마존 S3+AWS 글루(Glue)'로 구성된다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기