[데이터 레이크의 정의]
데이터 레이크를 간단히 정의하자면 구조적 및 비구조적 데이터를 저장하는 장소이자
다양한 소스에서 가져온 매우 다양한 대용량 데이터를 구성하는 방법이라고 정의할 수 있습니다.
데이터 레이크는 특히 비즈니스와 기술 분야에 있는 사용자들이 광범위한 데이터 탐색 및 검색을 사용하면서 점점 더 중요해지고 있습니다.
데이터를 단일 장소로 함께 가져오거나 대부분의 데이터를 단일 장소로 가져가면 더욱 간단해집니다.
또한 플랫폼에 따라 데이터 레이크를 사용하면 훨씬 쉽게 데이터를 처리할 수 있습니다.
비구조적 및 다중 구조적 데이터와 같은 많은 데이터 구조를 처리할 수 있으므로 데이터에서 가치를 도출할 수 있다고 볼 수 있습니다.
[데이터 레이크의 특징]
데이터 레이크의 주요 특징은 데이터 웨어하우스와 비교하면 더 쉽게 알 수 있습니다.
첫째, 데이터 레이크에서는 데이터를 저장하기 전 이를 정제하지 않습니다.
데이터 웨어하우스에서는 데이터 정제 작업을 거친 뒤 이를 저장합니다.
둘째, 데이터 레이크에는 정형·반정형·비정형 데이터를 저장할 수 있습니다.
데이터 웨어하우스는 정형 데이터를 저장하는 데 최적화되어 있습니다.
셋째, 데이터 레이크에는 미리 정의된 목적이 없는 데이터를 저장합니다.
데이터 웨어하우스에 저장하는 데이터는 미리 정의된 목적이 있습니다.
넷째, 데이터 레이크에서는 즉시 데이터를 수집할 수 있지만,
데이터 웨어하우스에서는 데이터를 정제하는 데 시간이 오래 걸려서 즉시 데이터를 수집할 수 없습니다.
다섯째, 데이터 레이크는 데이터 사이언티스트가 주로 이용하며,
데이터 웨어하우스는 비즈니스 애널리스트가 주로 사용합니다.
여섯째, 데이터 레이크 환경설정은 유연합니다만,
데이터 웨어하우스는 고정되어 있습니다.
데이터 레이크 기능은 데이터를 불러와서 ‘저장’하는 데 그치지 않습니다.
어도비에 따르면, 이는 데이터를 ‘분류’해서 사용자가 데이터 레이크 콘텐츠를 빨리 발견하도록 도와주기도 하며,
데이터가 제공한 정보, 데이터 출처, 데이터가 마지막으로 갱신된 시기를 파악하게 해줍니다.
‘누가 데이터를 사용할 수 있는지’, ‘목적이 뭔지’ 명시해서 거버넌스 통제 시스템도 만들 수 있으며,
‘거버넌스 프레임워크’를 구축해서 데이터 사용 가능 여부도 알 수 있습니다.
데이터 레이크에서는 데이터를 ‘분석’할 수도 있습니다.
대시보드, 시각화, 빅데이터 처리, 실시간 분석이 가능하며,
‘머신러닝’을 수행해서 데이터를 토대로 결과를 예측하도록 지원이 가능합니다.
이는 조직이 더 나은 의사결정을 내리는 데 도움이 될 수 있도록 합니다.
[데이터 레이크가 주목받는 이유]
오늘날 데이터 레이크가 떠오르는 까닭은 이렇습니다.
첫째, 요즘은 스마트폰과 SNS, IoT에서 다양한 데이터가 방대하게 생성되고 있으며,
이를 간단하고 효율적으로 관리할 플랫폼이 필요합니다.
데이터 레이크는 그 수단으로 꼽히고 있습니다.
정보통신산업진흥원에 따르면, 전 세계 데이터 유통량은 연 61% 늘어가는 추세입니다.
2025년 이 규모는 175 제타바이트에 달할 것으로 전망됩니다.
데이터 생성 경로와 데이터 유형도 여러 가지인데 청구서·센서·온라인 서식·스프레드시트·소셜미디어·이메일 등에서
정형·반정형·비정형 데이터가 생성됩니다.
데이터 레이크에서는 이들 데이터를 가리지 않고 원시 형태로 ‘한 곳’에 저장하여
데이터를 간단하고 효율적으로 관리하도록 지원합니다.
둘째, 데이터 레이크는 기업이 다양한 데이터 소스를 토대로 의사결정을 내리는 데 도움이 됩니다.
독일 컨설팅 기업 BARC 설문조사에 따르면,
기업이 의사결정에 참조하는 데 활용하는 내부 데이터 소스는 평균 5개, 외부 데이터 소스는 평균 3개라고 합니다.
하나의 데이터 소스만으로 의사결정을 내리는 곳은 드뭅니다.
기업에서 저장하는 데이터의 약 80~90%는 비정형 데이터인데,
데이터 웨어하우스는 정형 데이터를 저장하는 데 최적화되어 있습니다.
이것만으로 기업이 여러 데이터 소스를 충분히 활용하는 데 한계가 있습니다.
그러나 데이터 레이크에는 정형·반정형·비정형 데이터를 저장할 수 있으며,
기업이 다양한 데이터 소스를 충분히 참조해 운영 현황을 자세히 파악할 수 있도록 해줍니다.
셋째, 데이터 레이크는 부서별·분야별로 분산된 데이터를 한 곳에 모아 조직에서 시너지를 강화하도록 지원할 수 있습니다.
앞서 아마존이 데이터 사일로 때문에 데이터를 유기적으로, 전사 수준에서 이해하기 어려웠다고 합니다.
워너 보겔스 아마존닷컴 CTO는 실리콘 앵글 기고 글에서 이렇게 덧붙입니다.
'많은 다른 소스에서 데이터를 수동으로 수집해야 했으며
많은 팀이 독립적으로 운영되는 이유로 문제를 함께 해결하며 능률을 올리기 어려웠다.'고 합니다.
또 모두가 여러 데이터 저장소에 접근할 수 없어 데이터에서 세부 정보를 얻기 힘들었습니다.
아마존은 데이터 레이크로 이 문제를 해소할 수 있었고
전사 수준에서 데이터를 이해하고 활용할 수 있게 되었습니다.
다른 기업들도 앞서 소개한 시너지를 기대하며 데이터 레이크를 도입하고자 노력 중입니다.
넷째, 데이터 레이크는 데이터 웨어하우스보다 운영비가 덜 들어 경제적입니다.
컨설팅 기업 맥킨지에서는 '기업이 적당한 가격에, 구하기 쉬운 하드웨어를 사용할 수 있기 때문'이라고 설명합니다.
'데이터 레이크를 도입할 때, 데이터 세트를 인덱스 하거나, 저장소를 위해 이를 준비할 필요가 없다.'는 이유도 있습니다.
또 데이터 레이크는 저비용 스토리지를 위해 고안되었습니다.
미국 소프트웨어기업 BMC에 따르면, 데이터 레이크의 데이터 저장 비용은 필요에 따라 높을 수도 있고, 낮을 수도 있습니다.
반면에 데이터 웨어하우스는 비싼, 독점 하드웨어와 소프트웨어를 사용해서 운영비가 더 들죠.
데이터 규모가 크면 데이터 웨어하우스의 데이터 저장 비용은 비쌀 수 있습니다.
[데이터 레이크 활용 방안]
마지막으로 데이터 레이크의 이용 사례에 대해 알아보겠습니다.
데이터 레이크는 더 큰 데이터 관리 플랫폼에 포함되어 있을 때 유용하며
더 강력한 데이터 레이크를 위해 기존 데이터 및 도구와 잘 통합되어야 합니다.
옴니채널 마케팅 데이터 레이크
데이터 레이크를 사용하여 데이터 웨어하우스를 확장하는 일은 다중 채널 마케팅이라고도 하는 옴니채널 마케팅에서 흔히 볼 수 있습니다.
마케팅에서 데이터 에코시스템을 고려하는 방식은 모든 채널이 자체 데이터베이스일 수 있고 모든 접점도 마찬가지일 수 있다는 것입니다.
또한 많은 마케터가 제3자로부터 데이터를 구매합니다.
예를 들어 마케터는 고객과 예상 고객에 대한 추가 인구 통계 및 소비자 선호도 정보가 있고
마케터가 각 고객에 대한 전체 보기를 작성할 수 있도록 도와주는 데이터를 구매할 수 있습니다.
그러면 더욱 맞춤화되고 타겟팅된 마케팅 캠페인을 구성할 수 있습니다.
이는 복잡한 데이터 에코시스템으로, 볼륨과 복잡성이 커지고 있습니다.
데이터 레이크는 여러 채널과 접점에서 들어오는 데이터를 캡처하기 위해 자주 사용됩니다.
그리고 이 중 일부는 실제로 스트리밍 데이터입니다.
고객에게 스마트폰 앱을 제공하는 기업은 고객이 해당 앱을 사용할 때 해당 데이터를 실시간에 가깝게 수신할 수 있습니다.
따라서 마케팅 부서는 비즈니스를 매우 세부적으로 모니터링할 수 있고
특별 상품, 인센티브, 할인, 마이크로 캠페인 등을 고려해볼 수 있습니다.
디지털 공급망 데이터 레이크
디지털 공급망은 똑같이 다양한 데이터 환경이며 데이터 레이크는 특히 데이터 레이크가 Hadoop에 있을 때 도움을 줄 수 있습니다.
Hadoop은 원래 웹 서버에서 오는 매우 크고 많은 로그 파일용으로 설계되었으므로 주로 파일 기반 시스템입니다.
공급망에는 대용량 파일 기반 데이터가 있는 경우가 많습니다.
EDI 시스템, XML은 물론 오늘날 디지털 공급망에서 매우 강력하게 등장한 JSON의 파일 기반 및 문서 기반 데이터를 생각해 보세요.
이는 매우 다양한 정보입니다.
고려할 내부 정보도 있습니다.
제조업체는 종종 현장 데이터와 공급망과 관련성이 높은 배송 및 청구 데이터를 보유하고 있습니다.
데이터 레이크는 제조업체가 해당 데이터를 통합하고 파일 기반 방식으로 관리하도록 지원할 수 있습니다.
사물 인터넷 데이터 레이크
사물 인터넷은 일부 기업에서 거의 매일 새로운 데이터 소스를 만들고 있습니다.
물론 이러한 소스가 다양해지면서 훨씬 더 많은 데이터가 생성됩니다.
갈수록 더 많은 기계에 더 많은 센서가 있습니다.
예를 들어 이와 같은 모든 철도 화물 또는 트럭 화물 차량에는 많은 센서가 있으므로
기업은 차량 작동 방식 외에도 공간과 시간을 통해
안전하게 작동하는 지, 연료 소비량에 비해 최적의 방식으로 운영되는 지 등 해당 차량을 추적할 수 있습니다.
방대한 정보에 대해 데이터 레이크는 모든 데이터를 위한 리포지토리를 제공하므로 인기가 매우 많습니다.
단일 데이터 레이크
특정 부서나 IT 프로그램에서 데이터 레이크를 상당히 표적화한 사용 예시이지만,
중앙 집중식 IT 부서에서 다중 테넌트인 단일 대규모 데이터 레이크를 제공하는 다양한 접근 방식이 있습니다.
여러 부서, 사업부 및 기술 프로그램에서 사용할 수 있습니다.
사람들이 레이크에 익숙해지면서 다양한 사용 및 운영, 분석, 규정 준수를 위해 레이크를 최적화하는 방법을 파악합니다.
출처