본문 바로가기
BackEnd

Data Warehouse Vs Data Lake

by 푸고배 2021. 10. 12.

Data Warehouse(데이터 웨어하우스)

다양한 소스에서 수집된 잘 구성된 데이터의 중앙 저장소이다. 간단히 말해서 데이터는 이미 정리되고 분류되어 복잡한 구조의 테이블에 저장된다. 데이터 웨어하우스가 설정되고 현재 및 과거 데이터로 로드되면 기업은 이를 사용하여 예측 대시보드 및 추세 보고서를 생성하고 비지니스 프로세스에 대한 귀중한 통찰력을 얻을 수 있다.

데이터 웨어하우스 특성

통합

데이터는 원본 소스에 관계없이 항상 동일한 방식으로 추출되고 변환된다.

 

비휘발성

데이터 웨어하우스는 실시간으로 업데이트되지 않는다. 데이터의 예약 및 시간 업로드를 통해 업데이트되어 일시적인 변경의 영향으로부터 데이터를 보호한다.

 

확장 가능 

데이터 웨어하우스는 스토리지 공간에 대한 증가하는 수요를 충족하기 위해 쉽게 확장할 수 있다.

기타 중요한 개념

관계형 데이터베이스 vs 데이터 웨어하우스

데이터베이스는 정보의 실시간 저장소이다. 데이터 웨어하우스는 방대한 양의 구조화된 데이터에 대한 추가 필터링, 추출, 저장 및 분석을 위해 다양한 소스(데이터베이스 포함)에서 정보를 가져온다.

 

데이터 웨어하우스 vs 데이터 마트

데이터 마트는 특정 팀 또는 비지니스 부서의 요구 사항을 충족하기 위해 생성된 데이터 웨어하우스의 일부이다. 특정 범주, 정보 유형 및/또는 비지니스 요구와 관련된 데이터만 저장하는데 사용되는 창고 내의 전용 공간이다.

 

ODS(Operational Data Store)

종종 데이터 웨어하우스의 중간 영역으로 사용된다. ODS는 작은 데이터 집합에 대해 실시간으로 간단한 쿼리 또는 작업을 수행하는 반면 데이터 웨어하우스는 많은 양의 데이터에 대해 복잡한 쿼리를 수행하도록 설계되었다. ODS는 현재 운영 데이터를 처리하고 이를 지속적으로 덮어 쓰는 반면 DW는 과거 보기에서 데이터를 집계한다.

 

더 쉬운 이해를 위해 아래 차트를 참고한다.

데이터 웨어하우스의 장점

가속화된 비즈니스 인텔리전스

데이터 웨어하우스는 OLTP(Online Transaction Processing) 시스템과 비지니스 앱(예 : ERP, CRM 및 HRM 시스템)에서 나오는 관계형 데이터에 대한 분석을 제공한다.

 

데이터 품질과 일관성의 향상

ETL(Export, Transform, Load) 절차로 인해 데이터 웨어하우스는 수많은 소스 시스템의 데이터를 공통 형식으로 저장한다.각 거래 후에 데이터의 무결성이 확인된다.

 

History 정보

데이터 웨어하우스는 새로운 데이터를 이전에 입력된 정보와 비교하여 최종 사용자가 기록 변경 사항을 확인하고 필요한 시간 내에 보고서르 신속하게 생성할 수 있도록 했다.

 

데이터 웨어하우스의 단점

결과 및 보고서에 대한 액세스 수준의 복잡한 구조

조기 또는 부정확한 데이터 정리(불확실한 요구 사항, 다른 데이터 세트 등)로 인해 BI 분석 결과가 왜곡될 가능성이 높아진다.

변경 구현의 복잡한 프로세스

데이터 웨어하우스는 작업 중인 데이터 유형, 예상 결과를 정확히 알고 이 리포지토리의 이점을 가치 있게 여기는 기업에게 좋은 선택이다.

 

Data Lake(데이터 레이크)

기존 데이터베이스와 달리 데이터 레이크는 데이터를 원시 형식으로 저장한다. 일반적으로 소스 및 변환된 데이터의 원시 복사본을 포함하여 모든 데이터에 대한 단일 저장소이다. 데이터 레이크는 관계형 데이터베이스의 정형 데이터(예: 보고서의 테이블), 반정형 데이터(CSV, JSON, Log 등), 비정형 데이터(예: 이메일, 문서 및 PDF) 및 이진 데이터(이미지, 오디오 및 비디오)

데이터 웨어하우스는 데이터를 파일이나 폴더에 저장하지만 데이터 레이크는 플랫 아키텍처를 사용하여 데이터를 저장한다. 데이터의 각 요소는 확장된 메타데이터 태그 세트로 레이블이 지정되며 고유 식별자가 있다. 필요한 경우 관련 데이터에 대해 데이터 레이크를 쿼리할 수 있으며 특정 비지니스 질문에 답하는데 도움이 되도록 더 작은 데이터 집합을 분석할 수 있다.

데이터 레이크 특성

  • 데이터 레이크는 모든 소스의 데이터를 허용한다. 나중에 분석하거나 처리하기 위해 데이터를 수신하고 저장할 수 있다.
  • 데이터는 여러 소스에서 실시간으로 수집되어 원래 형식으로 데이터 레이크에 로드된다.
  • 원시 데이터를 저장하기 위해 저렴한 저장 옵션에 의존한다.
  • 데이터는 실시간으로 또는 일괄적으로 업데이트 될 수 있다.

다른 개념을 명확히 하기

Data ocean vs Data lake

데이터 레이크는 종종 비지니스의 특정 부분과 관련된 데이터에 사용된다. 반면 데이터 오션은 전체 비지니스 범위에서 처리되지 않은 데이터로 구성된다.

 

데이터 저장소 vs 데이터 레이크

일부 기업은 데이터 저장소를 사용하여 정제되지 않은 데이터 레이크와 부분적으로 필터링, 보안 및 분석 준비가 완료된 데이터 저장소를 나눈다.

 

Data lake vs Data swamp

'늪'은 정제되지 않은 저품질 데이터를 포함하는 데이터 레이크이다. 대량으로 수집되었지만 사용되지 않은 데이터가 포함된 데이터 레이크인 'Data graveyards'에 대해서도 들을 수 있다.

 

데이터 레이크 vs 관계형 데이터베이스

데이터베이스는 설계상 고도로 구조화되어 있다. 이로 인해 데이터 베이스는 데이터 레이크보다 비지니스 요구 사항에 덜 유연하다.

 

데이터 레이크의 장점

일반적으로 데이터 레이크는 특히 초기 데이터 정리에 문제가 있을 수 있는 경우 다양한 소스의 데이터를 분석하는데 적합하다.

  • 무제한 확장성. 데이터 레이크를 사용하면 합리적인 비용으로 모든 요구 사항을 충족하도록 수평적으로 확장할 수 있다.
  • 다양한 소스 데이터는 원시 형식으로 저장된다.
  • 유연성. 데이터 레이크를 사용하면 대규모 이기종, 다중 지역 및 마이크로서비스 환경을 생성할 수 있다.
  • IoT 장치 로그 및 원격 측정과 같은 데이터를 쉽게 수집하고 분석할 수 있으므로 사물 인터넷(IoT)과의 탁월한 통합
  • 스키마가 없는 구조와 많은 양의 데이터를 저장할 수 있는 능력을 감안할 때 기계 학습과의 통합
  • 고급 알고리즘 지원. 데이터 레이크를 사용하면 복잡한 쿼리와 딥 러닝 알고리즘을 정욕하여 관심있는 개체 또는 패턴을 인식할 수 있다.

데이터 레이크의 단점

  • 스토리지 및 컴퓨팅 비용 증가
  • 이전에 추출된 내용을 추적할 수 있는 방법이 없기 때문에 이전 결과에서 얻은 통찰력이 부족하다.
  • 데이터 무결성 손실. 동일한 문서의 여러 버전을 저장할 수 있지만 트랜잭션 제어가 부족하면 저장된 데이터의 무결성이 위협받게 된다.

데이터 레이크 vs 데이터 웨어하우스 : 요약

두 시스템 모두 데이터를 저장하고 처리하는 데 사용되지만 프로세스에 대해 완전히 다른 접근 방식을 사용한다. 데이터 레이크와 데이터 웨어하우스의 차이점을 한번 더 살펴본다.

  • 데이터 레이크는 형식에 관계없이 레이블이 지정된 모든 데이터를 저장하는 반면 데이터 웨어하우스는 데이터를 속성과 함께 정량적 메트릭으로 저장한다.
  • 데이터 레이크거대한 정형, 반정형 및 비정형 데이터를 저장하는 저장소 리포지토리이고 데이터 웨어하우스잘 정형되고 정제된 정보를 요구하여 사용자가 데이터를 전략적으로 사용할 수 있도록 한다.
  • 데이터 레이크ELT(Extract Load Transform) 절차를 사용한다. 데이터는 데이터 레이크에 로드된 후 처리된다. 데이터 웨어하우스ETL(Extract Transform Load)절차를 사용한다. 즉, 데이터가 변환된 다음 데이터 저장소에 로드된다.

데이터 레이크장기간에 걸쳐 수집된 광범위한 데이터에 대한 심층 분석을 원하는 사람들에게 이상적이며 데이터 웨어하우스운영 프로세스 및 일상적인 활동에 적합하다.

 

데이터 레이크 vs 데이터 웨어하우스 : 산업별 사용 사례

데이터 레이크 사용 사례

건강 관리

데이터 레이크는 의료 산업에서 수년 동안 사용되어 왔다. 의료 분야의 비정형 데이터(예: 의사의 기록, 임상 데이터 등)가 많고 실시간 통찰력이 필요하기 때문에 데이터 레이크를 사용하면 정형 및 비정형 데이터에 액세스 할 수 있다.

 

교육

학생의 성적, 출석 등에 대한 데이터를 수집하면 학생들이 실적을 개선하는데 도움이 될 뿐만 아니라 잠재적인 문제가 발생하기 전에 예측하는데 도움이 될 수 있다.

 

교통

데이터 레이크는 예측을 할 수 있는 능력으로 인해 통찰력을 얻을 수 있는 훌륭한 소스이다. 운송 산업에서 예측은 기업이 비용을 절감하고 예측 유지보수를 개션하는데 도움이 될 수 있다.

 

데이터 웨어하우스 사용 사례

은행 및 금융

데이터 웨어하우스는 단일 데이터 과학자가 아닌 전체 회사에서 구조화된 액세스를 허용하므로 이러한 부문에 가장 적합한 스토리지 모델인 경우가 많다.

 

공공 부문

이는 기관이 세금 기록, 건강 정책 등을 유지 및 분석하여 개인 프로필과 그룹 기록을 모두 구축하는데 도움이 된다.

 

환대 산업

이 산업은 데이터 웨어하우스를 사용하여 피드백 및 여행 패턴을 기반으로 고객을 대상으로 하는 과옥 및 판촉 캠페인을 디자인한다. 또한 데이터 웨어하우스를 사용하여 일상적인 작업을 처리한다.

 

참고 자료:

 

Data lake vs data warehouse: things you need to know to gain a competitive advantage

Data warehouse vs data lake: benefits and drawbacks, specific use cases, industry examples, and more.

www.n-ix.com

 

반응형

댓글