Data [ Engineer & Analytics &science ]/Data Engineer

[ Data Engineer ] 데이터 엔지니어링 공부_01 : 데이터 웨어하우스 / 데이터 마트/ 데이터 레이크란 ?

안다미로 : Web3 & D.S 2025. 1. 7. 00:57

 

 

 

 

[ Data Engineer ] 데이터 엔지니어링 공부_01 

: 데이터 웨어하우스 / 데이터 마트/ 데이터 레이크란 ?

 


 

 

목  차

1. 데이터 웨어하우스 ( Data Warehouse )
2. 데이터 마트 ( Data Mart )
3. 데이터 레이크 ( Data Lake )
4. 추가

 

Ⅰ. 데이터 웨어하우스 ( Data Warehouse )


     

     ◎ "데이터(정보)" + 웨어하우스(창고) 의 합성어입니다.

           : 기업의 의사결정을 지원하기 위해 다양한 소스의 데이터를 통합하고 저장하는 중앙 집중식 데이터베이스 시스템.

     ◎ 여러 데이터 소스들로부터, "ETL 과정" 을 거쳐서 하나의 통합된 데이터 창고를 구축합니다.

 

◆ETL의 정의.##

"ETL"은 [ Extract(추출), Transform(변환), Load(적재) ] 의 과정을 의미하는 데이터 처리 방법론입니다.

다양한 소스의 데이터를 수집하여 비즈니스에 유용한 형태로 변환하고
중앙화된 데이터 저장소에 저장하는 프로세스입니다.

◆ETL의 세부 단계
  1. 추출 (Extract)
         온라인, 온프레미스, SaaS 등 다양한 소스에서 데이터를 가져오는 과정
         추출된 데이터는 일시적인 스테이징 영역에 보관됨

  2. 변환 (Transform)
    - 추출된 데이터를 정리하고 표준화하는 단계

    - 주요 변환 작업:
          중복 데이터 제거
          데이터 형식 표준화
          불완전한 레코드 정리
          필요한 필드로 데이터 제한
          데이터 정렬 및 조인

  3. 적재 (Load)
           변환된 데이터를 최종 목적지(데이터 웨어하우스, 데이터 레이크 등)에 삽입하는 과정
           
           
           
◆ETL의 주요 활용 분야
        데이터 웨어하우징
        머신러닝 및 인공지능
        마케팅 데이터 통합
        IoT 데이터 통합
        데이터베이스 복제
        클라우드 마이그레이션
        
 ◆특징
 ETL은 연속적이고 지속적인 프로세스로, 
 데이터 엔지니어와 개발자의 계획과 감독이 필요한 복잡한 작업입니다

 

 

     ◎ 데이터 웨어하우스는 " 많은 양의 데이터를 오랫동안 보관하는 것에 최적화되어 있습니다."

     ◎ "데이터 웨어하우스" 에는 업무적으로 중요한 데이터가 저장되고, 전사적인 관점에서 통합하여 관리됩니다.

     ◎ "데이터 웨어하우스" 의 데이터를 아무때나 함부로 사용하는 것은 좋지 않습니다.

 

 

◇ 데이터 웨어하우스의 주요 특징.

       

        1. 목적.

               - BI 활동 지원.

               - 심층적인 데이터 분석 및 보고 제공

               - 의사결정자에게 통합된 데이터 제공.

 

        2. 데이터 특성.

               - 다양한 소스의 데이터 통합

               - 정형 및 비정형 데이터 처리 가능

               

◇ 데이터 웨어하우스의 주요 기능

       

        1. 데이터 통합

               - BI 활동 지원.

               - 심층적인 데이터 분석 및 보고 제공

               - 의사결정자에게 통합된 데이터 제공.

 

        2. 분석 최적화

               - 다양한 소스의 데이터 통합

               - 정형 및 비정형 데이터 처리 가능

 

 


Ⅱ. 데이터 마트 ( Data Mart)


 

◎ '데이터 웨어하우스'에 담긴 데이터를 이용해서 분석 및 개발을 할 필요가 있는 경우,

      필요한 데이터를 추출하여, 데이터 마트를 따로 구축합니다.

 

         ::: "데이터 마트"는 특정 부서나 업무 목적에 최적화된 소규모 데이터 저장소 입니다 

 

                 == 데이터 마트는 데이터 웨어하우스의 일부로,

                           특정 조직이나 팀에서 사용할 목적으로 설계된 데이터베이스입니다.

 

◎ 전사적인 데이터를 보관하는 데이터 웨어하우스와는 달리,

     데이터 마트는   특정 목적에 맞게 추출하여 사용한다고 생각하면 됩니다.

 

      

◇ 데이터 마트의 주요 특징.

   

       1. 데이터 범위.

 

                - 데이터 웨어하우스의 부분적인 데이터 집합.

                - 특정 주제(프로덕트)나 부서에 중점을 둔 데이터 구성.

 

       2. 목적.

 

                - 사용자가 필요한 특정 데이터에 빠르게 접근

                - 효율적인 분석과 의사결정 지원.

 

 


Ⅲ. 데이터 레이크 ( Data Lake)


◎  '빅-데이터'는 다양한 포맷으로 적재됩니다.

           하지만, 모든 데이터를 데이터 웨어하우스에 그대로 적재할 수 없는 경우도 있습니다.

 

 

◎  Ad-hoc 분석과 머신러닝에 대한 분석 작업 수요가 증가하면서,

      가공되지 않은 형태의 데이터는 더 효율적으로 다양한 관점의 분석이 가능하다는 장점이 부각.

 

◎  모든 데이터를 원래의 형태로 적재했다가, 필요에 따라서 가공이 필요하다는 요구사항이 있을 수 있습니다.

           ==> 가공 전에 저장하는 데이터 저장소를 '데이터 레이크'라고 합니다.

 

◎  데이터 웨어하우스와의 큰 차이점은, 미가공된 원시 데이터를 그대로 저장한다는 점입니다.

 

◇ 데이터 처리 방식.

          - 데이터 레이크 : 원시 데이터를 가공하지 않고 그대로 저장

          - 데이터 웨어하우스 : 데이터를 정제하고 가공한 후 저장.

 

◇ 데이터 유형

          - 데이터 레이크 : 정형, 반정형, 비정형 데이터 모두 저장 가능.

          - 데이터 웨어하우스 : 주로 정형 데이터에 최적화.

 

◇ 데이터 목적.

          - 데이터 레이크 : 미리 정의된 목적 없이 데이터 수집.

          - 데이터 웨어하우스 : 특정 비즈니스 목적을 위해 데이터 저장.