[ Data Engineer ] 데이터 엔지니어링 공부_01
: 데이터 웨어하우스 / 데이터 마트/ 데이터 레이크란 ?
목 차
1. 데이터 웨어하우스 ( Data Warehouse )
2. 데이터 마트 ( Data Mart )
3. 데이터 레이크 ( Data Lake )
4. 추가
Ⅰ. 데이터 웨어하우스 ( Data Warehouse )
◎ "데이터(정보)" + 웨어하우스(창고) 의 합성어입니다.
: 기업의 의사결정을 지원하기 위해 다양한 소스의 데이터를 통합하고 저장하는 중앙 집중식 데이터베이스 시스템.
◎ 여러 데이터 소스들로부터, "ETL 과정" 을 거쳐서 하나의 통합된 데이터 창고를 구축합니다.
◆ETL의 정의.##
"ETL"은 [ Extract(추출), Transform(변환), Load(적재) ] 의 과정을 의미하는 데이터 처리 방법론입니다.
다양한 소스의 데이터를 수집하여 비즈니스에 유용한 형태로 변환하고
중앙화된 데이터 저장소에 저장하는 프로세스입니다.
◆ETL의 세부 단계
1. 추출 (Extract)
온라인, 온프레미스, SaaS 등 다양한 소스에서 데이터를 가져오는 과정
추출된 데이터는 일시적인 스테이징 영역에 보관됨
2. 변환 (Transform)
- 추출된 데이터를 정리하고 표준화하는 단계
- 주요 변환 작업:
중복 데이터 제거
데이터 형식 표준화
불완전한 레코드 정리
필요한 필드로 데이터 제한
데이터 정렬 및 조인
3. 적재 (Load)
변환된 데이터를 최종 목적지(데이터 웨어하우스, 데이터 레이크 등)에 삽입하는 과정
◆ETL의 주요 활용 분야
데이터 웨어하우징
머신러닝 및 인공지능
마케팅 데이터 통합
IoT 데이터 통합
데이터베이스 복제
클라우드 마이그레이션
◆특징
ETL은 연속적이고 지속적인 프로세스로,
데이터 엔지니어와 개발자의 계획과 감독이 필요한 복잡한 작업입니다
◎ 데이터 웨어하우스는 " 많은 양의 데이터를 오랫동안 보관하는 것에 최적화되어 있습니다."
◎ "데이터 웨어하우스" 에는 업무적으로 중요한 데이터가 저장되고, 전사적인 관점에서 통합하여 관리됩니다.
◎ "데이터 웨어하우스" 의 데이터를 아무때나 함부로 사용하는 것은 좋지 않습니다.
◇ 데이터 웨어하우스의 주요 특징.
1. 목적.
- BI 활동 지원.
- 심층적인 데이터 분석 및 보고 제공
- 의사결정자에게 통합된 데이터 제공.
2. 데이터 특성.
- 다양한 소스의 데이터 통합
- 정형 및 비정형 데이터 처리 가능
◇ 데이터 웨어하우스의 주요 기능
1. 데이터 통합
- BI 활동 지원.
- 심층적인 데이터 분석 및 보고 제공
- 의사결정자에게 통합된 데이터 제공.
2. 분석 최적화
- 다양한 소스의 데이터 통합
- 정형 및 비정형 데이터 처리 가능
Ⅱ. 데이터 마트 ( Data Mart)
◎ '데이터 웨어하우스'에 담긴 데이터를 이용해서 분석 및 개발을 할 필요가 있는 경우,
필요한 데이터를 추출하여, 데이터 마트를 따로 구축합니다.
::: "데이터 마트"는 특정 부서나 업무 목적에 최적화된 소규모 데이터 저장소 입니다
== 데이터 마트는 데이터 웨어하우스의 일부로,
특정 조직이나 팀에서 사용할 목적으로 설계된 데이터베이스입니다.
◎ 전사적인 데이터를 보관하는 데이터 웨어하우스와는 달리,
데이터 마트는 특정 목적에 맞게 추출하여 사용한다고 생각하면 됩니다.
◇ 데이터 마트의 주요 특징.
1. 데이터 범위.
- 데이터 웨어하우스의 부분적인 데이터 집합.
- 특정 주제(프로덕트)나 부서에 중점을 둔 데이터 구성.
2. 목적.
- 사용자가 필요한 특정 데이터에 빠르게 접근
- 효율적인 분석과 의사결정 지원.
Ⅲ. 데이터 레이크 ( Data Lake)
◎ '빅-데이터'는 다양한 포맷으로 적재됩니다.
하지만, 모든 데이터를 데이터 웨어하우스에 그대로 적재할 수 없는 경우도 있습니다.
◎ Ad-hoc 분석과 머신러닝에 대한 분석 작업 수요가 증가하면서,
가공되지 않은 형태의 데이터는 더 효율적으로 다양한 관점의 분석이 가능하다는 장점이 부각.
◎ 모든 데이터를 원래의 형태로 적재했다가, 필요에 따라서 가공이 필요하다는 요구사항이 있을 수 있습니다.
==> 가공 전에 저장하는 데이터 저장소를 '데이터 레이크'라고 합니다.
◎ 데이터 웨어하우스와의 큰 차이점은, 미가공된 원시 데이터를 그대로 저장한다는 점입니다.
◇ 데이터 처리 방식.
- 데이터 레이크 : 원시 데이터를 가공하지 않고 그대로 저장
- 데이터 웨어하우스 : 데이터를 정제하고 가공한 후 저장.
◇ 데이터 유형
- 데이터 레이크 : 정형, 반정형, 비정형 데이터 모두 저장 가능.
- 데이터 웨어하우스 : 주로 정형 데이터에 최적화.
◇ 데이터 목적.
- 데이터 레이크 : 미리 정의된 목적 없이 데이터 수집.
- 데이터 웨어하우스 : 특정 비즈니스 목적을 위해 데이터 저장.
'Data [ Engineer & Analytics &science ] > Data Engineer' 카테고리의 다른 글
[ Data Engineer ] 데이터 엔지니어링_금융 IT_01 : OLTP/ ETL/ ODS/ DW/ DM/ OLAP (0) | 2025.01.08 |
---|---|
[ Data Engineer ] 데이터 엔지니어링 공부_02 : 데이터 파이프라인이란? (0) | 2025.01.07 |