Data Engineering
데이터를 수집·변환·저장·제공하는 파이프라인(Pipeline)을 설계하고 운영하는 역량. 조직의 데이터 기반 의사결정을 뒷받침하는 인프라를 구축하는 핵심 능력이다.
데이터 엔지니어링은 다양한 소스에서 데이터를 수집하고, ETL/ELT 파이프라인을 설계·구현하며, 데이터 웨어하우스(Data Warehouse)와 데이터 레이크(Data Lake)를 구축·운영하는 역량입니다. 스키마 설계, 데이터 품질 관리, 워크플로우 오케스트레이션(Orchestration), 실시간 스트리밍(Streaming) 처리까지 포괄하며, 데이터 분석가와 과학자가 신뢰할 수 있는 데이터를 적시에 활용할 수 있도록 안정적인 데이터 인프라를 제공하는 것이 핵심입니다.
데이터 엔지니어링이라는 분야에 처음 진입하여 핵심 개념을 탐색하는 단계입니다. SQL 기초 문법을 익히고, 데이터 파이프라인의 개념과 ETL(Extract, Transform, Load)의 기본 흐름을 이해합니다. 관계형 데이터베이스(Relational Database)의 테이블 구조를 파악하고, 간단한 데이터 추출과 변환을 안내에 따라 수행할 수 있습니다.
Defines Data Engineering from Level 2 (Assist) to Level 6 (Initiate, influence), specifying pipeline design, implementation, and strategic responsibility scope at each level.
Provides a skill proficiency matrix (Awareness/Working/Practitioner/Expert) across Data Engineer, Senior, Lead, and Head roles, directly informing checklist design.
Details technical requirements, responsibility scope, and autonomy levels across Junior, Intermediate, Senior, Staff, and Principal stages for L1-L7 mapping.
Validates mid-to-senior engineer competency across 5 domains: data processing system design, ingestion/processing, storage, analysis readiness, and workload automation.
Two-tier certification — Associate (ETL fundamentals, pipeline building) to Professional (advanced streaming, security, CI/CD, schema management) — providing concrete behavioral criteria at the intermediate-to-advanced boundary.
Defines 11 data management knowledge areas (governance, quality, metadata, etc.), providing authoritative grounding for L5-L6 governance/strategy checklists and L4 schema/quality management items.
Systematic mapping of 25 papers classifying data engineering lifecycle activities (collection, transformation, storage, serving) with technical solutions and architectures, grounding L3-L5 checklist behaviors.