본문 바로가기

📊

Data — 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

임베딩 모델 선택👁 203

OpenAI·Cohere·BGE·ko-sroberta 등.

데이터 품질 프레임워크👁 197

Great Expectations·Soda·dbt tests·Elementary.

벡터 검색 벤치마크👁 186

ANN Benchmarks·VectorDBBench·BEIR.

데이터 레이크 파일 포맷👁 181

Parquet·ORC·Avro·Arrow. 사용 시나리오별 선택.

데이터 관측성 플랫폼👁 176

Monte Carlo·Bigeye·Soda·Datafold·Elementary.

모던 데이터 스택 2026👁 164

Snowflake·Databricks·Fabric·BigQuery 중심의 2026년 현황.

Data Pipeline👁 146

소스에서 목적지까지 데이터가 흐르는 자동화 경로. ETL/ELT·스트리밍 모두 포함.

Databricks Notebook👁 142

Databricks의 협업 노트북 환경. Spark·SQL·Python·R 혼용. 버전 관리 통합.

Dave McClure가 만든 스타트업 퍼널. Acquisition·Activation·Retention·Referral·Revenue.

Amplitude👁 134

제품 분석·실험 플랫폼. 행동 분석·제품 주도 성장에 특화.

Apache Superset👁 132

Airbnb 출신의 오픈소스 엔터프라이즈 BI. 기능 많고 커스터마이징 강력.

Data Lineage👁 127

데이터가 소스에서 소비까지 어떻게 변환·이동되는지 추적하는 메타데이터.

클라우드 네이티브 메시징. 초저지연·간단함 강조. Go·Rust 작성.

Recall@K👁 126

상위 K개 결과에 관련 아이템이 포함된 비율. 추천·검색 기본 지표.

Cube (Semantic Layer)👁 124

SQL 위의 메트릭 정의 레이어. REST·GraphQL·SQL API.

Data Modeling👁 124

분석 목적에 맞게 테이블·관계를 설계하는 작업. Star Schema·Dimensional Modeling.

Apache Arrow👁 122

컬럼 지향 인메모리 데이터 포맷 표준. 언어·시스템 간 제로 카피 교환.

Data SLA👁 122

데이터 신선도·정확도·가용성에 대한 서비스 수준 계약.

Airbyte👁 121

오픈소스 ELT 도구. 300+ 커넥터로 소스 → Warehouse 동기화.

Apache Airflow👁 121

오픈소스 워크플로 오케스트레이터. DAG를 Python으로 정의. 데이터 파이프라인 스케줄링 표준.

오픈소스 Feature Store. Gojek이 시작, 현재 Linux Foundation.

Rust로 작성된 차세대 데이터프레임 라이브러리. Pandas보다 5~10배 빠름.

Fivetran👁 120

관리형 ELT SaaS. 유지보수 없는 데이터 파이프라인. 고가지만 안정적.

Product-Led Growth

제품 자체를 마케팅·성장 엔진으로 삼는 전략. 무료 → 유료 전환.

Data Platform👁 119

데이터 수집·저장·처리·분석을 통합한 인프라. 현대 데이터 팀의 기반.

Kimball 방법론👁 119

Ralph Kimball의 Dimensional Modeling. 상향식·스타 스키마 중심.

Airflow 2+👁 118

Airflow 2.x 메이저 개편. TaskFlow API·Deferrable·Dynamic DAG. 3.0에서 더 현대화.

Data Enrichment👁 118

기존 데이터에 외부 소스의 정보를 결합해 가치를 높이는 작업.

Data Observability👁 118

데이터 파이프라인의 신선도·양·스키마·품질을 모니터링하는 분야.

Event Streaming👁 118

이벤트 스트림(Kafka·Pulsar)을 기반으로 앱을 설계하는 아키텍처 패러다임.

Jupyter👁 118

Python·R·Julia를 대화형으로 실행하는 노트북 환경. 데이터 분석의 표준.

OLAP Cube👁 118

차원·측정값으로 미리 집계된 다차원 데이터 구조. 전통 BI의 기반.

Analytics Engineer👁 117

dbt로 Warehouse 내 데이터 모델링을 담당하는 신생 역할. 2020년 이후 부상.

Apache Pulsar👁 117

Yahoo가 만든 분산 메시징. Kafka 대안. 스토리지·컴퓨트 분리.

Extract-Transform-Load

데이터를 추출·변환·적재하는 전통적 데이터 파이프라인 패턴.

ETL Pipeline Design👁 117

ETL/ELT 설계 원칙. 멱등성·재실행·체크포인트·모니터링.

Headless BI👁 117

BI의 지표 정의 계층을 UI와 분리. 여러 프런트(대시보드·앱·AI)가 공통 지표 사용.

Modern Data Stack👁 117

2020년 이후 주류 SaaS 조합. Fivetran+dbt+Snowflake+Looker+Hightouch.

Semantic Layer👁 117

비즈니스 지표를 중앙 정의해 여러 BI·앱에서 재사용하는 추상화 계층. Cube·dbt Semantic Layer.

A/B 유의성👁 116

통계적 유의성·검정력·샘플 크기 계산. p-value·신뢰구간·효과 크기.

Dashboard👁 116

KPI·지표를 시각화해 한눈에 모니터링하는 UI. BI 도구의 주 산출물.

Data Observability 지표👁 116

신선도·양·스키마·품질·분포·Lineage 5대 축으로 데이터 건강 측정.

Monte Carlo Data👁 116

데이터 관측성 SaaS 선두. 이상 감지·알림·lineage.

SQLMesh👁 116

dbt 대안 프레임워크. 가상 데이터 환경·시간 모델링.

Data Lakehouse👁 115

Lake의 저장 + Warehouse의 성능을 결합한 아키텍처. Delta Lake, Iceberg, Hudi가 주도.

Fact Table👁 115

비즈니스 이벤트(매출·주문·방문)를 기록하는 Warehouse 중심 테이블.

Amundsen👁 114

Lyft가 오픈소스화한 데이터 발견 UI. DataHub 경쟁.

Apache Iceberg👁 114

대규모 Data Lake용 오픈 테이블 포맷. Netflix가 오픈소스화. Delta Lake와 경쟁.

Data Governance👁 114

데이터의 품질·보안·접근 권한·소유권을 관리하는 체계.

Kubeflow👁 114

Kubernetes 기반 ML 플랫폼. 학습·튜닝·서빙을 K8s 네이티브로.

1 / 7다음 →