📊
Data — 348개 용어
ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진
임베딩 모델 선택👁 112
OpenAI·Cohere·BGE·ko-sroberta 등.
데이터 품질 프레임워크👁 107
Great Expectations·Soda·dbt tests·Elementary.
데이터 레이크 파일 포맷👁 94
Parquet·ORC·Avro·Arrow. 사용 시나리오별 선택.
벡터 검색 벤치마크👁 94
ANN Benchmarks·VectorDBBench·BEIR.
Databricks Notebook👁 93
Databricks의 협업 노트북 환경. Spark·SQL·Python·R 혼용. 버전 관리 통합.
Data Pipeline👁 91
소스에서 목적지까지 데이터가 흐르는 자동화 경로. ETL/ELT·스트리밍 모두 포함.
Amplitude👁 89
제품 분석·실험 플랫폼. 행동 분석·제품 주도 성장에 특화.
데이터 관측성 플랫폼👁 88
Monte Carlo·Bigeye·Soda·Datafold·Elementary.
모던 데이터 스택 2026👁 88
Snowflake·Databricks·Fabric·BigQuery 중심의 2026년 현황.
AARRR👁 82
Pirate Metrics
Dave McClure가 만든 스타트업 퍼널. Acquisition·Activation·Retention·Referral·Revenue.
Apache Airflow👁 81
오픈소스 워크플로 오케스트레이터. DAG를 Python으로 정의. 데이터 파이프라인 스케줄링 표준.
Data Lineage👁 81
데이터가 소스에서 소비까지 어떻게 변환·이동되는지 추적하는 메타데이터.
Data SLA👁 81
데이터 신선도·정확도·가용성에 대한 서비스 수준 계약.
Apache Superset👁 80
Airbnb 출신의 오픈소스 엔터프라이즈 BI. 기능 많고 커스터마이징 강력.
Data Enrichment👁 79
기존 데이터에 외부 소스의 정보를 결합해 가치를 높이는 작업.
Data Modeling👁 79
분석 목적에 맞게 테이블·관계를 설계하는 작업. Star Schema·Dimensional Modeling.
Recall@K👁 79
상위 K개 결과에 관련 아이템이 포함된 비율. 추천·검색 기본 지표.
Apache Arrow👁 78
컬럼 지향 인메모리 데이터 포맷 표준. 언어·시스템 간 제로 카피 교환.
NATS👁 78
클라우드 네이티브 메시징. 초저지연·간단함 강조. Go·Rust 작성.
Airflow 2+👁 77
Airflow 2.x 메이저 개편. TaskFlow API·Deferrable·Dynamic DAG. 3.0에서 더 현대화.
Apache Pulsar👁 77
Yahoo가 만든 분산 메시징. Kafka 대안. 스토리지·컴퓨트 분리.
Kimball 방법론👁 77
Ralph Kimball의 Dimensional Modeling. 상향식·스타 스키마 중심.
Dashboard👁 76
KPI·지표를 시각화해 한눈에 모니터링하는 UI. BI 도구의 주 산출물.
Jupyter👁 76
Python·R·Julia를 대화형으로 실행하는 노트북 환경. 데이터 분석의 표준.
A/B 유의성👁 75
통계적 유의성·검정력·샘플 크기 계산. p-value·신뢰구간·효과 크기.
Airbyte👁 75
오픈소스 ELT 도구. 300+ 커넥터로 소스 → Warehouse 동기화.
Analytics Engineer👁 75
dbt로 Warehouse 내 데이터 모델링을 담당하는 신생 역할. 2020년 이후 부상.
Data Platform👁 75
데이터 수집·저장·처리·분석을 통합한 인프라. 현대 데이터 팀의 기반.
ETL👁 75
Extract-Transform-Load
데이터를 추출·변환·적재하는 전통적 데이터 파이프라인 패턴.
ETL Pipeline Design👁 75
ETL/ELT 설계 원칙. 멱등성·재실행·체크포인트·모니터링.
Feast👁 75
오픈소스 Feature Store. Gojek이 시작, 현재 Linux Foundation.
Fivetran👁 75
관리형 ELT SaaS. 유지보수 없는 데이터 파이프라인. 고가지만 안정적.
Modern Data Stack👁 75
2020년 이후 주류 SaaS 조합. Fivetran+dbt+Snowflake+Looker+Hightouch.
Monte Carlo Data👁 75
데이터 관측성 SaaS 선두. 이상 감지·알림·lineage.
OLAP Cube👁 75
차원·측정값으로 미리 집계된 다차원 데이터 구조. 전통 BI의 기반.
Polars👁 75
Rust로 작성된 차세대 데이터프레임 라이브러리. Pandas보다 5~10배 빠름.
Data Catalog👁 74
조직의 모든 데이터 자산을 카탈로그화해 검색·이해·거버넌스를 돕는 도구.
Data Lakehouse👁 74
Lake의 저장 + Warehouse의 성능을 결합한 아키텍처. Delta Lake, Iceberg, Hudi가 주도.
PLG👁 74
Product-Led Growth
제품 자체를 마케팅·성장 엔진으로 삼는 전략. 무료 → 유료 전환.
Amundsen👁 73
Lyft가 오픈소스화한 데이터 발견 UI. DataHub 경쟁.
Apache Iceberg👁 73
대규모 Data Lake용 오픈 테이블 포맷. Netflix가 오픈소스화. Delta Lake와 경쟁.
Data Observability 지표👁 73
신선도·양·스키마·품질·분포·Lineage 5대 축으로 데이터 건강 측정.
Event Streaming👁 73
이벤트 스트림(Kafka·Pulsar)을 기반으로 앱을 설계하는 아키텍처 패러다임.
Fact Table👁 73
비즈니스 이벤트(매출·주문·방문)를 기록하는 Warehouse 중심 테이블.
Headless BI👁 73
BI의 지표 정의 계층을 UI와 분리. 여러 프런트(대시보드·앱·AI)가 공통 지표 사용.
Cohort Analysis👁 72
공통 속성의 사용자 그룹을 시간에 따라 추적하는 분석. 리텐션·LTV에 필수.
Data Governance👁 72
데이터의 품질·보안·접근 권한·소유권을 관리하는 체계.
DAU / MAU / Ratio👁 72
Daily·Monthly Active Users. DAU/MAU 비율이 제품 참여도 지표.
Kubeflow👁 72
Kubernetes 기반 ML 플랫폼. 학습·튜닝·서빙을 K8s 네이티브로.
Data Observability👁 71
데이터 파이프라인의 신선도·양·스키마·품질을 모니터링하는 분야.
1 / 7다음 →