📊
Data — 348개 용어
ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진
Apache Flink👁 70
저지연 실시간 스트림 처리 엔진. Kafka와 함께 이벤트 스트리밍 스택의 양대 축.
Data Profiling👁 70
데이터의 분포·결측·품질을 자동 분석하는 과정. pandas-profiling·ydata-profiling.
Feature Engineering👁 69
원본 데이터에서 모델 성능에 도움되는 특성을 설계·추출하는 작업. 전통 ML의 핵심.
HTAP👁 69
Hybrid Transactional/Analytical Processing
OLTP와 OLAP를 같은 DB에서 처리하는 하이브리드 모델. TiDB·SingleStore·CockroachDB.
Delta Lake👁 68
Databricks가 주도하는 Lake 테이블 포맷. ACID, Time Travel, Spark 최적화.
Feature Attribution👁 66
어떤 기능이 전환·리텐션에 기여했는지 분석. 인과 추론과 연관.
Cube (Semantic Layer)👁 65
SQL 위의 메트릭 정의 레이어. REST·GraphQL·SQL API.
Databricks SQL👁 64
Databricks의 Warehouse 엔드포인트. Photon 엔진·Unity Catalog.
Materialize👁 64
실시간 스트리밍 SQL 엔진. Kafka 이벤트를 SQL view로 계속 갱신.
Materialize👁 64
스트리밍 재료화 뷰 DB. PG 호환 + 실시간.
Hugging Face👁 63
ML 모델·데이터셋·앱의 허브. "ML계의 GitHub". Transformers 라이브러리 포함.
Data Lake👁 62
정형·비정형 데이터를 원본 그대로 저장하는 대용량 스토리지. S3·GCS 기반.
Real-time Analytics👁 62
초·분 단위 실시간 분석. Druid·ClickHouse·Pinot.
AWS MWAA / GCP Composer👁 61
관리형 Airflow. AWS·GCP 클라우드 오퍼링.
Data Quality👁 61
데이터의 정확성·완전성·일관성·적시성을 측정·관리.
dbt Cloud👁 61
dbt의 매니지드 SaaS. 스케줄링·IDE·CI 통합. 대기업 사용.
Heap Analytics👁 61
자동 이벤트 추적 분석 도구. SDK 심으면 모든 UI 이벤트 자동 수집.
North Star Metric👁 61
조직의 유일한 핵심 지표. 모든 팀이 이것에 정렬.
OLAP👁 61
Online Analytical Processing
분석·집계 최적화 DB 워크로드. OLTP(트랜잭션)와 대비. 컬럼 저장이 특징.
SQLMesh👁 61
dbt 대안 프레임워크. 가상 데이터 환경·시간 모델링.
Unstructured Data👁 61
정형 스키마 없는 데이터. 텍스트·이미지·음성·비디오. 전체 기업 데이터의 80%+.
Apache Spark 4👁 60
2025년 릴리스. ANSI 기본, VARIANT·String Collation·Python Data Source.
KPI👁 60
Key Performance Indicator
비즈니스 목표를 측정하는 핵심 지표. 매출·MAU·Churn·NPS 등.
OLTP👁 60
Online Transaction Processing
실시간 트랜잭션 처리 DB 워크로드. 작은 CRUD가 많은 운영 DB.
SQLMesh👁 60
dbt 대안. 가상 데이터 환경·자동 증분·플랜 기반.
CDP👁 59
Customer Data Platform
여러 소스의 고객 데이터를 통합·세분화·활성화. Segment·mParticle·Rudderstack.
Data Observability 5 Pillars👁 59
Freshness·Volume·Distribution·Schema·Lineage.
Debezium👁 59
Red Hat의 오픈소스 CDC 플랫폼. MySQL·Postgres·Mongo 로그를 Kafka 이벤트로.
Feature Store👁 59
ML 피처를 저장·공유·서빙하는 플랫폼. 학습-서빙 간 일관성 보장.
Ray Data👁 59
Ray의 데이터 처리 라이브러리. Spark 대안, Python 네이티브 경험.
Semantic Layer👁 59
비즈니스 지표를 중앙 정의해 여러 BI·앱에서 재사용하는 추상화 계층. Cube·dbt Semantic Layer.
Zero-ETL 통합👁 59
Aurora→Redshift·S3→Snowflake 등 ETL 없는 자동 복제.
Churn Rate👁 58
이탈률. 일정 기간 동안 서비스를 떠난 사용자 비율. SaaS의 핵심 지표.
CUPED👁 58
실험 분산을 줄여 검정력을 높이는 기법. Microsoft가 A/B에 적용.
Data Cleaning👁 58
raw 데이터의 결측·이상·중복·오타를 정리하는 작업. 데이터 사이언스 시간의 80%.
Data Mesh👁 58
중앙 데이터 팀이 아닌 도메인 팀이 데이터를 "제품처럼" 소유하는 조직·기술 아키텍처.
Data Mesh 원칙👁 58
도메인 소유권·Data Product·셀프서비스 플랫폼·연합 거버넌스.
Fivetran vs Airbyte👁 58
매니지드 vs 오픈소스. 비용·커넥터·유연성 트레이드오프.
Metaflow👁 58
Netflix가 만든 ML 파이프라인 프레임워크. Python 클래스 기반, AWS 통합.
Segment👁 58
이벤트 추적·전달 플랫폼. 하나의 SDK로 여러 destination에 분배.
Semantic Search (Data)👁 58
키워드가 아닌 의미 기반 데이터 검색. 임베딩 활용.
Sigma Computing👁 58
Warehouse 네이티브 BI. 스프레드시트 UX + SQL 파워.
Streaming ETL👁 58
실시간 스트림에서 ETL. Kafka·Flink·Materialize로 구현.
Supervised Learning👁 58
입력과 정답(레이블)이 쌍으로 주어진 데이터로 학습하는 ML. 분류·회귀가 대표.
WarpStream👁 58
컴퓨트·스토리지 분리한 Kafka 호환. S3만으로 운영.
Data Product👁 57
데이터를 제품처럼 취급. SLA·문서·소유자·사용자 경험. Data Mesh 핵심.
DVC👁 57
Data Version Control
ML용 Git-like 버전 관리. 데이터·모델을 외부 스토리지에 두고 Git으로 참조.
Inmon 방법론👁 57
Bill Inmon의 "Corporate Information Factory". 하향식·3NF 중앙 Warehouse.
Kafka Streams👁 57
Kafka 내장 스트림 처리 라이브러리. JVM 앱에 포함해 사용.
MongoDB Atlas Vector Search👁 57
Atlas의 벡터 검색. pgvector·Pinecone 대안.