본문 바로가기

📊

Data — 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

Apache Flink👁 70

저지연 실시간 스트림 처리 엔진. Kafka와 함께 이벤트 스트리밍 스택의 양대 축.

Data Profiling👁 70

데이터의 분포·결측·품질을 자동 분석하는 과정. pandas-profiling·ydata-profiling.

Feature Engineering👁 69

원본 데이터에서 모델 성능에 도움되는 특성을 설계·추출하는 작업. 전통 ML의 핵심.

Hybrid Transactional/Analytical Processing

OLTP와 OLAP를 같은 DB에서 처리하는 하이브리드 모델. TiDB·SingleStore·CockroachDB.

Delta Lake👁 68

Databricks가 주도하는 Lake 테이블 포맷. ACID, Time Travel, Spark 최적화.

Feature Attribution👁 66

어떤 기능이 전환·리텐션에 기여했는지 분석. 인과 추론과 연관.

Cube (Semantic Layer)👁 65

SQL 위의 메트릭 정의 레이어. REST·GraphQL·SQL API.

Databricks SQL👁 64

Databricks의 Warehouse 엔드포인트. Photon 엔진·Unity Catalog.

Materialize👁 64

실시간 스트리밍 SQL 엔진. Kafka 이벤트를 SQL view로 계속 갱신.

Materialize👁 64

스트리밍 재료화 뷰 DB. PG 호환 + 실시간.

Hugging Face👁 63

ML 모델·데이터셋·앱의 허브. "ML계의 GitHub". Transformers 라이브러리 포함.

Data Lake👁 62

정형·비정형 데이터를 원본 그대로 저장하는 대용량 스토리지. S3·GCS 기반.

Real-time Analytics👁 62

초·분 단위 실시간 분석. Druid·ClickHouse·Pinot.

AWS MWAA / GCP Composer👁 61

관리형 Airflow. AWS·GCP 클라우드 오퍼링.

Data Quality👁 61

데이터의 정확성·완전성·일관성·적시성을 측정·관리.

dbt Cloud👁 61

dbt의 매니지드 SaaS. 스케줄링·IDE·CI 통합. 대기업 사용.

Heap Analytics👁 61

자동 이벤트 추적 분석 도구. SDK 심으면 모든 UI 이벤트 자동 수집.

North Star Metric👁 61

조직의 유일한 핵심 지표. 모든 팀이 이것에 정렬.

Online Analytical Processing

분석·집계 최적화 DB 워크로드. OLTP(트랜잭션)와 대비. 컬럼 저장이 특징.

dbt 대안 프레임워크. 가상 데이터 환경·시간 모델링.

Unstructured Data👁 61

정형 스키마 없는 데이터. 텍스트·이미지·음성·비디오. 전체 기업 데이터의 80%+.

Apache Spark 4👁 60

2025년 릴리스. ANSI 기본, VARIANT·String Collation·Python Data Source.

Key Performance Indicator

비즈니스 목표를 측정하는 핵심 지표. 매출·MAU·Churn·NPS 등.

Online Transaction Processing

실시간 트랜잭션 처리 DB 워크로드. 작은 CRUD가 많은 운영 DB.

dbt 대안. 가상 데이터 환경·자동 증분·플랜 기반.

Customer Data Platform

여러 소스의 고객 데이터를 통합·세분화·활성화. Segment·mParticle·Rudderstack.

Data Observability 5 Pillars👁 59

Freshness·Volume·Distribution·Schema·Lineage.

Debezium👁 59

Red Hat의 오픈소스 CDC 플랫폼. MySQL·Postgres·Mongo 로그를 Kafka 이벤트로.

Feature Store👁 59

ML 피처를 저장·공유·서빙하는 플랫폼. 학습-서빙 간 일관성 보장.

Ray Data👁 59

Ray의 데이터 처리 라이브러리. Spark 대안, Python 네이티브 경험.

Semantic Layer👁 59

비즈니스 지표를 중앙 정의해 여러 BI·앱에서 재사용하는 추상화 계층. Cube·dbt Semantic Layer.

Zero-ETL 통합👁 59

Aurora→Redshift·S3→Snowflake 등 ETL 없는 자동 복제.

Churn Rate👁 58

이탈률. 일정 기간 동안 서비스를 떠난 사용자 비율. SaaS의 핵심 지표.

실험 분산을 줄여 검정력을 높이는 기법. Microsoft가 A/B에 적용.

Data Cleaning👁 58

raw 데이터의 결측·이상·중복·오타를 정리하는 작업. 데이터 사이언스 시간의 80%.

Data Mesh👁 58

중앙 데이터 팀이 아닌 도메인 팀이 데이터를 "제품처럼" 소유하는 조직·기술 아키텍처.

Data Mesh 원칙👁 58

도메인 소유권·Data Product·셀프서비스 플랫폼·연합 거버넌스.

Fivetran vs Airbyte👁 58

매니지드 vs 오픈소스. 비용·커넥터·유연성 트레이드오프.

Metaflow👁 58

Netflix가 만든 ML 파이프라인 프레임워크. Python 클래스 기반, AWS 통합.

이벤트 추적·전달 플랫폼. 하나의 SDK로 여러 destination에 분배.

Semantic Search (Data)👁 58

키워드가 아닌 의미 기반 데이터 검색. 임베딩 활용.

Sigma Computing👁 58

Warehouse 네이티브 BI. 스프레드시트 UX + SQL 파워.

Streaming ETL👁 58

실시간 스트림에서 ETL. Kafka·Flink·Materialize로 구현.

Supervised Learning👁 58

입력과 정답(레이블)이 쌍으로 주어진 데이터로 학습하는 ML. 분류·회귀가 대표.

WarpStream👁 58

컴퓨트·스토리지 분리한 Kafka 호환. S3만으로 운영.

Data Product👁 57

데이터를 제품처럼 취급. SLA·문서·소유자·사용자 경험. Data Mesh 핵심.

Data Version Control

ML용 Git-like 버전 관리. 데이터·모델을 외부 스토리지에 두고 Git으로 참조.

Inmon 방법론👁 57

Bill Inmon의 "Corporate Information Factory". 하향식·3NF 중앙 Warehouse.

Kafka Streams👁 57

Kafka 내장 스트림 처리 라이브러리. JVM 앱에 포함해 사용.

MongoDB Atlas Vector Search👁 57

Atlas의 벡터 검색. pgvector·Pinecone 대안.

← 이전2 / 7다음 →