본문 바로가기
📊

Data 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

Modern ETL/ELT 선택👁 55
Warehouse 내 SQL 변환이 강력해져 ELT가 주류.
RudderStack👁 55
Segment의 오픈소스 대안. Warehouse-first 접근.
TensorFlow👁 55
Google이 개발한 딥러닝 프레임워크. 프로덕션·모바일 배포에 강점.
Train/Val/Test Split👁 55
데이터를 학습·검증·테스트로 나눔. 보통 70/15/15. Data leakage 주의.
Datafold👁 54
데이터 차이(diff)·리그레션 테스트 SaaS. PR마다 자동 데이터 검증.
Data Maturity 모델👁 54
조직의 데이터 활용 수준. Reactive→Predictive→Prescriptive.
dbt👁 54
data build tool
Warehouse 내부 SQL 변환을 모델링·테스트·문서화하는 도구. ELT의 T를 담당.
dbt Macros👁 54
Jinja 기반 재사용 SQL 함수. 복잡 로직 캡슐화.
dbt Model 유형👁 54
View·Table·Incremental·Ephemeral 등 dbt materialization.
GE Test Suite👁 54
Great Expectations의 expectation 묶음. 재사용·CI 통합.
GraphRAG (Microsoft)👁 54
지식 그래프 기반 RAG. 엔티티·커뮤니티 수준 요약.
Metabase👁 54
오픈소스 BI. 비기술자도 쉽게 쿼리·대시보드 제작. 설치 10분.
OLAP 엔진 비교👁 54
OLAP 엔진 종류: ROLAP·MOLAP·HOLAP. 현대는 대부분 ROLAP(Snowflake·BigQuery).
OpenMetadata👁 54
통합 메타데이터 플랫폼. 카탈로그·lineage·품질·거버넌스 한 번에.
PyTorch👁 54
Meta(Facebook)의 딥러닝 프레임워크. 연구 커뮤니티 주류. 동적 그래프.
RAG 평가 프레임워크👁 54
RAGAS·TruLens·DeepEval·Phoenix.
Rockset👁 54
실시간 인덱스 DB. 2024 OpenAI 인수. Converged Index.
Snowflake👁 54
클라우드 네이티브 Data Warehouse. 스토리지와 컴퓨트 분리, 자동 확장으로 업계 선두.
Tabular👁 54
Iceberg 창시자들이 창업. 2024년 Databricks가 인수.
Tecton👁 54
상용 Feature Platform. 실시간 feature pipeline·서빙.
Text-to-SQL👁 54
자연어를 SQL로 변환. LLM 기반. BI 민주화의 핵심.
Thanos👁 54
Prometheus를 글로벌·장기 저장으로 확장. S3 기반.
Time-Series Database👁 54
시계열 특화 DB. InfluxDB·TimescaleDB·VictoriaMetrics.
Tinybird👁 54
ClickHouse 기반 서버리스 실시간 분석 API.
Weights & Biases👁 54
W&B
ML 실험 추적·시각화 SaaS. 대시보드·보고서·하이퍼파라미터 스윕 강력.
Baseline Model👁 53
실험의 기준이 되는 단순 모델. Majority·Random·간단한 규칙.
BigQuery👁 53
Google Cloud의 서버리스 Data Warehouse. Petabyte급 SQL 분석.
BM25👁 53
전통 키워드 검색 점수 알고리즘. Elasticsearch·OpenSearch 기본.
Catalog 비교👁 53
Amundsen·DataHub·OpenMetadata. 오픈소스 데이터 카탈로그.
Census👁 53
Hightouch 경쟁 Reverse ETL. Marketo·Hubspot·Iterable 동기화.
Chroma👁 53
개발자 친화 OSS 벡터 DB. Python 우선.
ClickStream👁 53
사용자의 웹·앱 클릭·탐색 이벤트 데이터. 제품 분석의 핵심 원료.
Data Activation👁 53
분석 인사이트를 실제 운영에 반영. Hightouch·Census의 핵심 메시지.
Databricks Serverless SQL👁 53
SQL Warehouse의 서버리스 옵션. 기동 없이 즉시 쿼리.
Data Contracts with Protobuf👁 53
Protobuf·Buf로 스키마 강제. 업스트림·다운스트림 계약.
Data Mesh Governance👁 53
분산 소유 + 연방 거버넌스. 공통 표준·상호 운용성.
Data Vault 2.0👁 53
감사·변경 추적·확장성에 최적화된 Warehouse 모델링. Hub-Link-Satellite.
Data Warehouse👁 53
분석용 대규모 구조화 데이터 저장소. OLAP 최적화. Snowflake, BigQuery, Redshift.
dbt Docs👁 53
dbt 프로젝트의 자동 문서·Lineage 그래프.
dbt Incremental Model👁 53
증분 업데이트 전략. 전체 재빌드 대신 신규 데이터만.
dbt Unit Tests👁 53
dbt 1.8+ 모델 단위 SQL 테스트. 가짜 입력·기대 출력.
Delta Live Tables (DLT)👁 53
Databricks 선언적 ETL. 데이터 품질 규칙·자동 오케스트레이션.
Embedding Dimension👁 53
임베딩 벡터 차원. 품질·저장·속도 트레이드오프.
Funnel Analysis👁 53
사용자가 목표(구매·가입)에 도달하기까지 단계별 이탈률 분석.
Google Colab👁 53
Google의 무료 Jupyter 호스팅. GPU·TPU 접근 가능. ML 튜토리얼·프로토타입 표준.
Headless Semantic Layer👁 53
dbt Semantic·Cube·AtScale. BI 도구 중립 메트릭 정의.
ksqlDB👁 53
Kafka 스트림에 SQL로 쿼리하는 엔진. Confluent 제공.
ksqlDB👁 53
Kafka 스트림을 SQL로 처리. CREATE STREAM·CREATE TABLE.
Lambda Architecture👁 53
Batch + Speed 레이어 혼합 아키텍처. Kappa로 단순화 추세.
Late Chunking👁 53
긴 문서를 먼저 임베딩 후 청크 경계에서 자르기.