본문 바로가기

📊

Data — 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

Modern ETL/ELT 선택👁 55

Warehouse 내 SQL 변환이 강력해져 ELT가 주류.

RudderStack👁 55

Segment의 오픈소스 대안. Warehouse-first 접근.

TensorFlow👁 55

Google이 개발한 딥러닝 프레임워크. 프로덕션·모바일 배포에 강점.

Train/Val/Test Split👁 55

데이터를 학습·검증·테스트로 나눔. 보통 70/15/15. Data leakage 주의.

Datafold👁 54

데이터 차이(diff)·리그레션 테스트 SaaS. PR마다 자동 데이터 검증.

Data Maturity 모델👁 54

조직의 데이터 활용 수준. Reactive→Predictive→Prescriptive.

data build tool

Warehouse 내부 SQL 변환을 모델링·테스트·문서화하는 도구. ELT의 T를 담당.

dbt Macros👁 54

Jinja 기반 재사용 SQL 함수. 복잡 로직 캡슐화.

dbt Model 유형👁 54

View·Table·Incremental·Ephemeral 등 dbt materialization.

GE Test Suite👁 54

Great Expectations의 expectation 묶음. 재사용·CI 통합.

GraphRAG (Microsoft)👁 54

지식 그래프 기반 RAG. 엔티티·커뮤니티 수준 요약.

Metabase👁 54

오픈소스 BI. 비기술자도 쉽게 쿼리·대시보드 제작. 설치 10분.

OLAP 엔진 비교👁 54

OLAP 엔진 종류: ROLAP·MOLAP·HOLAP. 현대는 대부분 ROLAP(Snowflake·BigQuery).

OpenMetadata👁 54

통합 메타데이터 플랫폼. 카탈로그·lineage·품질·거버넌스 한 번에.

Meta(Facebook)의 딥러닝 프레임워크. 연구 커뮤니티 주류. 동적 그래프.

RAG 평가 프레임워크👁 54

RAGAS·TruLens·DeepEval·Phoenix.

실시간 인덱스 DB. 2024 OpenAI 인수. Converged Index.

Snowflake👁 54

클라우드 네이티브 Data Warehouse. 스토리지와 컴퓨트 분리, 자동 확장으로 업계 선두.

Iceberg 창시자들이 창업. 2024년 Databricks가 인수.

상용 Feature Platform. 실시간 feature pipeline·서빙.

Text-to-SQL👁 54

자연어를 SQL로 변환. LLM 기반. BI 민주화의 핵심.

Prometheus를 글로벌·장기 저장으로 확장. S3 기반.

Time-Series Database👁 54

시계열 특화 DB. InfluxDB·TimescaleDB·VictoriaMetrics.

Tinybird👁 54

ClickHouse 기반 서버리스 실시간 분석 API.

Weights & Biases👁 54

ML 실험 추적·시각화 SaaS. 대시보드·보고서·하이퍼파라미터 스윕 강력.

Baseline Model👁 53

실험의 기준이 되는 단순 모델. Majority·Random·간단한 규칙.

BigQuery👁 53

Google Cloud의 서버리스 Data Warehouse. Petabyte급 SQL 분석.

전통 키워드 검색 점수 알고리즘. Elasticsearch·OpenSearch 기본.

Catalog 비교👁 53

Amundsen·DataHub·OpenMetadata. 오픈소스 데이터 카탈로그.

Hightouch 경쟁 Reverse ETL. Marketo·Hubspot·Iterable 동기화.

개발자 친화 OSS 벡터 DB. Python 우선.

ClickStream👁 53

사용자의 웹·앱 클릭·탐색 이벤트 데이터. 제품 분석의 핵심 원료.

Data Activation👁 53

분석 인사이트를 실제 운영에 반영. Hightouch·Census의 핵심 메시지.

Databricks Serverless SQL👁 53

SQL Warehouse의 서버리스 옵션. 기동 없이 즉시 쿼리.

Data Contracts with Protobuf👁 53

Protobuf·Buf로 스키마 강제. 업스트림·다운스트림 계약.

Data Mesh Governance👁 53

분산 소유 + 연방 거버넌스. 공통 표준·상호 운용성.

Data Vault 2.0👁 53

감사·변경 추적·확장성에 최적화된 Warehouse 모델링. Hub-Link-Satellite.

Data Warehouse👁 53

분석용 대규모 구조화 데이터 저장소. OLAP 최적화. Snowflake, BigQuery, Redshift.

dbt Docs👁 53

dbt 프로젝트의 자동 문서·Lineage 그래프.

dbt Incremental Model👁 53

증분 업데이트 전략. 전체 재빌드 대신 신규 데이터만.

dbt Unit Tests👁 53

dbt 1.8+ 모델 단위 SQL 테스트. 가짜 입력·기대 출력.

Delta Live Tables (DLT)👁 53

Databricks 선언적 ETL. 데이터 품질 규칙·자동 오케스트레이션.

Embedding Dimension👁 53

임베딩 벡터 차원. 품질·저장·속도 트레이드오프.

Funnel Analysis👁 53

사용자가 목표(구매·가입)에 도달하기까지 단계별 이탈률 분석.

Google Colab👁 53

Google의 무료 Jupyter 호스팅. GPU·TPU 접근 가능. ML 튜토리얼·프로토타입 표준.

Headless Semantic Layer👁 53

dbt Semantic·Cube·AtScale. BI 도구 중립 메트릭 정의.

Kafka 스트림에 SQL로 쿼리하는 엔진. Confluent 제공.

Kafka 스트림을 SQL로 처리. CREATE STREAM·CREATE TABLE.

Lambda Architecture👁 53

Batch + Speed 레이어 혼합 아키텍처. Kappa로 단순화 추세.

Late Chunking👁 53

긴 문서를 먼저 임베딩 후 청크 경계에서 자르기.

← 이전4 / 7다음 →