본문 바로가기
📊

Data 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

SCD👁 53
Slowly Changing Dimension
디멘션 테이블의 변경 이력 처리 방식. Type 1·2·3·6 등.
Superset vs Metabase👁 53
OSS BI 비교. Superset은 복잡·강력, Metabase는 단순.
Vector Search 알고리즘👁 53
HNSW·IVF·PQ·ScaNN. ANN 알고리즘.
Mode👁 52
SQL + Python 분석 협업 플랫폼. ThoughtSpot 인수.
Reinforcement Learning👁 52
RL
에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습. AlphaGo·로봇 제어에 활용.
Retention Curve👁 52
사용자가 시간에 따라 얼마나 남아있는지 그리는 곡선. 평평해지는 지점이 PMF 시그널.
RisingWave👁 52
Apache 2.0 스트리밍 DB. Materialize 오픈소스 경쟁.
Snowflake Iceberg Tables👁 52
Snowflake가 외부 Iceberg 테이블 네이티브 지원. 벤더 락 감소.
Spark Structured Streaming👁 52
Spark의 스트리밍 API. 배치처럼 작성·실시간 실행.
Streaming-first Architecture👁 52
배치 대신 스트림을 기본으로. Kappa Architecture.
Streamlit 대시보드👁 52
Python 스크립트로 인터랙티브 웹 앱. 데이터 팀 프로토타입.
Streamlit in Snowflake👁 52
Streamlit 앱을 Snowflake 데이터에 안전하게 배포.
Thoughtspot👁 52
검색·자연어 BI. "Search-driven Analytics".
Vanna.ai👁 52
Text-to-SQL 오픈소스. RAG 기반으로 스키마 이해.
VictoriaMetrics👁 52
Prometheus 호환 TSDB. 장기 저장·메모리 효율.
Weights & Biases 심화👁 52
실험·모델·데이터·LLM 프롬프트 관리.
Advanced RAG 패턴👁 51
Self-RAG·CRAG·HyDE·Query Expansion·ReRanker.
Airflow TaskFlow API👁 51
@task 데코레이터로 함수 기반 DAG. XCom 자동.
Apache Airflow 3👁 51
2024 Airflow 3. DAG 버저닝·UI 재작성·데이터 자산.
Apache Doris👁 51
Real-time MPP DB. 중국에서 개발, 글로벌 확산.
Apache Kafka👁 51
분산 스트리밍 플랫폼. 대용량 이벤트 처리의 사실상 표준. LinkedIn이 오픈소스화.
Apache NiFi👁 51
GUI 기반 데이터 플로우. IoT·통합·라우팅에 강점.
Auto Loader👁 51
Databricks의 점진적 파일 인제스트. 스키마 추론·진화.
Databricks LakeFlow👁 51
2024 발표 통합 데이터 엔지니어링. ingest·transform·orchestrate.
Data Mart👁 51
특정 부서·주제에 특화된 작은 Warehouse. 분석 속도·보안 분리.
Dremio👁 51
Data Lake 위의 SQL 엔진. Iceberg 네이티브.
DuckDB UI👁 51
DuckDB 내장 웹 UI. 2024년 출시, 로컬 분석 편의.
Hex👁 51
SQL·Python 노트북 협업 플랫폼. AI 통합 강점.
Iceberg REST Catalog👁 51
Iceberg 카탈로그 표준 API. Glue·Polaris·Tabular 호환.
Iceberg REST Catalog 채택👁 51
2024년부터 Snowflake·Databricks·Glue 모두 REST Catalog 지원.
Kafka Exactly-Once👁 51
프로듀서 idempotence + 트랜잭션으로 정확히 한 번 처리 보장.
Kafka KRaft👁 51
Kafka 3.3+ ZooKeeper 제거 모드. 운영 단순화.
Kafka Tiered Storage👁 51
오래된 세그먼트를 S3로 이동. 디스크 비용 절감.
Kimball 방법론👁 51
Dimensional Modeling 선구자. Star Schema 중심.
Omni👁 51
Looker 창시자들의 새 BI. AI·Semantic Layer.
Open Table Format👁 51
Iceberg·Delta·Hudi 비교. Lake에 ACID·Schema·Time Travel 추가.
Parquet 상세👁 51
컬럼 저장·압축·encoding·row group·page 구조.
Polaris Catalog👁 51
Snowflake가 Apache Foundation에 기증한 Iceberg REST 카탈로그.
Project Nessie👁 51
Iceberg용 Git-like 카탈로그. 브랜치·머지.
Schema Change Management👁 51
DB·Warehouse 스키마 변경 안전 배포. Liquibase·Flyway·schemachange.
Spark Connect👁 51
Spark 클라이언트-서버 프로토콜. 원격 실행·다국어 클라이언트.
CDP vs Warehouse👁 50
Segment·mParticle 같은 CDP와 Snowflake 직접 사용 비교.
Data Contracts 실무👁 50
Protobuf·JSON Schema로 데이터 스키마 계약. 배포 전 검증.
dbt Exposures👁 50
dbt 모델을 사용하는 downstream(대시보드·앱) 정의.
dbt Source Freshness👁 50
원본 테이블의 신선도 감사. 지연 알람.
Delta Liquid Clustering👁 50
Databricks Delta의 동적 파티셔닝. Z-Ordering 후속.
Google Cloud Dataflow👁 50
GCP 관리형 Beam. 오토스케일·streaming engine.
Iceberg v3 Spec👁 50
2024 Iceberg v3. Deletion Vectors·Row Lineage·Variant.
Kestra👁 50
선언적 YAML 오케스트레이터. 이벤트·스케줄·UI 강력.
Machine Learning👁 50
ML
데이터로부터 패턴을 학습해 예측·분류하는 AI의 하위 분야. 지도·비지도·강화학습으로 나뉨.