본문 바로가기

📊

Data — 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

NATS JetStream👁 57

NATS의 영속성·재시도·스트림. Kafka 경량 대안.

Normalized Discounted Cumulative Gain

검색·추천의 순위 품질 지표. 상위 순위 가중치.

오픈소스 제품 분석 플랫폼. 이벤트·퍼널·리텐션·Feature Flag 통합.

Power BI👁 57

Microsoft의 BI 도구. Office 365 통합. 엔터프라이즈·Tableau 대안.

현대적 워크플로 오케스트레이터. Airflow의 Python 네이티브 대안.

Profile-based Reverse ETL👁 57

Rudderstack Profiles처럼 dbt 모델이 프로파일을 생성.

Reverse ETL Platforms👁 57

Hightouch·Census·Rudderstack Profiles 비교.

Snowflake Cortex👁 57

Snowflake의 AI·LLM 기능. Cortex Search·Cortex Analyst.

Feature Store SaaS. Feast 창시자들이 창업.

Unity Catalog Open Source👁 57

Databricks가 2024년 오픈소스화. 카탈로그·거버넌스.

Change Data Capture👁 56

DB의 INSERT/UPDATE/DELETE를 실시간으로 캡처해 다른 시스템에 전파하는 기법.

데이터 애셋 중심 오케스트레이터. Airflow·Prefect 대비 타입·테스트 강함.

dbt Sources👁 56

원본 raw 테이블을 dbt 프로젝트에서 명명·테스트.

Metric Layer👁 56

비즈니스 지표를 중앙 정의해 여러 BI 툴이 일관된 값 사용. Cube·dbt Semantic Layer·MetricFlow.

ML 평가 지표 선택👁 56

분류·회귀·랭킹·생성 각기 다른 지표. 비즈니스 목표와 정렬 필수.

ML 모델의 개발·배포·모니터링을 DevOps처럼 체계화한 실천. CI/CD + 데이터·모델 버전 관리.

Python 수치 계산의 기반 라이브러리. 배열·행렬·벡터 연산.

Prefect 3👁 56

2024년 메이저 업데이트. 동기 API·빠른 실행·엔진 리팩터.

Preset.io👁 56

Superset의 매니지드 SaaS. 엔터프라이즈 기능 추가.

Presto/Trino👁 56

분산 SQL 쿼리 엔진. Facebook이 시작(Presto), 창시자들이 포크한 Trino가 주류.

Reverse ETL👁 56

Warehouse의 정제된 데이터를 다시 SaaS(Salesforce·Mailchimp)로 동기화.

Reverse ETL Use Cases👁 56

Warehouse 데이터를 SaaS(Salesforce·Mailchimp)로 동기화해 실행 가능하게 만듦.

scikit-learn👁 56

Python의 전통 ML 라이브러리. 분류·회귀·클러스터링·전처리 포괄.

Spark RDD👁 56

Spark의 저수준 분산 컬렉션. DataFrame 이전 세대.

Unsupervised Learning👁 56

레이블 없이 데이터의 구조·패턴을 학습. 클러스터링·차원 축소가 대표.

Dagster Pipes👁 55

외부 프로세스(Spark·Databricks·Kubernetes) 통합 프로토콜.

Data 팀 역할👁 55

Data Engineer·Analytics Engineer·Data Scientist·ML Engineer·Data Analyst 구분.

Extract-Load-Transform

ETL의 현대 변형. 원본 그대로 적재 후 Warehouse 내부에서 변환. dbt가 대표 도구.

Flink CDC👁 55

Ververica 오픈 CDC 커넥터. MySQL·PG·Mongo를 Flink 소스로.

Lightdash👁 55

dbt 기반 OSS BI. dbt 메트릭을 대시보드로.

Medallion Architecture👁 55

Databricks의 Bronze·Silver·Gold 3단계 데이터 레이크.

Modern ETL/ELT 선택👁 55

Warehouse 내 SQL 변환이 강력해져 ELT가 주류.

OpenLineage👁 55

데이터 리니지 오픈 표준. Marquez·OpenMetadata·DataHub 지원.

Python의 데이터프레임 라이브러리. 분석·전처리의 사실상 표준.

컬럼 지향 파일 포맷. Lake·Warehouse 표준. 압축·쿼리 효율 탁월.

Redpanda👁 55

Kafka 호환 스트리밍 엔진. C++·thread-per-core.

Redshift ML👁 55

AWS Redshift에서 SQL로 SageMaker 모델 학습·추론.

Steampipe👁 55

클라우드 API를 SQL로 쿼리하는 도구. AWS·GCP·Azure·Kubernetes.

Salesforce가 인수한 BI의 거인. 드래그앤드롭 시각화 선구자.

Tabular Data👁 55

행·열로 구성된 구조화 데이터. DB 테이블·CSV·Excel. 전통 ML의 주 대상.

Unity vs Polaris👁 55

Databricks Unity Catalog와 Snowflake Polaris 대결.

Zero-ETL👁 55

복사 없이 소스 DB를 직접 Warehouse에서 쿼리. AWS가 제안.

Apache Beam👁 54

배치·스트리밍 통합 프로그래밍 모델. Dataflow·Flink·Spark 러너.

Apache Hudi👁 54

Lakehouse 테이블 포맷. Upsert·Delete·Time Travel. Iceberg·Delta 경쟁.

Apache Spark👁 54

분산 빅데이터 처리 엔진. Hadoop MapReduce 대체. Python·Scala·SQL 지원.

BigQuery Omni👁 54

AWS·Azure 데이터를 BigQuery에서 쿼리. 멀티 클라우드.

Cube.dev👁 54

Headless BI·Semantic Layer. SQL·REST·GraphQL 노출.

Databricks👁 54

Apache Spark 창시자들이 만든 통합 데이터·AI 플랫폼. Lakehouse 개념 주도.

Data Clean Room👁 54

여러 회사가 데이터를 공유 없이 조인·분석. 광고·의료.

Data Contract👁 54

데이터 생산자와 소비자 간 스키마·품질·SLA 계약. 데이터 품질 문제 예방.

← 이전3 / 7다음 →