본문 바로가기
📊

Data 348개 용어

ML·데이터 파이프라인·ETL·Warehouse·MLOps·분석 엔진

NATS JetStream👁 57
NATS의 영속성·재시도·스트림. Kafka 경량 대안.
NDCG👁 57
Normalized Discounted Cumulative Gain
검색·추천의 순위 품질 지표. 상위 순위 가중치.
PostHog👁 57
오픈소스 제품 분석 플랫폼. 이벤트·퍼널·리텐션·Feature Flag 통합.
Power BI👁 57
Microsoft의 BI 도구. Office 365 통합. 엔터프라이즈·Tableau 대안.
Prefect👁 57
현대적 워크플로 오케스트레이터. Airflow의 Python 네이티브 대안.
Profile-based Reverse ETL👁 57
Rudderstack Profiles처럼 dbt 모델이 프로파일을 생성.
Reverse ETL Platforms👁 57
Hightouch·Census·Rudderstack Profiles 비교.
Snowflake Cortex👁 57
Snowflake의 AI·LLM 기능. Cortex Search·Cortex Analyst.
Tecton👁 57
Feature Store SaaS. Feast 창시자들이 창업.
Unity Catalog Open Source👁 57
Databricks가 2024년 오픈소스화. 카탈로그·거버넌스.
Change Data Capture👁 56
CDC
DB의 INSERT/UPDATE/DELETE를 실시간으로 캡처해 다른 시스템에 전파하는 기법.
Dagster👁 56
데이터 애셋 중심 오케스트레이터. Airflow·Prefect 대비 타입·테스트 강함.
dbt Sources👁 56
원본 raw 테이블을 dbt 프로젝트에서 명명·테스트.
Metric Layer👁 56
비즈니스 지표를 중앙 정의해 여러 BI 툴이 일관된 값 사용. Cube·dbt Semantic Layer·MetricFlow.
ML 평가 지표 선택👁 56
분류·회귀·랭킹·생성 각기 다른 지표. 비즈니스 목표와 정렬 필수.
MLOps👁 56
ML 모델의 개발·배포·모니터링을 DevOps처럼 체계화한 실천. CI/CD + 데이터·모델 버전 관리.
NumPy👁 56
Python 수치 계산의 기반 라이브러리. 배열·행렬·벡터 연산.
Prefect 3👁 56
2024년 메이저 업데이트. 동기 API·빠른 실행·엔진 리팩터.
Preset.io👁 56
Superset의 매니지드 SaaS. 엔터프라이즈 기능 추가.
Presto/Trino👁 56
분산 SQL 쿼리 엔진. Facebook이 시작(Presto), 창시자들이 포크한 Trino가 주류.
Reverse ETL👁 56
Warehouse의 정제된 데이터를 다시 SaaS(Salesforce·Mailchimp)로 동기화.
Reverse ETL Use Cases👁 56
Warehouse 데이터를 SaaS(Salesforce·Mailchimp)로 동기화해 실행 가능하게 만듦.
scikit-learn👁 56
Python의 전통 ML 라이브러리. 분류·회귀·클러스터링·전처리 포괄.
Spark RDD👁 56
Spark의 저수준 분산 컬렉션. DataFrame 이전 세대.
Unsupervised Learning👁 56
레이블 없이 데이터의 구조·패턴을 학습. 클러스터링·차원 축소가 대표.
Dagster Pipes👁 55
외부 프로세스(Spark·Databricks·Kubernetes) 통합 프로토콜.
Data 팀 역할👁 55
Data Engineer·Analytics Engineer·Data Scientist·ML Engineer·Data Analyst 구분.
ELT👁 55
Extract-Load-Transform
ETL의 현대 변형. 원본 그대로 적재 후 Warehouse 내부에서 변환. dbt가 대표 도구.
Flink CDC👁 55
Ververica 오픈 CDC 커넥터. MySQL·PG·Mongo를 Flink 소스로.
Lightdash👁 55
dbt 기반 OSS BI. dbt 메트릭을 대시보드로.
Medallion Architecture👁 55
Databricks의 Bronze·Silver·Gold 3단계 데이터 레이크.
Modern ETL/ELT 선택👁 55
Warehouse 내 SQL 변환이 강력해져 ELT가 주류.
OpenLineage👁 55
데이터 리니지 오픈 표준. Marquez·OpenMetadata·DataHub 지원.
Pandas👁 55
Python의 데이터프레임 라이브러리. 분석·전처리의 사실상 표준.
Parquet👁 55
컬럼 지향 파일 포맷. Lake·Warehouse 표준. 압축·쿼리 효율 탁월.
Redpanda👁 55
Kafka 호환 스트리밍 엔진. C++·thread-per-core.
Redshift ML👁 55
AWS Redshift에서 SQL로 SageMaker 모델 학습·추론.
Steampipe👁 55
클라우드 API를 SQL로 쿼리하는 도구. AWS·GCP·Azure·Kubernetes.
Tableau👁 55
Salesforce가 인수한 BI의 거인. 드래그앤드롭 시각화 선구자.
Tabular Data👁 55
행·열로 구성된 구조화 데이터. DB 테이블·CSV·Excel. 전통 ML의 주 대상.
Unity vs Polaris👁 55
Databricks Unity Catalog와 Snowflake Polaris 대결.
Zero-ETL👁 55
복사 없이 소스 DB를 직접 Warehouse에서 쿼리. AWS가 제안.
Apache Beam👁 54
배치·스트리밍 통합 프로그래밍 모델. Dataflow·Flink·Spark 러너.
Apache Hudi👁 54
Lakehouse 테이블 포맷. Upsert·Delete·Time Travel. Iceberg·Delta 경쟁.
Apache Spark👁 54
분산 빅데이터 처리 엔진. Hadoop MapReduce 대체. Python·Scala·SQL 지원.
BigQuery Omni👁 54
AWS·Azure 데이터를 BigQuery에서 쿼리. 멀티 클라우드.
Cube.dev👁 54
Headless BI·Semantic Layer. SQL·REST·GraphQL 노출.
Databricks👁 54
Apache Spark 창시자들이 만든 통합 데이터·AI 플랫폼. Lakehouse 개념 주도.
Data Clean Room👁 54
여러 회사가 데이터를 공유 없이 조인·분석. 광고·의료.
Data Contract👁 54
데이터 생산자와 소비자 간 스키마·품질·SLA 계약. 데이터 품질 문제 예방.