Databricks数据洞察

Databricks数据洞察是基于Apache Spark的全托管数据分析平台, 内核采用更高效、稳定的商业版Databricks Runtime和Delta Lake。可同时满足数据分析师、数据开发工程师和数据科学家的分析需求,实现协同合作和数据共享。满足用户在大数据下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等场景需求。


产品优势

精心打造的功能

应用场景

流批一体数据仓库 大数据与AI结合
Databricks 数据洞察数据仓库方案
统一的大数据管理平台,从上游数据抽取到下游数据分析,贯穿整个数据分析工作流。自动扩缩容,免运维,降低运维成本
应用场景
数据获取
接收实时产生的流式数据和外部云存储上批量数据。
数据ETL
持续高效地处理增量数据,支持数据的回滚和删改,提供ACID事务性保障。
BI数据分析
支持Ad hoc查询,无缝对接多种BI分析工具。
AI数据探索
支持机器学习。
Databricks 数据洞察机器学习方案
简化了机器学习生命周期:,快速进行模型测试、实验、以及生产部署,并可视化结果
应用场景
特征工程
Spark SQL/Data Frame进行的分布式的数据预处理,EDA和特征工程
分布式模型训练
利于Spark ML、ML相关模块做特征处理,进行ML/DL模型分布式训练
在线部署
封装模型到Spark ML pipeline,以PMML或Mleap方式存放于MOS,发布到PAI-EAS做线上预测 服务
云边端一体
也可利用容器镜像服务和ACK@Edge,将模型作为容器下沉到边缘终端,服务离线终端设备的AI

文档与工具