云原生AI解决方案

利用摩杜云容器服务(ACK)全面支持GPU和CPU异构资源集群统一管
理和调度,与摩杜云其他资源服务深度整合,支持机器学习计算的完
整生命周期,提供低门槛、开放、高效的深度学习解决方案。

方案架构

简单开放
支持主流框架(如Tensorflow、PyTorch,Keras、caffe、M
XNet等)和多种环境,屏蔽底层差异并承担非算法相关工作,
提供全生命周期方案与一站式管控。
高效可靠
极致弹性,提升异构资源使用效率;快速按需构建,加速重复性
模型开发;支持多维度监控报警、异常发现与自动修复。
深度整合
基于大规模GPU集群部署运维经验,(如MCS、 EGS)与数据
服务能力(如MOS、NAS、CPFS、EMR等),提供端到端的
最佳实践。
轻松集成
支持深度学习能力一键服务化发布,与云上应用的轻松集成。

内部实践

快捷而完整的方案

1、可快速构建模型开发、训练和预测的运行环境。
2、集成各种摩杜云资源,如存储、网络、负载均衡、弹性、监控、日志、镜像和EMR大数据
处理等。
3、提供运行环境搭建、分布式调度、训练任务历史管理、数据存储服务集成等非算法相关的
工作支持。

使用指南

  1. 01

    环境搭建及底层准备

    不必关心底资源管理、调度和运维。 无需手动
    记录、管控、配置或部署,告别低使用效率。

  2. 02

    数据准备

    在摩杜云MOS中一键上传、直接调用。 数据集
    准换成Tensorflow推荐的TFRecord格式。

  3. 03

    模型开发

    支持Tensorflow / MXNet + Jupyter 开发 +
    Tensorboard 训练监控 + SSH。

  4. 04

    模型训练

    支持基于TensorFlow serving 的模型滚动
    更新、蓝绿发布,负载均衡和弹性伸缩。集成
    多款产品。