针对大型深度学习项目所需计算量大、调整算法工作复杂的问题。本文提出了一种基于容器云的深度学习平台设计方案。该方案主要采用Kubernetes容器云平台动态管理集群资源,实现计算资源的快速扩容。部署GlusterFS分布式文件系统提高深度学习模型、数据与日志文件的读取速率。同时利用Prometheus框架丰富容器云集群的监控指标,保证深度学习模型的训练效果。系统设计完成后,通过手势识别项目验证了平台的有效性。试验结果表明,基于容器云的深度学习平台比传统的分布式深度学习系统自动化程度更高、可用性更强,能有效满足大型深度学习项目的计算与开发需求。