- 计算机相关专业
- 机器学习算法/工程化经验
- 英文读写能力良好
职位描述
1. 主导新一代机器学习大规模计算/超算平台,不断满足AI算法开发、模型开发、应用开发人员所需的极致算力的要求。搭建、优化和运维基于分布式通用计算(CPU)、异构计算(GPU、DSA、FPGA)等计算资源的AI云基础设施,设计、开发和维护AI机器学习平台及相关工具,建设智算集群库存管理、算力调度、性能分析、故障自动化处理、租户运维功能等核心产品能力,提升产品竞争力
2. 联合算法团队,搭建及优化分布式机器学习训练及推理系统,能够根据数据特点从算法和工程角度进行优化和调优;基于云原生技术体系构建高可用的AI机器学习平台,保障智算云的稳定性、高效率和机制成本,让平台不断适应业务发展的需求和趋势。
职位要求
1. 熟悉机器学习系统,有分布式机器学习系统优化、异构计算优化经验,理解计算机视觉、自然语言处理、知识图谱、联邦学习等算法理论和实际项目落地经验者优先;
2. 头部互联网公司相关AI机器学平台的产品定义和架构设计经验,有BAT或国内外大型云计算公司工作经历,参与过mindspore、PAI等大型AI平台开发项目优先;
3. 对IAAS、PAAS、分布式计算/存储、K8S、大数据、容器、GPU资源虚拟化等技术有深入理解,对大规模GPU集群在实际应用中的性能、资源利用率、网络等方面的工程问题有实践经验
4. 作风踏实严谨、责任心强,具备良好的团队协作能力和推动力,善于解决负责问题。