强化学习算法专家

40-60K·14薪

代招公司：好未来北京 3-5年硕士

感兴趣立即沟通

火星时代教育：中国数字艺术教育高端品牌

...

餐补全勤奖节日福利定期体检商业保险购房福利补充医疗保险带薪年假不定期培训五险一金年终奖

相似职位更多相似职位

查看全部职位

职位描述

强化学习
自然语言处理算法
C/C++

岗位职责：深入研究、训练和应用大规模预训练模型（LLM），包括但不限于多语言、多模态、训练任务的优化、下游任务的迁移、知识融合更新和模型性能的提升等。在此过程中，着重强调与强化学习相关的应用。利用基于强化学习的 PPO 算法进行微调自然语言处理预训练模型，以实现各类任务的对齐与性能提升。积极参与公司领域特定的 GPT 模型的强化学习与自然语言处理模块的研发，为其增添RLHF（Reinforcement Learning with Human Feedback）元素。岗位要求：硕士及以上学历，专业背景可包括自动化、计算机科学、机械工程等相关领域。精通强化学习领域的多种算法，包括但不限于 Actor-critic、GAIL、Q-Learning、PPO、Offline RL 等。能够将这些算法应用于自然语言处理任务中。深刻理解强化学习与自然语言处理领域的基本原理，具备训练 RM（Reward Models）、PPO（Proximal Policy Optimization）、DPO（Deep Policy Optimization）等方面的经验。具备从零开始构建强化学习与自然语言处理训练集的能力，以满足特定任务的需求。出色的沟通与协作能力，具备跨团队合作的经验，拥有卓越的项目规划和执行能力。精通大规模模型的微调方法，能够有效应用多机并行策略，以实现任务效率与性能的提升。深入了解学术界与行业内最新的研究成果，包括但不限于对 instructGPT、LLaMa 等前沿技术的熟悉。优先考虑在国际顶级会议或期刊（如 ICLR、ICDE、ICML、NeurIPS、AAAI）上发表过相关领域论文的候选人。

强化学习算法专家

相似职位 更多相似职位

职位描述

相似职位更多相似职位