当前位置:首页 > 全部职位 > 职位详情
最火 https://public.static.hxsd.com/resources/zhaopin/20231128/huo116552dsfsd9898.png

强化学习算法专家

40-60K·14薪

代招公司:好未来 北京 3-5年 硕士

火星时代教育:中国数字艺术教育高端品牌
...
餐补 全勤奖 节日福利 定期体检 商业保险 购房福利 补充医疗保险 带薪年假 不定期培训 五险一金 年终奖
餐补 全勤奖 节日福利 定期体检 商业保险 购房福利 补充医疗保险 带薪年假 不定期培训 五险一金 年终奖

职位描述

  • 强化学习
  • 自然语言处理算法
  • C/C++
岗位职责: 深入研究、训练和应用大规模预训练模型(LLM),包括但不限于多语言、多模态、训练任务的优化、下游任务的迁移、知识融合更新和模型性能的提升等。在此过程中,着重强调与强化学习相关的应用。 利用基于强化学习的 PPO 算法进行微调自然语言处理预训练模型,以实现各类任务的对齐与性能提升。 积极参与公司领域特定的 GPT 模型的强化学习与自然语言处理模块的研发,为其增添RLHF(Reinforcement Learning with Human Feedback)元素。岗位要求: 硕士及以上学历,专业背景可包括自动化、计算机科学、机械工程等相关领域。 精通强化学习领域的多种算法,包括但不限于 Actor-critic、GAIL、Q-Learning、PPO、Offline RL 等。能够将这些算法应用于自然语言处理任务中。 深刻理解强化学习与自然语言处理领域的基本原理,具备训练 RM(Reward Models)、PPO(Proximal Policy Optimization)、DPO(Deep Policy Optimization)等方面的经验。 具备从零开始构建强化学习与自然语言处理训练集的能力,以满足特定任务的需求。 出色的沟通与协作能力,具备跨团队合作的经验,拥有卓越的项目规划和执行能力。 精通大规模模型的微调方法,能够有效应用多机并行策略,以实现任务效率与性能的提升。 深入了解学术界与行业内最新的研究成果,包括但不限于对 instructGPT、LLaMa 等前沿技术的熟悉。 优先考虑在国际顶级会议或期刊(如 ICLR、ICDE、ICML、NeurIPS、AAAI)上发表过相关领域论文的候选人。
×

确定