岗位职责:
深入研究、训练和应用大规模预训练模型(LLM),包括但不限于多语言、多模态、训练任务的优化、下游任务的迁移、知识融合更新和模型性能的提升等。在此过程中,着重强调与强化学习相关的应用。
利用基于强化学习的 PPO 算法进行微调自然语言处理预训练模型,以实现各类任务的对齐与性能提升。
积极参与公司领域特定的 GPT 模型的强化学习与自然语言处理模块的研发,为其增添RLHF(Reinforcement Learning with Human Feedback)元素。岗位要求:
硕士及以上学历,专业背景可包括自动化、计算机科学、机械工程等相关领域。
精通强化学习领域的多种算法,包括但不限于 Actor-critic、GAIL、Q-Learning、PPO、Offline RL 等。能够将这些算法应用于自然语言处理任务中。
深刻理解强化学习与自然语言处理领域的基本原理,具备训练 RM(Reward Models)、PPO(Proximal Policy Optimization)、DPO(Deep Policy Optimization)等方面的经验。
具备从零开始构建强化学习与自然语言处理训练集的能力,以满足特定任务的需求。
出色的沟通与协作能力,具备跨团队合作的经验,拥有卓越的项目规划和执行能力。
精通大规模模型的微调方法,能够有效应用多机并行策略,以实现任务效率与性能的提升。
深入了解学术界与行业内最新的研究成果,包括但不限于对 instructGPT、LLaMa 等前沿技术的熟悉。
优先考虑在国际顶级会议或期刊(如 ICLR、ICDE、ICML、NeurIPS、AAAI)上发表过相关领域论文的候选人。