字节跳动 (ByteDance) · Data-AML-方舟-算法实习生 2026.03 -- 2026.06
• 主导 Role-Playing 场景回复多样性提升项目与多维指标评估指标建设。 • 探索 Session-level RL 机制,以优化多轮长程对话中的推进节奏与 OOC 问题。 • 推进 GenMedia 业务文本创作质量优化,负责语料清洗与 Reward Model (RM) 训练对齐。
字节跳动 (ByteDance) · TikTok AI 创新中心实习生 2025.09 -- 2026.02
• 攻坚 LLM-RL 训练稳定性,提出 Optimal Token Baseline 与 Rollout Correction 等方法,成功应用于部门 Code Agent 核心链路建设中。
腾讯 TEG (Tencent) · Robotics X 智能体中心实习生 2023.06 -- 2025.08
• 研发机器人 Sim2Real 跨域策略迁移算法,通过动态在线优化实现高效策略迁移。 • 参与灵巧手魔方精细操作及多形态四足机器人异构控制策略设计。 • 构建具身智能多轮在线强化学习训练系统,成果成功落地于自研 TAIROS 平台。
深圳大数据研究院 (SRIBD) · 访问学生 2022.09 -- 2023.05
• 提升强化学习探索能力与样本效率,在 Atari100K 任务达到 SOTA,相关技术沉淀并成功迁移至大规模语言模型训练。
超参数科技 (Parametrix.ai) · 强化学习算法实习生 2021.01 -- 2021.07
• 参与非对称多智能体竞技项目,负责 PPO、DQN 等主流算法在高性能分布式环境下的复现、算力加速及复杂策略调优。