工作职责:
1.融入数据工程全流程,负责数据采集、解析清洗、质量监控与评估、标注与增强,构建高质量大模型训练数据集,以坚实的数据基础驱动大模型的稳健运行与效能最大化;
2.深度参与和支持高质量微调,与算法、产品等团队协作,理解大模型训练需求和应用场景,加速大模型在实际场景中的落地应用,全面提升性能表现与业务价值;
3.持续追踪数据处理技术前沿最新发展,研判、引入和实施新技术工具,不断提升数据工程的质量和效率。
任职资格:
1.2025年应届生,本科及以上学历,理学、工学类专业学位;
2.在校平均学分绩点3.0及以上,有科研论文发表、竞赛获奖、IT/AI数据相关实习实践经历者优先,具体有大模型数据开发、推理数据开发、数据集测评相关经历者尤佳;
3.熟悉数据清洗与质量评估流程,具备敏锐的数据洞察和严谨的数据治理能力,熟练掌握Hadoop、Spark等大数据处理框架,精通Python、SQL等至少一种编程语言,熟悉Pandas、Numpy、Scikit - learn等常用数据处理和分析库;
4.自驱进取、爱岗敬业、踏实负责、严谨细致,具备良好的系统性逻辑思维,具有良好的理解和学习能力、问题分析和解决能力、团队合作和沟通协调能力、情绪调节和压力管理能力。