1、需求分析与方案设计:深入理解客户在算力、部署环境、预算及特定应用(如AI训练、推理、HPC等)方面的需求,主导设计技术先进、经济可行的算力硬件整体解决方案。
2、技术选型与供应商管理:负责核心硬件组件(服务器、GPU、NVlink、液冷系统、机柜等)的选型评估,评估其兼容性、性能、成本与供应链稳定性。与各供应商保持紧密技术沟通,确保选型精准。
3、项目与集成管理:制定项目技术方案、配置清单和计划,并跟踪执行。主导或深度参与系统的物理集成与组装工作,确保项目按时高质量交付。
4、系统测试与优化:制定并执行全面的系统测试计划(包括液冷系统测试、性能压测、稳定性与兼容性测试),分析测试数据,定位性能瓶颈,进行硬件配置与参数调优,确保系统达到设计指标。
5、部署与技术支持:参与客户现场的部署、安装与调试工作,为客户提供技术交底和培训。提供现场及远程技术支持,快速响应和解决硬件及液冷系统等相关故障。
6、技术研究与知识沉淀:持续跟踪液冷、GPU、DPU等算力领域的新技术与新产品,评估其应用可行性。编写和维护技术文档,构建选型指南、方案库和知识库,推动团队技术能力提升。