从算力融合到应用生态构建:济南超算与青云科技的共赢实践-百家乐平台网
2025 03/21 14:38:08
来源:百家乐平台网

从算力融合到应用生态构建:济南超算与青云科技的共赢实践

字体:

  在数字经济蓬勃发展的当下,算力成为驾驭创新大潮的关键力量。2019年末国家超算济南中心(简称:济南超算)科技园已经开园启用,并主导建设了多个重点实验室和研究院,积极参与山东高等技术研究院等重要科研项目,在智能信息技术领域全面布局,围绕超算形成的数字经济生态创新圈,成功吸引了近 20 家科研院所、30 多家科研平台。

  然而随着算力需求的不断增长和多样化,如何将高性能计算、云计算、人工智能计算等不同类型的算力资源高效整合与调度,如何实现高度自动化的运营运维,成为了横亘在济南超算面前的难题。

  彼时的北京青云科技集团股份有限公司(简称:青云科技),一方面在全面开展国产异构算力的深度适配,另一方面在积极探索EHPC,将弹性、扩展、统一管理的软件平台能力从云计算领域扩展到超算领域。

  两个志同道合的创新者一拍即合,携手突破算力整合与运营的瓶颈,推动算力产业的创新发展。

  多元异构算力统一调度

  青云科技以创新的理念打造了 AI 智算平台,为济南超算实现对3000P算力的统一调度提供了关键支撑,打破了高性能计算、云计算、人工智能计算等资源模块之间的壁垒,实现了对异构算力的整合管理。

  济南超算整合了多种异构芯片、服务器、存储、网络等资源,以“山河云”对外提供统一算力服务,通过智能化的调度算法,根据不同应用场景的需求,动态分配算力资源,极大地提高了算力的使用效率。例如,在处理大规模科学计算任务时,平台能够迅速调配高性能计算资源,确保任务的高效完成;而在人工智能训练场景中,则可以精准分配 GPU 等计算资源,加速模型训练过程。

  运营运维规范化、自动化

  济南超算同步建立起完善的管理体系与流程规范,管理人员通过可视化管理,可以清晰地看到不同类型资源的分布状态,以及各个项目对资源的占用情况。而青云AI智算平台提供的子账号管理及工单管理等功能,进一步提升了管理的精细化程度。

  更让管理人员和用户交口称赞的是精准计费功能和工单系统。精确计费不仅为济南超算的成本核算和资源定价提供了准确依据,更让用户能够清楚了解自己的费用支出情况。特别对于一些小型科研团队来说,精准计费功能让他们能够更好地控制科研成本:根据自己的实际需求灵活调整算力使用量,清楚地知道每一笔费用的去向,将有限的科研经费花在刀刃上,提高科研资源的利用效率。而工单系统则避免了繁琐的人工沟通,提升了运维效率。

  为了确保算力的稳定可靠运行,青云还推出了故障监控与自愈系统。该系统拥有 1000+ 故障特征库,能够秒级发现故障并分钟级自愈。这样一来,山河云平台检测到故障,会立即通过多渠道发出告警。随后,系统会自动启动任务检测和调度禁止机制,防止新任务在故障机器上运行。系统还会预留部分机器作为备份,以便在故障发生时迅速接管任务,保证用户的业务连续性。

  开放生态让AI应用按需落地

  青云 AI 智算平台的开放架构,为济南超算提供了一条快速接轨大模型服务、AI应用的“快车道”,让山河云服务的科研企业、工业企业、政府机构、高校等享受生态便利,紧跟AI技术演变,保持创新活力。

  比如,服务山东数字政府的政务云实现了云计算资源池、高性能计算、人工智能计算集群之间的算力弹性扩展,上线了300+ 政务系统;智慧黄河模拟器正在紧锣密鼓的研发中,其中涉及到大量数据和模型的融合。同时,济南超算、青云科技也与合作伙伴共同推进自然语言巨量模型的训练工作,服务于智能客服、信息检索等领域的应用。

  这一优势也让山河云服务的众多企业得以快速拥DeepSeek,在实际业务中应用,典型的是用于内部知识库的搭建,提升知识库的质量与实用性。山河云服务的高校学生也能够更快运用DeepSeek完成科研项目,比如通过模型微调实现自己需要的应用功能并形成论文。山河云为高校学生提供了广阔的科研创新空间,学生们能够更便捷、高效地运用DeepSeek 展开深入探索: 根据自身的研究方向和需求,对模型进行针对性调整和优化,成功实现了一系列独特的应用功能;学生们还将这些创新实践进行系统总结和理论升华,形成了高质量的学术论文,为相关领域的研究贡献新的思路和成果。

  算网融合新突破

  与此同时,山河超级计算集群与青云科技合作打造基于 SD-WAN 网络接入的方式,建成以“济南 - 青岛”为两大超算核心结点、连接山东 16 市骨干结点和 100 余个边缘结点的省域算力网络。

  在此基础上,济南超算积极参与各类算网项目,目前已作为成员单位参与科技部牵头的中国超算互联网,并在“东数西算”网络方面成立了黄河流域算力联盟,与枢纽结点的算力共享。

  济南超算与青云科技的合作,不仅在技术层面实现了算力的融合创新,更在产业生态方面形成了集聚效应,让众多科研机构、企业和高校围绕着山河云,形成了一个紧密的创新生态系统。各方通过资源共享、技术交流和合作创新,充分发挥自身优势,共同攻克技术难题,推动产业智能升级,助力数字经济高质量发展。

【纠错】 【责任编辑:杨帆】