您的当前位置:平安康网-> 百科 >内容

国产GPU升级万卡集群

2024-07-05 08:43 来源:千龙网 阅读量:19378   

日前,总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。

AI模型训练的主战场,万卡已成为标配。摩尔线程创始人兼CEO张建中说。随着计算量不断攀升,大模型训练亟需超级工厂,也就是一个大且通用的加速计算平台,从而缩短训练时间,实现模型能力的快速迭代。

所谓万卡集群,是指由一万张及以上的计算加速卡组成的高性能计算系统,用以训练基础大模型。据了解,构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。可以把万卡集群想象为一个万人团队,团队需要有非常强的沟通机制,才能协同把一件事情做好。摩尔线程相关负责人说,希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题。

稳定性方面,夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上。

日前,总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。

AI模型训练的主战场,万卡已成为标配。摩尔线程创始人兼CEO张建中说。随着计算量不断攀升,大模型训练亟需超级工厂,也就是一个大且通用的加速计算平台,从而缩短训练时间,实现模型能力的快速迭代。

所谓万卡集群,是指由一万张及以上的计算加速卡组成的高性能计算系统,用以训练基础大模型。据了解,构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。可以把万卡集群想象为一个万人团队,团队需要有非常强的沟通机制,才能协同把一件事情做好。摩尔线程相关负责人说,希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题。

稳定性方面,夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上。

声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。

  • 热门文章
  • 陕西宝鸡为卫生室免费发放血氧仪

    ?近日,陕西省宝鸡市卫生健康委为全市1685个行政村卫生室免费发放3370个指夹式血氧仪,确保每个村卫生室配备2个,满足群众就近就医需求。??发放仪式上,宝鸡市卫生健康委副主任任晓俊要求,加强基层药品

    2023-02-14 10:46
  • 首批默沙东新冠口服药已完成进口,有望缓解国内需求

    界面新闻1月5日晚从默沙东方面获悉,1月3日晚,国药控股完成一批抗新冠病毒口服药物莫诺拉韦胶囊(molnupiravir)的进口申报。在货物消杀、装车后,国药控股将109托药品运至上海市外高桥保税区仓

    2023-02-14 10:45
广告