首页
会员中心
到顶部
到尾部
数据中心

支撑AI的高性能数据中心网络架构如何设计?

时间:2018/4/20 9:34:02  作者:互联先锋  来源:网摘  查看:349  评论:0
内容摘要:据2018年04月20日互联先锋讯,近日,工信部印发《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,意在加快人工智能从战略到落地,推动人工智能和实体经济深度融合。在新工业革命的背景下,大数据、计算力、算法等快速迭代,正驱动人工智能进入新阶段。2017年Q3,全...
据2018年04月20日互联先锋讯,近日工信部印发《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,意在加快人工智能从战略到落地,推动人工智能和实体经济深度融合。在新工业革命的背景下,大数据、计算力、算法等快速迭代,正驱动人工智能进入新阶段。2017年Q3,全球AI公司融资金额突破77亿美元,是2012年的70余倍。可能会有人说这是“泡沫”,而我更愿意相信这是人工智能发展的必然结果。

 

在AI技术的应用过程中,各个企业都在寻找能够更好支撑高性能计算的基础网络解决方案。在《数据中心基础网络架构最佳实践及未来发展趋势》这篇文章中,我分享了如何设计一个稳定可靠的数据中心网络,下面我们再来探讨支撑AI应用的高性能无损网络应该如何设计。
 

前面提到大数据、计算力、算法等快速迭代,正驱动人工智能进入新阶段,而这些技术的实现对网络的低时延、无丢包、高性能这三个方面提出更高要求。
 

 

▲ AI应用的技术体系及对数据中心网络的要求

 

高性能和无丢包比较好理解,就是指网络带宽性能的提升以及网络中不存在拥塞导致的丢包。产生时延的环节较多,要实现端到端的低时延,需要多角度分析:
 

 

其中,光电传输时延和数据串行时延相对较小,且很难通过架构设计来优化,我们应重点关注主机处理时延和设备转发时延。在各大企业积极寻求的高性能计算方案中,基于以太网的RDMA(Remote Direct Memory Access)凭借其高性能和低成本优势逐渐取代InfiniBand而成为主流技术。RoCEv2(RDMA over Converged Ethernet)技术基于UDP协议,对于建设支撑AI应用的高性能无损以太网络变得尤为重要。

结合设备转发层面的时延优化手段,高性能无损网络的实现取决于两个要素:

无带宽收敛(1:1)的网络架构设计

基于PFC(Priority-Based Flow Control)和ECN(explicit congestion notification)功能的优先队列管理和拥塞管理

综上,AI集群高性能计算和网络方案实践思路如下图所示:
 

 

 

▲ AI集群高性能方案关键技术组合

 

在这里,我以25G网络为例,结合业界主流产品形态,分享AI网络架构设计和实现思路。

主要设计理念:

让核心设备全线速高性能转发,核心之间不互联,采用Fabric架构,隔离核心故障,最大程度降低核心故障的影响;

让三层路由组网,通过ECMP提高冗余度,降低故障风险;

让TOR上下行收敛比严格实现1:1,通过提高核心设备接口密度扩展单集群服务器规模;

让应用PFC+ECN功能,实现低延时无损网络。
 

网络架构设计:

1.中小型(集群规模1000台)

 

▲  架构设计
架构特性:

每台TOR采用8*100GE上联8台32口100G BOX交换机,OSPF/BGP组网

适用集群规模1000台

每台TOR下联32台Servers,IDC内收敛比1:1 ,集群带宽25Tbps
 

2.中型(集群规模2000台)

 

▲  架构设计

架构特性:

每台TOR采用8*100GE上联8台64口100G BOX,OSPF/BGP组网

适用集群规模2000台

每台TOR下联32台Servers,IDC内收敛比1:1 ,集群带宽50Tbps

作为中国领先的网络服务商、国家级高新技术企业,互联先锋为客户提供数据中心解决方案。不论是协助建造专网,还是提供创新、高效的本地连接,我们都能无缝整合最好的国内外数据中心、基础IT施,为每一个客户创建个性化的全球服务器解决方案与服务。



相关评论
评论者:      
深圳互联先锋科技有限公司 7x24小时服务热线:400-688-5856 电话总机:0755-36866868
客服中心:深圳市福田区深南中路华联大厦2楼  技术中心:香港九龍旺角道33號凱途發展大廈7樓
粤ICP备09077082号
Powered by OTCMS V2.2