企事录张广彬:Facebook与微软的NVMe新宠

企事录张广彬:Facebook与微软的NVMe新宠

6月30日,主题为“关键之年,让闪存绽放”的2016中国闪存峰会在北京举行,来自产业界的众多嘉宾围绕闪存技术本身将如何演变与发展等热点问题 进行了精彩的分享,在下午的闪存定义新存储架构的分会场中,企事录联合创始人张广彬(狒哥)发表了题为《Facebook与微软的NVMe新宠》的主题演讲。

演讲中谈到许多闪存硬件规格,闪存产品发展中的问题,详细总结概括了许多硬件产品的特性,涉及NVMe接口协议栈,M.2,SSD等内容,以及一些前沿的概念和实施理念,谈到闪存在大型互联网公司的应用情况等。

以下是演讲内容:

企事录联合创始人张广彬(狒哥)

我叫张广彬,业内外号流传更广一些,叫“狒哥”,企事录主要是一家专注企业级公司产品测试分析的公司,我们也是国内唯一一个长期追踪互联网基础设施发展的第三方的机构。

NVMe大势所趋:企业级向消费级市场学习

如今,NVMe都已经进入普及阶段了,不需要太多介绍。NVMe是在接口上的一个协议栈,NVMe出现以后加速了闪存的普及,比如说像百度,我们知道百度以 前2013年年初宣布软件定义闪存,跟国内某个厂商硬件合作的闪存产品,但实际百度说得很少,买得也很少,更多是概念性产品。百度大部分用的是SATA SSD,但是据说百度的采购全部转向NVMe的SSD,当然百度是大客户,如果他可以获得比较低的价格,SATA的SSD也一样,但是NVMe的SSD性 能比SATA高很多。百度会用NVMe的SSD,把新的采购转向NVMe的SSD还有一个很重要的因素,后面也会提到。

另外一个词就是大家一点也不陌生的就是消费化,这些年就是所谓的企业级向消费市场学习,这里面很重要的一点也是互联网巨头的影响,互联网公司开个玩笑说,大家做事“不择手段”一些,大家经常会说哪个东西,他们不会按企业级市场既有的规则来做市场,说什么东西是企业级,什么不是企业级,他觉得这个合适,我能够把这个产品用好 就可以,大家肯定都清楚。比如早期的时候很多互联网公司用SATA的桌面硬盘,会用到数据中心里,但是现在很少了,因为硬盘厂商会做出改变。

我们知道PCIe SSD最早是这样,这是这个市场的开拓着,现在它不存在了,它是用在插槽上的产品。这是甲骨文最新发布的产品,它里面用的PCLe的,它其实已经是 NVMe接口了,它用的PCIe的SSD。它其实就是两种形状,上面这个是插卡式的,下面这个就是弹式的,它是PCLe的接口,但是看起来和SATA的没 有什么区别。这个产品SFF-8639,上面蓝色部分是原来的SATA的接口,左边是电源,右边是信号,后来SATA接口基础上又发展成了蓝色的接口,就 是SAAS第二个接口,红色区域原来没有,大家把红色区域用上,都用来做PCIe的眼角,可以达到PCLe×4的效果。

最下面是SATA的SSD,这个电源和信号之间是有缺口的,SAAS会把它连上了,在背面做,然后再往上就是SFF-8639。

但是这个名字SFF-8639念起来就很费劲,尤其向我英文不很好,念起来真的很费劲。但是企业级市场上,名字长一些显得专业一些,但是真的会很妨碍它的普及,所以大约一年前它有一个比较易懂的名字叫U.2,在消费级市场也有,它向台式机或者笔记本电脑里边也是会更快速普及,插形状很好说,如果是盘的形状, 原来的SATA的线没法支撑,所以你要用这边的连接器做成8639的,这边用的是MiniSAS HD线缆,因为它也是×4的,可以达到48Gb的带宽,NVMe是没有问题的。但是它在主板上有一个转接卡,实际上这个头就是用M.2,在展开M.2之前总是说企业级会向消费类市场扩展,消费级市场也会向企业级市场扩展,它现在也走入了台式机的市场。

实际上M.2也没有必要仔细介绍,就是来自于英特尔的NGFF,下一代的外形规格。它其实不仅仅是用于SSD的,它也可以用在无线模块,或者其他的扩展上面。但是现在它最主要的一个市场就在于 SSD上,它的规格有很多,最大的一个就是22110,就是宽2公分,长11公分,比一个口香糖大不了多少,因为它还有8连的规格,就是口香糖那么大的尺寸,厚度也差不多。

这是我个人的PC,我个人的台式机。左边竖的是一款NVMe的SSD,正面的是M.2的SSD,它是250GB也够了,这是在消费市场的情况,但是笔记本市场用得很多,包括苹果的基本上也是这种风格的设备。

M.2为什么要用在服务器上?

它在服务器市场有什么好处和用处呢?我们刚才说百万老司机,百万指什么?

2013 年的夏天,微软第一个宣布他们拥有服务器数量超过百万台。现在肯定不止了。脸书网去年接近100万台,所以现在应该也是能有100万台了。这两家是在他们的服务器里面很积极地采用M.2这种规范的用户。我还听人说还有别的公司用很多,我没有见过。但是微软和脸书网我有比较多的一手资料。

第一就是生态大,特别是笔记本电脑,笔记本电脑一年出口量还是很大的。举个例子,据说联想这两年,我也不为这个话负责。联想这两年在准备做自己的SSD, 其中一个很重要的原因就是联想觉得我一年卖那么多笔记本和台式机,SSD都是自己做可以省很多钱。当然我不为这个话负责,所以第一它的生态大,流量就会降低成本。

第二个好处就是成本低,因为M.2就是几个芯片,还有几个接口,连头都没有,成本很低。设计也很简单,不用设计外壳,不用考虑外壳开什么槽散热。还有就是密度高,像口香糖大小,放一箱子其实可以由很多条口香糖。散热好也不用,减少SKU我在后面会提到。

当然它也有缺点,很多消费类SSD没有考虑断电保护,另外就是维护是有问题的。刚才说为什么会有SFF8639,它便于从前端维护和插拔,但是个M.2和传统的卡是差不多的,它的热维护,特别是前端维护是有点问题。

M.2少量、中量和大量三个角度的应用场景

少量就是只用一来个,这个是脸书网做的一个微服务器,这个产品两三年了。它是基于ARM,主要是ARM,但主要还是mSATA,因为这是至少两年之前设计的产品,M.2刚出来时间不长,M.2并没有像现在这样肯定说M.2会取代mSATA,这个是mSATA的,细长的。这是 80毫米长的,这个mSATA用来装启动盘,用来做日志,M.2的容量到一些,可以做索引。

为什么两个东西都要用?因为我在这点也跟脸书网这款产品设计者聊过,因为第一当时M.2和MSATA像我刚才说的他们处在交替阶段,M.2并没有一个很大的量。另外这两个东西长得不一样,运维好识别,长得一样的话用 M.2还要做标签。第三点就是后面是CPU,如果M.2再往下延长的话就要跟CPU发生冲突。

这是去年三月脸书网发布的,叫Mono Laka,它先做了一个优山美地的项目,这个Mono lake是优山美地里的一个湖,它的性能比ATOM也好,还是比一般的ARM也好,性能高很多,它可以做相对轻量级应用,或者用在存储里面。包括国内的腾 讯就很看好它在存储领域的前景。这个服务器其实很小,21公分长,11公分宽,它上面如果放存储就是M.2了,这是去年设计的产品,M.2其实比较明显占 据了优势,MSATA基本很少有们用了。

比如说我们在一种中量使用的场景来说,M.2有什么优点。3.5英寸主要是硬盘的规则,SSD还是以2.5寸为主,为硬盘准备的槽位里,放2.5寸的SSD其实挺浪费空间的,如果只是拿它做一个系统盘的时候很浪费空间,如果不想这么浪费空间,像这是微 软的服务器,这边是硬盘,这边是主板,像这种紧凑型服务器也没有多少替代插槽,而且插槽也都是很宝贵的,要留给GPU或者其他的扩展功能用,也不想让它占 用3.5寸的驱动器位置,因为那样会损失密度,怎么办?就把它放在这里,放在红圈里面。大家可以看到这个是M.2的SSD,这个是它的插槽,我们看到其实 跟内存高度差不多,甚至还要小一点。

它是用一个转接卡实现的,转接卡是两面的,两各有一个M.2的SSD,所以它是替代3.0×8,都是 PCIe×4的,两个就是×8。因为M.2作为SSD主要的长度就是除了最短的就是60毫米、80毫米和110毫米,不同长度有不同的固定位置。像刚才提 到的微软的服务器有4个这样的插转接卡的槽,就可以放8个,8个M.2的SSD,只是在一个计算密集型的服务器里面。

所以这里说到一个Rack as A notebook,从物理层面来说要实现它还很难,管理上来说把一个数据中心看作一个计算资源来看待,今天说得比较多的还是机架暨服务器,为什么今天说 Rack as A Notebook呢,我们看到这里有六个机柜,每个机柜上蓝色部分是电源末米,比如说是6+1的冗余,断电的时候6个机柜就由85千瓦的铅酸电池支撑电 源,可以支撑90秒以上,国外大型互联网公司很多数据中心都是自己建设的,运维水平比较高,90秒的断电时间足够它自己完成业务切换或者容灾的东西了。

这样他们还是觉得很不爽,用电池单独占一个机柜,把电池柜去掉,就有了下面的V2版本,就是把电池做成BBU,就是备份单元,可以叫电池包也好,或者机架 UC也好,它的BBU是拿什么做的?BBU里面就是用的什么呢?我们知道18650只是电池的一个规格,直径是8毫米,长度是5毫米。里面电池本身的技术 也可以是三原电池,但是大多数的现代目前来看能看到的方案都是用的特拉斯用的一样的,就是松下的三原的锂电池。从这点来说大家是向特斯拉借鉴也不为过。这 是它的BBU。这样的话机架里面有自己内置的电池就很像笔记本电脑了。

另外如果我再从笔记本电脑市场发展过来的M.2的SSD就真的更像一 个笔记本电脑了,这个也可以对应上前面说的IT消费化的问题,很多东西到消费市场都可以验证到。这个组合有另外一个好处,就是说如果我用消费类的M.2的 话,上面没有断电保护没关系,我有机架级的断电保护,我有电池,所以相对来说M.2上的断电保护就不是那么重要,当然并不是说它不重要。下面探讨一个问题 就是条卡和盘的问题。我们知道最早是卡的形式发展到盘的形式,然后在数据中心市场上有M.2的条状的形式。

不同的规格各有各的优缺点,当然这个尺寸与比例无关,它并不是严格对应的,只是大概说一下。其实原来我们有一个好处就是可以放更多芯片,一个控制器,可以把单个容量做得更大一些。但是它 们接口都是PCLe×4的,卡也可以×8、×16,现在有M.2的存在,很多都有卡的版本和盘的版本,卡被限制在×4,所以很多盘也是×4的,但是你也可 以不受这个限制。卡可以做到全包全长,现在这种SSD很少,现在可以放更多颗粒,可以做到更大容量。

另外是性能也可以更好,实际上来说 SSD的能耗也是很高的,M.2是受能耗限制的,比附说十几瓦就算很大的发热量了,盘和卡可以做到25瓦,甚至盘还可以做到更大。如果单个来说盘和卡的形 式在容量和性能更占优势。但是具体的NVMe,其实M.2也未必就吃亏,因为我们知道最早的PCIe SSD是在主机的内存里面,所以其实它对卡上的处理器的FPGA这个要求并不算高,现在绝大多数的产品是FPGA的产品,它的主要产品就是ASIC,ASIC的处理能力并不是很强,ASIC的卡往往做到很大容量,比如4TB,但现在做到2.4TB就很大了。这样的话更何况它体积小了很多及所以在容量未必吃亏。

M.2是需要主板支持的,我们看到在美国包括脸书网和微软都大量采购M.2,所以在美国市场找到面向互联网的服务器支持M.2的很多,但是国内很少,因为国内大客户都还不买,但是从下一 代主板开始,可以支持M.2的会比较多。如果主板上没有M.2的插槽,相关的插槽,还是查原来的PCIe,实际上可以做在PCIe的卡上,这上面插两个 M.2跟下面转接卡一样,×8的。这里有电容,可以做一定的掉电保护。

脸书网和微软在一个标准化转接卡的规范,上面可以放4个110的M.2的SSD。每个M.2允许支持到14,整个卡的供电接近60。现在已经有产品了,这是第一个符合这个规范的产品。至少是西杰品牌的,虽然西杰在SSD的排名我们就不说了。

从JBOD到JBOF

下面是大量的使用场景。大量的使用其实脸书网是大型互联网公司里面推行(英文)这个概念最积极的,它真的把整机柜当做一个服务器来设计,所以他就要实现传统 的解耦,比如这上面基本没有什么硬盘,早期版本里面只有一个硬盘,就是用来做启动盘,3.5版本比较占地方,所以它换成了M.2或者MSATA来做启动盘,还有扩展。它把硬盘都放在下面的JBOD里面,这是2U的。脸书网和咱们的U不一样,它的是48毫米,差不太多,它是2U,可以放35个3.5英寸的 硬盘,这个不展开了,这是硬盘时代的做法。

到闪存时代怎么做?最直观想法就是把里面的硬盘换成SSD,这是它去年三月份探索的一个项目,我们知道有黑客马拉松,黑客马拉松其实很多是软件行业,但是被他们搬到硬件行业,这是去年的脸书网办的开放硬件的峰会上面的黑客马拉松获奖的产品,将近是3千还是3万美元我忘了,我当时在现场,奖金没有给我我就忘了。它是用2.5寸的SATA SSD,机械设计没有太大改变。我前面说过,在前面有一张图里显示了,我把单个3.5英寸换成2.5英寸浪费空间,一大堆换了不是更浪费空间吗?这个问题我们也探讨过,如果把这么大一个箱子里装满2.5SSD接口性是一个问题,散热也是一个问题,后面会谈到。

两届黑客马拉松峰会上我都去了,会上发布了Lightning, JBOD就是一大堆闪存放在一起。美国人做事没有我们那么高。差不多半年就把产品做好了,台湾代工厂前往帮助他们搞定的。

它这个产品基本上机械上延续了前面的设计,就是延续了前面的JBOD的设计,每层放15个,把3.5换成了2.5寸的位置,我们讲过即使用PCLe连接,如果密度做得太高,出口还是一个问题。前面可以看到上下连层,前面是PCLe的扩展版,我们可以看到这里的技术细节不用分析了,后面有存储行业很有名的企业 存储技术黄先生,写过个比较细节分析的文章,这里不展开了,那篇文章写得很好,大家可以看看。

这是它的大致的拓扑图个,这边是96端口的 PCIe的转换器,现在知道两家来做,主要是两个厂商来做。它有32个用来上连服务器,然后有60个用来连15个,它在这里边是15个SSD,每个都是 ×4,都是U.2,它可以用15毫米厚的,因为这个是SAS有关,发展的规格。也可以是15毫米,也可以是7毫米,接口都是U.2的。

另外一种版本就是里面放两个110或者80的SSD,它这个里面M.2的SSD就变成接60个,当然每个壳子对外的,就等于它从M.2接到U.2出去,所以 两层就是60个。但是对外出口×4,所以不像之前的版本一样,就是两个M.2是PCIe×8的出口,它还是×4。每个性能不能充分发挥,不能发挥出接口的 限制,还有一个限制就是功耗的限制,因为我们往回简单说一下,它的整个系统的功耗设计限制是控制在770瓦以内。PCIe转换器的版在300瓦以内,每个小盒子要控制在14瓦,每一个M.2的SSD的功耗不能超过7瓦。刚才有一些版本是允许它做到14瓦。

这边是通过PCIe转换器来连接服务器和SSD,跟服务器的连接目前还是直连方案,我们知道随着SSD技术越来越发展,我们以前会说计算性能很高,但是存储性能不够,但现在看来存储的性能可能比较高,计算得多一些机器来分担存储的功能。所以其实所谓共享存储,或者存储池概念在闪存时代会以另外一种方式、以另外一种技术,以闪存为展开。所以也是现在正在积极 发展中的NVMe over Fabric,这不是我今天要谈的话题,今天有很多专家来谈这个。

关于DOIT

DOIT是中国领先的科技新媒体,始于2003年,关注科技与数据经济,洞察IT走向DT。

相关领域
人物