本月累计签到次数:

今天获取 积分

芯片

芯片

343 浏览

偷师自然,工程师们设计“植物芯片”

智能制造类 一路向前 2017-03-23 15:27 发表了文章 来自相关话题

 树木和其他植物,从高耸的红杉到小雏菊,都是大自然的液压泵。他们持续不断地将水分从它们的根部输送到最高的叶子上,又将叶子产生的糖分运送回根部。这些源源不断的养分是通过一个叫做木质部和韧皮部的系统完成输送的。


麻省理工学院的工程师们和他们的合作者设计了一种叫做“植物芯片”的微流装置,模仿树和其他植物的泵送机理。像其自然对应物一样,芯片被动工作,无需移动部件或外部泵。它可连续数日通过芯片以固定的流量运送水分和糖分。


麻省理工学院机械工程学院教授和副系主任Anette "Peko" Hosoi表示,芯片的被动泵可作为杠杆,为小机器人做一个简易的液压制动器。工程师们发现,要想让微小的活动部件和泵为小机器人的复杂运动提供动力,非常困难且昂贵。


Hosoi表示:“很容易将树叶或者木质部通道添加到一颗树里。”在小机器人的构造里,从制造,集成到驱动,一切都不简单。如果我们能够使构造更廉价,这将是超级令人兴奋的事情。我认为这些微流体泵是朝这个方向迈出了一步。


与Hosoi一起作此论文的作者包括:麻省理工学院机械工程学院毕业的学生——第一作者Jean Comtet;丹麦科技大学的Kaare Jensen;康奈尔大学的Robert Turgeon和Abraham Stroock。




液压升降机


此团队由树得到启发的工作主要来源于液压机器人项目,由泵送流体提供动力。Hosoid的兴趣在于小规模设计液压机器人,执行类似更大机器人的行为,例如波士顿动力狗——一只四条腿,Saint Bernard大小的机器人,它由液压驱动,能够在崎岖的地形跑跳。


Hosoi表示:“对于小系统来说,制造微小的移动部件通常十分昂贵,因此我们想,如果我们可以做一个小型的液压系统,在不移动部件的情况下产生巨大压力呢?于是我们问,大自然中有什么可完成此任务吗?事实证明,树木可以。”


生物学家的普遍理解是,水分由表面张力驱动,沿树的木质部通道一直向上,透过半透膜,进入含有糖和其他营养物质的韧皮部通道。


韧皮部的糖分越多,从木质部到韧皮部的水流量就越大,以实现糖水梯度平衡,这个被动的过程叫做渗透。由此产生的水流量会将营养物质冲刷到根部。当更多水分从树木和各种植物的根部抽出时,它们就会保持这种抽水过程。


Hosoi表示:“这种简易木质部和韧皮部模型在几十年前已众所周知。从定性的角度来看,这是有道理的。但是当你考虑到数字时,就会发现这种简易模型并不能保证稳定水流。


实际上,工程师们曾试图设计由树得到启发的微流体泵,制造零件,模仿木质部和韧皮部。但是他们发现,这些设计在几分钟内就很快停止抽水。


是Hosoi的学生Comtet确定了树木的抽水系统中第三个关键因素:叶子,叶子通过光合作用产生糖分。Comtet的模型包括这种糖的补充成分——从叶子扩散到植物的韧皮部,同时增加糖水梯度。反过来,能够使整棵树保持恒定的渗透压,循环水和营养物质。




糖源运行


有了Comtet的假设,Hosoi和她的团队设计了植物芯片,这是一种微流体泵,能够模仿树木的木质部,韧皮部和产糖的叶子。


为制作这一芯片,研究人员将两个塑料滑梯放在一起,在其中钻小通道分别代表木质部和韧皮部。他们在木质部通道注满水,在韧皮部通道注满水和糖,然后用半透明材料将两个滑梯分开以模仿木质部和韧皮部之间的膜。他们将另一片膜放在含韧皮部通道的滑梯上面,在顶端放一块方糖代表从树叶扩散到韧皮部的糖的补充养分。他们把芯片挂在一根管子上,把水从水箱送入芯片。


有了这个简单的设置,芯片能够被动地从水箱里抽水,通过芯片进入烧杯,连续几天保持稳定的流量,而在此之前的设计只能抽水几分钟。


Hosoi表示:“一旦我们把这个糖源放进去,我们就可在稳定状态下保持好几天。这正是我们想要的,我们需要一个可放进机器人的装置。


Hosoi设想,“植物芯片”微流体泵或可植入小型机器人,在不需要主动泵或部件的情况下,产生液压驱动的运动。


Hosoi表示:“如果你用的方式设计机器人,你完全可以在上面放一块方糖,随它发展。”
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:战略前沿技术 查看全部

1.JPG

 树木和其他植物,从高耸的红杉到小雏菊,都是大自然的液压泵。他们持续不断地将水分从它们的根部输送到最高的叶子上,又将叶子产生的糖分运送回根部。这些源源不断的养分是通过一个叫做木质部和韧皮部的系统完成输送的。


麻省理工学院的工程师们和他们的合作者设计了一种叫做“植物芯片”的微流装置,模仿树和其他植物的泵送机理。像其自然对应物一样,芯片被动工作,无需移动部件或外部泵。它可连续数日通过芯片以固定的流量运送水分和糖分。


麻省理工学院机械工程学院教授和副系主任Anette "Peko" Hosoi表示,芯片的被动泵可作为杠杆,为小机器人做一个简易的液压制动器。工程师们发现,要想让微小的活动部件和泵为小机器人的复杂运动提供动力,非常困难且昂贵。


Hosoi表示:“很容易将树叶或者木质部通道添加到一颗树里。”在小机器人的构造里,从制造,集成到驱动,一切都不简单。如果我们能够使构造更廉价,这将是超级令人兴奋的事情。我认为这些微流体泵是朝这个方向迈出了一步。


与Hosoi一起作此论文的作者包括:麻省理工学院机械工程学院毕业的学生——第一作者Jean Comtet;丹麦科技大学的Kaare Jensen;康奈尔大学的Robert Turgeon和Abraham Stroock。




液压升降机


此团队由树得到启发的工作主要来源于液压机器人项目,由泵送流体提供动力。Hosoid的兴趣在于小规模设计液压机器人,执行类似更大机器人的行为,例如波士顿动力狗——一只四条腿,Saint Bernard大小的机器人,它由液压驱动,能够在崎岖的地形跑跳。


Hosoi表示:“对于小系统来说,制造微小的移动部件通常十分昂贵,因此我们想,如果我们可以做一个小型的液压系统,在不移动部件的情况下产生巨大压力呢?于是我们问,大自然中有什么可完成此任务吗?事实证明,树木可以。”


生物学家的普遍理解是,水分由表面张力驱动,沿树的木质部通道一直向上,透过半透膜,进入含有糖和其他营养物质的韧皮部通道。


韧皮部的糖分越多,从木质部到韧皮部的水流量就越大,以实现糖水梯度平衡,这个被动的过程叫做渗透。由此产生的水流量会将营养物质冲刷到根部。当更多水分从树木和各种植物的根部抽出时,它们就会保持这种抽水过程。


Hosoi表示:“这种简易木质部和韧皮部模型在几十年前已众所周知。从定性的角度来看,这是有道理的。但是当你考虑到数字时,就会发现这种简易模型并不能保证稳定水流。


实际上,工程师们曾试图设计由树得到启发的微流体泵,制造零件,模仿木质部和韧皮部。但是他们发现,这些设计在几分钟内就很快停止抽水。


是Hosoi的学生Comtet确定了树木的抽水系统中第三个关键因素:叶子,叶子通过光合作用产生糖分。Comtet的模型包括这种糖的补充成分——从叶子扩散到植物的韧皮部,同时增加糖水梯度。反过来,能够使整棵树保持恒定的渗透压,循环水和营养物质。




糖源运行


有了Comtet的假设,Hosoi和她的团队设计了植物芯片,这是一种微流体泵,能够模仿树木的木质部,韧皮部和产糖的叶子。


为制作这一芯片,研究人员将两个塑料滑梯放在一起,在其中钻小通道分别代表木质部和韧皮部。他们在木质部通道注满水,在韧皮部通道注满水和糖,然后用半透明材料将两个滑梯分开以模仿木质部和韧皮部之间的膜。他们将另一片膜放在含韧皮部通道的滑梯上面,在顶端放一块方糖代表从树叶扩散到韧皮部的糖的补充养分。他们把芯片挂在一根管子上,把水从水箱送入芯片。


有了这个简单的设置,芯片能够被动地从水箱里抽水,通过芯片进入烧杯,连续几天保持稳定的流量,而在此之前的设计只能抽水几分钟。


Hosoi表示:“一旦我们把这个糖源放进去,我们就可在稳定状态下保持好几天。这正是我们想要的,我们需要一个可放进机器人的装置。


Hosoi设想,“植物芯片”微流体泵或可植入小型机器人,在不需要主动泵或部件的情况下,产生液压驱动的运动。


Hosoi表示:“如果你用的方式设计机器人,你完全可以在上面放一块方糖,随它发展。”
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:战略前沿技术
579 浏览

人工智能芯片的发展:FPGA的过去,现在和未来

智能科技类 泰迪的礼物 2017-02-20 18:34 发表了文章 来自相关话题

编者按:自Xilinx在1984年创造出FPGA以来,这种可编程逻辑器件凭借性能、上市时间、成本、稳定性和长期维护方面的优势,在通信、医疗、工控和安防等领域占有一席之地,在过去几年也有极高的增长率。而进入了最近两年,由于云计算、高性能计算和人工智能的繁荣,拥有先天优势的FPGA的关注度更是到达了前所未有的高度。本文从基础出发谈及FPGA的过去、现在与未来。

我们知道,相对于专业的ASIC,FPGA有上市时间和成本上的优势。另外,在大多数情况下,FPGA执行某些功能较之CPU上的软件操作更高效。这就是为什么我们认为它不但会运用在数据中心的服务器、交换器、存储层的各个角落,并且具有加速整个工作流程的功能。

然而我们不能过分乐观,尤其是在2015年12月,Intel以167亿美元收购了FPGA生产商Altera之后。

在2014年年底,当时还处于独立的Altera公司高层盯上了基于CPU+FPGA的数据中心并行计算的发展前景——这个当时价值大约10亿美元的市场。而并非数据中心里约2.5亿美元的CPU-GPU市场和直接应用CPU处理器的90亿美元市场。

Altera做出这个决定的原因在于他们认为这个组合较之另外两个方案,有编程的简便性和能效优势。人们对CPU非常熟悉,并发现寻找C程序员也不会太难。因此对大部分开发者来说,在执行运算任务的时候,持续使用这种方案不需要冒太大的风险,但是能源效率相对比较低,尤其是在密集的计算和固有的并行工作负载的情况底下。

至于CPU+GPU的方案,程序员并不是很熟悉,但是拥有很高的效率。

根据Altera的估计,使用OpenCL对混合CPU-FPGA系统进行编程比使用Nvidia的CUDA环境对于程序员来说更容易(某些方面肯定是有争议的),但用HDL来硬编程FPGA是相当困难的,因此需要OpenCL或者通过其他抽象层来将CPU中的负载转移到FPGA上。

Intel收购Altera改变FPGA格局

这个十亿美元的数据中心市场被Altera、Xilinx和其他FPGA供应商瓜分。在Intel于2015年6月收购了Altera之后,这个市场变得更加复杂。

在收购之前的2014年,Altera的19亿美元收入中,有16%来自于与数据中心相关的计算、网络和存储业务,其总值达到3.04亿美元。那些在这个领域深耕十几二十年的通信和无线设备系统制造商想要有更高的能源效率,更低的成本和更高的扩展性,这些都是FPGA所擅长的领域。另外有一点需要提一下,那就是在执行这些功能的时候,使用FPGA并不需要像使用CPU那样需要操作系统和相应的软件。这部分的营收占了Altera营收的44%,总额为8.35亿美元。

Altera另外的22%收入,即4.18亿美元,来自工业控制、军事设备和汽车制造等领域。他们面对相同的困境,因此选择FPGA来处理他们的一些工作负载。

其实早在2014年,英特尔看中了价值1150亿美元的各种类型的芯片潜在市场。当中可编辑逻辑设备(以FPGA为主)约占4%,ASIC占18%,其余为ASSP的大杂烩。

在可编辑逻辑设备的领域中,英特尔预估Altera占有48亿美元市场中的39%,Xilinx占有49%,剩下供应商则占据剩下的12%。

当时英特尔没有收购Altera的原因是因为FPGA业务的增长速度几乎与其数据中心集团(为服务器,存储和交换机制造商提供芯片,芯片组和主板)的速度一样快。

再者,英特尔没有这样做也是因为摩尔定律逐渐缓慢下来的脚步,给FPGA带来了日益增长的竞争威胁。

实际上,如果应用的话,在数据中心里不止安装一个FPGA、GPU或DSP加速器,但不需要安装多个Xeon CPU。由于英特尔不能继续为Xeons提供更多的核心和加速器,所以他们得出了将FPGA当做加速器的结论。

除非FPGA能在数据中心创造5亿美元的收益,或者几年后创造10亿美元或更多的收入。不然英特尔宁愿牺牲两至三倍的Xeon收入,也不会把Xeon的收入拱手相让。

深度学习加持,FPGA前景可人

根据英特尔的预测,他们计划从现在到2023年以接近直线增长率来提升FPGA的业务。对此我们总是抱有怀疑的态度。但FPGA业务随着时间的推移或多或少地在增长(比15年前增长约2.5倍)。

英特尔还预计,FPGA的营收在2014年到2023年之间将会再翻一倍。按照英特尔预测,从2014年到2023年间其复合年增长率为7%,其收入应该略低于预测的89亿美元。有趣的是,由于英特尔的预测并没有把来自数据计算中心(服务器,交换和网络)的FPGA收入份额纳入计划中,这将会发生很大变化。让我们分析一下:

如果Altera和Xilinx的市场份额没有发生改变,且假设Altera的收入在网络,计算和存储的部分保持不变,那么Altera这一部分的业务收入到2023年将会达到5.6亿美元左右。我们认为Intel这样的数据低估了数据中心在提供更有效和灵活计算所面对的压力。不给过我们认为FPGA的前景远远优于这个预测。也就是说,许多FPGA技术的支持者一直期待FPGA在数据中心中获得计算合法化的那天很快到来。

讽刺的是,英特尔本身作为FPGA的编程专家,硬件描述语言的使用者,以及知名的ASIC制造商,竟成为推动FPGA成为加速器优先选择的主要参与者。这样的加速器既能作为独立的离散计算元件,又可以作为混合 CPU-FPGA器件。

这也是为什么从2016年以来,我们看到所有关于Altera的新闻都是昭示FPGA将会有的大规模增的增长。所以至少在短期,他们除了为其他的FPGA制造商作嫁衣裳,几乎别无他法。

这次收购不仅是FPGA发展的里程碑,也是英特尔对FPGA巨大的潜力的承认。FPGA作为未来强大的计算加速器,不但影响主要企业的决策和市场趋势,而且加速企业中的工作负载,促进超大规模数据中心的内部搜索,以及提高高性能计算模拟的地位。

在跨越2017年之际,FPGA在应用程序中等级中新增了机器学习和深度学习,这给FPGA产业敲下了又一重锤。

为什么大家都青睐FPGA

首先,编程FPGA的软件栈已经演进了,尤其是在Altera的帮助下,FPGA增加了对OpenCL开发环境的支持。但不是每个人都是OpenCL的狂热粉丝。

先有Nvidia为其Tesla GPU加速器创建了自己的CUDA并行编程环境。再有SRC计算机公司不但早在2002年就为国防和智能领域提供混合CPU-FPGA系统,到了2016年年中,进一步将自己研发的Carte编程环境进入了商业市场,这个编程环境可以使C和Fortran程序自动转换为FPGA的硬件描述语言(HDL)。

另一个推动FPGA被采用的因素是随着芯片制造技术难以持续缩进,多核CPU性能的提高越来越艰难。 虽然CPU的性能获得了大跳跃,但主要用于扩展CPU的性能吞吐量,而不是单个CPU内核的个体性能。(我们知道架构增强是有难度的)。但是FPGA和GPU加速器的每瓦性能都有了令人信服的改进。

根据微软的运行测试,在执行深度学习算法的时候,CPU-FPGA和CPU-GPU混合计算在的每瓦性能也不相伯仲。GPU在运行中更热和有类似的每瓦性能表现,但是同时他们也带来了更强的工作能力。

提高了每瓦性能解析了为什么世界上最强大的超级计算机在20世纪90年代后期转移到并行集群,并且解析了为什么现在他们转向了混合机器,而不是英特尔的下一个以 CPU-GPU为混合主力的Xeon Phi的处理器“Knights Landing (简称KNL)。

在Altera FPGA协处理器和Xeon Phi处理器Knights Landing的帮助下,英特尔不但可以保持自己的在高端的竞争优势。并且在与Nvidia 、IBM和 Mellanox组成的Open power联盟竞争中继续领先。

英特尔坚信超大规模计算,云端和HPC市场的工作负载会快速成长。为促进其计算业务继续蓬勃发展。这情况下只能成为FPGA的卖家,否则别人就会抢去这唯一的出路。

但英特尔并不是这样跟大家说。他们说:“我们不认为这是一种防守战或者其他,”英特尔的CEO Brian Krzanich在Altera收购消息后的新闻发布会上说。

“我们认为物联网和数据中心都是庞大的。这些也是我们的客户想要构建的产品。我们30%的云端工作负载将在这些产品上,这是基于我们对如何看待趋势变化以及市场发展的预测。

这是用来证明这些工作负载能以一种或另一种方式转移到硅中。我们认为最好的做法是使用有业界最佳性能和成本优势的Xeon处理器和FPGA组合。这将给工业领域带来更好的产品和性能。而在IoT中,这将扩展到潜在市场对抗ASIC和ASSP;而在数据中心中,则会将workload转移到硅,推动云的快速增长。

Krzanich解释道:“你可以把FPGA想象成一堆gate,且能够随时编程。根据他们的想法,其算法会随着时间的推移和学习变得更聪明。FPGA可以用作多个领域的加速器,可以在进行加密的同时进行面部搜索,而且能在基本上在微秒内重新编程FPGA。这比大规模的单个定制部件的成本低得多且具备更高的灵活性。”

英特尔看到了更大的机会

英特尔看到了比这更大的机会。

Intel首席执行官Brian Krzanich在收购完成后宣布,到2020年,将有高达三分之一的云端服务提供商使用混合的CPU-FPGA服务器节点,这是一个令人震惊的消息。这也给从2014年底就开始瞄准的数据中心的Altera带来大约10亿美元的FPGA的机会。这数目大概是Nvidia目前流行的Tesla计算引擎营收的三倍。

在2014年初,英特尔展示了一个相同封装的Xeon-FPGA芯片原型,并且打算在2017年推出这个芯片。这是基于当时数据中心集团GM Diane Bryant提出的一个带有FPGA电路的Xeon设想不久之后推出的。

在宣布Altera交易的电话会议上,Krzanich没有说明退出这款Xeon-FPGA设备的时间,但是他表示英特尔将创建一个面向物联网市场的单die混合Atom-FPGA设备。英特尔正在考究在混合过渡阶段,是否需要为Atom和Altera FPGA做单一封装混合。

在2016年的初太平洋顶峰证券的电话会议中,英特尔的云端基础设施集团总经理Jason Waxman与研究分析师讨论关于英特尔数据中心业务时表示,FPGA已经成为了热门话题。

首先,虽然他没有指名道姓哪家厂商或者任何设备的规格,但是Waxman确定英特尔已经为某些客户提供了Xeon加FPGA的混合计算引擎样品。

在会议期间,Waxman更是畅谈了驱动英特尔收购Altera和插足可编程计算设备的原因。 英特尔显然希望让FPGA成为主流,即使这可能会在数据中心中蚕食Xeon的某些业务。 (我们认为,因为英特尔认为这种自相残杀是不可避免的,控制它的最好方法是使FPGA成为Xeon阵容的一部分。)

Waxman说:“我认为这项收购可能涉及许多事情,而且其中一些已经超越数据中心集团的范围。”

首先,一个潜在的核心业务往往是由制造领先优势驱动。在这方面我们能很好的掌控,而且这样做还有良好的协同作用。

再者,还有物联网“集团”对此也有很强的兴趣。

据我们所知,某些大规模工作负载的扩展(如机器学习,某些网络功能)吸引了越来越多的人关注。我们才意识到我们或者可以在性能方面取得一些突破,这将是一个把FPGA从数据中心应用程序中移植到更多适合的、广泛发展领域的良好机会。

但是在数据中心集团里的协作,FPGA不过是给CPU做个伴,帮助解决云端服务提供商和其他类型的大规模应用程序的问题。

英特尔认为对FPGA加速有优先和大量需求的关键应用包括机器学习,搜索引擎索引,加密和数据压缩。正如Waxman指出,这些往往是很有针对性的,且没有统一的使用案例。这就是Krzanich斩钉截铁说三分之一的云端服务提供商将在五年内使用FPGA加速的依据。

跨越FPGA的障碍

虽然每个人都抱怨编程FPGA有多难,但英特尔并不为此退缩。虽然没有透露太多相关计划的情况下,Waxman提出了一些方法让FPGA更容易被运用和理解。

Waxman说:“我们所拥有的是独一无二的,这是其他人不能给的。那就是我们能够了解这些工作负载和能够推动加速的能力。

“我们看到一条促进机器学习,加速存储加密,加速网络功能的捷径”,Waxman强调。这是基于我们对这些工作负载的深入了解,所以才让我们看到了这样的机会。

但现在FPGA还需要面对一些困难,因为现在人们是写RTL的。我们是一家写RTL的公司,所以我们可以解决这个问题。首先我们使它运作,然后我们可以降低进入的门槛。第三步是真正的规模经济学,而这全部是靠集成和制造的实力。

为了解决这些障碍,我们提供了一系列的方法。

X86+FPGA?

对于那些英特尔打算用FPGA来代替Xeons的猜测,Waxman表示这是一派胡言。

Waxman表示,对于那些对高速率和重复性有强烈需求的算法,具有先天优势的FPGA就是其最好的选择。而那些对延迟有极高需求的数据操作和转换,FPGA也是候选人。

考虑到Altera已经在一个SoC上集成了ARM处理器和FPGA,这很自然地会想到英特尔会试图用X86内核全面替换ARM内核来做类似的设备。但它看起来不像这会发生。

首先,在2016年第二季度英特尔财务声明会上,Krzanich承诺,英特尔将加强对目前使用Altera的ARM-FPGA芯片客户的支持。

Waxman进一步澄清:“我们的观点是会以某种形式把FPGA集成到Xeon里。我们已经公开宣布将会打造第一代使用这种单一封装的设备,但是我们将根据进展情况调整方向,甚至可能会在同一个die上实现。我们将根据客户的反馈了解什么是正确的组合。

顺便说一下,我仍然期待看到没有集成的系统,保持他们会做系统级的协同。我们不会将Xeon与FPGA以多种方式组合集成,反之我们会在市场上找到正确的目标和平衡。”

编程问题首当其冲

虽然Altera的工具集利用OpenCL编程模型获得应用程序代码,并将其转换为RTL(FPGA的原生语言),但是有趣的是,英特尔并不认为FPGA在数据中心的未来成功是基于OpenCL与RTL工具集成的改进或更广泛地采用OpenCL。

Waxman也强调地说:“这并不是以OpenCL为基础的。”虽然我们确实把OpenCL看作是进一步扩大FPGA应用范围的一个途径,但目前FPGA的初始云端部署可能由更具能力的公司完成,但他们并没有要求我们提供OpenCL。Waxman补充说。

Waxman在不能“自由”地谈论的情况下,暗示英特尔有计划使FPGA更容易编程。他表示Intel将会为程序员提供RTL库,方便他们调用在FPGA上部署的例程,并推动在其上执行应用程序的gate的形成,来实现应用程序例程的gate,而不是让他们自己创建例程。这有一定的意义,与Convey(现在是美光科技的一个部门)几年前用FPGA加速系统处理的方案一样。

Waxman说:“我认为有一个连续的加速。在一开始,你可能不知道你正在试图加速什么,只是做了一些尝试,因此在这个阶段加速,你想要的是一个更通用的目的。当你开始真正地想要加速的时候,你会想要更高效的,更低的功耗和更少的空间,这时你就会把焦点移到FPGA上。”

Waxman还引用了Microsoft在其“Catapult”系统上使用FPGA加速的方案来说明。

该系统采用其Open Cloud Server并添加FPGA夹层卡作为加速器。我们在3月份研究了这个项目,将这些加速器应用在Google上执行相同的图像识别训练算法,得出的结果显示,25瓦的FPGA器件相对于使用Nvidia Tesla K20 GPU加速器(235瓦特)的服务器,提高了更好的性能/瓦特。

正如我们所说,我们对于微软和Google发布的性能数据毫无疑问。但是对分立的GPU或FPGA执行应用性能和对自身的热配置文件进行测量都是不公平的。你必须在服务器节点级别上看到这一点。

如果意识到这点,得到FPGA辅助的Microsoft服务器在系统级只稍稍领先于用Tesla K20s的Google服务器。(这些只是我们基于每秒每瓦特图像处理性能的估计)。在这个对比中,Microsoft应该不考虑成本。而且坦白说,不同于什么都配备的Tesla GPU,微软开放云端服务器并没有使用Juice或Cooling。真正的评测怎么都会使用GPU夹层卡,同时还需要考虑热量,性能和价格等因素。

但是Waxman讨论的重点仍然是那个。“在某个时候,你真的很想要那个能给你惊喜,并且能做到更低功耗的方案。而这就是我们的FPGA方案所擅长的方面。”

云端业务

最后要考虑的是英特尔的云端业务。这些客户现在占据了他们数据中心集团收入的25%。

整体来看,他们的购买量每年增长约25%。预计从2016年开始,未来几年整体数据中心集团业务都将增长15%。让我们做一些计算。

如果英特尔的计划如期实施,他的数据中心集团2016年收益将会达到166亿美元。云端服务提供商(其中包括在The Next Platform上使用我们的语言的云端构建者和超大规模计算者)占大约41亿美元,其余归属于英特尔数据中心,销售数据大约为125亿美元。因此,英特尔数据中心的业务增长在12%左右(除云端外),是云端速率的一半。英特尔需要以任何方式来满足云端的增长和明显的FPGA需求,即使它只占用Xeon容量的一点点。对于英特尔来说是这个的选择比让GPU加速持续增长的方案要好。

编程方面可能是阻碍FPGA被广泛采用的一个主因(不像其他加速器,具有丰富的开发生态系统,如Nvidia GPU的CUDA)。这就驱动程序员去基于C语言去做扩展设计,或使用OpenCL,而不是用过去困扰FPGA开发的低级模型。但即使在应用的过程中有这么多里程碑,FPGA仍然不被主流青睐。我们将会探索解决编程问题的方法和机会。

虽然我们已经与这个相对较小的生态系统中的许多供应商(包括Altera和Xilinx,两个主要供应商)进行了交流,但按照FPGA长期研究员Russell Tessier所说,FPGA在更广阔的市场上大展拳脚的日子还在前面,新的发展意味着更广泛的采用。

他在马萨诸塞大学(他还在Altera工作,并且Mentor Graphics收购的虚拟机工程的创始人)研究了FPGA二十多年,他认为FPGA从科学项目到企业应用的形势正式缓变化。他认为其中的关键是来自于设计工具的改进,设计人员不断提高他们设计高水平。除此与外,工具vendor可以更好地引导芯片发展。他补充说,设备内的大量逻辑量意味着用户能够实现更多的功能,这使得FPGA对更多领域更广泛的吸引力。

Tessier说:“在过去几年里,FPGA的一个明显趋势就是这些设备更容易“程序化”。

Xilinx目前鼓励使用其Vivado产品的时候,用C语言进行设计。Altera还有一个已经开发的OpenCL环境。关键是两家公司都在试图创建一个环境,让用户可以使用更熟悉的编程(如C和OpenCL),而不必是使用RTL设计专家所擅长的Verilog或VHDL。虽然在过去几年里取得不错的成绩,但这仍然处于推进的阶段,不过这将有助于把更多的事情地移入主流。

其中一个对FPGA真正有利的因素就是如果将其和芯片搭配使用,建立一个快速的内部互联,它能解决memory和数据移动中的限制。这种优势就是吸引Intel收购Altera的主要诱因。另外,如果像英特尔和IBM这样的大公司能够积极推动FPGA的软件生态系统的建设,其应用市场将会迅速扩张。FPGA的主流化(至少现在没有GPU那么重要,)可能会更快地出现。

Tessier解释:“标准核心处理器集成的增加肯定是关键所在。过去的障碍是语言和工具,随着这些障碍越来越少,为芯片供应商新的合作机会打开了一扇门。由于这些和其他“主流化”趋势出现,不断做出的改变的FPGA的应用领域将继续增长。例如,金融服务商店是第一个使用FPGA进行财务趋势和股票选择分析的用户,但使用案例正在扩大。现在有更强的设备可以解决更大的问题。

更广泛的应用领域

除此之外,FPGA通过的其他新领域发现新用途,包括DNA测序,安全性,加密和一些关键的机器学习任务。

当然,我们希望FPGA变得强大,并“进入”世界上最大的云端和超大规模数据中心,Xilnix数据中心部门副总裁Hamant Dhulla对此表示强烈赞同。他在2016年初,他告诉The Next Platform, “异构计算已经不再是一种趋势,而是现实”,也就是在那个时候,微软推出了使用FPGA的Catapult案例(现在就很多或以后会很多),英特尔收购了Altera以及看到了更多FPGA将广泛应用在数据中心的声明。

从机器学习,高性能计算,数据分析等领域,FPGA在更多样化的应用领域中崭露头角。这些都与FPGA上嵌入了越来越多可用的on-chip存储器有关,这些都是FPGA制造商和潜在终端用户所期待的。 Dhulla表示,市场潜力足够大,让Xilinx能够调整其业务的方式。 过去几年,存储和网络主导了FPGA用户群。但未来五年内,计算端的需求将远远超过存储和网络,并都将沿着稳定的增长线继续发展。

在FPGA其他的热门领域(包括机器学习),它们的更像是一个带有GPU 的“协作”加速器。毫无疑问,对于许多机器学习工作负载的训练部分,GPU是主要的。因此为这里需要很多计算能力,就像HPC一样,其中power envelope tradeoff值得的。但是这些客户购买了数十或数百个GPU,而不是数十万个,庞大的加速器数目正使用在机器学习pipeline的推理部分,这就是市场所在。

正如我们指出的,Nvidia正在使用两个独立的GPU(用M4来训练,更低功耗的M4插入来削减服务器)来抵消这一点,但Dhulla认为FPGA仍然能够通过采用PCIe方法降低功耗,也可以嵌入超大规模数据中心。

他们的SDAccel编程环境通过提供对C,C ++和OpenCL的高级接口,使其更实用,但是推动超大规模和HPC采用的真正途径是通过最终用户示例。

当涉及到这些早期的用户,就像为下一代的FPGA的应用搭建了舞台,Dhulla指向像Edico Genome这样的公司。Xilinx目前还与其他领域的客户合作,包括石油和天然气和金融方面的历史计算方面。早期客户将Xilinx 的FPGA应用在机器学习,图像识别和分析以及安全性方面,这可以看作他们计算加速业务发展的第一步。

尽管双精度性能和总体价格不佳,FPGA的真正的大规模应用机会在于云端。因为FPGA可以提供GPU所不能提供的优势。如果FPGA供应商能够说服其最终用户,他们的加速器可以提供相当大的性能提升(在某些情况下他们会这样做)给关键的工作负载。提供一个通过带有其他加速器(例如CUDA)的complexity-wise的编程环境推进OpenCL开发,通过在云端中提供FPGA来解决价格问题。这可能是一个新的希望。

当然,这种希望来源于将FPGA部署到有超密集服务器云端架构内,而不是在单机的销售上。这种模式已经在FPGA的金融服务中发生。

正如他们GPU加速器“伙伴”围绕深度学习进行拉动,以便迅速得到更多的用户, FPGA设备在探索一个通过解决神经网络和深度学习的问题的方式找寻入侵市场的真正的机会。

新的应用程序主机意味着新的市场,随着云端应用的推广消除了一些管理开销,它可能意味着更广泛的采用。FPGA供应商努力推动它在一些关键的机器学习,神经网络和搜索方面的应用。FPGA在诸如自然语言处理,医学成像,深度数据检测等领域中的超大规模上下文中变得越来越普遍。

在过去一年里,FPGA的多种应用得到曝光,特别是在深度学习和神经网络,以及图像识别和自然语言处理等领域。例如,微软使用FPGA在1,632个节点上提供2倍的搜索服务,并采用创新的高吞吐量网络来支持Altera FPGA驱动的工作。中国的搜索引擎巨头百度(也是许多深度学习和神经网络任务GPU用户)正在用FPGA执行存储控制,其每天的数据吞吐量在100TB到1PB之间。

使用FPGA的大规模数据中心和其他领域的应用正在吸引人们对FPGA的单精度浮点性能的更多关注。

虽然一些案例使用(包括百度示例),将GPU作为计算加速器和FPGA用在存储端,但Altera,Xilnix,Nallatech和IBM的研究人员在OpenPower联盟展示了FPGA在云端深度学习的光明前景。

可以说现在属于FPGA的一个黄金时代。
 
 
来源:网络 查看全部
编者按:自Xilinx在1984年创造出FPGA以来,这种可编程逻辑器件凭借性能、上市时间、成本、稳定性和长期维护方面的优势,在通信、医疗、工控和安防等领域占有一席之地,在过去几年也有极高的增长率。而进入了最近两年,由于云计算、高性能计算和人工智能的繁荣,拥有先天优势的FPGA的关注度更是到达了前所未有的高度。本文从基础出发谈及FPGA的过去、现在与未来。

我们知道,相对于专业的ASIC,FPGA有上市时间和成本上的优势。另外,在大多数情况下,FPGA执行某些功能较之CPU上的软件操作更高效。这就是为什么我们认为它不但会运用在数据中心的服务器、交换器、存储层的各个角落,并且具有加速整个工作流程的功能。

然而我们不能过分乐观,尤其是在2015年12月,Intel以167亿美元收购了FPGA生产商Altera之后。

在2014年年底,当时还处于独立的Altera公司高层盯上了基于CPU+FPGA的数据中心并行计算的发展前景——这个当时价值大约10亿美元的市场。而并非数据中心里约2.5亿美元的CPU-GPU市场和直接应用CPU处理器的90亿美元市场。

Altera做出这个决定的原因在于他们认为这个组合较之另外两个方案,有编程的简便性和能效优势。人们对CPU非常熟悉,并发现寻找C程序员也不会太难。因此对大部分开发者来说,在执行运算任务的时候,持续使用这种方案不需要冒太大的风险,但是能源效率相对比较低,尤其是在密集的计算和固有的并行工作负载的情况底下。

至于CPU+GPU的方案,程序员并不是很熟悉,但是拥有很高的效率。

根据Altera的估计,使用OpenCL对混合CPU-FPGA系统进行编程比使用Nvidia的CUDA环境对于程序员来说更容易(某些方面肯定是有争议的),但用HDL来硬编程FPGA是相当困难的,因此需要OpenCL或者通过其他抽象层来将CPU中的负载转移到FPGA上。

Intel收购Altera改变FPGA格局

这个十亿美元的数据中心市场被Altera、Xilinx和其他FPGA供应商瓜分。在Intel于2015年6月收购了Altera之后,这个市场变得更加复杂。

在收购之前的2014年,Altera的19亿美元收入中,有16%来自于与数据中心相关的计算、网络和存储业务,其总值达到3.04亿美元。那些在这个领域深耕十几二十年的通信和无线设备系统制造商想要有更高的能源效率,更低的成本和更高的扩展性,这些都是FPGA所擅长的领域。另外有一点需要提一下,那就是在执行这些功能的时候,使用FPGA并不需要像使用CPU那样需要操作系统和相应的软件。这部分的营收占了Altera营收的44%,总额为8.35亿美元。

Altera另外的22%收入,即4.18亿美元,来自工业控制、军事设备和汽车制造等领域。他们面对相同的困境,因此选择FPGA来处理他们的一些工作负载。

其实早在2014年,英特尔看中了价值1150亿美元的各种类型的芯片潜在市场。当中可编辑逻辑设备(以FPGA为主)约占4%,ASIC占18%,其余为ASSP的大杂烩。

在可编辑逻辑设备的领域中,英特尔预估Altera占有48亿美元市场中的39%,Xilinx占有49%,剩下供应商则占据剩下的12%。

当时英特尔没有收购Altera的原因是因为FPGA业务的增长速度几乎与其数据中心集团(为服务器,存储和交换机制造商提供芯片,芯片组和主板)的速度一样快。

再者,英特尔没有这样做也是因为摩尔定律逐渐缓慢下来的脚步,给FPGA带来了日益增长的竞争威胁。

实际上,如果应用的话,在数据中心里不止安装一个FPGA、GPU或DSP加速器,但不需要安装多个Xeon CPU。由于英特尔不能继续为Xeons提供更多的核心和加速器,所以他们得出了将FPGA当做加速器的结论。

除非FPGA能在数据中心创造5亿美元的收益,或者几年后创造10亿美元或更多的收入。不然英特尔宁愿牺牲两至三倍的Xeon收入,也不会把Xeon的收入拱手相让。

深度学习加持,FPGA前景可人

根据英特尔的预测,他们计划从现在到2023年以接近直线增长率来提升FPGA的业务。对此我们总是抱有怀疑的态度。但FPGA业务随着时间的推移或多或少地在增长(比15年前增长约2.5倍)。

英特尔还预计,FPGA的营收在2014年到2023年之间将会再翻一倍。按照英特尔预测,从2014年到2023年间其复合年增长率为7%,其收入应该略低于预测的89亿美元。有趣的是,由于英特尔的预测并没有把来自数据计算中心(服务器,交换和网络)的FPGA收入份额纳入计划中,这将会发生很大变化。让我们分析一下:

如果Altera和Xilinx的市场份额没有发生改变,且假设Altera的收入在网络,计算和存储的部分保持不变,那么Altera这一部分的业务收入到2023年将会达到5.6亿美元左右。我们认为Intel这样的数据低估了数据中心在提供更有效和灵活计算所面对的压力。不给过我们认为FPGA的前景远远优于这个预测。也就是说,许多FPGA技术的支持者一直期待FPGA在数据中心中获得计算合法化的那天很快到来。

讽刺的是,英特尔本身作为FPGA的编程专家,硬件描述语言的使用者,以及知名的ASIC制造商,竟成为推动FPGA成为加速器优先选择的主要参与者。这样的加速器既能作为独立的离散计算元件,又可以作为混合 CPU-FPGA器件。

这也是为什么从2016年以来,我们看到所有关于Altera的新闻都是昭示FPGA将会有的大规模增的增长。所以至少在短期,他们除了为其他的FPGA制造商作嫁衣裳,几乎别无他法。

这次收购不仅是FPGA发展的里程碑,也是英特尔对FPGA巨大的潜力的承认。FPGA作为未来强大的计算加速器,不但影响主要企业的决策和市场趋势,而且加速企业中的工作负载,促进超大规模数据中心的内部搜索,以及提高高性能计算模拟的地位。

在跨越2017年之际,FPGA在应用程序中等级中新增了机器学习和深度学习,这给FPGA产业敲下了又一重锤。

为什么大家都青睐FPGA

首先,编程FPGA的软件栈已经演进了,尤其是在Altera的帮助下,FPGA增加了对OpenCL开发环境的支持。但不是每个人都是OpenCL的狂热粉丝。

先有Nvidia为其Tesla GPU加速器创建了自己的CUDA并行编程环境。再有SRC计算机公司不但早在2002年就为国防和智能领域提供混合CPU-FPGA系统,到了2016年年中,进一步将自己研发的Carte编程环境进入了商业市场,这个编程环境可以使C和Fortran程序自动转换为FPGA的硬件描述语言(HDL)。

另一个推动FPGA被采用的因素是随着芯片制造技术难以持续缩进,多核CPU性能的提高越来越艰难。 虽然CPU的性能获得了大跳跃,但主要用于扩展CPU的性能吞吐量,而不是单个CPU内核的个体性能。(我们知道架构增强是有难度的)。但是FPGA和GPU加速器的每瓦性能都有了令人信服的改进。

根据微软的运行测试,在执行深度学习算法的时候,CPU-FPGA和CPU-GPU混合计算在的每瓦性能也不相伯仲。GPU在运行中更热和有类似的每瓦性能表现,但是同时他们也带来了更强的工作能力。

提高了每瓦性能解析了为什么世界上最强大的超级计算机在20世纪90年代后期转移到并行集群,并且解析了为什么现在他们转向了混合机器,而不是英特尔的下一个以 CPU-GPU为混合主力的Xeon Phi的处理器“Knights Landing (简称KNL)。

在Altera FPGA协处理器和Xeon Phi处理器Knights Landing的帮助下,英特尔不但可以保持自己的在高端的竞争优势。并且在与Nvidia 、IBM和 Mellanox组成的Open power联盟竞争中继续领先。

英特尔坚信超大规模计算,云端和HPC市场的工作负载会快速成长。为促进其计算业务继续蓬勃发展。这情况下只能成为FPGA的卖家,否则别人就会抢去这唯一的出路。

但英特尔并不是这样跟大家说。他们说:“我们不认为这是一种防守战或者其他,”英特尔的CEO Brian Krzanich在Altera收购消息后的新闻发布会上说。

“我们认为物联网和数据中心都是庞大的。这些也是我们的客户想要构建的产品。我们30%的云端工作负载将在这些产品上,这是基于我们对如何看待趋势变化以及市场发展的预测。

这是用来证明这些工作负载能以一种或另一种方式转移到硅中。我们认为最好的做法是使用有业界最佳性能和成本优势的Xeon处理器和FPGA组合。这将给工业领域带来更好的产品和性能。而在IoT中,这将扩展到潜在市场对抗ASIC和ASSP;而在数据中心中,则会将workload转移到硅,推动云的快速增长。

Krzanich解释道:“你可以把FPGA想象成一堆gate,且能够随时编程。根据他们的想法,其算法会随着时间的推移和学习变得更聪明。FPGA可以用作多个领域的加速器,可以在进行加密的同时进行面部搜索,而且能在基本上在微秒内重新编程FPGA。这比大规模的单个定制部件的成本低得多且具备更高的灵活性。”

英特尔看到了更大的机会

英特尔看到了比这更大的机会。

Intel首席执行官Brian Krzanich在收购完成后宣布,到2020年,将有高达三分之一的云端服务提供商使用混合的CPU-FPGA服务器节点,这是一个令人震惊的消息。这也给从2014年底就开始瞄准的数据中心的Altera带来大约10亿美元的FPGA的机会。这数目大概是Nvidia目前流行的Tesla计算引擎营收的三倍。

在2014年初,英特尔展示了一个相同封装的Xeon-FPGA芯片原型,并且打算在2017年推出这个芯片。这是基于当时数据中心集团GM Diane Bryant提出的一个带有FPGA电路的Xeon设想不久之后推出的。

在宣布Altera交易的电话会议上,Krzanich没有说明退出这款Xeon-FPGA设备的时间,但是他表示英特尔将创建一个面向物联网市场的单die混合Atom-FPGA设备。英特尔正在考究在混合过渡阶段,是否需要为Atom和Altera FPGA做单一封装混合。

在2016年的初太平洋顶峰证券的电话会议中,英特尔的云端基础设施集团总经理Jason Waxman与研究分析师讨论关于英特尔数据中心业务时表示,FPGA已经成为了热门话题。

首先,虽然他没有指名道姓哪家厂商或者任何设备的规格,但是Waxman确定英特尔已经为某些客户提供了Xeon加FPGA的混合计算引擎样品。

在会议期间,Waxman更是畅谈了驱动英特尔收购Altera和插足可编程计算设备的原因。 英特尔显然希望让FPGA成为主流,即使这可能会在数据中心中蚕食Xeon的某些业务。 (我们认为,因为英特尔认为这种自相残杀是不可避免的,控制它的最好方法是使FPGA成为Xeon阵容的一部分。)

Waxman说:“我认为这项收购可能涉及许多事情,而且其中一些已经超越数据中心集团的范围。”

首先,一个潜在的核心业务往往是由制造领先优势驱动。在这方面我们能很好的掌控,而且这样做还有良好的协同作用。

再者,还有物联网“集团”对此也有很强的兴趣。

据我们所知,某些大规模工作负载的扩展(如机器学习,某些网络功能)吸引了越来越多的人关注。我们才意识到我们或者可以在性能方面取得一些突破,这将是一个把FPGA从数据中心应用程序中移植到更多适合的、广泛发展领域的良好机会。

但是在数据中心集团里的协作,FPGA不过是给CPU做个伴,帮助解决云端服务提供商和其他类型的大规模应用程序的问题。

英特尔认为对FPGA加速有优先和大量需求的关键应用包括机器学习,搜索引擎索引,加密和数据压缩。正如Waxman指出,这些往往是很有针对性的,且没有统一的使用案例。这就是Krzanich斩钉截铁说三分之一的云端服务提供商将在五年内使用FPGA加速的依据。

跨越FPGA的障碍

虽然每个人都抱怨编程FPGA有多难,但英特尔并不为此退缩。虽然没有透露太多相关计划的情况下,Waxman提出了一些方法让FPGA更容易被运用和理解。

Waxman说:“我们所拥有的是独一无二的,这是其他人不能给的。那就是我们能够了解这些工作负载和能够推动加速的能力。

“我们看到一条促进机器学习,加速存储加密,加速网络功能的捷径”,Waxman强调。这是基于我们对这些工作负载的深入了解,所以才让我们看到了这样的机会。

但现在FPGA还需要面对一些困难,因为现在人们是写RTL的。我们是一家写RTL的公司,所以我们可以解决这个问题。首先我们使它运作,然后我们可以降低进入的门槛。第三步是真正的规模经济学,而这全部是靠集成和制造的实力。

为了解决这些障碍,我们提供了一系列的方法。

X86+FPGA?

对于那些英特尔打算用FPGA来代替Xeons的猜测,Waxman表示这是一派胡言。

Waxman表示,对于那些对高速率和重复性有强烈需求的算法,具有先天优势的FPGA就是其最好的选择。而那些对延迟有极高需求的数据操作和转换,FPGA也是候选人。

考虑到Altera已经在一个SoC上集成了ARM处理器和FPGA,这很自然地会想到英特尔会试图用X86内核全面替换ARM内核来做类似的设备。但它看起来不像这会发生。

首先,在2016年第二季度英特尔财务声明会上,Krzanich承诺,英特尔将加强对目前使用Altera的ARM-FPGA芯片客户的支持。

Waxman进一步澄清:“我们的观点是会以某种形式把FPGA集成到Xeon里。我们已经公开宣布将会打造第一代使用这种单一封装的设备,但是我们将根据进展情况调整方向,甚至可能会在同一个die上实现。我们将根据客户的反馈了解什么是正确的组合。

顺便说一下,我仍然期待看到没有集成的系统,保持他们会做系统级的协同。我们不会将Xeon与FPGA以多种方式组合集成,反之我们会在市场上找到正确的目标和平衡。”

编程问题首当其冲

虽然Altera的工具集利用OpenCL编程模型获得应用程序代码,并将其转换为RTL(FPGA的原生语言),但是有趣的是,英特尔并不认为FPGA在数据中心的未来成功是基于OpenCL与RTL工具集成的改进或更广泛地采用OpenCL。

Waxman也强调地说:“这并不是以OpenCL为基础的。”虽然我们确实把OpenCL看作是进一步扩大FPGA应用范围的一个途径,但目前FPGA的初始云端部署可能由更具能力的公司完成,但他们并没有要求我们提供OpenCL。Waxman补充说。

Waxman在不能“自由”地谈论的情况下,暗示英特尔有计划使FPGA更容易编程。他表示Intel将会为程序员提供RTL库,方便他们调用在FPGA上部署的例程,并推动在其上执行应用程序的gate的形成,来实现应用程序例程的gate,而不是让他们自己创建例程。这有一定的意义,与Convey(现在是美光科技的一个部门)几年前用FPGA加速系统处理的方案一样。

Waxman说:“我认为有一个连续的加速。在一开始,你可能不知道你正在试图加速什么,只是做了一些尝试,因此在这个阶段加速,你想要的是一个更通用的目的。当你开始真正地想要加速的时候,你会想要更高效的,更低的功耗和更少的空间,这时你就会把焦点移到FPGA上。”

Waxman还引用了Microsoft在其“Catapult”系统上使用FPGA加速的方案来说明。

该系统采用其Open Cloud Server并添加FPGA夹层卡作为加速器。我们在3月份研究了这个项目,将这些加速器应用在Google上执行相同的图像识别训练算法,得出的结果显示,25瓦的FPGA器件相对于使用Nvidia Tesla K20 GPU加速器(235瓦特)的服务器,提高了更好的性能/瓦特。

正如我们所说,我们对于微软和Google发布的性能数据毫无疑问。但是对分立的GPU或FPGA执行应用性能和对自身的热配置文件进行测量都是不公平的。你必须在服务器节点级别上看到这一点。

如果意识到这点,得到FPGA辅助的Microsoft服务器在系统级只稍稍领先于用Tesla K20s的Google服务器。(这些只是我们基于每秒每瓦特图像处理性能的估计)。在这个对比中,Microsoft应该不考虑成本。而且坦白说,不同于什么都配备的Tesla GPU,微软开放云端服务器并没有使用Juice或Cooling。真正的评测怎么都会使用GPU夹层卡,同时还需要考虑热量,性能和价格等因素。

但是Waxman讨论的重点仍然是那个。“在某个时候,你真的很想要那个能给你惊喜,并且能做到更低功耗的方案。而这就是我们的FPGA方案所擅长的方面。”

云端业务

最后要考虑的是英特尔的云端业务。这些客户现在占据了他们数据中心集团收入的25%。

整体来看,他们的购买量每年增长约25%。预计从2016年开始,未来几年整体数据中心集团业务都将增长15%。让我们做一些计算。

如果英特尔的计划如期实施,他的数据中心集团2016年收益将会达到166亿美元。云端服务提供商(其中包括在The Next Platform上使用我们的语言的云端构建者和超大规模计算者)占大约41亿美元,其余归属于英特尔数据中心,销售数据大约为125亿美元。因此,英特尔数据中心的业务增长在12%左右(除云端外),是云端速率的一半。英特尔需要以任何方式来满足云端的增长和明显的FPGA需求,即使它只占用Xeon容量的一点点。对于英特尔来说是这个的选择比让GPU加速持续增长的方案要好。

编程方面可能是阻碍FPGA被广泛采用的一个主因(不像其他加速器,具有丰富的开发生态系统,如Nvidia GPU的CUDA)。这就驱动程序员去基于C语言去做扩展设计,或使用OpenCL,而不是用过去困扰FPGA开发的低级模型。但即使在应用的过程中有这么多里程碑,FPGA仍然不被主流青睐。我们将会探索解决编程问题的方法和机会。

虽然我们已经与这个相对较小的生态系统中的许多供应商(包括Altera和Xilinx,两个主要供应商)进行了交流,但按照FPGA长期研究员Russell Tessier所说,FPGA在更广阔的市场上大展拳脚的日子还在前面,新的发展意味着更广泛的采用。

他在马萨诸塞大学(他还在Altera工作,并且Mentor Graphics收购的虚拟机工程的创始人)研究了FPGA二十多年,他认为FPGA从科学项目到企业应用的形势正式缓变化。他认为其中的关键是来自于设计工具的改进,设计人员不断提高他们设计高水平。除此与外,工具vendor可以更好地引导芯片发展。他补充说,设备内的大量逻辑量意味着用户能够实现更多的功能,这使得FPGA对更多领域更广泛的吸引力。

Tessier说:“在过去几年里,FPGA的一个明显趋势就是这些设备更容易“程序化”。

Xilinx目前鼓励使用其Vivado产品的时候,用C语言进行设计。Altera还有一个已经开发的OpenCL环境。关键是两家公司都在试图创建一个环境,让用户可以使用更熟悉的编程(如C和OpenCL),而不必是使用RTL设计专家所擅长的Verilog或VHDL。虽然在过去几年里取得不错的成绩,但这仍然处于推进的阶段,不过这将有助于把更多的事情地移入主流。

其中一个对FPGA真正有利的因素就是如果将其和芯片搭配使用,建立一个快速的内部互联,它能解决memory和数据移动中的限制。这种优势就是吸引Intel收购Altera的主要诱因。另外,如果像英特尔和IBM这样的大公司能够积极推动FPGA的软件生态系统的建设,其应用市场将会迅速扩张。FPGA的主流化(至少现在没有GPU那么重要,)可能会更快地出现。

Tessier解释:“标准核心处理器集成的增加肯定是关键所在。过去的障碍是语言和工具,随着这些障碍越来越少,为芯片供应商新的合作机会打开了一扇门。由于这些和其他“主流化”趋势出现,不断做出的改变的FPGA的应用领域将继续增长。例如,金融服务商店是第一个使用FPGA进行财务趋势和股票选择分析的用户,但使用案例正在扩大。现在有更强的设备可以解决更大的问题。

更广泛的应用领域

除此之外,FPGA通过的其他新领域发现新用途,包括DNA测序,安全性,加密和一些关键的机器学习任务。

当然,我们希望FPGA变得强大,并“进入”世界上最大的云端和超大规模数据中心,Xilnix数据中心部门副总裁Hamant Dhulla对此表示强烈赞同。他在2016年初,他告诉The Next Platform, “异构计算已经不再是一种趋势,而是现实”,也就是在那个时候,微软推出了使用FPGA的Catapult案例(现在就很多或以后会很多),英特尔收购了Altera以及看到了更多FPGA将广泛应用在数据中心的声明。

从机器学习,高性能计算,数据分析等领域,FPGA在更多样化的应用领域中崭露头角。这些都与FPGA上嵌入了越来越多可用的on-chip存储器有关,这些都是FPGA制造商和潜在终端用户所期待的。 Dhulla表示,市场潜力足够大,让Xilinx能够调整其业务的方式。 过去几年,存储和网络主导了FPGA用户群。但未来五年内,计算端的需求将远远超过存储和网络,并都将沿着稳定的增长线继续发展。

在FPGA其他的热门领域(包括机器学习),它们的更像是一个带有GPU 的“协作”加速器。毫无疑问,对于许多机器学习工作负载的训练部分,GPU是主要的。因此为这里需要很多计算能力,就像HPC一样,其中power envelope tradeoff值得的。但是这些客户购买了数十或数百个GPU,而不是数十万个,庞大的加速器数目正使用在机器学习pipeline的推理部分,这就是市场所在。

正如我们指出的,Nvidia正在使用两个独立的GPU(用M4来训练,更低功耗的M4插入来削减服务器)来抵消这一点,但Dhulla认为FPGA仍然能够通过采用PCIe方法降低功耗,也可以嵌入超大规模数据中心。

他们的SDAccel编程环境通过提供对C,C ++和OpenCL的高级接口,使其更实用,但是推动超大规模和HPC采用的真正途径是通过最终用户示例。

当涉及到这些早期的用户,就像为下一代的FPGA的应用搭建了舞台,Dhulla指向像Edico Genome这样的公司。Xilinx目前还与其他领域的客户合作,包括石油和天然气和金融方面的历史计算方面。早期客户将Xilinx 的FPGA应用在机器学习,图像识别和分析以及安全性方面,这可以看作他们计算加速业务发展的第一步。

尽管双精度性能和总体价格不佳,FPGA的真正的大规模应用机会在于云端。因为FPGA可以提供GPU所不能提供的优势。如果FPGA供应商能够说服其最终用户,他们的加速器可以提供相当大的性能提升(在某些情况下他们会这样做)给关键的工作负载。提供一个通过带有其他加速器(例如CUDA)的complexity-wise的编程环境推进OpenCL开发,通过在云端中提供FPGA来解决价格问题。这可能是一个新的希望。

当然,这种希望来源于将FPGA部署到有超密集服务器云端架构内,而不是在单机的销售上。这种模式已经在FPGA的金融服务中发生。

正如他们GPU加速器“伙伴”围绕深度学习进行拉动,以便迅速得到更多的用户, FPGA设备在探索一个通过解决神经网络和深度学习的问题的方式找寻入侵市场的真正的机会。

新的应用程序主机意味着新的市场,随着云端应用的推广消除了一些管理开销,它可能意味着更广泛的采用。FPGA供应商努力推动它在一些关键的机器学习,神经网络和搜索方面的应用。FPGA在诸如自然语言处理,医学成像,深度数据检测等领域中的超大规模上下文中变得越来越普遍。

在过去一年里,FPGA的多种应用得到曝光,特别是在深度学习和神经网络,以及图像识别和自然语言处理等领域。例如,微软使用FPGA在1,632个节点上提供2倍的搜索服务,并采用创新的高吞吐量网络来支持Altera FPGA驱动的工作。中国的搜索引擎巨头百度(也是许多深度学习和神经网络任务GPU用户)正在用FPGA执行存储控制,其每天的数据吞吐量在100TB到1PB之间。

使用FPGA的大规模数据中心和其他领域的应用正在吸引人们对FPGA的单精度浮点性能的更多关注。

虽然一些案例使用(包括百度示例),将GPU作为计算加速器和FPGA用在存储端,但Altera,Xilnix,Nallatech和IBM的研究人员在OpenPower联盟展示了FPGA在云端深度学习的光明前景。

可以说现在属于FPGA的一个黄金时代。
 
 
来源:网络
504 浏览

芯片全生命周期科普

设备硬件类 星旭自动化 2016-11-17 19:34 发表了文章 来自相关话题

复杂繁琐的芯片设计流程

芯片制造的过程就如同用乐高盖房子一样,先有晶圆作为地基,再层层往上叠的芯片制造流程后,就可产出必要的 IC 芯片(这些会在后面介绍)。然而,没有设计图,拥有再强制造能力都没有用,因此,建筑师的角色相当重要。但是 IC 设计中的建筑师究竟是谁呢?本文接下来要针对 IC 设计做介绍。

在 IC 生产流程中,IC 多由专业 IC 设计公司进行规划、设计,像是联发科、高通、Intel 等知名大厂,都自行设计各自的 IC 芯片,提供不同规格、效能的芯片给下游厂商选择。因为 IC 是由各厂自行设计,所以 IC 设计十分仰赖工程师的技术,工程师的素质影响着一间企业的价值。然而,工程师们在设计一颗 IC 芯片时,究竟有那些步骤?设计流程可以简单分成如下。






设计第一步,订定目标

在 IC 设计中,最重要的步骤就是规格制定。这个步骤就像是在设计建筑前,先决定要几间房间、浴室,有什么建筑法规需要遵守,在确定好所有的功能之后在进行设计,这样才不用再花额外的时间进行后续修改。IC 设计也需要经过类似的步骤,才能确保设计出来的芯片不会有任何差错。

规格制定的第一步便是确定 IC 的目的、效能为何,对大方向做设定。接着是察看有哪些协定要符合,像无线网卡的芯片就需要符合 IEEE 802.11 等规範,不然,这芯片将无法和市面上的产品相容,使它无法和其他设备连线。最后则是确立这颗 IC 的实作方法,将不同功能分配成不同的单元,并确立不同单元间连结的方法,如此便完成规格的制定。

设计完规格后,接着就是设计芯片的细节了。这个步骤就像初步记下建筑的规画,将整体轮廓描绘出来,方便后续制图。在 IC 芯片中,便是使用硬体描述语言(HDL)将电路描写出来。常使用的 HDL 有 Verilog、VHDL 等,藉由程式码便可轻易地将一颗 IC 地功能表达出来。接着就是检查程式功能的正确性并持续修改,直到它满足期望的功能为止。





▲ 32 bits 加法器的 Verilog 范例。

有了电脑,事情都变得容易

有了完整规画后,接下来便是画出平面的设计蓝图。在 IC 设计中,逻辑合成这个步骤便是将确定无误的 HDL code,放入电子设计自动化工具(EDA tool),让电脑将 HDL code 转换成逻辑电路,产生如下的电路图。之后,反覆的确定此逻辑闸设计图是否符合规格并修改,直到功能正确为止。






▲控制单元合成后的结果。

最后,将合成完的程式码再放入另一套 EDA tool,进行电路布局与绕线(Place And Route)。在经过不断的检测后,便会形成如下的电路图。图中可以看到蓝、红、绿、黄等不同颜色,每种不同的颜色就代表着一张光罩。至于光罩究竟要如何运用呢?






▲常用的演算芯片- FFT 芯片,完成电路布局与绕线的结果。

层层光罩,叠起一颗芯片

首先,目前已经知道一颗 IC 会产生多张的光罩,这些光罩有上下层的分别,每层有各自的任务。下图为简单的光罩例子,以积体电路中最基本的元件 CMOS 为範例,CMOS 全名为互补式金属氧化物半导体(Complementary metal–oxide–semiconductor),也就是将 NMOS 和 PMOS 两者做结合,形成 CMOS。至于什么是金属氧化物半导体(MOS)?这种在芯片中广泛使用的元件比较难说明,一般读者也较难弄清,在这裡就不多加细究。

下图中,左边就是经过电路布局与绕线后形成的电路图,在前面已经知道每种颜色便代表一张光罩。右边则是将每张光罩摊开的样子。制作是,便由底层开始,依循上一篇 IC 芯片的制造中所提的方法,逐层制作,最后便会产生期望的芯片了。






至此,对于 IC 设计应该有初步的了解,整体看来就很清楚 IC 设计是一门非常复杂的专业,也多亏了电脑辅助软体的成熟,让 IC 设计得以加速。IC 设计厂十分依赖工程师的智慧,这裡所述的每个步骤都有其专门的知识,皆可独立成多门专业的课程,像是撰写硬体描述语言就不单纯的只需要熟悉程式语言,还需要了解逻辑电路是如何运作、如何将所需的演算法转换成程式、合成软体是如何将程式转换成逻辑闸等问题。

其中主要半导体设计公司有英特尔、高通、博通、英伟达、美满、赛灵思、Altera、联发科、海思、展讯、中兴微电子、华大、大唐、智芯、敦泰、士兰、中星、格科等。

什么是晶圆?

在半导体的新闻中,总是会提到以尺寸标示的晶圆厂,如 8 寸或是 12 寸晶圆厂,然而,所谓的晶圆到底是什么东西?其中 8 寸指的是什么部分?要产出大尺寸的晶圆制造又有什么难度呢?以下将逐步介绍半导体最重要的基础——「晶圆」到底是什么。

晶圆(wafer),是制造各式电脑芯片的基础。我们可以将芯片制造比拟成用乐高积木盖房子,藉由一层又一层的堆叠,完成自己期望的造型(也就是各式芯片)。然而,如果没有良好的地基,盖出来的房子就会歪来歪去,不合自己所意,为了做出完美的房子,便需要一个平稳的基板。对芯片制造来说,这个基板就是接下来将描述的晶圆。






(Souse:Flickr/Jonathan Stewart CC BY 2.0)

首先,先回想一下小时候在玩乐高积木时,积木的表面都会有一个一个小小圆型的凸出物,藉由这个构造,我们可将两块积木稳固的叠在一起,且不需使用胶水。芯片制造,也是以类似这样的方式,将后续添加的原子和基板固定在一起。因此,我们需要寻找表面整齐的基板,以满足后续制造所需的条件。

在固体材料中,有一种特殊的晶体结构──单晶(Monocrystalline)。它具有原子一个接着一个紧密排列在一起的特性,可以形成一个平整的原子表层。因此,采用单晶做成晶圆,便可以满足以上的需求。然而,该如何产生这样的材料呢,主要有二个步骤,分别为纯化以及拉晶,之后便能完成这样的材料。

如何制造单晶的晶圆

纯化分成两个阶段,第一步是冶金级纯化,此一过程主要是加入碳,以氧化还原的方式,将氧化硅转换成 98% 以上纯度的硅。大部份的金属提炼,像是铁或铜等金属,皆是采用这样的方式获得足够纯度的金属。但是,98% 对于芯片制造来说依旧不够,仍需要进一步提升。因此,将再进一步采用西门子制程(Siemens process)作纯化,如此,将获得半导体制程所需的高纯度多晶硅。






▲硅柱制造流程(Source: Wikipedia)

接着,就是拉晶的步骤。首先,将前面所获得的高纯度多晶硅融化,形成液态的硅。之后,以单晶的硅种(seed)和液体表面接触,一边旋转一边缓慢的向上拉起。至于为何需要单晶的硅种,是因为硅原子排列就和人排队一样,会需要排头让后来的人该如何正确的排列,硅种便是重要的排头,让后来的原子知道该如何排队。最后,待离开液面的硅原子凝固后,排列整齐的单晶硅柱便完成了。






▲单晶硅柱(Souse:Wikipedia)

然而,8寸、12寸又代表什么东西呢?他指的是我们产生的晶柱,长得像铅笔笔桿的部分,表面经过处理并切成薄圆片后的直径。至于制造大尺寸晶圆又有什么难度呢?如前面所说,晶柱的制作过程就像是在做棉花糖一样,一边旋转一边成型。有制作过棉花糖的话,应该都知道要做出大而且扎实的棉花糖是相当困难的,而拉晶的过程也是一样,旋转拉起的速度以及温度的控制都会影响到晶柱的品质。也因此,尺寸愈大时,拉晶对速度与温度的要求就更高,因此要做出高品质 12 寸晶圆的难度就比 8 寸晶圆还来得高。

只是,一整条的硅柱并无法做成芯片制造的基板,为了产生一片一片的硅晶圆,接着需要以钻石刀将硅晶柱横向切成圆片,圆片再经由抛光便可形成芯片制造所需的硅晶圆。经过这么多步骤,芯片基板的制造便大功告成,下一步便是堆叠房子的步骤,也就是芯片制造。至于该如何制作芯片呢?

层层堆叠打造的芯片

在介绍过硅晶圆是什么东西后,同时,也知道制造 IC 芯片就像是用乐高积木盖房子一样,藉由一层又一层的堆叠,创造自己所期望的造型。然而,盖房子有相当多的步骤,IC 制造也是一样,制造 IC 究竟有哪些步骤?本文将将就 IC 芯片制造的流程做介绍。

在开始前,我们要先认识 IC 芯片是什么。IC,全名积体电路(Integrated Circuit),由它的命名可知它是将设计好的电路,以堆叠的方式组合起来。藉由这个方法,我们可以减少连接电路时所需耗费的面积。下图为 IC 电路的 3D 图,从图中可以看出它的结构就像房子的樑和柱,一层一层堆叠,这也就是为何会将 IC 制造比拟成盖房子。






▲ IC 芯片的 3D 剖面图。(Source:Wikipedia)

从上图中 IC 芯片的 3D 剖面图来看,底部深蓝色的部分就是上一篇介绍的晶圆,从这张图可以更明确的知道,晶圆基板在芯片中扮演的角色是何等重要。至于红色以及土黄色的部分,则是于 IC 制作时要完成的地方。

首先,在这裡可以将红色的部分比拟成高楼中的一楼大厅。一楼大厅,是一栋房子的门户,出入都由这裡,在掌握交通下通常会有较多的机能性。因此,和其他楼层相比,在兴建时会比较复杂,需要较多的步骤。在 IC 电路中,这个大厅就是逻辑闸层,它是整颗 IC 中最重要的部分,藉由将多种逻辑闸组合在一起,完成功能齐全的 IC 芯片。

黄色的部分,则像是一般的楼层。和一楼相比,不会有太复杂的构造,而且每层楼在兴建时也不会有太多变化。这一层的目的,是将红色部分的逻辑闸相连在一起。之所以需要这么多层,是因为有太多线路要连结在一起,在单层无法容纳所有的线路下,就要多叠几层来达成这个目标了。在这之中,不同层的线路会上下相连以满足接线的需求。

分层施工,逐层架构

知道 IC 的构造后,接下来要介绍该如何制作。试想一下,如果要以油漆喷罐做精细作图时,我们需先割出图形的遮盖板,盖在纸上。接着再将油漆均匀地喷在纸上,待油漆乾后,再将遮板拿开。不断的重复这个步骤后,便可完成整齐且复杂的图形。制造 IC 就是以类似的方式,藉由遮盖的方式一层一层的堆叠起来。






制作 IC 时,可以简单分成以上 4 种步骤。虽然实际制造时,制造的步骤会有差异,使用的材料也有所不同,但是大体上皆采用类似的原理。这个流程和油漆作画有些许不同,IC 制造是先涂料再加做遮盖,油漆作画则是先遮盖再作画。以下将介绍各流程。

金属溅镀:将欲使用的金属材料均匀洒在晶圆片上,形成一薄膜。

涂布光阻:先将光阻材料放在晶圆片上,透过光罩(光罩原理留待下次说明),将光束打在不要的部分上,破坏光阻材料结构。接着,再以化学药剂将被破坏的材料洗去。

蚀刻技术:将没有受光阻保护的硅晶圆,以离子束蚀刻。

光阻去除:使用去光阻液皆剩下的光阻溶解掉,如此便完成一次流程。

最后便会在一整片晶圆上完成很多 IC 芯片,接下来只要将完成的方形 IC 芯片剪下,便可送到封装厂做封装,至于封装厂是什么东西?就要待之后再做说明啰。






▲各种尺寸晶圆的比较。(Source:Wikipedia)

其中,主要晶圆代工厂有格罗方德、三星电子、Tower Jazz、Dongbu、美格纳、IBM、富士通、英特尔、海力士、台积电、联电、中芯国际、力晶、华虹、德茂、武汉新芯、华微、华立、力芯

纳米制程是什么?

三星以及台积电在先进半导体制程打得相当火热,彼此都想要在晶圆代工中抢得先机以争取订单,几乎成了 14 纳米与 16 纳米之争,然而 14 纳米与 16 纳米这两个数字的究竟意义为何,指的又是哪个部位?而在缩小制程后又将来带来什么好处与难题?以下我们将就纳米制程做简单的说明。

纳米到底有多细微?

在开始之前,要先了解纳米究竟是什么意思。在数学上,纳米是 0.000000001 公尺,但这是个相当差的例子,毕竟我们只看得到小数点后有很多个零,却没有实际的感觉。如果以指甲厚度做比较的话,或许会比较明显。

用尺规实际测量的话可以得知指甲的厚度约为 0.0001 公尺(0.1 毫米),也就是说试着把一片指甲的侧面切成 10 万条线,每条线就约等同于 1 纳米,由此可略为想像得到 1 纳米是何等的微小了。

知道纳米有多小之后,还要理解缩小制程的用意,缩小电晶体的最主要目的,就是可以在更小的芯片中塞入更多的电晶体,让芯片不会因技术提升而变得更大;其次,可以增加处理器的运算效率;再者,减少体积也可以降低耗电量;最后,芯片体积缩小后,更容易塞入行动装置中,满足未来轻薄化的需求。

再回来探究纳米制程是什么,以 14 纳米为例,其制程是指在芯片中,线最小可以做到 14 纳米的尺寸,下图为传统电晶体的长相,以此作为例子。缩小电晶体的最主要目的就是为了要减少耗电量,然而要缩小哪个部分才能达到这个目的?左下图中的L 就是我们期望缩小的部分。藉由缩小闸极长度,电流可以用更短的路径从 Drain 端到 Source 端(有兴趣的话可以利用 Google 以 MOSFET 搜寻,会有更详细的解释)。






(Source:www.slideshare.net)

此外,电脑是以 0 和 1 作运算,要如何以电晶体满足这个目的呢?做法就是判断电晶体是否有电流流通。当在 Gate 端(绿色的方块)做电压供给,电流就会从 Drain 端到 Source 端,如果没有供给电压,电流就不会流动,这样就可以表示 1 和0。(至于为什么要用 0 和 1 作判断,有兴趣的话可以去查布林代数,我们是使用这个方法作成电脑的)

尺寸缩小有其物理限制

不过,制程并不能无限制的缩小,当我们将电晶体缩小到 20 纳米左右时,就会遇到量子物理中的问题,让电晶体有漏电的现象,抵销缩小 L 时获得的效益。作为改善方式,就是导入 FinFET(Tri-Gate)这个概念,如右上图。在 Intel 以前所做的解释中,可以知道藉由导入这个技术,能减少因物理现象所导致的漏电现象。






(Source:www.slideshare.net)

更重要的是,藉由这个方法可以增加 Gate 端和下层的接触面积。在传统的做法中(左上图),接触面只有一个平面,但是采用 FinFET(Tri-Gate)这个技术后,接触面将变成立体,可以轻易的增加接触面积,这样就可以在保持一样的接触面积下让 Source-Drain 端变得更小,对缩小尺寸有相当大的帮助。

最后,则是为什么会有人说各大厂进入 10 纳米制程将面临相当严峻的挑战,主因是 1 颗原子的大小大约为 0.1 纳米,在 10 纳米的情况下,一条线只有不到 100 颗原子,在制作上相当困难,而且只要有一个原子的缺陷,像是在制作过程中有原子掉出或是有杂质,就会产生不知名的现象,影响产品的良率。

如果无法想像这个难度,可以做个小实验。在桌上用 100 个小珠子排成一个 10×10 的正方形,并且剪裁一张纸盖在珠子上,接着用小刷子把旁边的的珠子刷掉,最后使他形成一个 10×5 的长方形。这样就可以知道各大厂所面临到的困境,以及达成这个目标究竟是多么艰巨。

随着三星以及台积电在近期将完成 14 纳米、16 纳米 FinFET 的量产,两者都想争夺 Apple 下一代的 iPhone 芯片代工,我们将看到相当精彩的商业竞争,同时也将获得更加省电、轻薄的手机,要感谢摩尔定律所带来的好处呢。

告诉你什么是封装

经过漫长的流程,从设计到制造,终于获得一颗 IC 芯片了。然而一颗芯片相当小且薄,如果不在外施加保护,会被轻易的刮伤损坏。此外,因为芯片的尺寸微小,如果不用一个较大尺寸的外壳,将不易以人工安置在电路板上。因此,本文接下来要针对封装加以描述介绍。

目前常见的封装有两种,一种是电动玩具内常见的,黑色长得像蜈蚣的 DIP 封装,另一为购买盒装CPU 时常见的 BGA 封装。至于其他的封装法,还有早期 CPU 使用的 PGA(Pin Grid Array;Pin Grid Array)或是 DIP 的改良版 QFP(塑料方形扁平封装)等。因为有太多种封装法,以下将对 DIP 以及 BGA 封装做介绍。

传统封装,历久不衰

首先要介绍的是双排直立式封装(Dual Inline Package;DIP),从下图可以看到采用此封装的 IC 芯片在双排接脚下,看起来会像条黑色蜈蚣,让人印象深刻,此封装法为最早采用的 IC 封装技术,具有成本低廉的优势,适合小型且不需接太多线的芯片。但是,因为大多采用的是塑料,散热效果较差,无法满足现行高速芯片的要求。因此,使用此封装的,大多是历久不衰的芯片,如下图中的 OP741,或是对运作速度没那么要求且芯片较小、接孔较少的 IC 芯片。






▲左图的 IC 芯片为 OP741,是常见的电压放大器。右图为它的剖面图,这个封装是以金线将芯片接到金属接脚(Leadframe)。(Source :左图 Wikipedia、右图 Wikipedia)

至于球格阵列(Ball Grid Array,BGA)封装,和 DIP 相比封装体积较小,可轻易的放入体积较小的装置中。此外,因为接脚位在芯片下方,和 DIP 相比,可容纳更多的金属接脚

相当适合需要较多接点的芯片。然而,采用这种封装法成本较高且连接的方法较复杂,因此大多用在高单价的产品上。






▲左图为采用 BGA 封装的芯片。右图为使用覆晶封装的 BGA 示意图。(Source:左图 Wikipedia)

行动装置兴起,新技术跃上舞台

然而,使用以上这些封装法,会耗费掉相当大的体积。像现在的行动装置、穿戴装置等,需要相当多种元件,如果各个元件都独立封装,组合起来将耗费非常大的空间,因此目前有两种方法,可满足缩小体积的要求,分别为 SoC(System On Chip)以及 SiP(System In Packet)。

在智慧型手机刚兴起时,在各大财经杂誌上皆可发现 SoC 这个名词,然而 SoC 究竟是什么东西?简单来说,就是将原本不同功能的 IC,整合在一颗芯片中。藉由这个方法,不单可以缩小体积,还可以缩小不同 IC 间的距离,提升芯片的计算速度。至于制作方法,便是在 IC 设计阶段时,将各个不同的 IC 放在一起,再透过先前介绍的设计流程,制作成一张光罩。

然而,SoC 并非只有优点,要设计一颗 SoC 需要相当多的技术配合。IC 芯片各自封装时,各有封装外部保护,且 IC 与 IC 间的距离较远,比较不会发生交互干扰的情形。但是,当将所有 IC 都包装在一起时,就是噩梦的开始。IC 设计厂要从原先的单纯设计 IC,变成了解并整合各个功能的 IC,增加工程师的工作量。此外,也会遇到很多的状况,像是通讯芯片的高频讯号可能会影响其他功能的 IC 等情形。

此外,SoC 还需要获得其他厂商的 IP(intellectual property)授权,才能将别人设计好的元件放到 SoC 中。因为制作 SoC 需要获得整颗 IC 的设计细节,才能做成完整的光罩,这同时也增加了 SoC 的设计成本。或许会有人质疑何不自己设计一颗就好了呢?因为设计各种 IC 需要大量和该 IC 相关的知识,只有像 Apple 这样多金的企业,才有预算能从各知名企业挖角顶尖工程师,以设计一颗全新的 IC,透过合作授权还是比自行研发划算多了。

折衷方案,SiP 现身

作为替代方案,SiP 跃上整合芯片的舞台。和 SoC 不同,它是购买各家的 IC,在最后一次封装这些 IC,如此便少了 IP 授权这一步,大幅减少设计成本。此外,因为它们是各自独立的 IC,彼此的干扰程度大幅下降。






▲ Apple Watch 采用 SiP 技术将整个电脑架构封装成一颗芯片,不单满足期望的效能还缩小体积,让手錶有更多的空间放电池。(Source:Apple 官网)

采用 SiP 技术的产品,最着名的非 Apple Watch 莫属。因为 Watch 的内部空间太小,它无法采用传统的技术,SoC 的设计成本又太高,SiP 成了首要之选。藉由 SiP 技术,不单可缩小体积,还可拉近各个 IC 间的距离,成为可行的折衷方案。下图便是 Apple Watch 芯片的结构图,可以看到相当多的 IC 包含在其中。






▲ Apple Watch 中采用 SiP 封装的 S1 芯片内部配置图。(Source:chipworks)

完成封装后,便要进入测试的阶段,在这个阶段便要确认封装完的 IC 是否有正常的运作,正确无误之后便可出货给组装厂,做成我们所见的电子产品。其中主要的半导体封装与测试企业有安靠、星科金朋、J-devices、Unisem、Nepes、日月光、力成、南茂、颀邦、京元电子、福懋、菱生精密、矽品、长电、优特
 
 
 
 
来源:1号机器人

智造家提供 查看全部
复杂繁琐的芯片设计流程

芯片制造的过程就如同用乐高盖房子一样,先有晶圆作为地基,再层层往上叠的芯片制造流程后,就可产出必要的 IC 芯片(这些会在后面介绍)。然而,没有设计图,拥有再强制造能力都没有用,因此,建筑师的角色相当重要。但是 IC 设计中的建筑师究竟是谁呢?本文接下来要针对 IC 设计做介绍。

在 IC 生产流程中,IC 多由专业 IC 设计公司进行规划、设计,像是联发科、高通、Intel 等知名大厂,都自行设计各自的 IC 芯片,提供不同规格、效能的芯片给下游厂商选择。因为 IC 是由各厂自行设计,所以 IC 设计十分仰赖工程师的技术,工程师的素质影响着一间企业的价值。然而,工程师们在设计一颗 IC 芯片时,究竟有那些步骤?设计流程可以简单分成如下。

1.jpg


设计第一步,订定目标

在 IC 设计中,最重要的步骤就是规格制定。这个步骤就像是在设计建筑前,先决定要几间房间、浴室,有什么建筑法规需要遵守,在确定好所有的功能之后在进行设计,这样才不用再花额外的时间进行后续修改。IC 设计也需要经过类似的步骤,才能确保设计出来的芯片不会有任何差错。

规格制定的第一步便是确定 IC 的目的、效能为何,对大方向做设定。接着是察看有哪些协定要符合,像无线网卡的芯片就需要符合 IEEE 802.11 等规範,不然,这芯片将无法和市面上的产品相容,使它无法和其他设备连线。最后则是确立这颗 IC 的实作方法,将不同功能分配成不同的单元,并确立不同单元间连结的方法,如此便完成规格的制定。

设计完规格后,接着就是设计芯片的细节了。这个步骤就像初步记下建筑的规画,将整体轮廓描绘出来,方便后续制图。在 IC 芯片中,便是使用硬体描述语言(HDL)将电路描写出来。常使用的 HDL 有 Verilog、VHDL 等,藉由程式码便可轻易地将一颗 IC 地功能表达出来。接着就是检查程式功能的正确性并持续修改,直到它满足期望的功能为止。

2.jpg

▲ 32 bits 加法器的 Verilog 范例。

有了电脑,事情都变得容易

有了完整规画后,接下来便是画出平面的设计蓝图。在 IC 设计中,逻辑合成这个步骤便是将确定无误的 HDL code,放入电子设计自动化工具(EDA tool),让电脑将 HDL code 转换成逻辑电路,产生如下的电路图。之后,反覆的确定此逻辑闸设计图是否符合规格并修改,直到功能正确为止。

3.jpg


▲控制单元合成后的结果。

最后,将合成完的程式码再放入另一套 EDA tool,进行电路布局与绕线(Place And Route)。在经过不断的检测后,便会形成如下的电路图。图中可以看到蓝、红、绿、黄等不同颜色,每种不同的颜色就代表着一张光罩。至于光罩究竟要如何运用呢?

4.jpg


▲常用的演算芯片- FFT 芯片,完成电路布局与绕线的结果。

层层光罩,叠起一颗芯片

首先,目前已经知道一颗 IC 会产生多张的光罩,这些光罩有上下层的分别,每层有各自的任务。下图为简单的光罩例子,以积体电路中最基本的元件 CMOS 为範例,CMOS 全名为互补式金属氧化物半导体(Complementary metal–oxide–semiconductor),也就是将 NMOS 和 PMOS 两者做结合,形成 CMOS。至于什么是金属氧化物半导体(MOS)?这种在芯片中广泛使用的元件比较难说明,一般读者也较难弄清,在这裡就不多加细究。

下图中,左边就是经过电路布局与绕线后形成的电路图,在前面已经知道每种颜色便代表一张光罩。右边则是将每张光罩摊开的样子。制作是,便由底层开始,依循上一篇 IC 芯片的制造中所提的方法,逐层制作,最后便会产生期望的芯片了。

5.jpg


至此,对于 IC 设计应该有初步的了解,整体看来就很清楚 IC 设计是一门非常复杂的专业,也多亏了电脑辅助软体的成熟,让 IC 设计得以加速。IC 设计厂十分依赖工程师的智慧,这裡所述的每个步骤都有其专门的知识,皆可独立成多门专业的课程,像是撰写硬体描述语言就不单纯的只需要熟悉程式语言,还需要了解逻辑电路是如何运作、如何将所需的演算法转换成程式、合成软体是如何将程式转换成逻辑闸等问题。

其中主要半导体设计公司有英特尔、高通、博通、英伟达、美满、赛灵思、Altera、联发科、海思、展讯、中兴微电子、华大、大唐、智芯、敦泰、士兰、中星、格科等。

什么是晶圆?

在半导体的新闻中,总是会提到以尺寸标示的晶圆厂,如 8 寸或是 12 寸晶圆厂,然而,所谓的晶圆到底是什么东西?其中 8 寸指的是什么部分?要产出大尺寸的晶圆制造又有什么难度呢?以下将逐步介绍半导体最重要的基础——「晶圆」到底是什么。

晶圆(wafer),是制造各式电脑芯片的基础。我们可以将芯片制造比拟成用乐高积木盖房子,藉由一层又一层的堆叠,完成自己期望的造型(也就是各式芯片)。然而,如果没有良好的地基,盖出来的房子就会歪来歪去,不合自己所意,为了做出完美的房子,便需要一个平稳的基板。对芯片制造来说,这个基板就是接下来将描述的晶圆。

6.jpg


(Souse:Flickr/Jonathan Stewart CC BY 2.0)

首先,先回想一下小时候在玩乐高积木时,积木的表面都会有一个一个小小圆型的凸出物,藉由这个构造,我们可将两块积木稳固的叠在一起,且不需使用胶水。芯片制造,也是以类似这样的方式,将后续添加的原子和基板固定在一起。因此,我们需要寻找表面整齐的基板,以满足后续制造所需的条件。

在固体材料中,有一种特殊的晶体结构──单晶(Monocrystalline)。它具有原子一个接着一个紧密排列在一起的特性,可以形成一个平整的原子表层。因此,采用单晶做成晶圆,便可以满足以上的需求。然而,该如何产生这样的材料呢,主要有二个步骤,分别为纯化以及拉晶,之后便能完成这样的材料。

如何制造单晶的晶圆

纯化分成两个阶段,第一步是冶金级纯化,此一过程主要是加入碳,以氧化还原的方式,将氧化硅转换成 98% 以上纯度的硅。大部份的金属提炼,像是铁或铜等金属,皆是采用这样的方式获得足够纯度的金属。但是,98% 对于芯片制造来说依旧不够,仍需要进一步提升。因此,将再进一步采用西门子制程(Siemens process)作纯化,如此,将获得半导体制程所需的高纯度多晶硅。

7.jpg


▲硅柱制造流程(Source: Wikipedia)

接着,就是拉晶的步骤。首先,将前面所获得的高纯度多晶硅融化,形成液态的硅。之后,以单晶的硅种(seed)和液体表面接触,一边旋转一边缓慢的向上拉起。至于为何需要单晶的硅种,是因为硅原子排列就和人排队一样,会需要排头让后来的人该如何正确的排列,硅种便是重要的排头,让后来的原子知道该如何排队。最后,待离开液面的硅原子凝固后,排列整齐的单晶硅柱便完成了。

8.jpg


▲单晶硅柱(Souse:Wikipedia)

然而,8寸、12寸又代表什么东西呢?他指的是我们产生的晶柱,长得像铅笔笔桿的部分,表面经过处理并切成薄圆片后的直径。至于制造大尺寸晶圆又有什么难度呢?如前面所说,晶柱的制作过程就像是在做棉花糖一样,一边旋转一边成型。有制作过棉花糖的话,应该都知道要做出大而且扎实的棉花糖是相当困难的,而拉晶的过程也是一样,旋转拉起的速度以及温度的控制都会影响到晶柱的品质。也因此,尺寸愈大时,拉晶对速度与温度的要求就更高,因此要做出高品质 12 寸晶圆的难度就比 8 寸晶圆还来得高。

只是,一整条的硅柱并无法做成芯片制造的基板,为了产生一片一片的硅晶圆,接着需要以钻石刀将硅晶柱横向切成圆片,圆片再经由抛光便可形成芯片制造所需的硅晶圆。经过这么多步骤,芯片基板的制造便大功告成,下一步便是堆叠房子的步骤,也就是芯片制造。至于该如何制作芯片呢?

层层堆叠打造的芯片

在介绍过硅晶圆是什么东西后,同时,也知道制造 IC 芯片就像是用乐高积木盖房子一样,藉由一层又一层的堆叠,创造自己所期望的造型。然而,盖房子有相当多的步骤,IC 制造也是一样,制造 IC 究竟有哪些步骤?本文将将就 IC 芯片制造的流程做介绍。

在开始前,我们要先认识 IC 芯片是什么。IC,全名积体电路(Integrated Circuit),由它的命名可知它是将设计好的电路,以堆叠的方式组合起来。藉由这个方法,我们可以减少连接电路时所需耗费的面积。下图为 IC 电路的 3D 图,从图中可以看出它的结构就像房子的樑和柱,一层一层堆叠,这也就是为何会将 IC 制造比拟成盖房子。

9.jpg


▲ IC 芯片的 3D 剖面图。(Source:Wikipedia)

从上图中 IC 芯片的 3D 剖面图来看,底部深蓝色的部分就是上一篇介绍的晶圆,从这张图可以更明确的知道,晶圆基板在芯片中扮演的角色是何等重要。至于红色以及土黄色的部分,则是于 IC 制作时要完成的地方。

首先,在这裡可以将红色的部分比拟成高楼中的一楼大厅。一楼大厅,是一栋房子的门户,出入都由这裡,在掌握交通下通常会有较多的机能性。因此,和其他楼层相比,在兴建时会比较复杂,需要较多的步骤。在 IC 电路中,这个大厅就是逻辑闸层,它是整颗 IC 中最重要的部分,藉由将多种逻辑闸组合在一起,完成功能齐全的 IC 芯片。

黄色的部分,则像是一般的楼层。和一楼相比,不会有太复杂的构造,而且每层楼在兴建时也不会有太多变化。这一层的目的,是将红色部分的逻辑闸相连在一起。之所以需要这么多层,是因为有太多线路要连结在一起,在单层无法容纳所有的线路下,就要多叠几层来达成这个目标了。在这之中,不同层的线路会上下相连以满足接线的需求。

分层施工,逐层架构

知道 IC 的构造后,接下来要介绍该如何制作。试想一下,如果要以油漆喷罐做精细作图时,我们需先割出图形的遮盖板,盖在纸上。接着再将油漆均匀地喷在纸上,待油漆乾后,再将遮板拿开。不断的重复这个步骤后,便可完成整齐且复杂的图形。制造 IC 就是以类似的方式,藉由遮盖的方式一层一层的堆叠起来。

10.jpg


制作 IC 时,可以简单分成以上 4 种步骤。虽然实际制造时,制造的步骤会有差异,使用的材料也有所不同,但是大体上皆采用类似的原理。这个流程和油漆作画有些许不同,IC 制造是先涂料再加做遮盖,油漆作画则是先遮盖再作画。以下将介绍各流程。

金属溅镀:将欲使用的金属材料均匀洒在晶圆片上,形成一薄膜。

涂布光阻:先将光阻材料放在晶圆片上,透过光罩(光罩原理留待下次说明),将光束打在不要的部分上,破坏光阻材料结构。接着,再以化学药剂将被破坏的材料洗去。

蚀刻技术:将没有受光阻保护的硅晶圆,以离子束蚀刻。

光阻去除:使用去光阻液皆剩下的光阻溶解掉,如此便完成一次流程。

最后便会在一整片晶圆上完成很多 IC 芯片,接下来只要将完成的方形 IC 芯片剪下,便可送到封装厂做封装,至于封装厂是什么东西?就要待之后再做说明啰。

11.jpg


▲各种尺寸晶圆的比较。(Source:Wikipedia)

其中,主要晶圆代工厂有格罗方德、三星电子、Tower Jazz、Dongbu、美格纳、IBM、富士通、英特尔、海力士、台积电、联电、中芯国际、力晶、华虹、德茂、武汉新芯、华微、华立、力芯

纳米制程是什么?

三星以及台积电在先进半导体制程打得相当火热,彼此都想要在晶圆代工中抢得先机以争取订单,几乎成了 14 纳米与 16 纳米之争,然而 14 纳米与 16 纳米这两个数字的究竟意义为何,指的又是哪个部位?而在缩小制程后又将来带来什么好处与难题?以下我们将就纳米制程做简单的说明。

纳米到底有多细微?

在开始之前,要先了解纳米究竟是什么意思。在数学上,纳米是 0.000000001 公尺,但这是个相当差的例子,毕竟我们只看得到小数点后有很多个零,却没有实际的感觉。如果以指甲厚度做比较的话,或许会比较明显。

用尺规实际测量的话可以得知指甲的厚度约为 0.0001 公尺(0.1 毫米),也就是说试着把一片指甲的侧面切成 10 万条线,每条线就约等同于 1 纳米,由此可略为想像得到 1 纳米是何等的微小了。

知道纳米有多小之后,还要理解缩小制程的用意,缩小电晶体的最主要目的,就是可以在更小的芯片中塞入更多的电晶体,让芯片不会因技术提升而变得更大;其次,可以增加处理器的运算效率;再者,减少体积也可以降低耗电量;最后,芯片体积缩小后,更容易塞入行动装置中,满足未来轻薄化的需求。

再回来探究纳米制程是什么,以 14 纳米为例,其制程是指在芯片中,线最小可以做到 14 纳米的尺寸,下图为传统电晶体的长相,以此作为例子。缩小电晶体的最主要目的就是为了要减少耗电量,然而要缩小哪个部分才能达到这个目的?左下图中的L 就是我们期望缩小的部分。藉由缩小闸极长度,电流可以用更短的路径从 Drain 端到 Source 端(有兴趣的话可以利用 Google 以 MOSFET 搜寻,会有更详细的解释)。

12.jpg


(Source:www.slideshare.net

此外,电脑是以 0 和 1 作运算,要如何以电晶体满足这个目的呢?做法就是判断电晶体是否有电流流通。当在 Gate 端(绿色的方块)做电压供给,电流就会从 Drain 端到 Source 端,如果没有供给电压,电流就不会流动,这样就可以表示 1 和0。(至于为什么要用 0 和 1 作判断,有兴趣的话可以去查布林代数,我们是使用这个方法作成电脑的)

尺寸缩小有其物理限制

不过,制程并不能无限制的缩小,当我们将电晶体缩小到 20 纳米左右时,就会遇到量子物理中的问题,让电晶体有漏电的现象,抵销缩小 L 时获得的效益。作为改善方式,就是导入 FinFET(Tri-Gate)这个概念,如右上图。在 Intel 以前所做的解释中,可以知道藉由导入这个技术,能减少因物理现象所导致的漏电现象。

13.jpg


(Source:www.slideshare.net

更重要的是,藉由这个方法可以增加 Gate 端和下层的接触面积。在传统的做法中(左上图),接触面只有一个平面,但是采用 FinFET(Tri-Gate)这个技术后,接触面将变成立体,可以轻易的增加接触面积,这样就可以在保持一样的接触面积下让 Source-Drain 端变得更小,对缩小尺寸有相当大的帮助。

最后,则是为什么会有人说各大厂进入 10 纳米制程将面临相当严峻的挑战,主因是 1 颗原子的大小大约为 0.1 纳米,在 10 纳米的情况下,一条线只有不到 100 颗原子,在制作上相当困难,而且只要有一个原子的缺陷,像是在制作过程中有原子掉出或是有杂质,就会产生不知名的现象,影响产品的良率。

如果无法想像这个难度,可以做个小实验。在桌上用 100 个小珠子排成一个 10×10 的正方形,并且剪裁一张纸盖在珠子上,接着用小刷子把旁边的的珠子刷掉,最后使他形成一个 10×5 的长方形。这样就可以知道各大厂所面临到的困境,以及达成这个目标究竟是多么艰巨。

随着三星以及台积电在近期将完成 14 纳米、16 纳米 FinFET 的量产,两者都想争夺 Apple 下一代的 iPhone 芯片代工,我们将看到相当精彩的商业竞争,同时也将获得更加省电、轻薄的手机,要感谢摩尔定律所带来的好处呢。

告诉你什么是封装

经过漫长的流程,从设计到制造,终于获得一颗 IC 芯片了。然而一颗芯片相当小且薄,如果不在外施加保护,会被轻易的刮伤损坏。此外,因为芯片的尺寸微小,如果不用一个较大尺寸的外壳,将不易以人工安置在电路板上。因此,本文接下来要针对封装加以描述介绍。

目前常见的封装有两种,一种是电动玩具内常见的,黑色长得像蜈蚣的 DIP 封装,另一为购买盒装CPU 时常见的 BGA 封装。至于其他的封装法,还有早期 CPU 使用的 PGA(Pin Grid Array;Pin Grid Array)或是 DIP 的改良版 QFP(塑料方形扁平封装)等。因为有太多种封装法,以下将对 DIP 以及 BGA 封装做介绍。

传统封装,历久不衰

首先要介绍的是双排直立式封装(Dual Inline Package;DIP),从下图可以看到采用此封装的 IC 芯片在双排接脚下,看起来会像条黑色蜈蚣,让人印象深刻,此封装法为最早采用的 IC 封装技术,具有成本低廉的优势,适合小型且不需接太多线的芯片。但是,因为大多采用的是塑料,散热效果较差,无法满足现行高速芯片的要求。因此,使用此封装的,大多是历久不衰的芯片,如下图中的 OP741,或是对运作速度没那么要求且芯片较小、接孔较少的 IC 芯片。

14.jpg


▲左图的 IC 芯片为 OP741,是常见的电压放大器。右图为它的剖面图,这个封装是以金线将芯片接到金属接脚(Leadframe)。(Source :左图 Wikipedia、右图 Wikipedia)

至于球格阵列(Ball Grid Array,BGA)封装,和 DIP 相比封装体积较小,可轻易的放入体积较小的装置中。此外,因为接脚位在芯片下方,和 DIP 相比,可容纳更多的金属接脚

相当适合需要较多接点的芯片。然而,采用这种封装法成本较高且连接的方法较复杂,因此大多用在高单价的产品上。

15.jpg


▲左图为采用 BGA 封装的芯片。右图为使用覆晶封装的 BGA 示意图。(Source:左图 Wikipedia)

行动装置兴起,新技术跃上舞台

然而,使用以上这些封装法,会耗费掉相当大的体积。像现在的行动装置、穿戴装置等,需要相当多种元件,如果各个元件都独立封装,组合起来将耗费非常大的空间,因此目前有两种方法,可满足缩小体积的要求,分别为 SoC(System On Chip)以及 SiP(System In Packet)。

在智慧型手机刚兴起时,在各大财经杂誌上皆可发现 SoC 这个名词,然而 SoC 究竟是什么东西?简单来说,就是将原本不同功能的 IC,整合在一颗芯片中。藉由这个方法,不单可以缩小体积,还可以缩小不同 IC 间的距离,提升芯片的计算速度。至于制作方法,便是在 IC 设计阶段时,将各个不同的 IC 放在一起,再透过先前介绍的设计流程,制作成一张光罩。

然而,SoC 并非只有优点,要设计一颗 SoC 需要相当多的技术配合。IC 芯片各自封装时,各有封装外部保护,且 IC 与 IC 间的距离较远,比较不会发生交互干扰的情形。但是,当将所有 IC 都包装在一起时,就是噩梦的开始。IC 设计厂要从原先的单纯设计 IC,变成了解并整合各个功能的 IC,增加工程师的工作量。此外,也会遇到很多的状况,像是通讯芯片的高频讯号可能会影响其他功能的 IC 等情形。

此外,SoC 还需要获得其他厂商的 IP(intellectual property)授权,才能将别人设计好的元件放到 SoC 中。因为制作 SoC 需要获得整颗 IC 的设计细节,才能做成完整的光罩,这同时也增加了 SoC 的设计成本。或许会有人质疑何不自己设计一颗就好了呢?因为设计各种 IC 需要大量和该 IC 相关的知识,只有像 Apple 这样多金的企业,才有预算能从各知名企业挖角顶尖工程师,以设计一颗全新的 IC,透过合作授权还是比自行研发划算多了。

折衷方案,SiP 现身

作为替代方案,SiP 跃上整合芯片的舞台。和 SoC 不同,它是购买各家的 IC,在最后一次封装这些 IC,如此便少了 IP 授权这一步,大幅减少设计成本。此外,因为它们是各自独立的 IC,彼此的干扰程度大幅下降。

16.jpg


▲ Apple Watch 采用 SiP 技术将整个电脑架构封装成一颗芯片,不单满足期望的效能还缩小体积,让手錶有更多的空间放电池。(Source:Apple 官网)

采用 SiP 技术的产品,最着名的非 Apple Watch 莫属。因为 Watch 的内部空间太小,它无法采用传统的技术,SoC 的设计成本又太高,SiP 成了首要之选。藉由 SiP 技术,不单可缩小体积,还可拉近各个 IC 间的距离,成为可行的折衷方案。下图便是 Apple Watch 芯片的结构图,可以看到相当多的 IC 包含在其中。

17.jpg


▲ Apple Watch 中采用 SiP 封装的 S1 芯片内部配置图。(Source:chipworks)

完成封装后,便要进入测试的阶段,在这个阶段便要确认封装完的 IC 是否有正常的运作,正确无误之后便可出货给组装厂,做成我们所见的电子产品。其中主要的半导体封装与测试企业有安靠、星科金朋、J-devices、Unisem、Nepes、日月光、力成、南茂、颀邦、京元电子、福懋、菱生精密、矽品、长电、优特
 
 
 
 
来源:1号机器人

智造家提供
385 浏览

总结一颗ARM架构芯片软硬件组成

智能科技类 星旭自动化 2016-11-16 19:46 发表了文章 来自相关话题

ARM是微处理器行业的一家知名企业,设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件,适用于多种领域,比如嵌入控制、消费/教育类多媒体、DSP和移动式应用等。

2016年7月27日,公司发财报显示,第二季度税前利润为1.301亿英镑(约合1.71亿美元),同比增长5%。在2016年9月,ARM以240亿英镑的价格被软银收购。

尽管被收购,但我们不容错过ARM芯片系列!硬件和软件是一颗ARM架构芯片互相依存的两大部分,本文总结了一颗芯片的软硬件组成,以作为对芯片的入门级概括吧!







硬件方面

主控CPU:运算和控制核心。基带芯片基本构架采用微处理器+数字信号处理器(DSP)的结构,微处理器是整颗芯片的控制中心,会运行一个实时嵌入式操作系统(如Nucleus PLUS),DSP子系统负责基带处理。应用处理器则可能包括多颗微处理器,还有GPU。微处理器是ARM的不同系列的产品(也可以是x86架构),可以是64位或者32位。处理器内部通过“内部总线”将CPU所有单元相连,其位宽可以是8-64位。

总线:计算机的总线按功能可以划分为数据总线、地址总线和控制总线,分别用来传输数据、数据地址和控制信号。CPU内部部件由内部总线互联,外部总线则是CPU、内存、输入、输出设备传递信息的公用通道,主机的各个部件通过总线相连接。外部设备通过相应的接口电路再与外部总线相连接,从而形成了硬件系统。外部总线通过总线接口单元BLU与CPU内部相连。

片上总线标准高级微控制器总线结构AMBA定义了高性能嵌入式微控制器的通信标准。定义了三组总线:AHB(AMBA高性能总线)、ASB(AMBA系统总线)、和APB(AMBA外设总线)。

AHB总线用于高性能、高时钟工作频率模块。AHB为高性能处理器、片上内存、片外内存提供接口,同时桥接慢速外设。DMA、DSP、主存等连在AHB上。ASB总线主要用于高性能系统模块。

ASB是可用于AHB不需要的高性能特性的芯片设计上可选的系统总线。APB总线用于为慢速外设提供总线技术支持。

APB是一种优化的,低功耗的,精简接口总线,可以支持多种不同慢速外设。由于APB是ARM公司最早提出的总线接口,APB可以桥接ARM体系下每一种系统总线。

外设I/O端口和扩展总线:GPIO通用端口、UART串口、I2C、SPI 、SDIO、USB等,CPU和外扩的芯片、设备以及两颗CPU之间(如基带处理器和应用处理器之间)进行通信的接口。一般来说,芯片都会支持多种接口,并设计通用的软件驱动平台驱动。

存储部件和存储管理设备:Rom、Ram、Flash及控制器。处理器系统中可能包含多种类型的存储部件,如Flash、SRAM、SDRAM、ROM以及用于提高系统性能的Cache等等,不同的芯片会采用不同的存储控制组合。参见博文”arm架构的芯片memory及智能机存储部件简述“

外设: 电源和功耗管理、复位电路和watchdog定时复位电路(前者是系统上电运行、后者是Reset或者超时出错运行)、时钟和计数器、中断控制器、DMA、 输入/输出(如键盘、显示器等)、摄像头等。

一颗ARM9架构芯片主控器及外围硬件设备组成如下图所示:

 





软件方面

芯片上的软件主要包括Boot代码、操作系统、应用程序以及硬件的firmware。

Boot程序引导设备的启动,是设备加电后在操作系统内核运行之前运行的一段小程序。通过这段小程序,我们可以初始化硬件设备、建立内存空间的映射图,从而将系统的软硬件环境带到一个合适的状态,以便为最终调用操作系统内核准备好正确的环境。

操作系统(英语:OperaTIng System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,其五大管理功能是:

1处理器管理,主要包括进程的控制、同步、通信和调度。

2存储器管理,主要包括内存的分配、保护和扩充,地址映射。

3设备管理,主要包括设备的分配、处理等。

4文件管理,主要包括文件的存储空间管理,目录管理,文件的读写和保护。

5作业管理,主要包括任务、界面管理,人机交互,语音控制和虚拟现实等。

应用处理器上的操作系统有Android、IOS等,不必多说;基带处理器上则会运行一个RTOS(如Nucleus PLUS)管理整个基带系统上的任务和部件间的通信。

应用程序是为了完成某项或某几项特定任务而被开发运行于操作系统之上的程序。应用处理器上,结合操作系统API和库函数,用户可以开发各色应用程序;基带处理器上则一般只有少量必要的软件支持。

硬件firmware则是简化软件与硬件的交互,让硬件操纵起来更容易。

再来看看ARM处理器系列

ARM微处理器包括下面几个系列,以及其它厂商基于 ARM 体系结构的处理器,除了具有ARM 体系结构的共同特点以外,每一个系列的 ARM 微处理器都有各自的特点和应用领域。

ARM7系列

ARM7 系列微处理器为低功耗的 32 位 RISC 处理器,最适合用于对价位和功耗要求较高的消费类应用。

ARM9系列

ARM9 系列微处理器在高性能和低功耗特性方面提供最佳的性能。

ARM9E系列

ARM9E 系列微处理器为可综合处理器,使用单一的处理器内核提供了微控制器、 DSP 、 Java应用系统的解决方案,极大的减少了芯片的面积和系统的复杂程度。 ARM9E 系列微处理器提供了增强的 DSP 处理能力,很适合于那些需要同时使用 DSP 和微控制器的应用场合。

ARM10E系列

ARM10E 系列微处理器具有高性能、低功耗的特点,由于采用了新的体系结构,与同等的 ARM9器件相比较,在同样的时钟频率下,性能提高了近 50 %,同时, ARM10E 系列微处理器采用了两种先进的节能方式,使其功耗极低。

SecurCore系列

SecurCore 系列微处理器专为安全需要而设计,提供了完善的 32 位 RISC 技术的安全解决方案,因此, SecurCore 系列微处理器除了具有 ARM 体系结构的低功耗、高性能的特点外,还具有其独特的优势,即提供了对安全解决方案的支持。

Intel 的Xscale、StrongARM

Intel StrongARM SA-1100 处理器是采用 ARM 体系结构高度集成的 32 位 RISC 微处理器。它融合了 Intel 公司的设计和处理技术以及 ARM 体系结构的电源效率,采用在软件上兼容 ARMv4 体系结构、同时采用具有 Intel 技术优点的体系结构。

其中,ARM7、ARM9、ARM9E和ARM10为4个通用处理器系列,每一个系列提供一套相对独特的性能来满足不同应用领域的需求, 而SecurCore 系列专门为安全要求较高的应用而设计。
 
 
 
来源:1号机器人

智造家提供 查看全部
ARM是微处理器行业的一家知名企业,设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件,适用于多种领域,比如嵌入控制、消费/教育类多媒体、DSP和移动式应用等。

2016年7月27日,公司发财报显示,第二季度税前利润为1.301亿英镑(约合1.71亿美元),同比增长5%。在2016年9月,ARM以240亿英镑的价格被软银收购。

尽管被收购,但我们不容错过ARM芯片系列!硬件和软件是一颗ARM架构芯片互相依存的两大部分,本文总结了一颗芯片的软硬件组成,以作为对芯片的入门级概括吧!


5.jpg


硬件方面

主控CPU:运算和控制核心。基带芯片基本构架采用微处理器+数字信号处理器(DSP)的结构,微处理器是整颗芯片的控制中心,会运行一个实时嵌入式操作系统(如Nucleus PLUS),DSP子系统负责基带处理。应用处理器则可能包括多颗微处理器,还有GPU。微处理器是ARM的不同系列的产品(也可以是x86架构),可以是64位或者32位。处理器内部通过“内部总线”将CPU所有单元相连,其位宽可以是8-64位。

总线:计算机的总线按功能可以划分为数据总线、地址总线和控制总线,分别用来传输数据、数据地址和控制信号。CPU内部部件由内部总线互联,外部总线则是CPU、内存、输入、输出设备传递信息的公用通道,主机的各个部件通过总线相连接。外部设备通过相应的接口电路再与外部总线相连接,从而形成了硬件系统。外部总线通过总线接口单元BLU与CPU内部相连。

片上总线标准高级微控制器总线结构AMBA定义了高性能嵌入式微控制器的通信标准。定义了三组总线:AHB(AMBA高性能总线)、ASB(AMBA系统总线)、和APB(AMBA外设总线)。

AHB总线用于高性能、高时钟工作频率模块。AHB为高性能处理器、片上内存、片外内存提供接口,同时桥接慢速外设。DMA、DSP、主存等连在AHB上。ASB总线主要用于高性能系统模块。

ASB是可用于AHB不需要的高性能特性的芯片设计上可选的系统总线。APB总线用于为慢速外设提供总线技术支持。

APB是一种优化的,低功耗的,精简接口总线,可以支持多种不同慢速外设。由于APB是ARM公司最早提出的总线接口,APB可以桥接ARM体系下每一种系统总线。

外设I/O端口和扩展总线:GPIO通用端口、UART串口、I2C、SPI 、SDIO、USB等,CPU和外扩的芯片、设备以及两颗CPU之间(如基带处理器和应用处理器之间)进行通信的接口。一般来说,芯片都会支持多种接口,并设计通用的软件驱动平台驱动。

存储部件和存储管理设备:Rom、Ram、Flash及控制器。处理器系统中可能包含多种类型的存储部件,如Flash、SRAM、SDRAM、ROM以及用于提高系统性能的Cache等等,不同的芯片会采用不同的存储控制组合。参见博文”arm架构的芯片memory及智能机存储部件简述“

外设: 电源和功耗管理、复位电路和watchdog定时复位电路(前者是系统上电运行、后者是Reset或者超时出错运行)、时钟和计数器、中断控制器、DMA、 输入/输出(如键盘、显示器等)、摄像头等。

一颗ARM9架构芯片主控器及外围硬件设备组成如下图所示:

 
6.jpg


软件方面

芯片上的软件主要包括Boot代码、操作系统、应用程序以及硬件的firmware。

Boot程序引导设备的启动,是设备加电后在操作系统内核运行之前运行的一段小程序。通过这段小程序,我们可以初始化硬件设备、建立内存空间的映射图,从而将系统的软硬件环境带到一个合适的状态,以便为最终调用操作系统内核准备好正确的环境。

操作系统(英语:OperaTIng System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,其五大管理功能是:

1处理器管理,主要包括进程的控制、同步、通信和调度。

2存储器管理,主要包括内存的分配、保护和扩充,地址映射。

3设备管理,主要包括设备的分配、处理等。

4文件管理,主要包括文件的存储空间管理,目录管理,文件的读写和保护。

5作业管理,主要包括任务、界面管理,人机交互,语音控制和虚拟现实等。

应用处理器上的操作系统有Android、IOS等,不必多说;基带处理器上则会运行一个RTOS(如Nucleus PLUS)管理整个基带系统上的任务和部件间的通信。

应用程序是为了完成某项或某几项特定任务而被开发运行于操作系统之上的程序。应用处理器上,结合操作系统API和库函数,用户可以开发各色应用程序;基带处理器上则一般只有少量必要的软件支持。

硬件firmware则是简化软件与硬件的交互,让硬件操纵起来更容易。

再来看看ARM处理器系列

ARM微处理器包括下面几个系列,以及其它厂商基于 ARM 体系结构的处理器,除了具有ARM 体系结构的共同特点以外,每一个系列的 ARM 微处理器都有各自的特点和应用领域。

ARM7系列

ARM7 系列微处理器为低功耗的 32 位 RISC 处理器,最适合用于对价位和功耗要求较高的消费类应用。

ARM9系列

ARM9 系列微处理器在高性能和低功耗特性方面提供最佳的性能。

ARM9E系列

ARM9E 系列微处理器为可综合处理器,使用单一的处理器内核提供了微控制器、 DSP 、 Java应用系统的解决方案,极大的减少了芯片的面积和系统的复杂程度。 ARM9E 系列微处理器提供了增强的 DSP 处理能力,很适合于那些需要同时使用 DSP 和微控制器的应用场合。

ARM10E系列

ARM10E 系列微处理器具有高性能、低功耗的特点,由于采用了新的体系结构,与同等的 ARM9器件相比较,在同样的时钟频率下,性能提高了近 50 %,同时, ARM10E 系列微处理器采用了两种先进的节能方式,使其功耗极低。

SecurCore系列

SecurCore 系列微处理器专为安全需要而设计,提供了完善的 32 位 RISC 技术的安全解决方案,因此, SecurCore 系列微处理器除了具有 ARM 体系结构的低功耗、高性能的特点外,还具有其独特的优势,即提供了对安全解决方案的支持。

Intel 的Xscale、StrongARM

Intel StrongARM SA-1100 处理器是采用 ARM 体系结构高度集成的 32 位 RISC 微处理器。它融合了 Intel 公司的设计和处理技术以及 ARM 体系结构的电源效率,采用在软件上兼容 ARMv4 体系结构、同时采用具有 Intel 技术优点的体系结构。

其中,ARM7、ARM9、ARM9E和ARM10为4个通用处理器系列,每一个系列提供一套相对独特的性能来满足不同应用领域的需求, 而SecurCore 系列专门为安全要求较高的应用而设计。
 
 
 
来源:1号机器人

智造家提供
343 浏览

偷师自然,工程师们设计“植物芯片”

智能制造类 一路向前 2017-03-23 15:27 发表了文章 来自相关话题

 树木和其他植物,从高耸的红杉到小雏菊,都是大自然的液压泵。他们持续不断地将水分从它们的根部输送到最高的叶子上,又将叶子产生的糖分运送回根部。这些源源不断的养分是通过一个叫做木质部和韧皮部的系统完成输送的。


麻省理工学院的工程师们和他们的合作者设计了一种叫做“植物芯片”的微流装置,模仿树和其他植物的泵送机理。像其自然对应物一样,芯片被动工作,无需移动部件或外部泵。它可连续数日通过芯片以固定的流量运送水分和糖分。


麻省理工学院机械工程学院教授和副系主任Anette "Peko" Hosoi表示,芯片的被动泵可作为杠杆,为小机器人做一个简易的液压制动器。工程师们发现,要想让微小的活动部件和泵为小机器人的复杂运动提供动力,非常困难且昂贵。


Hosoi表示:“很容易将树叶或者木质部通道添加到一颗树里。”在小机器人的构造里,从制造,集成到驱动,一切都不简单。如果我们能够使构造更廉价,这将是超级令人兴奋的事情。我认为这些微流体泵是朝这个方向迈出了一步。


与Hosoi一起作此论文的作者包括:麻省理工学院机械工程学院毕业的学生——第一作者Jean Comtet;丹麦科技大学的Kaare Jensen;康奈尔大学的Robert Turgeon和Abraham Stroock。




液压升降机


此团队由树得到启发的工作主要来源于液压机器人项目,由泵送流体提供动力。Hosoid的兴趣在于小规模设计液压机器人,执行类似更大机器人的行为,例如波士顿动力狗——一只四条腿,Saint Bernard大小的机器人,它由液压驱动,能够在崎岖的地形跑跳。


Hosoi表示:“对于小系统来说,制造微小的移动部件通常十分昂贵,因此我们想,如果我们可以做一个小型的液压系统,在不移动部件的情况下产生巨大压力呢?于是我们问,大自然中有什么可完成此任务吗?事实证明,树木可以。”


生物学家的普遍理解是,水分由表面张力驱动,沿树的木质部通道一直向上,透过半透膜,进入含有糖和其他营养物质的韧皮部通道。


韧皮部的糖分越多,从木质部到韧皮部的水流量就越大,以实现糖水梯度平衡,这个被动的过程叫做渗透。由此产生的水流量会将营养物质冲刷到根部。当更多水分从树木和各种植物的根部抽出时,它们就会保持这种抽水过程。


Hosoi表示:“这种简易木质部和韧皮部模型在几十年前已众所周知。从定性的角度来看,这是有道理的。但是当你考虑到数字时,就会发现这种简易模型并不能保证稳定水流。


实际上,工程师们曾试图设计由树得到启发的微流体泵,制造零件,模仿木质部和韧皮部。但是他们发现,这些设计在几分钟内就很快停止抽水。


是Hosoi的学生Comtet确定了树木的抽水系统中第三个关键因素:叶子,叶子通过光合作用产生糖分。Comtet的模型包括这种糖的补充成分——从叶子扩散到植物的韧皮部,同时增加糖水梯度。反过来,能够使整棵树保持恒定的渗透压,循环水和营养物质。




糖源运行


有了Comtet的假设,Hosoi和她的团队设计了植物芯片,这是一种微流体泵,能够模仿树木的木质部,韧皮部和产糖的叶子。


为制作这一芯片,研究人员将两个塑料滑梯放在一起,在其中钻小通道分别代表木质部和韧皮部。他们在木质部通道注满水,在韧皮部通道注满水和糖,然后用半透明材料将两个滑梯分开以模仿木质部和韧皮部之间的膜。他们将另一片膜放在含韧皮部通道的滑梯上面,在顶端放一块方糖代表从树叶扩散到韧皮部的糖的补充养分。他们把芯片挂在一根管子上,把水从水箱送入芯片。


有了这个简单的设置,芯片能够被动地从水箱里抽水,通过芯片进入烧杯,连续几天保持稳定的流量,而在此之前的设计只能抽水几分钟。


Hosoi表示:“一旦我们把这个糖源放进去,我们就可在稳定状态下保持好几天。这正是我们想要的,我们需要一个可放进机器人的装置。


Hosoi设想,“植物芯片”微流体泵或可植入小型机器人,在不需要主动泵或部件的情况下,产生液压驱动的运动。


Hosoi表示:“如果你用的方式设计机器人,你完全可以在上面放一块方糖,随它发展。”
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:战略前沿技术 查看全部

1.JPG

 树木和其他植物,从高耸的红杉到小雏菊,都是大自然的液压泵。他们持续不断地将水分从它们的根部输送到最高的叶子上,又将叶子产生的糖分运送回根部。这些源源不断的养分是通过一个叫做木质部和韧皮部的系统完成输送的。


麻省理工学院的工程师们和他们的合作者设计了一种叫做“植物芯片”的微流装置,模仿树和其他植物的泵送机理。像其自然对应物一样,芯片被动工作,无需移动部件或外部泵。它可连续数日通过芯片以固定的流量运送水分和糖分。


麻省理工学院机械工程学院教授和副系主任Anette "Peko" Hosoi表示,芯片的被动泵可作为杠杆,为小机器人做一个简易的液压制动器。工程师们发现,要想让微小的活动部件和泵为小机器人的复杂运动提供动力,非常困难且昂贵。


Hosoi表示:“很容易将树叶或者木质部通道添加到一颗树里。”在小机器人的构造里,从制造,集成到驱动,一切都不简单。如果我们能够使构造更廉价,这将是超级令人兴奋的事情。我认为这些微流体泵是朝这个方向迈出了一步。


与Hosoi一起作此论文的作者包括:麻省理工学院机械工程学院毕业的学生——第一作者Jean Comtet;丹麦科技大学的Kaare Jensen;康奈尔大学的Robert Turgeon和Abraham Stroock。




液压升降机


此团队由树得到启发的工作主要来源于液压机器人项目,由泵送流体提供动力。Hosoid的兴趣在于小规模设计液压机器人,执行类似更大机器人的行为,例如波士顿动力狗——一只四条腿,Saint Bernard大小的机器人,它由液压驱动,能够在崎岖的地形跑跳。


Hosoi表示:“对于小系统来说,制造微小的移动部件通常十分昂贵,因此我们想,如果我们可以做一个小型的液压系统,在不移动部件的情况下产生巨大压力呢?于是我们问,大自然中有什么可完成此任务吗?事实证明,树木可以。”


生物学家的普遍理解是,水分由表面张力驱动,沿树的木质部通道一直向上,透过半透膜,进入含有糖和其他营养物质的韧皮部通道。


韧皮部的糖分越多,从木质部到韧皮部的水流量就越大,以实现糖水梯度平衡,这个被动的过程叫做渗透。由此产生的水流量会将营养物质冲刷到根部。当更多水分从树木和各种植物的根部抽出时,它们就会保持这种抽水过程。


Hosoi表示:“这种简易木质部和韧皮部模型在几十年前已众所周知。从定性的角度来看,这是有道理的。但是当你考虑到数字时,就会发现这种简易模型并不能保证稳定水流。


实际上,工程师们曾试图设计由树得到启发的微流体泵,制造零件,模仿木质部和韧皮部。但是他们发现,这些设计在几分钟内就很快停止抽水。


是Hosoi的学生Comtet确定了树木的抽水系统中第三个关键因素:叶子,叶子通过光合作用产生糖分。Comtet的模型包括这种糖的补充成分——从叶子扩散到植物的韧皮部,同时增加糖水梯度。反过来,能够使整棵树保持恒定的渗透压,循环水和营养物质。




糖源运行


有了Comtet的假设,Hosoi和她的团队设计了植物芯片,这是一种微流体泵,能够模仿树木的木质部,韧皮部和产糖的叶子。


为制作这一芯片,研究人员将两个塑料滑梯放在一起,在其中钻小通道分别代表木质部和韧皮部。他们在木质部通道注满水,在韧皮部通道注满水和糖,然后用半透明材料将两个滑梯分开以模仿木质部和韧皮部之间的膜。他们将另一片膜放在含韧皮部通道的滑梯上面,在顶端放一块方糖代表从树叶扩散到韧皮部的糖的补充养分。他们把芯片挂在一根管子上,把水从水箱送入芯片。


有了这个简单的设置,芯片能够被动地从水箱里抽水,通过芯片进入烧杯,连续几天保持稳定的流量,而在此之前的设计只能抽水几分钟。


Hosoi表示:“一旦我们把这个糖源放进去,我们就可在稳定状态下保持好几天。这正是我们想要的,我们需要一个可放进机器人的装置。


Hosoi设想,“植物芯片”微流体泵或可植入小型机器人,在不需要主动泵或部件的情况下,产生液压驱动的运动。


Hosoi表示:“如果你用的方式设计机器人,你完全可以在上面放一块方糖,随它发展。”
 
 
 
 
更多内容请关注:www.imefuture.com
 
 
来源:战略前沿技术
579 浏览

人工智能芯片的发展:FPGA的过去,现在和未来

智能科技类 泰迪的礼物 2017-02-20 18:34 发表了文章 来自相关话题

编者按:自Xilinx在1984年创造出FPGA以来,这种可编程逻辑器件凭借性能、上市时间、成本、稳定性和长期维护方面的优势,在通信、医疗、工控和安防等领域占有一席之地,在过去几年也有极高的增长率。而进入了最近两年,由于云计算、高性能计算和人工智能的繁荣,拥有先天优势的FPGA的关注度更是到达了前所未有的高度。本文从基础出发谈及FPGA的过去、现在与未来。

我们知道,相对于专业的ASIC,FPGA有上市时间和成本上的优势。另外,在大多数情况下,FPGA执行某些功能较之CPU上的软件操作更高效。这就是为什么我们认为它不但会运用在数据中心的服务器、交换器、存储层的各个角落,并且具有加速整个工作流程的功能。

然而我们不能过分乐观,尤其是在2015年12月,Intel以167亿美元收购了FPGA生产商Altera之后。

在2014年年底,当时还处于独立的Altera公司高层盯上了基于CPU+FPGA的数据中心并行计算的发展前景——这个当时价值大约10亿美元的市场。而并非数据中心里约2.5亿美元的CPU-GPU市场和直接应用CPU处理器的90亿美元市场。

Altera做出这个决定的原因在于他们认为这个组合较之另外两个方案,有编程的简便性和能效优势。人们对CPU非常熟悉,并发现寻找C程序员也不会太难。因此对大部分开发者来说,在执行运算任务的时候,持续使用这种方案不需要冒太大的风险,但是能源效率相对比较低,尤其是在密集的计算和固有的并行工作负载的情况底下。

至于CPU+GPU的方案,程序员并不是很熟悉,但是拥有很高的效率。

根据Altera的估计,使用OpenCL对混合CPU-FPGA系统进行编程比使用Nvidia的CUDA环境对于程序员来说更容易(某些方面肯定是有争议的),但用HDL来硬编程FPGA是相当困难的,因此需要OpenCL或者通过其他抽象层来将CPU中的负载转移到FPGA上。

Intel收购Altera改变FPGA格局

这个十亿美元的数据中心市场被Altera、Xilinx和其他FPGA供应商瓜分。在Intel于2015年6月收购了Altera之后,这个市场变得更加复杂。

在收购之前的2014年,Altera的19亿美元收入中,有16%来自于与数据中心相关的计算、网络和存储业务,其总值达到3.04亿美元。那些在这个领域深耕十几二十年的通信和无线设备系统制造商想要有更高的能源效率,更低的成本和更高的扩展性,这些都是FPGA所擅长的领域。另外有一点需要提一下,那就是在执行这些功能的时候,使用FPGA并不需要像使用CPU那样需要操作系统和相应的软件。这部分的营收占了Altera营收的44%,总额为8.35亿美元。

Altera另外的22%收入,即4.18亿美元,来自工业控制、军事设备和汽车制造等领域。他们面对相同的困境,因此选择FPGA来处理他们的一些工作负载。

其实早在2014年,英特尔看中了价值1150亿美元的各种类型的芯片潜在市场。当中可编辑逻辑设备(以FPGA为主)约占4%,ASIC占18%,其余为ASSP的大杂烩。

在可编辑逻辑设备的领域中,英特尔预估Altera占有48亿美元市场中的39%,Xilinx占有49%,剩下供应商则占据剩下的12%。

当时英特尔没有收购Altera的原因是因为FPGA业务的增长速度几乎与其数据中心集团(为服务器,存储和交换机制造商提供芯片,芯片组和主板)的速度一样快。

再者,英特尔没有这样做也是因为摩尔定律逐渐缓慢下来的脚步,给FPGA带来了日益增长的竞争威胁。

实际上,如果应用的话,在数据中心里不止安装一个FPGA、GPU或DSP加速器,但不需要安装多个Xeon CPU。由于英特尔不能继续为Xeons提供更多的核心和加速器,所以他们得出了将FPGA当做加速器的结论。

除非FPGA能在数据中心创造5亿美元的收益,或者几年后创造10亿美元或更多的收入。不然英特尔宁愿牺牲两至三倍的Xeon收入,也不会把Xeon的收入拱手相让。

深度学习加持,FPGA前景可人

根据英特尔的预测,他们计划从现在到2023年以接近直线增长率来提升FPGA的业务。对此我们总是抱有怀疑的态度。但FPGA业务随着时间的推移或多或少地在增长(比15年前增长约2.5倍)。

英特尔还预计,FPGA的营收在2014年到2023年之间将会再翻一倍。按照英特尔预测,从2014年到2023年间其复合年增长率为7%,其收入应该略低于预测的89亿美元。有趣的是,由于英特尔的预测并没有把来自数据计算中心(服务器,交换和网络)的FPGA收入份额纳入计划中,这将会发生很大变化。让我们分析一下:

如果Altera和Xilinx的市场份额没有发生改变,且假设Altera的收入在网络,计算和存储的部分保持不变,那么Altera这一部分的业务收入到2023年将会达到5.6亿美元左右。我们认为Intel这样的数据低估了数据中心在提供更有效和灵活计算所面对的压力。不给过我们认为FPGA的前景远远优于这个预测。也就是说,许多FPGA技术的支持者一直期待FPGA在数据中心中获得计算合法化的那天很快到来。

讽刺的是,英特尔本身作为FPGA的编程专家,硬件描述语言的使用者,以及知名的ASIC制造商,竟成为推动FPGA成为加速器优先选择的主要参与者。这样的加速器既能作为独立的离散计算元件,又可以作为混合 CPU-FPGA器件。

这也是为什么从2016年以来,我们看到所有关于Altera的新闻都是昭示FPGA将会有的大规模增的增长。所以至少在短期,他们除了为其他的FPGA制造商作嫁衣裳,几乎别无他法。

这次收购不仅是FPGA发展的里程碑,也是英特尔对FPGA巨大的潜力的承认。FPGA作为未来强大的计算加速器,不但影响主要企业的决策和市场趋势,而且加速企业中的工作负载,促进超大规模数据中心的内部搜索,以及提高高性能计算模拟的地位。

在跨越2017年之际,FPGA在应用程序中等级中新增了机器学习和深度学习,这给FPGA产业敲下了又一重锤。

为什么大家都青睐FPGA

首先,编程FPGA的软件栈已经演进了,尤其是在Altera的帮助下,FPGA增加了对OpenCL开发环境的支持。但不是每个人都是OpenCL的狂热粉丝。

先有Nvidia为其Tesla GPU加速器创建了自己的CUDA并行编程环境。再有SRC计算机公司不但早在2002年就为国防和智能领域提供混合CPU-FPGA系统,到了2016年年中,进一步将自己研发的Carte编程环境进入了商业市场,这个编程环境可以使C和Fortran程序自动转换为FPGA的硬件描述语言(HDL)。

另一个推动FPGA被采用的因素是随着芯片制造技术难以持续缩进,多核CPU性能的提高越来越艰难。 虽然CPU的性能获得了大跳跃,但主要用于扩展CPU的性能吞吐量,而不是单个CPU内核的个体性能。(我们知道架构增强是有难度的)。但是FPGA和GPU加速器的每瓦性能都有了令人信服的改进。

根据微软的运行测试,在执行深度学习算法的时候,CPU-FPGA和CPU-GPU混合计算在的每瓦性能也不相伯仲。GPU在运行中更热和有类似的每瓦性能表现,但是同时他们也带来了更强的工作能力。

提高了每瓦性能解析了为什么世界上最强大的超级计算机在20世纪90年代后期转移到并行集群,并且解析了为什么现在他们转向了混合机器,而不是英特尔的下一个以 CPU-GPU为混合主力的Xeon Phi的处理器“Knights Landing (简称KNL)。

在Altera FPGA协处理器和Xeon Phi处理器Knights Landing的帮助下,英特尔不但可以保持自己的在高端的竞争优势。并且在与Nvidia 、IBM和 Mellanox组成的Open power联盟竞争中继续领先。

英特尔坚信超大规模计算,云端和HPC市场的工作负载会快速成长。为促进其计算业务继续蓬勃发展。这情况下只能成为FPGA的卖家,否则别人就会抢去这唯一的出路。

但英特尔并不是这样跟大家说。他们说:“我们不认为这是一种防守战或者其他,”英特尔的CEO Brian Krzanich在Altera收购消息后的新闻发布会上说。

“我们认为物联网和数据中心都是庞大的。这些也是我们的客户想要构建的产品。我们30%的云端工作负载将在这些产品上,这是基于我们对如何看待趋势变化以及市场发展的预测。

这是用来证明这些工作负载能以一种或另一种方式转移到硅中。我们认为最好的做法是使用有业界最佳性能和成本优势的Xeon处理器和FPGA组合。这将给工业领域带来更好的产品和性能。而在IoT中,这将扩展到潜在市场对抗ASIC和ASSP;而在数据中心中,则会将workload转移到硅,推动云的快速增长。

Krzanich解释道:“你可以把FPGA想象成一堆gate,且能够随时编程。根据他们的想法,其算法会随着时间的推移和学习变得更聪明。FPGA可以用作多个领域的加速器,可以在进行加密的同时进行面部搜索,而且能在基本上在微秒内重新编程FPGA。这比大规模的单个定制部件的成本低得多且具备更高的灵活性。”

英特尔看到了更大的机会

英特尔看到了比这更大的机会。

Intel首席执行官Brian Krzanich在收购完成后宣布,到2020年,将有高达三分之一的云端服务提供商使用混合的CPU-FPGA服务器节点,这是一个令人震惊的消息。这也给从2014年底就开始瞄准的数据中心的Altera带来大约10亿美元的FPGA的机会。这数目大概是Nvidia目前流行的Tesla计算引擎营收的三倍。

在2014年初,英特尔展示了一个相同封装的Xeon-FPGA芯片原型,并且打算在2017年推出这个芯片。这是基于当时数据中心集团GM Diane Bryant提出的一个带有FPGA电路的Xeon设想不久之后推出的。

在宣布Altera交易的电话会议上,Krzanich没有说明退出这款Xeon-FPGA设备的时间,但是他表示英特尔将创建一个面向物联网市场的单die混合Atom-FPGA设备。英特尔正在考究在混合过渡阶段,是否需要为Atom和Altera FPGA做单一封装混合。

在2016年的初太平洋顶峰证券的电话会议中,英特尔的云端基础设施集团总经理Jason Waxman与研究分析师讨论关于英特尔数据中心业务时表示,FPGA已经成为了热门话题。

首先,虽然他没有指名道姓哪家厂商或者任何设备的规格,但是Waxman确定英特尔已经为某些客户提供了Xeon加FPGA的混合计算引擎样品。

在会议期间,Waxman更是畅谈了驱动英特尔收购Altera和插足可编程计算设备的原因。 英特尔显然希望让FPGA成为主流,即使这可能会在数据中心中蚕食Xeon的某些业务。 (我们认为,因为英特尔认为这种自相残杀是不可避免的,控制它的最好方法是使FPGA成为Xeon阵容的一部分。)

Waxman说:“我认为这项收购可能涉及许多事情,而且其中一些已经超越数据中心集团的范围。”

首先,一个潜在的核心业务往往是由制造领先优势驱动。在这方面我们能很好的掌控,而且这样做还有良好的协同作用。

再者,还有物联网“集团”对此也有很强的兴趣。

据我们所知,某些大规模工作负载的扩展(如机器学习,某些网络功能)吸引了越来越多的人关注。我们才意识到我们或者可以在性能方面取得一些突破,这将是一个把FPGA从数据中心应用程序中移植到更多适合的、广泛发展领域的良好机会。

但是在数据中心集团里的协作,FPGA不过是给CPU做个伴,帮助解决云端服务提供商和其他类型的大规模应用程序的问题。

英特尔认为对FPGA加速有优先和大量需求的关键应用包括机器学习,搜索引擎索引,加密和数据压缩。正如Waxman指出,这些往往是很有针对性的,且没有统一的使用案例。这就是Krzanich斩钉截铁说三分之一的云端服务提供商将在五年内使用FPGA加速的依据。

跨越FPGA的障碍

虽然每个人都抱怨编程FPGA有多难,但英特尔并不为此退缩。虽然没有透露太多相关计划的情况下,Waxman提出了一些方法让FPGA更容易被运用和理解。

Waxman说:“我们所拥有的是独一无二的,这是其他人不能给的。那就是我们能够了解这些工作负载和能够推动加速的能力。

“我们看到一条促进机器学习,加速存储加密,加速网络功能的捷径”,Waxman强调。这是基于我们对这些工作负载的深入了解,所以才让我们看到了这样的机会。

但现在FPGA还需要面对一些困难,因为现在人们是写RTL的。我们是一家写RTL的公司,所以我们可以解决这个问题。首先我们使它运作,然后我们可以降低进入的门槛。第三步是真正的规模经济学,而这全部是靠集成和制造的实力。

为了解决这些障碍,我们提供了一系列的方法。

X86+FPGA?

对于那些英特尔打算用FPGA来代替Xeons的猜测,Waxman表示这是一派胡言。

Waxman表示,对于那些对高速率和重复性有强烈需求的算法,具有先天优势的FPGA就是其最好的选择。而那些对延迟有极高需求的数据操作和转换,FPGA也是候选人。

考虑到Altera已经在一个SoC上集成了ARM处理器和FPGA,这很自然地会想到英特尔会试图用X86内核全面替换ARM内核来做类似的设备。但它看起来不像这会发生。

首先,在2016年第二季度英特尔财务声明会上,Krzanich承诺,英特尔将加强对目前使用Altera的ARM-FPGA芯片客户的支持。

Waxman进一步澄清:“我们的观点是会以某种形式把FPGA集成到Xeon里。我们已经公开宣布将会打造第一代使用这种单一封装的设备,但是我们将根据进展情况调整方向,甚至可能会在同一个die上实现。我们将根据客户的反馈了解什么是正确的组合。

顺便说一下,我仍然期待看到没有集成的系统,保持他们会做系统级的协同。我们不会将Xeon与FPGA以多种方式组合集成,反之我们会在市场上找到正确的目标和平衡。”

编程问题首当其冲

虽然Altera的工具集利用OpenCL编程模型获得应用程序代码,并将其转换为RTL(FPGA的原生语言),但是有趣的是,英特尔并不认为FPGA在数据中心的未来成功是基于OpenCL与RTL工具集成的改进或更广泛地采用OpenCL。

Waxman也强调地说:“这并不是以OpenCL为基础的。”虽然我们确实把OpenCL看作是进一步扩大FPGA应用范围的一个途径,但目前FPGA的初始云端部署可能由更具能力的公司完成,但他们并没有要求我们提供OpenCL。Waxman补充说。

Waxman在不能“自由”地谈论的情况下,暗示英特尔有计划使FPGA更容易编程。他表示Intel将会为程序员提供RTL库,方便他们调用在FPGA上部署的例程,并推动在其上执行应用程序的gate的形成,来实现应用程序例程的gate,而不是让他们自己创建例程。这有一定的意义,与Convey(现在是美光科技的一个部门)几年前用FPGA加速系统处理的方案一样。

Waxman说:“我认为有一个连续的加速。在一开始,你可能不知道你正在试图加速什么,只是做了一些尝试,因此在这个阶段加速,你想要的是一个更通用的目的。当你开始真正地想要加速的时候,你会想要更高效的,更低的功耗和更少的空间,这时你就会把焦点移到FPGA上。”

Waxman还引用了Microsoft在其“Catapult”系统上使用FPGA加速的方案来说明。

该系统采用其Open Cloud Server并添加FPGA夹层卡作为加速器。我们在3月份研究了这个项目,将这些加速器应用在Google上执行相同的图像识别训练算法,得出的结果显示,25瓦的FPGA器件相对于使用Nvidia Tesla K20 GPU加速器(235瓦特)的服务器,提高了更好的性能/瓦特。

正如我们所说,我们对于微软和Google发布的性能数据毫无疑问。但是对分立的GPU或FPGA执行应用性能和对自身的热配置文件进行测量都是不公平的。你必须在服务器节点级别上看到这一点。

如果意识到这点,得到FPGA辅助的Microsoft服务器在系统级只稍稍领先于用Tesla K20s的Google服务器。(这些只是我们基于每秒每瓦特图像处理性能的估计)。在这个对比中,Microsoft应该不考虑成本。而且坦白说,不同于什么都配备的Tesla GPU,微软开放云端服务器并没有使用Juice或Cooling。真正的评测怎么都会使用GPU夹层卡,同时还需要考虑热量,性能和价格等因素。

但是Waxman讨论的重点仍然是那个。“在某个时候,你真的很想要那个能给你惊喜,并且能做到更低功耗的方案。而这就是我们的FPGA方案所擅长的方面。”

云端业务

最后要考虑的是英特尔的云端业务。这些客户现在占据了他们数据中心集团收入的25%。

整体来看,他们的购买量每年增长约25%。预计从2016年开始,未来几年整体数据中心集团业务都将增长15%。让我们做一些计算。

如果英特尔的计划如期实施,他的数据中心集团2016年收益将会达到166亿美元。云端服务提供商(其中包括在The Next Platform上使用我们的语言的云端构建者和超大规模计算者)占大约41亿美元,其余归属于英特尔数据中心,销售数据大约为125亿美元。因此,英特尔数据中心的业务增长在12%左右(除云端外),是云端速率的一半。英特尔需要以任何方式来满足云端的增长和明显的FPGA需求,即使它只占用Xeon容量的一点点。对于英特尔来说是这个的选择比让GPU加速持续增长的方案要好。

编程方面可能是阻碍FPGA被广泛采用的一个主因(不像其他加速器,具有丰富的开发生态系统,如Nvidia GPU的CUDA)。这就驱动程序员去基于C语言去做扩展设计,或使用OpenCL,而不是用过去困扰FPGA开发的低级模型。但即使在应用的过程中有这么多里程碑,FPGA仍然不被主流青睐。我们将会探索解决编程问题的方法和机会。

虽然我们已经与这个相对较小的生态系统中的许多供应商(包括Altera和Xilinx,两个主要供应商)进行了交流,但按照FPGA长期研究员Russell Tessier所说,FPGA在更广阔的市场上大展拳脚的日子还在前面,新的发展意味着更广泛的采用。

他在马萨诸塞大学(他还在Altera工作,并且Mentor Graphics收购的虚拟机工程的创始人)研究了FPGA二十多年,他认为FPGA从科学项目到企业应用的形势正式缓变化。他认为其中的关键是来自于设计工具的改进,设计人员不断提高他们设计高水平。除此与外,工具vendor可以更好地引导芯片发展。他补充说,设备内的大量逻辑量意味着用户能够实现更多的功能,这使得FPGA对更多领域更广泛的吸引力。

Tessier说:“在过去几年里,FPGA的一个明显趋势就是这些设备更容易“程序化”。

Xilinx目前鼓励使用其Vivado产品的时候,用C语言进行设计。Altera还有一个已经开发的OpenCL环境。关键是两家公司都在试图创建一个环境,让用户可以使用更熟悉的编程(如C和OpenCL),而不必是使用RTL设计专家所擅长的Verilog或VHDL。虽然在过去几年里取得不错的成绩,但这仍然处于推进的阶段,不过这将有助于把更多的事情地移入主流。

其中一个对FPGA真正有利的因素就是如果将其和芯片搭配使用,建立一个快速的内部互联,它能解决memory和数据移动中的限制。这种优势就是吸引Intel收购Altera的主要诱因。另外,如果像英特尔和IBM这样的大公司能够积极推动FPGA的软件生态系统的建设,其应用市场将会迅速扩张。FPGA的主流化(至少现在没有GPU那么重要,)可能会更快地出现。

Tessier解释:“标准核心处理器集成的增加肯定是关键所在。过去的障碍是语言和工具,随着这些障碍越来越少,为芯片供应商新的合作机会打开了一扇门。由于这些和其他“主流化”趋势出现,不断做出的改变的FPGA的应用领域将继续增长。例如,金融服务商店是第一个使用FPGA进行财务趋势和股票选择分析的用户,但使用案例正在扩大。现在有更强的设备可以解决更大的问题。

更广泛的应用领域

除此之外,FPGA通过的其他新领域发现新用途,包括DNA测序,安全性,加密和一些关键的机器学习任务。

当然,我们希望FPGA变得强大,并“进入”世界上最大的云端和超大规模数据中心,Xilnix数据中心部门副总裁Hamant Dhulla对此表示强烈赞同。他在2016年初,他告诉The Next Platform, “异构计算已经不再是一种趋势,而是现实”,也就是在那个时候,微软推出了使用FPGA的Catapult案例(现在就很多或以后会很多),英特尔收购了Altera以及看到了更多FPGA将广泛应用在数据中心的声明。

从机器学习,高性能计算,数据分析等领域,FPGA在更多样化的应用领域中崭露头角。这些都与FPGA上嵌入了越来越多可用的on-chip存储器有关,这些都是FPGA制造商和潜在终端用户所期待的。 Dhulla表示,市场潜力足够大,让Xilinx能够调整其业务的方式。 过去几年,存储和网络主导了FPGA用户群。但未来五年内,计算端的需求将远远超过存储和网络,并都将沿着稳定的增长线继续发展。

在FPGA其他的热门领域(包括机器学习),它们的更像是一个带有GPU 的“协作”加速器。毫无疑问,对于许多机器学习工作负载的训练部分,GPU是主要的。因此为这里需要很多计算能力,就像HPC一样,其中power envelope tradeoff值得的。但是这些客户购买了数十或数百个GPU,而不是数十万个,庞大的加速器数目正使用在机器学习pipeline的推理部分,这就是市场所在。

正如我们指出的,Nvidia正在使用两个独立的GPU(用M4来训练,更低功耗的M4插入来削减服务器)来抵消这一点,但Dhulla认为FPGA仍然能够通过采用PCIe方法降低功耗,也可以嵌入超大规模数据中心。

他们的SDAccel编程环境通过提供对C,C ++和OpenCL的高级接口,使其更实用,但是推动超大规模和HPC采用的真正途径是通过最终用户示例。

当涉及到这些早期的用户,就像为下一代的FPGA的应用搭建了舞台,Dhulla指向像Edico Genome这样的公司。Xilinx目前还与其他领域的客户合作,包括石油和天然气和金融方面的历史计算方面。早期客户将Xilinx 的FPGA应用在机器学习,图像识别和分析以及安全性方面,这可以看作他们计算加速业务发展的第一步。

尽管双精度性能和总体价格不佳,FPGA的真正的大规模应用机会在于云端。因为FPGA可以提供GPU所不能提供的优势。如果FPGA供应商能够说服其最终用户,他们的加速器可以提供相当大的性能提升(在某些情况下他们会这样做)给关键的工作负载。提供一个通过带有其他加速器(例如CUDA)的complexity-wise的编程环境推进OpenCL开发,通过在云端中提供FPGA来解决价格问题。这可能是一个新的希望。

当然,这种希望来源于将FPGA部署到有超密集服务器云端架构内,而不是在单机的销售上。这种模式已经在FPGA的金融服务中发生。

正如他们GPU加速器“伙伴”围绕深度学习进行拉动,以便迅速得到更多的用户, FPGA设备在探索一个通过解决神经网络和深度学习的问题的方式找寻入侵市场的真正的机会。

新的应用程序主机意味着新的市场,随着云端应用的推广消除了一些管理开销,它可能意味着更广泛的采用。FPGA供应商努力推动它在一些关键的机器学习,神经网络和搜索方面的应用。FPGA在诸如自然语言处理,医学成像,深度数据检测等领域中的超大规模上下文中变得越来越普遍。

在过去一年里,FPGA的多种应用得到曝光,特别是在深度学习和神经网络,以及图像识别和自然语言处理等领域。例如,微软使用FPGA在1,632个节点上提供2倍的搜索服务,并采用创新的高吞吐量网络来支持Altera FPGA驱动的工作。中国的搜索引擎巨头百度(也是许多深度学习和神经网络任务GPU用户)正在用FPGA执行存储控制,其每天的数据吞吐量在100TB到1PB之间。

使用FPGA的大规模数据中心和其他领域的应用正在吸引人们对FPGA的单精度浮点性能的更多关注。

虽然一些案例使用(包括百度示例),将GPU作为计算加速器和FPGA用在存储端,但Altera,Xilnix,Nallatech和IBM的研究人员在OpenPower联盟展示了FPGA在云端深度学习的光明前景。

可以说现在属于FPGA的一个黄金时代。
 
 
来源:网络 查看全部
编者按:自Xilinx在1984年创造出FPGA以来,这种可编程逻辑器件凭借性能、上市时间、成本、稳定性和长期维护方面的优势,在通信、医疗、工控和安防等领域占有一席之地,在过去几年也有极高的增长率。而进入了最近两年,由于云计算、高性能计算和人工智能的繁荣,拥有先天优势的FPGA的关注度更是到达了前所未有的高度。本文从基础出发谈及FPGA的过去、现在与未来。

我们知道,相对于专业的ASIC,FPGA有上市时间和成本上的优势。另外,在大多数情况下,FPGA执行某些功能较之CPU上的软件操作更高效。这就是为什么我们认为它不但会运用在数据中心的服务器、交换器、存储层的各个角落,并且具有加速整个工作流程的功能。

然而我们不能过分乐观,尤其是在2015年12月,Intel以167亿美元收购了FPGA生产商Altera之后。

在2014年年底,当时还处于独立的Altera公司高层盯上了基于CPU+FPGA的数据中心并行计算的发展前景——这个当时价值大约10亿美元的市场。而并非数据中心里约2.5亿美元的CPU-GPU市场和直接应用CPU处理器的90亿美元市场。

Altera做出这个决定的原因在于他们认为这个组合较之另外两个方案,有编程的简便性和能效优势。人们对CPU非常熟悉,并发现寻找C程序员也不会太难。因此对大部分开发者来说,在执行运算任务的时候,持续使用这种方案不需要冒太大的风险,但是能源效率相对比较低,尤其是在密集的计算和固有的并行工作负载的情况底下。

至于CPU+GPU的方案,程序员并不是很熟悉,但是拥有很高的效率。

根据Altera的估计,使用OpenCL对混合CPU-FPGA系统进行编程比使用Nvidia的CUDA环境对于程序员来说更容易(某些方面肯定是有争议的),但用HDL来硬编程FPGA是相当困难的,因此需要OpenCL或者通过其他抽象层来将CPU中的负载转移到FPGA上。

Intel收购Altera改变FPGA格局

这个十亿美元的数据中心市场被Altera、Xilinx和其他FPGA供应商瓜分。在Intel于2015年6月收购了Altera之后,这个市场变得更加复杂。

在收购之前的2014年,Altera的19亿美元收入中,有16%来自于与数据中心相关的计算、网络和存储业务,其总值达到3.04亿美元。那些在这个领域深耕十几二十年的通信和无线设备系统制造商想要有更高的能源效率,更低的成本和更高的扩展性,这些都是FPGA所擅长的领域。另外有一点需要提一下,那就是在执行这些功能的时候,使用FPGA并不需要像使用CPU那样需要操作系统和相应的软件。这部分的营收占了Altera营收的44%,总额为8.35亿美元。

Altera另外的22%收入,即4.18亿美元,来自工业控制、军事设备和汽车制造等领域。他们面对相同的困境,因此选择FPGA来处理他们的一些工作负载。

其实早在2014年,英特尔看中了价值1150亿美元的各种类型的芯片潜在市场。当中可编辑逻辑设备(以FPGA为主)约占4%,ASIC占18%,其余为ASSP的大杂烩。

在可编辑逻辑设备的领域中,英特尔预估Altera占有48亿美元市场中的39%,Xilinx占有49%,剩下供应商则占据剩下的12%。

当时英特尔没有收购Altera的原因是因为FPGA业务的增长速度几乎与其数据中心集团(为服务器,存储和交换机制造商提供芯片,芯片组和主板)的速度一样快。

再者,英特尔没有这样做也是因为摩尔定律逐渐缓慢下来的脚步,给FPGA带来了日益增长的竞争威胁。

实际上,如果应用的话,在数据中心里不止安装一个FPGA、GPU或DSP加速器,但不需要安装多个Xeon CPU。由于英特尔不能继续为Xeons提供更多的核心和加速器,所以他们得出了将FPGA当做加速器的结论。

除非FPGA能在数据中心创造5亿美元的收益,或者几年后创造10亿美元或更多的收入。不然英特尔宁愿牺牲两至三倍的Xeon收入,也不会把Xeon的收入拱手相让。

深度学习加持,FPGA前景可人

根据英特尔的预测,他们计划从现在到2023年以接近直线增长率来提升FPGA的业务。对此我们总是抱有怀疑的态度。但FPGA业务随着时间的推移或多或少地在增长(比15年前增长约2.5倍)。

英特尔还预计,FPGA的营收在2014年到2023年之间将会再翻一倍。按照英特尔预测,从2014年到2023年间其复合年增长率为7%,其收入应该略低于预测的89亿美元。有趣的是,由于英特尔的预测并没有把来自数据计算中心(服务器,交换和网络)的FPGA收入份额纳入计划中,这将会发生很大变化。让我们分析一下:

如果Altera和Xilinx的市场份额没有发生改变,且假设Altera的收入在网络,计算和存储的部分保持不变,那么Altera这一部分的业务收入到2023年将会达到5.6亿美元左右。我们认为Intel这样的数据低估了数据中心在提供更有效和灵活计算所面对的压力。不给过我们认为FPGA的前景远远优于这个预测。也就是说,许多FPGA技术的支持者一直期待FPGA在数据中心中获得计算合法化的那天很快到来。

讽刺的是,英特尔本身作为FPGA的编程专家,硬件描述语言的使用者,以及知名的ASIC制造商,竟成为推动FPGA成为加速器优先选择的主要参与者。这样的加速器既能作为独立的离散计算元件,又可以作为混合 CPU-FPGA器件。

这也是为什么从2016年以来,我们看到所有关于Altera的新闻都是昭示FPGA将会有的大规模增的增长。所以至少在短期,他们除了为其他的FPGA制造商作嫁衣裳,几乎别无他法。

这次收购不仅是FPGA发展的里程碑,也是英特尔对FPGA巨大的潜力的承认。FPGA作为未来强大的计算加速器,不但影响主要企业的决策和市场趋势,而且加速企业中的工作负载,促进超大规模数据中心的内部搜索,以及提高高性能计算模拟的地位。

在跨越2017年之际,FPGA在应用程序中等级中新增了机器学习和深度学习,这给FPGA产业敲下了又一重锤。

为什么大家都青睐FPGA

首先,编程FPGA的软件栈已经演进了,尤其是在Altera的帮助下,FPGA增加了对OpenCL开发环境的支持。但不是每个人都是OpenCL的狂热粉丝。

先有Nvidia为其Tesla GPU加速器创建了自己的CUDA并行编程环境。再有SRC计算机公司不但早在2002年就为国防和智能领域提供混合CPU-FPGA系统,到了2016年年中,进一步将自己研发的Carte编程环境进入了商业市场,这个编程环境可以使C和Fortran程序自动转换为FPGA的硬件描述语言(HDL)。

另一个推动FPGA被采用的因素是随着芯片制造技术难以持续缩进,多核CPU性能的提高越来越艰难。 虽然CPU的性能获得了大跳跃,但主要用于扩展CPU的性能吞吐量,而不是单个CPU内核的个体性能。(我们知道架构增强是有难度的)。但是FPGA和GPU加速器的每瓦性能都有了令人信服的改进。

根据微软的运行测试,在执行深度学习算法的时候,CPU-FPGA和CPU-GPU混合计算在的每瓦性能也不相伯仲。GPU在运行中更热和有类似的每瓦性能表现,但是同时他们也带来了更强的工作能力。

提高了每瓦性能解析了为什么世界上最强大的超级计算机在20世纪90年代后期转移到并行集群,并且解析了为什么现在他们转向了混合机器,而不是英特尔的下一个以 CPU-GPU为混合主力的Xeon Phi的处理器“Knights Landing (简称KNL)。

在Altera FPGA协处理器和Xeon Phi处理器Knights Landing的帮助下,英特尔不但可以保持自己的在高端的竞争优势。并且在与Nvidia 、IBM和 Mellanox组成的Open power联盟竞争中继续领先。

英特尔坚信超大规模计算,云端和HPC市场的工作负载会快速成长。为促进其计算业务继续蓬勃发展。这情况下只能成为FPGA的卖家,否则别人就会抢去这唯一的出路。

但英特尔并不是这样跟大家说。他们说:“我们不认为这是一种防守战或者其他,”英特尔的CEO Brian Krzanich在Altera收购消息后的新闻发布会上说。

“我们认为物联网和数据中心都是庞大的。这些也是我们的客户想要构建的产品。我们30%的云端工作负载将在这些产品上,这是基于我们对如何看待趋势变化以及市场发展的预测。

这是用来证明这些工作负载能以一种或另一种方式转移到硅中。我们认为最好的做法是使用有业界最佳性能和成本优势的Xeon处理器和FPGA组合。这将给工业领域带来更好的产品和性能。而在IoT中,这将扩展到潜在市场对抗ASIC和ASSP;而在数据中心中,则会将workload转移到硅,推动云的快速增长。

Krzanich解释道:“你可以把FPGA想象成一堆gate,且能够随时编程。根据他们的想法,其算法会随着时间的推移和学习变得更聪明。FPGA可以用作多个领域的加速器,可以在进行加密的同时进行面部搜索,而且能在基本上在微秒内重新编程FPGA。这比大规模的单个定制部件的成本低得多且具备更高的灵活性。”

英特尔看到了更大的机会

英特尔看到了比这更大的机会。

Intel首席执行官Brian Krzanich在收购完成后宣布,到2020年,将有高达三分之一的云端服务提供商使用混合的CPU-FPGA服务器节点,这是一个令人震惊的消息。这也给从2014年底就开始瞄准的数据中心的Altera带来大约10亿美元的FPGA的机会。这数目大概是Nvidia目前流行的Tesla计算引擎营收的三倍。

在2014年初,英特尔展示了一个相同封装的Xeon-FPGA芯片原型,并且打算在2017年推出这个芯片。这是基于当时数据中心集团GM Diane Bryant提出的一个带有FPGA电路的Xeon设想不久之后推出的。

在宣布Altera交易的电话会议上,Krzanich没有说明退出这款Xeon-FPGA设备的时间,但是他表示英特尔将创建一个面向物联网市场的单die混合Atom-FPGA设备。英特尔正在考究在混合过渡阶段,是否需要为Atom和Altera FPGA做单一封装混合。

在2016年的初太平洋顶峰证券的电话会议中,英特尔的云端基础设施集团总经理Jason Waxman与研究分析师讨论关于英特尔数据中心业务时表示,FPGA已经成为了热门话题。

首先,虽然他没有指名道姓哪家厂商或者任何设备的规格,但是Waxman确定英特尔已经为某些客户提供了Xeon加FPGA的混合计算引擎样品。

在会议期间,Waxman更是畅谈了驱动英特尔收购Altera和插足可编程计算设备的原因。 英特尔显然希望让FPGA成为主流,即使这可能会在数据中心中蚕食Xeon的某些业务。 (我们认为,因为英特尔认为这种自相残杀是不可避免的,控制它的最好方法是使FPGA成为Xeon阵容的一部分。)

Waxman说:“我认为这项收购可能涉及许多事情,而且其中一些已经超越数据中心集团的范围。”

首先,一个潜在的核心业务往往是由制造领先优势驱动。在这方面我们能很好的掌控,而且这样做还有良好的协同作用。

再者,还有物联网“集团”对此也有很强的兴趣。

据我们所知,某些大规模工作负载的扩展(如机器学习,某些网络功能)吸引了越来越多的人关注。我们才意识到我们或者可以在性能方面取得一些突破,这将是一个把FPGA从数据中心应用程序中移植到更多适合的、广泛发展领域的良好机会。

但是在数据中心集团里的协作,FPGA不过是给CPU做个伴,帮助解决云端服务提供商和其他类型的大规模应用程序的问题。

英特尔认为对FPGA加速有优先和大量需求的关键应用包括机器学习,搜索引擎索引,加密和数据压缩。正如Waxman指出,这些往往是很有针对性的,且没有统一的使用案例。这就是Krzanich斩钉截铁说三分之一的云端服务提供商将在五年内使用FPGA加速的依据。

跨越FPGA的障碍

虽然每个人都抱怨编程FPGA有多难,但英特尔并不为此退缩。虽然没有透露太多相关计划的情况下,Waxman提出了一些方法让FPGA更容易被运用和理解。

Waxman说:“我们所拥有的是独一无二的,这是其他人不能给的。那就是我们能够了解这些工作负载和能够推动加速的能力。

“我们看到一条促进机器学习,加速存储加密,加速网络功能的捷径”,Waxman强调。这是基于我们对这些工作负载的深入了解,所以才让我们看到了这样的机会。

但现在FPGA还需要面对一些困难,因为现在人们是写RTL的。我们是一家写RTL的公司,所以我们可以解决这个问题。首先我们使它运作,然后我们可以降低进入的门槛。第三步是真正的规模经济学,而这全部是靠集成和制造的实力。

为了解决这些障碍,我们提供了一系列的方法。

X86+FPGA?

对于那些英特尔打算用FPGA来代替Xeons的猜测,Waxman表示这是一派胡言。

Waxman表示,对于那些对高速率和重复性有强烈需求的算法,具有先天优势的FPGA就是其最好的选择。而那些对延迟有极高需求的数据操作和转换,FPGA也是候选人。

考虑到Altera已经在一个SoC上集成了ARM处理器和FPGA,这很自然地会想到英特尔会试图用X86内核全面替换ARM内核来做类似的设备。但它看起来不像这会发生。

首先,在2016年第二季度英特尔财务声明会上,Krzanich承诺,英特尔将加强对目前使用Altera的ARM-FPGA芯片客户的支持。

Waxman进一步澄清:“我们的观点是会以某种形式把FPGA集成到Xeon里。我们已经公开宣布将会打造第一代使用这种单一封装的设备,但是我们将根据进展情况调整方向,甚至可能会在同一个die上实现。我们将根据客户的反馈了解什么是正确的组合。

顺便说一下,我仍然期待看到没有集成的系统,保持他们会做系统级的协同。我们不会将Xeon与FPGA以多种方式组合集成,反之我们会在市场上找到正确的目标和平衡。”

编程问题首当其冲

虽然Altera的工具集利用OpenCL编程模型获得应用程序代码,并将其转换为RTL(FPGA的原生语言),但是有趣的是,英特尔并不认为FPGA在数据中心的未来成功是基于OpenCL与RTL工具集成的改进或更广泛地采用OpenCL。

Waxman也强调地说:“这并不是以OpenCL为基础的。”虽然我们确实把OpenCL看作是进一步扩大FPGA应用范围的一个途径,但目前FPGA的初始云端部署可能由更具能力的公司完成,但他们并没有要求我们提供OpenCL。Waxman补充说。

Waxman在不能“自由”地谈论的情况下,暗示英特尔有计划使FPGA更容易编程。他表示Intel将会为程序员提供RTL库,方便他们调用在FPGA上部署的例程,并推动在其上执行应用程序的gate的形成,来实现应用程序例程的gate,而不是让他们自己创建例程。这有一定的意义,与Convey(现在是美光科技的一个部门)几年前用FPGA加速系统处理的方案一样。

Waxman说:“我认为有一个连续的加速。在一开始,你可能不知道你正在试图加速什么,只是做了一些尝试,因此在这个阶段加速,你想要的是一个更通用的目的。当你开始真正地想要加速的时候,你会想要更高效的,更低的功耗和更少的空间,这时你就会把焦点移到FPGA上。”

Waxman还引用了Microsoft在其“Catapult”系统上使用FPGA加速的方案来说明。

该系统采用其Open Cloud Server并添加FPGA夹层卡作为加速器。我们在3月份研究了这个项目,将这些加速器应用在Google上执行相同的图像识别训练算法,得出的结果显示,25瓦的FPGA器件相对于使用Nvidia Tesla K20 GPU加速器(235瓦特)的服务器,提高了更好的性能/瓦特。

正如我们所说,我们对于微软和Google发布的性能数据毫无疑问。但是对分立的GPU或FPGA执行应用性能和对自身的热配置文件进行测量都是不公平的。你必须在服务器节点级别上看到这一点。

如果意识到这点,得到FPGA辅助的Microsoft服务器在系统级只稍稍领先于用Tesla K20s的Google服务器。(这些只是我们基于每秒每瓦特图像处理性能的估计)。在这个对比中,Microsoft应该不考虑成本。而且坦白说,不同于什么都配备的Tesla GPU,微软开放云端服务器并没有使用Juice或Cooling。真正的评测怎么都会使用GPU夹层卡,同时还需要考虑热量,性能和价格等因素。

但是Waxman讨论的重点仍然是那个。“在某个时候,你真的很想要那个能给你惊喜,并且能做到更低功耗的方案。而这就是我们的FPGA方案所擅长的方面。”

云端业务

最后要考虑的是英特尔的云端业务。这些客户现在占据了他们数据中心集团收入的25%。

整体来看,他们的购买量每年增长约25%。预计从2016年开始,未来几年整体数据中心集团业务都将增长15%。让我们做一些计算。

如果英特尔的计划如期实施,他的数据中心集团2016年收益将会达到166亿美元。云端服务提供商(其中包括在The Next Platform上使用我们的语言的云端构建者和超大规模计算者)占大约41亿美元,其余归属于英特尔数据中心,销售数据大约为125亿美元。因此,英特尔数据中心的业务增长在12%左右(除云端外),是云端速率的一半。英特尔需要以任何方式来满足云端的增长和明显的FPGA需求,即使它只占用Xeon容量的一点点。对于英特尔来说是这个的选择比让GPU加速持续增长的方案要好。

编程方面可能是阻碍FPGA被广泛采用的一个主因(不像其他加速器,具有丰富的开发生态系统,如Nvidia GPU的CUDA)。这就驱动程序员去基于C语言去做扩展设计,或使用OpenCL,而不是用过去困扰FPGA开发的低级模型。但即使在应用的过程中有这么多里程碑,FPGA仍然不被主流青睐。我们将会探索解决编程问题的方法和机会。

虽然我们已经与这个相对较小的生态系统中的许多供应商(包括Altera和Xilinx,两个主要供应商)进行了交流,但按照FPGA长期研究员Russell Tessier所说,FPGA在更广阔的市场上大展拳脚的日子还在前面,新的发展意味着更广泛的采用。

他在马萨诸塞大学(他还在Altera工作,并且Mentor Graphics收购的虚拟机工程的创始人)研究了FPGA二十多年,他认为FPGA从科学项目到企业应用的形势正式缓变化。他认为其中的关键是来自于设计工具的改进,设计人员不断提高他们设计高水平。除此与外,工具vendor可以更好地引导芯片发展。他补充说,设备内的大量逻辑量意味着用户能够实现更多的功能,这使得FPGA对更多领域更广泛的吸引力。

Tessier说:“在过去几年里,FPGA的一个明显趋势就是这些设备更容易“程序化”。

Xilinx目前鼓励使用其Vivado产品的时候,用C语言进行设计。Altera还有一个已经开发的OpenCL环境。关键是两家公司都在试图创建一个环境,让用户可以使用更熟悉的编程(如C和OpenCL),而不必是使用RTL设计专家所擅长的Verilog或VHDL。虽然在过去几年里取得不错的成绩,但这仍然处于推进的阶段,不过这将有助于把更多的事情地移入主流。

其中一个对FPGA真正有利的因素就是如果将其和芯片搭配使用,建立一个快速的内部互联,它能解决memory和数据移动中的限制。这种优势就是吸引Intel收购Altera的主要诱因。另外,如果像英特尔和IBM这样的大公司能够积极推动FPGA的软件生态系统的建设,其应用市场将会迅速扩张。FPGA的主流化(至少现在没有GPU那么重要,)可能会更快地出现。

Tessier解释:“标准核心处理器集成的增加肯定是关键所在。过去的障碍是语言和工具,随着这些障碍越来越少,为芯片供应商新的合作机会打开了一扇门。由于这些和其他“主流化”趋势出现,不断做出的改变的FPGA的应用领域将继续增长。例如,金融服务商店是第一个使用FPGA进行财务趋势和股票选择分析的用户,但使用案例正在扩大。现在有更强的设备可以解决更大的问题。

更广泛的应用领域

除此之外,FPGA通过的其他新领域发现新用途,包括DNA测序,安全性,加密和一些关键的机器学习任务。

当然,我们希望FPGA变得强大,并“进入”世界上最大的云端和超大规模数据中心,Xilnix数据中心部门副总裁Hamant Dhulla对此表示强烈赞同。他在2016年初,他告诉The Next Platform, “异构计算已经不再是一种趋势,而是现实”,也就是在那个时候,微软推出了使用FPGA的Catapult案例(现在就很多或以后会很多),英特尔收购了Altera以及看到了更多FPGA将广泛应用在数据中心的声明。

从机器学习,高性能计算,数据分析等领域,FPGA在更多样化的应用领域中崭露头角。这些都与FPGA上嵌入了越来越多可用的on-chip存储器有关,这些都是FPGA制造商和潜在终端用户所期待的。 Dhulla表示,市场潜力足够大,让Xilinx能够调整其业务的方式。 过去几年,存储和网络主导了FPGA用户群。但未来五年内,计算端的需求将远远超过存储和网络,并都将沿着稳定的增长线继续发展。

在FPGA其他的热门领域(包括机器学习),它们的更像是一个带有GPU 的“协作”加速器。毫无疑问,对于许多机器学习工作负载的训练部分,GPU是主要的。因此为这里需要很多计算能力,就像HPC一样,其中power envelope tradeoff值得的。但是这些客户购买了数十或数百个GPU,而不是数十万个,庞大的加速器数目正使用在机器学习pipeline的推理部分,这就是市场所在。

正如我们指出的,Nvidia正在使用两个独立的GPU(用M4来训练,更低功耗的M4插入来削减服务器)来抵消这一点,但Dhulla认为FPGA仍然能够通过采用PCIe方法降低功耗,也可以嵌入超大规模数据中心。

他们的SDAccel编程环境通过提供对C,C ++和OpenCL的高级接口,使其更实用,但是推动超大规模和HPC采用的真正途径是通过最终用户示例。

当涉及到这些早期的用户,就像为下一代的FPGA的应用搭建了舞台,Dhulla指向像Edico Genome这样的公司。Xilinx目前还与其他领域的客户合作,包括石油和天然气和金融方面的历史计算方面。早期客户将Xilinx 的FPGA应用在机器学习,图像识别和分析以及安全性方面,这可以看作他们计算加速业务发展的第一步。

尽管双精度性能和总体价格不佳,FPGA的真正的大规模应用机会在于云端。因为FPGA可以提供GPU所不能提供的优势。如果FPGA供应商能够说服其最终用户,他们的加速器可以提供相当大的性能提升(在某些情况下他们会这样做)给关键的工作负载。提供一个通过带有其他加速器(例如CUDA)的complexity-wise的编程环境推进OpenCL开发,通过在云端中提供FPGA来解决价格问题。这可能是一个新的希望。

当然,这种希望来源于将FPGA部署到有超密集服务器云端架构内,而不是在单机的销售上。这种模式已经在FPGA的金融服务中发生。

正如他们GPU加速器“伙伴”围绕深度学习进行拉动,以便迅速得到更多的用户, FPGA设备在探索一个通过解决神经网络和深度学习的问题的方式找寻入侵市场的真正的机会。

新的应用程序主机意味着新的市场,随着云端应用的推广消除了一些管理开销,它可能意味着更广泛的采用。FPGA供应商努力推动它在一些关键的机器学习,神经网络和搜索方面的应用。FPGA在诸如自然语言处理,医学成像,深度数据检测等领域中的超大规模上下文中变得越来越普遍。

在过去一年里,FPGA的多种应用得到曝光,特别是在深度学习和神经网络,以及图像识别和自然语言处理等领域。例如,微软使用FPGA在1,632个节点上提供2倍的搜索服务,并采用创新的高吞吐量网络来支持Altera FPGA驱动的工作。中国的搜索引擎巨头百度(也是许多深度学习和神经网络任务GPU用户)正在用FPGA执行存储控制,其每天的数据吞吐量在100TB到1PB之间。

使用FPGA的大规模数据中心和其他领域的应用正在吸引人们对FPGA的单精度浮点性能的更多关注。

虽然一些案例使用(包括百度示例),将GPU作为计算加速器和FPGA用在存储端,但Altera,Xilnix,Nallatech和IBM的研究人员在OpenPower联盟展示了FPGA在云端深度学习的光明前景。

可以说现在属于FPGA的一个黄金时代。
 
 
来源:网络
504 浏览

芯片全生命周期科普

设备硬件类 星旭自动化 2016-11-17 19:34 发表了文章 来自相关话题

复杂繁琐的芯片设计流程

芯片制造的过程就如同用乐高盖房子一样,先有晶圆作为地基,再层层往上叠的芯片制造流程后,就可产出必要的 IC 芯片(这些会在后面介绍)。然而,没有设计图,拥有再强制造能力都没有用,因此,建筑师的角色相当重要。但是 IC 设计中的建筑师究竟是谁呢?本文接下来要针对 IC 设计做介绍。

在 IC 生产流程中,IC 多由专业 IC 设计公司进行规划、设计,像是联发科、高通、Intel 等知名大厂,都自行设计各自的 IC 芯片,提供不同规格、效能的芯片给下游厂商选择。因为 IC 是由各厂自行设计,所以 IC 设计十分仰赖工程师的技术,工程师的素质影响着一间企业的价值。然而,工程师们在设计一颗 IC 芯片时,究竟有那些步骤?设计流程可以简单分成如下。






设计第一步,订定目标

在 IC 设计中,最重要的步骤就是规格制定。这个步骤就像是在设计建筑前,先决定要几间房间、浴室,有什么建筑法规需要遵守,在确定好所有的功能之后在进行设计,这样才不用再花额外的时间进行后续修改。IC 设计也需要经过类似的步骤,才能确保设计出来的芯片不会有任何差错。

规格制定的第一步便是确定 IC 的目的、效能为何,对大方向做设定。接着是察看有哪些协定要符合,像无线网卡的芯片就需要符合 IEEE 802.11 等规範,不然,这芯片将无法和市面上的产品相容,使它无法和其他设备连线。最后则是确立这颗 IC 的实作方法,将不同功能分配成不同的单元,并确立不同单元间连结的方法,如此便完成规格的制定。

设计完规格后,接着就是设计芯片的细节了。这个步骤就像初步记下建筑的规画,将整体轮廓描绘出来,方便后续制图。在 IC 芯片中,便是使用硬体描述语言(HDL)将电路描写出来。常使用的 HDL 有 Verilog、VHDL 等,藉由程式码便可轻易地将一颗 IC 地功能表达出来。接着就是检查程式功能的正确性并持续修改,直到它满足期望的功能为止。





▲ 32 bits 加法器的 Verilog 范例。

有了电脑,事情都变得容易

有了完整规画后,接下来便是画出平面的设计蓝图。在 IC 设计中,逻辑合成这个步骤便是将确定无误的 HDL code,放入电子设计自动化工具(EDA tool),让电脑将 HDL code 转换成逻辑电路,产生如下的电路图。之后,反覆的确定此逻辑闸设计图是否符合规格并修改,直到功能正确为止。






▲控制单元合成后的结果。

最后,将合成完的程式码再放入另一套 EDA tool,进行电路布局与绕线(Place And Route)。在经过不断的检测后,便会形成如下的电路图。图中可以看到蓝、红、绿、黄等不同颜色,每种不同的颜色就代表着一张光罩。至于光罩究竟要如何运用呢?






▲常用的演算芯片- FFT 芯片,完成电路布局与绕线的结果。

层层光罩,叠起一颗芯片

首先,目前已经知道一颗 IC 会产生多张的光罩,这些光罩有上下层的分别,每层有各自的任务。下图为简单的光罩例子,以积体电路中最基本的元件 CMOS 为範例,CMOS 全名为互补式金属氧化物半导体(Complementary metal–oxide–semiconductor),也就是将 NMOS 和 PMOS 两者做结合,形成 CMOS。至于什么是金属氧化物半导体(MOS)?这种在芯片中广泛使用的元件比较难说明,一般读者也较难弄清,在这裡就不多加细究。

下图中,左边就是经过电路布局与绕线后形成的电路图,在前面已经知道每种颜色便代表一张光罩。右边则是将每张光罩摊开的样子。制作是,便由底层开始,依循上一篇 IC 芯片的制造中所提的方法,逐层制作,最后便会产生期望的芯片了。






至此,对于 IC 设计应该有初步的了解,整体看来就很清楚 IC 设计是一门非常复杂的专业,也多亏了电脑辅助软体的成熟,让 IC 设计得以加速。IC 设计厂十分依赖工程师的智慧,这裡所述的每个步骤都有其专门的知识,皆可独立成多门专业的课程,像是撰写硬体描述语言就不单纯的只需要熟悉程式语言,还需要了解逻辑电路是如何运作、如何将所需的演算法转换成程式、合成软体是如何将程式转换成逻辑闸等问题。

其中主要半导体设计公司有英特尔、高通、博通、英伟达、美满、赛灵思、Altera、联发科、海思、展讯、中兴微电子、华大、大唐、智芯、敦泰、士兰、中星、格科等。

什么是晶圆?

在半导体的新闻中,总是会提到以尺寸标示的晶圆厂,如 8 寸或是 12 寸晶圆厂,然而,所谓的晶圆到底是什么东西?其中 8 寸指的是什么部分?要产出大尺寸的晶圆制造又有什么难度呢?以下将逐步介绍半导体最重要的基础——「晶圆」到底是什么。

晶圆(wafer),是制造各式电脑芯片的基础。我们可以将芯片制造比拟成用乐高积木盖房子,藉由一层又一层的堆叠,完成自己期望的造型(也就是各式芯片)。然而,如果没有良好的地基,盖出来的房子就会歪来歪去,不合自己所意,为了做出完美的房子,便需要一个平稳的基板。对芯片制造来说,这个基板就是接下来将描述的晶圆。






(Souse:Flickr/Jonathan Stewart CC BY 2.0)

首先,先回想一下小时候在玩乐高积木时,积木的表面都会有一个一个小小圆型的凸出物,藉由这个构造,我们可将两块积木稳固的叠在一起,且不需使用胶水。芯片制造,也是以类似这样的方式,将后续添加的原子和基板固定在一起。因此,我们需要寻找表面整齐的基板,以满足后续制造所需的条件。

在固体材料中,有一种特殊的晶体结构──单晶(Monocrystalline)。它具有原子一个接着一个紧密排列在一起的特性,可以形成一个平整的原子表层。因此,采用单晶做成晶圆,便可以满足以上的需求。然而,该如何产生这样的材料呢,主要有二个步骤,分别为纯化以及拉晶,之后便能完成这样的材料。

如何制造单晶的晶圆

纯化分成两个阶段,第一步是冶金级纯化,此一过程主要是加入碳,以氧化还原的方式,将氧化硅转换成 98% 以上纯度的硅。大部份的金属提炼,像是铁或铜等金属,皆是采用这样的方式获得足够纯度的金属。但是,98% 对于芯片制造来说依旧不够,仍需要进一步提升。因此,将再进一步采用西门子制程(Siemens process)作纯化,如此,将获得半导体制程所需的高纯度多晶硅。






▲硅柱制造流程(Source: Wikipedia)

接着,就是拉晶的步骤。首先,将前面所获得的高纯度多晶硅融化,形成液态的硅。之后,以单晶的硅种(seed)和液体表面接触,一边旋转一边缓慢的向上拉起。至于为何需要单晶的硅种,是因为硅原子排列就和人排队一样,会需要排头让后来的人该如何正确的排列,硅种便是重要的排头,让后来的原子知道该如何排队。最后,待离开液面的硅原子凝固后,排列整齐的单晶硅柱便完成了。






▲单晶硅柱(Souse:Wikipedia)

然而,8寸、12寸又代表什么东西呢?他指的是我们产生的晶柱,长得像铅笔笔桿的部分,表面经过处理并切成薄圆片后的直径。至于制造大尺寸晶圆又有什么难度呢?如前面所说,晶柱的制作过程就像是在做棉花糖一样,一边旋转一边成型。有制作过棉花糖的话,应该都知道要做出大而且扎实的棉花糖是相当困难的,而拉晶的过程也是一样,旋转拉起的速度以及温度的控制都会影响到晶柱的品质。也因此,尺寸愈大时,拉晶对速度与温度的要求就更高,因此要做出高品质 12 寸晶圆的难度就比 8 寸晶圆还来得高。

只是,一整条的硅柱并无法做成芯片制造的基板,为了产生一片一片的硅晶圆,接着需要以钻石刀将硅晶柱横向切成圆片,圆片再经由抛光便可形成芯片制造所需的硅晶圆。经过这么多步骤,芯片基板的制造便大功告成,下一步便是堆叠房子的步骤,也就是芯片制造。至于该如何制作芯片呢?

层层堆叠打造的芯片

在介绍过硅晶圆是什么东西后,同时,也知道制造 IC 芯片就像是用乐高积木盖房子一样,藉由一层又一层的堆叠,创造自己所期望的造型。然而,盖房子有相当多的步骤,IC 制造也是一样,制造 IC 究竟有哪些步骤?本文将将就 IC 芯片制造的流程做介绍。

在开始前,我们要先认识 IC 芯片是什么。IC,全名积体电路(Integrated Circuit),由它的命名可知它是将设计好的电路,以堆叠的方式组合起来。藉由这个方法,我们可以减少连接电路时所需耗费的面积。下图为 IC 电路的 3D 图,从图中可以看出它的结构就像房子的樑和柱,一层一层堆叠,这也就是为何会将 IC 制造比拟成盖房子。






▲ IC 芯片的 3D 剖面图。(Source:Wikipedia)

从上图中 IC 芯片的 3D 剖面图来看,底部深蓝色的部分就是上一篇介绍的晶圆,从这张图可以更明确的知道,晶圆基板在芯片中扮演的角色是何等重要。至于红色以及土黄色的部分,则是于 IC 制作时要完成的地方。

首先,在这裡可以将红色的部分比拟成高楼中的一楼大厅。一楼大厅,是一栋房子的门户,出入都由这裡,在掌握交通下通常会有较多的机能性。因此,和其他楼层相比,在兴建时会比较复杂,需要较多的步骤。在 IC 电路中,这个大厅就是逻辑闸层,它是整颗 IC 中最重要的部分,藉由将多种逻辑闸组合在一起,完成功能齐全的 IC 芯片。

黄色的部分,则像是一般的楼层。和一楼相比,不会有太复杂的构造,而且每层楼在兴建时也不会有太多变化。这一层的目的,是将红色部分的逻辑闸相连在一起。之所以需要这么多层,是因为有太多线路要连结在一起,在单层无法容纳所有的线路下,就要多叠几层来达成这个目标了。在这之中,不同层的线路会上下相连以满足接线的需求。

分层施工,逐层架构

知道 IC 的构造后,接下来要介绍该如何制作。试想一下,如果要以油漆喷罐做精细作图时,我们需先割出图形的遮盖板,盖在纸上。接着再将油漆均匀地喷在纸上,待油漆乾后,再将遮板拿开。不断的重复这个步骤后,便可完成整齐且复杂的图形。制造 IC 就是以类似的方式,藉由遮盖的方式一层一层的堆叠起来。






制作 IC 时,可以简单分成以上 4 种步骤。虽然实际制造时,制造的步骤会有差异,使用的材料也有所不同,但是大体上皆采用类似的原理。这个流程和油漆作画有些许不同,IC 制造是先涂料再加做遮盖,油漆作画则是先遮盖再作画。以下将介绍各流程。

金属溅镀:将欲使用的金属材料均匀洒在晶圆片上,形成一薄膜。

涂布光阻:先将光阻材料放在晶圆片上,透过光罩(光罩原理留待下次说明),将光束打在不要的部分上,破坏光阻材料结构。接着,再以化学药剂将被破坏的材料洗去。

蚀刻技术:将没有受光阻保护的硅晶圆,以离子束蚀刻。

光阻去除:使用去光阻液皆剩下的光阻溶解掉,如此便完成一次流程。

最后便会在一整片晶圆上完成很多 IC 芯片,接下来只要将完成的方形 IC 芯片剪下,便可送到封装厂做封装,至于封装厂是什么东西?就要待之后再做说明啰。






▲各种尺寸晶圆的比较。(Source:Wikipedia)

其中,主要晶圆代工厂有格罗方德、三星电子、Tower Jazz、Dongbu、美格纳、IBM、富士通、英特尔、海力士、台积电、联电、中芯国际、力晶、华虹、德茂、武汉新芯、华微、华立、力芯

纳米制程是什么?

三星以及台积电在先进半导体制程打得相当火热,彼此都想要在晶圆代工中抢得先机以争取订单,几乎成了 14 纳米与 16 纳米之争,然而 14 纳米与 16 纳米这两个数字的究竟意义为何,指的又是哪个部位?而在缩小制程后又将来带来什么好处与难题?以下我们将就纳米制程做简单的说明。

纳米到底有多细微?

在开始之前,要先了解纳米究竟是什么意思。在数学上,纳米是 0.000000001 公尺,但这是个相当差的例子,毕竟我们只看得到小数点后有很多个零,却没有实际的感觉。如果以指甲厚度做比较的话,或许会比较明显。

用尺规实际测量的话可以得知指甲的厚度约为 0.0001 公尺(0.1 毫米),也就是说试着把一片指甲的侧面切成 10 万条线,每条线就约等同于 1 纳米,由此可略为想像得到 1 纳米是何等的微小了。

知道纳米有多小之后,还要理解缩小制程的用意,缩小电晶体的最主要目的,就是可以在更小的芯片中塞入更多的电晶体,让芯片不会因技术提升而变得更大;其次,可以增加处理器的运算效率;再者,减少体积也可以降低耗电量;最后,芯片体积缩小后,更容易塞入行动装置中,满足未来轻薄化的需求。

再回来探究纳米制程是什么,以 14 纳米为例,其制程是指在芯片中,线最小可以做到 14 纳米的尺寸,下图为传统电晶体的长相,以此作为例子。缩小电晶体的最主要目的就是为了要减少耗电量,然而要缩小哪个部分才能达到这个目的?左下图中的L 就是我们期望缩小的部分。藉由缩小闸极长度,电流可以用更短的路径从 Drain 端到 Source 端(有兴趣的话可以利用 Google 以 MOSFET 搜寻,会有更详细的解释)。






(Source:www.slideshare.net)

此外,电脑是以 0 和 1 作运算,要如何以电晶体满足这个目的呢?做法就是判断电晶体是否有电流流通。当在 Gate 端(绿色的方块)做电压供给,电流就会从 Drain 端到 Source 端,如果没有供给电压,电流就不会流动,这样就可以表示 1 和0。(至于为什么要用 0 和 1 作判断,有兴趣的话可以去查布林代数,我们是使用这个方法作成电脑的)

尺寸缩小有其物理限制

不过,制程并不能无限制的缩小,当我们将电晶体缩小到 20 纳米左右时,就会遇到量子物理中的问题,让电晶体有漏电的现象,抵销缩小 L 时获得的效益。作为改善方式,就是导入 FinFET(Tri-Gate)这个概念,如右上图。在 Intel 以前所做的解释中,可以知道藉由导入这个技术,能减少因物理现象所导致的漏电现象。






(Source:www.slideshare.net)

更重要的是,藉由这个方法可以增加 Gate 端和下层的接触面积。在传统的做法中(左上图),接触面只有一个平面,但是采用 FinFET(Tri-Gate)这个技术后,接触面将变成立体,可以轻易的增加接触面积,这样就可以在保持一样的接触面积下让 Source-Drain 端变得更小,对缩小尺寸有相当大的帮助。

最后,则是为什么会有人说各大厂进入 10 纳米制程将面临相当严峻的挑战,主因是 1 颗原子的大小大约为 0.1 纳米,在 10 纳米的情况下,一条线只有不到 100 颗原子,在制作上相当困难,而且只要有一个原子的缺陷,像是在制作过程中有原子掉出或是有杂质,就会产生不知名的现象,影响产品的良率。

如果无法想像这个难度,可以做个小实验。在桌上用 100 个小珠子排成一个 10×10 的正方形,并且剪裁一张纸盖在珠子上,接着用小刷子把旁边的的珠子刷掉,最后使他形成一个 10×5 的长方形。这样就可以知道各大厂所面临到的困境,以及达成这个目标究竟是多么艰巨。

随着三星以及台积电在近期将完成 14 纳米、16 纳米 FinFET 的量产,两者都想争夺 Apple 下一代的 iPhone 芯片代工,我们将看到相当精彩的商业竞争,同时也将获得更加省电、轻薄的手机,要感谢摩尔定律所带来的好处呢。

告诉你什么是封装

经过漫长的流程,从设计到制造,终于获得一颗 IC 芯片了。然而一颗芯片相当小且薄,如果不在外施加保护,会被轻易的刮伤损坏。此外,因为芯片的尺寸微小,如果不用一个较大尺寸的外壳,将不易以人工安置在电路板上。因此,本文接下来要针对封装加以描述介绍。

目前常见的封装有两种,一种是电动玩具内常见的,黑色长得像蜈蚣的 DIP 封装,另一为购买盒装CPU 时常见的 BGA 封装。至于其他的封装法,还有早期 CPU 使用的 PGA(Pin Grid Array;Pin Grid Array)或是 DIP 的改良版 QFP(塑料方形扁平封装)等。因为有太多种封装法,以下将对 DIP 以及 BGA 封装做介绍。

传统封装,历久不衰

首先要介绍的是双排直立式封装(Dual Inline Package;DIP),从下图可以看到采用此封装的 IC 芯片在双排接脚下,看起来会像条黑色蜈蚣,让人印象深刻,此封装法为最早采用的 IC 封装技术,具有成本低廉的优势,适合小型且不需接太多线的芯片。但是,因为大多采用的是塑料,散热效果较差,无法满足现行高速芯片的要求。因此,使用此封装的,大多是历久不衰的芯片,如下图中的 OP741,或是对运作速度没那么要求且芯片较小、接孔较少的 IC 芯片。






▲左图的 IC 芯片为 OP741,是常见的电压放大器。右图为它的剖面图,这个封装是以金线将芯片接到金属接脚(Leadframe)。(Source :左图 Wikipedia、右图 Wikipedia)

至于球格阵列(Ball Grid Array,BGA)封装,和 DIP 相比封装体积较小,可轻易的放入体积较小的装置中。此外,因为接脚位在芯片下方,和 DIP 相比,可容纳更多的金属接脚

相当适合需要较多接点的芯片。然而,采用这种封装法成本较高且连接的方法较复杂,因此大多用在高单价的产品上。






▲左图为采用 BGA 封装的芯片。右图为使用覆晶封装的 BGA 示意图。(Source:左图 Wikipedia)

行动装置兴起,新技术跃上舞台

然而,使用以上这些封装法,会耗费掉相当大的体积。像现在的行动装置、穿戴装置等,需要相当多种元件,如果各个元件都独立封装,组合起来将耗费非常大的空间,因此目前有两种方法,可满足缩小体积的要求,分别为 SoC(System On Chip)以及 SiP(System In Packet)。

在智慧型手机刚兴起时,在各大财经杂誌上皆可发现 SoC 这个名词,然而 SoC 究竟是什么东西?简单来说,就是将原本不同功能的 IC,整合在一颗芯片中。藉由这个方法,不单可以缩小体积,还可以缩小不同 IC 间的距离,提升芯片的计算速度。至于制作方法,便是在 IC 设计阶段时,将各个不同的 IC 放在一起,再透过先前介绍的设计流程,制作成一张光罩。

然而,SoC 并非只有优点,要设计一颗 SoC 需要相当多的技术配合。IC 芯片各自封装时,各有封装外部保护,且 IC 与 IC 间的距离较远,比较不会发生交互干扰的情形。但是,当将所有 IC 都包装在一起时,就是噩梦的开始。IC 设计厂要从原先的单纯设计 IC,变成了解并整合各个功能的 IC,增加工程师的工作量。此外,也会遇到很多的状况,像是通讯芯片的高频讯号可能会影响其他功能的 IC 等情形。

此外,SoC 还需要获得其他厂商的 IP(intellectual property)授权,才能将别人设计好的元件放到 SoC 中。因为制作 SoC 需要获得整颗 IC 的设计细节,才能做成完整的光罩,这同时也增加了 SoC 的设计成本。或许会有人质疑何不自己设计一颗就好了呢?因为设计各种 IC 需要大量和该 IC 相关的知识,只有像 Apple 这样多金的企业,才有预算能从各知名企业挖角顶尖工程师,以设计一颗全新的 IC,透过合作授权还是比自行研发划算多了。

折衷方案,SiP 现身

作为替代方案,SiP 跃上整合芯片的舞台。和 SoC 不同,它是购买各家的 IC,在最后一次封装这些 IC,如此便少了 IP 授权这一步,大幅减少设计成本。此外,因为它们是各自独立的 IC,彼此的干扰程度大幅下降。






▲ Apple Watch 采用 SiP 技术将整个电脑架构封装成一颗芯片,不单满足期望的效能还缩小体积,让手錶有更多的空间放电池。(Source:Apple 官网)

采用 SiP 技术的产品,最着名的非 Apple Watch 莫属。因为 Watch 的内部空间太小,它无法采用传统的技术,SoC 的设计成本又太高,SiP 成了首要之选。藉由 SiP 技术,不单可缩小体积,还可拉近各个 IC 间的距离,成为可行的折衷方案。下图便是 Apple Watch 芯片的结构图,可以看到相当多的 IC 包含在其中。






▲ Apple Watch 中采用 SiP 封装的 S1 芯片内部配置图。(Source:chipworks)

完成封装后,便要进入测试的阶段,在这个阶段便要确认封装完的 IC 是否有正常的运作,正确无误之后便可出货给组装厂,做成我们所见的电子产品。其中主要的半导体封装与测试企业有安靠、星科金朋、J-devices、Unisem、Nepes、日月光、力成、南茂、颀邦、京元电子、福懋、菱生精密、矽品、长电、优特
 
 
 
 
来源:1号机器人

智造家提供 查看全部
复杂繁琐的芯片设计流程

芯片制造的过程就如同用乐高盖房子一样,先有晶圆作为地基,再层层往上叠的芯片制造流程后,就可产出必要的 IC 芯片(这些会在后面介绍)。然而,没有设计图,拥有再强制造能力都没有用,因此,建筑师的角色相当重要。但是 IC 设计中的建筑师究竟是谁呢?本文接下来要针对 IC 设计做介绍。

在 IC 生产流程中,IC 多由专业 IC 设计公司进行规划、设计,像是联发科、高通、Intel 等知名大厂,都自行设计各自的 IC 芯片,提供不同规格、效能的芯片给下游厂商选择。因为 IC 是由各厂自行设计,所以 IC 设计十分仰赖工程师的技术,工程师的素质影响着一间企业的价值。然而,工程师们在设计一颗 IC 芯片时,究竟有那些步骤?设计流程可以简单分成如下。

1.jpg


设计第一步,订定目标

在 IC 设计中,最重要的步骤就是规格制定。这个步骤就像是在设计建筑前,先决定要几间房间、浴室,有什么建筑法规需要遵守,在确定好所有的功能之后在进行设计,这样才不用再花额外的时间进行后续修改。IC 设计也需要经过类似的步骤,才能确保设计出来的芯片不会有任何差错。

规格制定的第一步便是确定 IC 的目的、效能为何,对大方向做设定。接着是察看有哪些协定要符合,像无线网卡的芯片就需要符合 IEEE 802.11 等规範,不然,这芯片将无法和市面上的产品相容,使它无法和其他设备连线。最后则是确立这颗 IC 的实作方法,将不同功能分配成不同的单元,并确立不同单元间连结的方法,如此便完成规格的制定。

设计完规格后,接着就是设计芯片的细节了。这个步骤就像初步记下建筑的规画,将整体轮廓描绘出来,方便后续制图。在 IC 芯片中,便是使用硬体描述语言(HDL)将电路描写出来。常使用的 HDL 有 Verilog、VHDL 等,藉由程式码便可轻易地将一颗 IC 地功能表达出来。接着就是检查程式功能的正确性并持续修改,直到它满足期望的功能为止。

2.jpg

▲ 32 bits 加法器的 Verilog 范例。

有了电脑,事情都变得容易

有了完整规画后,接下来便是画出平面的设计蓝图。在 IC 设计中,逻辑合成这个步骤便是将确定无误的 HDL code,放入电子设计自动化工具(EDA tool),让电脑将 HDL code 转换成逻辑电路,产生如下的电路图。之后,反覆的确定此逻辑闸设计图是否符合规格并修改,直到功能正确为止。

3.jpg


▲控制单元合成后的结果。

最后,将合成完的程式码再放入另一套 EDA tool,进行电路布局与绕线(Place And Route)。在经过不断的检测后,便会形成如下的电路图。图中可以看到蓝、红、绿、黄等不同颜色,每种不同的颜色就代表着一张光罩。至于光罩究竟要如何运用呢?

4.jpg


▲常用的演算芯片- FFT 芯片,完成电路布局与绕线的结果。

层层光罩,叠起一颗芯片

首先,目前已经知道一颗 IC 会产生多张的光罩,这些光罩有上下层的分别,每层有各自的任务。下图为简单的光罩例子,以积体电路中最基本的元件 CMOS 为範例,CMOS 全名为互补式金属氧化物半导体(Complementary metal–oxide–semiconductor),也就是将 NMOS 和 PMOS 两者做结合,形成 CMOS。至于什么是金属氧化物半导体(MOS)?这种在芯片中广泛使用的元件比较难说明,一般读者也较难弄清,在这裡就不多加细究。

下图中,左边就是经过电路布局与绕线后形成的电路图,在前面已经知道每种颜色便代表一张光罩。右边则是将每张光罩摊开的样子。制作是,便由底层开始,依循上一篇 IC 芯片的制造中所提的方法,逐层制作,最后便会产生期望的芯片了。

5.jpg


至此,对于 IC 设计应该有初步的了解,整体看来就很清楚 IC 设计是一门非常复杂的专业,也多亏了电脑辅助软体的成熟,让 IC 设计得以加速。IC 设计厂十分依赖工程师的智慧,这裡所述的每个步骤都有其专门的知识,皆可独立成多门专业的课程,像是撰写硬体描述语言就不单纯的只需要熟悉程式语言,还需要了解逻辑电路是如何运作、如何将所需的演算法转换成程式、合成软体是如何将程式转换成逻辑闸等问题。

其中主要半导体设计公司有英特尔、高通、博通、英伟达、美满、赛灵思、Altera、联发科、海思、展讯、中兴微电子、华大、大唐、智芯、敦泰、士兰、中星、格科等。

什么是晶圆?

在半导体的新闻中,总是会提到以尺寸标示的晶圆厂,如 8 寸或是 12 寸晶圆厂,然而,所谓的晶圆到底是什么东西?其中 8 寸指的是什么部分?要产出大尺寸的晶圆制造又有什么难度呢?以下将逐步介绍半导体最重要的基础——「晶圆」到底是什么。

晶圆(wafer),是制造各式电脑芯片的基础。我们可以将芯片制造比拟成用乐高积木盖房子,藉由一层又一层的堆叠,完成自己期望的造型(也就是各式芯片)。然而,如果没有良好的地基,盖出来的房子就会歪来歪去,不合自己所意,为了做出完美的房子,便需要一个平稳的基板。对芯片制造来说,这个基板就是接下来将描述的晶圆。

6.jpg


(Souse:Flickr/Jonathan Stewart CC BY 2.0)

首先,先回想一下小时候在玩乐高积木时,积木的表面都会有一个一个小小圆型的凸出物,藉由这个构造,我们可将两块积木稳固的叠在一起,且不需使用胶水。芯片制造,也是以类似这样的方式,将后续添加的原子和基板固定在一起。因此,我们需要寻找表面整齐的基板,以满足后续制造所需的条件。

在固体材料中,有一种特殊的晶体结构──单晶(Monocrystalline)。它具有原子一个接着一个紧密排列在一起的特性,可以形成一个平整的原子表层。因此,采用单晶做成晶圆,便可以满足以上的需求。然而,该如何产生这样的材料呢,主要有二个步骤,分别为纯化以及拉晶,之后便能完成这样的材料。

如何制造单晶的晶圆

纯化分成两个阶段,第一步是冶金级纯化,此一过程主要是加入碳,以氧化还原的方式,将氧化硅转换成 98% 以上纯度的硅。大部份的金属提炼,像是铁或铜等金属,皆是采用这样的方式获得足够纯度的金属。但是,98% 对于芯片制造来说依旧不够,仍需要进一步提升。因此,将再进一步采用西门子制程(Siemens process)作纯化,如此,将获得半导体制程所需的高纯度多晶硅。

7.jpg


▲硅柱制造流程(Source: Wikipedia)

接着,就是拉晶的步骤。首先,将前面所获得的高纯度多晶硅融化,形成液态的硅。之后,以单晶的硅种(seed)和液体表面接触,一边旋转一边缓慢的向上拉起。至于为何需要单晶的硅种,是因为硅原子排列就和人排队一样,会需要排头让后来的人该如何正确的排列,硅种便是重要的排头,让后来的原子知道该如何排队。最后,待离开液面的硅原子凝固后,排列整齐的单晶硅柱便完成了。

8.jpg


▲单晶硅柱(Souse:Wikipedia)

然而,8寸、12寸又代表什么东西呢?他指的是我们产生的晶柱,长得像铅笔笔桿的部分,表面经过处理并切成薄圆片后的直径。至于制造大尺寸晶圆又有什么难度呢?如前面所说,晶柱的制作过程就像是在做棉花糖一样,一边旋转一边成型。有制作过棉花糖的话,应该都知道要做出大而且扎实的棉花糖是相当困难的,而拉晶的过程也是一样,旋转拉起的速度以及温度的控制都会影响到晶柱的品质。也因此,尺寸愈大时,拉晶对速度与温度的要求就更高,因此要做出高品质 12 寸晶圆的难度就比 8 寸晶圆还来得高。

只是,一整条的硅柱并无法做成芯片制造的基板,为了产生一片一片的硅晶圆,接着需要以钻石刀将硅晶柱横向切成圆片,圆片再经由抛光便可形成芯片制造所需的硅晶圆。经过这么多步骤,芯片基板的制造便大功告成,下一步便是堆叠房子的步骤,也就是芯片制造。至于该如何制作芯片呢?

层层堆叠打造的芯片

在介绍过硅晶圆是什么东西后,同时,也知道制造 IC 芯片就像是用乐高积木盖房子一样,藉由一层又一层的堆叠,创造自己所期望的造型。然而,盖房子有相当多的步骤,IC 制造也是一样,制造 IC 究竟有哪些步骤?本文将将就 IC 芯片制造的流程做介绍。

在开始前,我们要先认识 IC 芯片是什么。IC,全名积体电路(Integrated Circuit),由它的命名可知它是将设计好的电路,以堆叠的方式组合起来。藉由这个方法,我们可以减少连接电路时所需耗费的面积。下图为 IC 电路的 3D 图,从图中可以看出它的结构就像房子的樑和柱,一层一层堆叠,这也就是为何会将 IC 制造比拟成盖房子。

9.jpg


▲ IC 芯片的 3D 剖面图。(Source:Wikipedia)

从上图中 IC 芯片的 3D 剖面图来看,底部深蓝色的部分就是上一篇介绍的晶圆,从这张图可以更明确的知道,晶圆基板在芯片中扮演的角色是何等重要。至于红色以及土黄色的部分,则是于 IC 制作时要完成的地方。

首先,在这裡可以将红色的部分比拟成高楼中的一楼大厅。一楼大厅,是一栋房子的门户,出入都由这裡,在掌握交通下通常会有较多的机能性。因此,和其他楼层相比,在兴建时会比较复杂,需要较多的步骤。在 IC 电路中,这个大厅就是逻辑闸层,它是整颗 IC 中最重要的部分,藉由将多种逻辑闸组合在一起,完成功能齐全的 IC 芯片。

黄色的部分,则像是一般的楼层。和一楼相比,不会有太复杂的构造,而且每层楼在兴建时也不会有太多变化。这一层的目的,是将红色部分的逻辑闸相连在一起。之所以需要这么多层,是因为有太多线路要连结在一起,在单层无法容纳所有的线路下,就要多叠几层来达成这个目标了。在这之中,不同层的线路会上下相连以满足接线的需求。

分层施工,逐层架构

知道 IC 的构造后,接下来要介绍该如何制作。试想一下,如果要以油漆喷罐做精细作图时,我们需先割出图形的遮盖板,盖在纸上。接着再将油漆均匀地喷在纸上,待油漆乾后,再将遮板拿开。不断的重复这个步骤后,便可完成整齐且复杂的图形。制造 IC 就是以类似的方式,藉由遮盖的方式一层一层的堆叠起来。

10.jpg


制作 IC 时,可以简单分成以上 4 种步骤。虽然实际制造时,制造的步骤会有差异,使用的材料也有所不同,但是大体上皆采用类似的原理。这个流程和油漆作画有些许不同,IC 制造是先涂料再加做遮盖,油漆作画则是先遮盖再作画。以下将介绍各流程。

金属溅镀:将欲使用的金属材料均匀洒在晶圆片上,形成一薄膜。

涂布光阻:先将光阻材料放在晶圆片上,透过光罩(光罩原理留待下次说明),将光束打在不要的部分上,破坏光阻材料结构。接着,再以化学药剂将被破坏的材料洗去。

蚀刻技术:将没有受光阻保护的硅晶圆,以离子束蚀刻。

光阻去除:使用去光阻液皆剩下的光阻溶解掉,如此便完成一次流程。

最后便会在一整片晶圆上完成很多 IC 芯片,接下来只要将完成的方形 IC 芯片剪下,便可送到封装厂做封装,至于封装厂是什么东西?就要待之后再做说明啰。

11.jpg


▲各种尺寸晶圆的比较。(Source:Wikipedia)

其中,主要晶圆代工厂有格罗方德、三星电子、Tower Jazz、Dongbu、美格纳、IBM、富士通、英特尔、海力士、台积电、联电、中芯国际、力晶、华虹、德茂、武汉新芯、华微、华立、力芯

纳米制程是什么?

三星以及台积电在先进半导体制程打得相当火热,彼此都想要在晶圆代工中抢得先机以争取订单,几乎成了 14 纳米与 16 纳米之争,然而 14 纳米与 16 纳米这两个数字的究竟意义为何,指的又是哪个部位?而在缩小制程后又将来带来什么好处与难题?以下我们将就纳米制程做简单的说明。

纳米到底有多细微?

在开始之前,要先了解纳米究竟是什么意思。在数学上,纳米是 0.000000001 公尺,但这是个相当差的例子,毕竟我们只看得到小数点后有很多个零,却没有实际的感觉。如果以指甲厚度做比较的话,或许会比较明显。

用尺规实际测量的话可以得知指甲的厚度约为 0.0001 公尺(0.1 毫米),也就是说试着把一片指甲的侧面切成 10 万条线,每条线就约等同于 1 纳米,由此可略为想像得到 1 纳米是何等的微小了。

知道纳米有多小之后,还要理解缩小制程的用意,缩小电晶体的最主要目的,就是可以在更小的芯片中塞入更多的电晶体,让芯片不会因技术提升而变得更大;其次,可以增加处理器的运算效率;再者,减少体积也可以降低耗电量;最后,芯片体积缩小后,更容易塞入行动装置中,满足未来轻薄化的需求。

再回来探究纳米制程是什么,以 14 纳米为例,其制程是指在芯片中,线最小可以做到 14 纳米的尺寸,下图为传统电晶体的长相,以此作为例子。缩小电晶体的最主要目的就是为了要减少耗电量,然而要缩小哪个部分才能达到这个目的?左下图中的L 就是我们期望缩小的部分。藉由缩小闸极长度,电流可以用更短的路径从 Drain 端到 Source 端(有兴趣的话可以利用 Google 以 MOSFET 搜寻,会有更详细的解释)。

12.jpg


(Source:www.slideshare.net

此外,电脑是以 0 和 1 作运算,要如何以电晶体满足这个目的呢?做法就是判断电晶体是否有电流流通。当在 Gate 端(绿色的方块)做电压供给,电流就会从 Drain 端到 Source 端,如果没有供给电压,电流就不会流动,这样就可以表示 1 和0。(至于为什么要用 0 和 1 作判断,有兴趣的话可以去查布林代数,我们是使用这个方法作成电脑的)

尺寸缩小有其物理限制

不过,制程并不能无限制的缩小,当我们将电晶体缩小到 20 纳米左右时,就会遇到量子物理中的问题,让电晶体有漏电的现象,抵销缩小 L 时获得的效益。作为改善方式,就是导入 FinFET(Tri-Gate)这个概念,如右上图。在 Intel 以前所做的解释中,可以知道藉由导入这个技术,能减少因物理现象所导致的漏电现象。

13.jpg


(Source:www.slideshare.net

更重要的是,藉由这个方法可以增加 Gate 端和下层的接触面积。在传统的做法中(左上图),接触面只有一个平面,但是采用 FinFET(Tri-Gate)这个技术后,接触面将变成立体,可以轻易的增加接触面积,这样就可以在保持一样的接触面积下让 Source-Drain 端变得更小,对缩小尺寸有相当大的帮助。

最后,则是为什么会有人说各大厂进入 10 纳米制程将面临相当严峻的挑战,主因是 1 颗原子的大小大约为 0.1 纳米,在 10 纳米的情况下,一条线只有不到 100 颗原子,在制作上相当困难,而且只要有一个原子的缺陷,像是在制作过程中有原子掉出或是有杂质,就会产生不知名的现象,影响产品的良率。

如果无法想像这个难度,可以做个小实验。在桌上用 100 个小珠子排成一个 10×10 的正方形,并且剪裁一张纸盖在珠子上,接着用小刷子把旁边的的珠子刷掉,最后使他形成一个 10×5 的长方形。这样就可以知道各大厂所面临到的困境,以及达成这个目标究竟是多么艰巨。

随着三星以及台积电在近期将完成 14 纳米、16 纳米 FinFET 的量产,两者都想争夺 Apple 下一代的 iPhone 芯片代工,我们将看到相当精彩的商业竞争,同时也将获得更加省电、轻薄的手机,要感谢摩尔定律所带来的好处呢。

告诉你什么是封装

经过漫长的流程,从设计到制造,终于获得一颗 IC 芯片了。然而一颗芯片相当小且薄,如果不在外施加保护,会被轻易的刮伤损坏。此外,因为芯片的尺寸微小,如果不用一个较大尺寸的外壳,将不易以人工安置在电路板上。因此,本文接下来要针对封装加以描述介绍。

目前常见的封装有两种,一种是电动玩具内常见的,黑色长得像蜈蚣的 DIP 封装,另一为购买盒装CPU 时常见的 BGA 封装。至于其他的封装法,还有早期 CPU 使用的 PGA(Pin Grid Array;Pin Grid Array)或是 DIP 的改良版 QFP(塑料方形扁平封装)等。因为有太多种封装法,以下将对 DIP 以及 BGA 封装做介绍。

传统封装,历久不衰

首先要介绍的是双排直立式封装(Dual Inline Package;DIP),从下图可以看到采用此封装的 IC 芯片在双排接脚下,看起来会像条黑色蜈蚣,让人印象深刻,此封装法为最早采用的 IC 封装技术,具有成本低廉的优势,适合小型且不需接太多线的芯片。但是,因为大多采用的是塑料,散热效果较差,无法满足现行高速芯片的要求。因此,使用此封装的,大多是历久不衰的芯片,如下图中的 OP741,或是对运作速度没那么要求且芯片较小、接孔较少的 IC 芯片。

14.jpg


▲左图的 IC 芯片为 OP741,是常见的电压放大器。右图为它的剖面图,这个封装是以金线将芯片接到金属接脚(Leadframe)。(Source :左图 Wikipedia、右图 Wikipedia)

至于球格阵列(Ball Grid Array,BGA)封装,和 DIP 相比封装体积较小,可轻易的放入体积较小的装置中。此外,因为接脚位在芯片下方,和 DIP 相比,可容纳更多的金属接脚

相当适合需要较多接点的芯片。然而,采用这种封装法成本较高且连接的方法较复杂,因此大多用在高单价的产品上。

15.jpg


▲左图为采用 BGA 封装的芯片。右图为使用覆晶封装的 BGA 示意图。(Source:左图 Wikipedia)

行动装置兴起,新技术跃上舞台

然而,使用以上这些封装法,会耗费掉相当大的体积。像现在的行动装置、穿戴装置等,需要相当多种元件,如果各个元件都独立封装,组合起来将耗费非常大的空间,因此目前有两种方法,可满足缩小体积的要求,分别为 SoC(System On Chip)以及 SiP(System In Packet)。

在智慧型手机刚兴起时,在各大财经杂誌上皆可发现 SoC 这个名词,然而 SoC 究竟是什么东西?简单来说,就是将原本不同功能的 IC,整合在一颗芯片中。藉由这个方法,不单可以缩小体积,还可以缩小不同 IC 间的距离,提升芯片的计算速度。至于制作方法,便是在 IC 设计阶段时,将各个不同的 IC 放在一起,再透过先前介绍的设计流程,制作成一张光罩。

然而,SoC 并非只有优点,要设计一颗 SoC 需要相当多的技术配合。IC 芯片各自封装时,各有封装外部保护,且 IC 与 IC 间的距离较远,比较不会发生交互干扰的情形。但是,当将所有 IC 都包装在一起时,就是噩梦的开始。IC 设计厂要从原先的单纯设计 IC,变成了解并整合各个功能的 IC,增加工程师的工作量。此外,也会遇到很多的状况,像是通讯芯片的高频讯号可能会影响其他功能的 IC 等情形。

此外,SoC 还需要获得其他厂商的 IP(intellectual property)授权,才能将别人设计好的元件放到 SoC 中。因为制作 SoC 需要获得整颗 IC 的设计细节,才能做成完整的光罩,这同时也增加了 SoC 的设计成本。或许会有人质疑何不自己设计一颗就好了呢?因为设计各种 IC 需要大量和该 IC 相关的知识,只有像 Apple 这样多金的企业,才有预算能从各知名企业挖角顶尖工程师,以设计一颗全新的 IC,透过合作授权还是比自行研发划算多了。

折衷方案,SiP 现身

作为替代方案,SiP 跃上整合芯片的舞台。和 SoC 不同,它是购买各家的 IC,在最后一次封装这些 IC,如此便少了 IP 授权这一步,大幅减少设计成本。此外,因为它们是各自独立的 IC,彼此的干扰程度大幅下降。

16.jpg


▲ Apple Watch 采用 SiP 技术将整个电脑架构封装成一颗芯片,不单满足期望的效能还缩小体积,让手錶有更多的空间放电池。(Source:Apple 官网)

采用 SiP 技术的产品,最着名的非 Apple Watch 莫属。因为 Watch 的内部空间太小,它无法采用传统的技术,SoC 的设计成本又太高,SiP 成了首要之选。藉由 SiP 技术,不单可缩小体积,还可拉近各个 IC 间的距离,成为可行的折衷方案。下图便是 Apple Watch 芯片的结构图,可以看到相当多的 IC 包含在其中。

17.jpg


▲ Apple Watch 中采用 SiP 封装的 S1 芯片内部配置图。(Source:chipworks)

完成封装后,便要进入测试的阶段,在这个阶段便要确认封装完的 IC 是否有正常的运作,正确无误之后便可出货给组装厂,做成我们所见的电子产品。其中主要的半导体封装与测试企业有安靠、星科金朋、J-devices、Unisem、Nepes、日月光、力成、南茂、颀邦、京元电子、福懋、菱生精密、矽品、长电、优特
 
 
 
 
来源:1号机器人

智造家提供
385 浏览

总结一颗ARM架构芯片软硬件组成

智能科技类 星旭自动化 2016-11-16 19:46 发表了文章 来自相关话题

ARM是微处理器行业的一家知名企业,设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件,适用于多种领域,比如嵌入控制、消费/教育类多媒体、DSP和移动式应用等。

2016年7月27日,公司发财报显示,第二季度税前利润为1.301亿英镑(约合1.71亿美元),同比增长5%。在2016年9月,ARM以240亿英镑的价格被软银收购。

尽管被收购,但我们不容错过ARM芯片系列!硬件和软件是一颗ARM架构芯片互相依存的两大部分,本文总结了一颗芯片的软硬件组成,以作为对芯片的入门级概括吧!







硬件方面

主控CPU:运算和控制核心。基带芯片基本构架采用微处理器+数字信号处理器(DSP)的结构,微处理器是整颗芯片的控制中心,会运行一个实时嵌入式操作系统(如Nucleus PLUS),DSP子系统负责基带处理。应用处理器则可能包括多颗微处理器,还有GPU。微处理器是ARM的不同系列的产品(也可以是x86架构),可以是64位或者32位。处理器内部通过“内部总线”将CPU所有单元相连,其位宽可以是8-64位。

总线:计算机的总线按功能可以划分为数据总线、地址总线和控制总线,分别用来传输数据、数据地址和控制信号。CPU内部部件由内部总线互联,外部总线则是CPU、内存、输入、输出设备传递信息的公用通道,主机的各个部件通过总线相连接。外部设备通过相应的接口电路再与外部总线相连接,从而形成了硬件系统。外部总线通过总线接口单元BLU与CPU内部相连。

片上总线标准高级微控制器总线结构AMBA定义了高性能嵌入式微控制器的通信标准。定义了三组总线:AHB(AMBA高性能总线)、ASB(AMBA系统总线)、和APB(AMBA外设总线)。

AHB总线用于高性能、高时钟工作频率模块。AHB为高性能处理器、片上内存、片外内存提供接口,同时桥接慢速外设。DMA、DSP、主存等连在AHB上。ASB总线主要用于高性能系统模块。

ASB是可用于AHB不需要的高性能特性的芯片设计上可选的系统总线。APB总线用于为慢速外设提供总线技术支持。

APB是一种优化的,低功耗的,精简接口总线,可以支持多种不同慢速外设。由于APB是ARM公司最早提出的总线接口,APB可以桥接ARM体系下每一种系统总线。

外设I/O端口和扩展总线:GPIO通用端口、UART串口、I2C、SPI 、SDIO、USB等,CPU和外扩的芯片、设备以及两颗CPU之间(如基带处理器和应用处理器之间)进行通信的接口。一般来说,芯片都会支持多种接口,并设计通用的软件驱动平台驱动。

存储部件和存储管理设备:Rom、Ram、Flash及控制器。处理器系统中可能包含多种类型的存储部件,如Flash、SRAM、SDRAM、ROM以及用于提高系统性能的Cache等等,不同的芯片会采用不同的存储控制组合。参见博文”arm架构的芯片memory及智能机存储部件简述“

外设: 电源和功耗管理、复位电路和watchdog定时复位电路(前者是系统上电运行、后者是Reset或者超时出错运行)、时钟和计数器、中断控制器、DMA、 输入/输出(如键盘、显示器等)、摄像头等。

一颗ARM9架构芯片主控器及外围硬件设备组成如下图所示:

 





软件方面

芯片上的软件主要包括Boot代码、操作系统、应用程序以及硬件的firmware。

Boot程序引导设备的启动,是设备加电后在操作系统内核运行之前运行的一段小程序。通过这段小程序,我们可以初始化硬件设备、建立内存空间的映射图,从而将系统的软硬件环境带到一个合适的状态,以便为最终调用操作系统内核准备好正确的环境。

操作系统(英语:OperaTIng System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,其五大管理功能是:

1处理器管理,主要包括进程的控制、同步、通信和调度。

2存储器管理,主要包括内存的分配、保护和扩充,地址映射。

3设备管理,主要包括设备的分配、处理等。

4文件管理,主要包括文件的存储空间管理,目录管理,文件的读写和保护。

5作业管理,主要包括任务、界面管理,人机交互,语音控制和虚拟现实等。

应用处理器上的操作系统有Android、IOS等,不必多说;基带处理器上则会运行一个RTOS(如Nucleus PLUS)管理整个基带系统上的任务和部件间的通信。

应用程序是为了完成某项或某几项特定任务而被开发运行于操作系统之上的程序。应用处理器上,结合操作系统API和库函数,用户可以开发各色应用程序;基带处理器上则一般只有少量必要的软件支持。

硬件firmware则是简化软件与硬件的交互,让硬件操纵起来更容易。

再来看看ARM处理器系列

ARM微处理器包括下面几个系列,以及其它厂商基于 ARM 体系结构的处理器,除了具有ARM 体系结构的共同特点以外,每一个系列的 ARM 微处理器都有各自的特点和应用领域。

ARM7系列

ARM7 系列微处理器为低功耗的 32 位 RISC 处理器,最适合用于对价位和功耗要求较高的消费类应用。

ARM9系列

ARM9 系列微处理器在高性能和低功耗特性方面提供最佳的性能。

ARM9E系列

ARM9E 系列微处理器为可综合处理器,使用单一的处理器内核提供了微控制器、 DSP 、 Java应用系统的解决方案,极大的减少了芯片的面积和系统的复杂程度。 ARM9E 系列微处理器提供了增强的 DSP 处理能力,很适合于那些需要同时使用 DSP 和微控制器的应用场合。

ARM10E系列

ARM10E 系列微处理器具有高性能、低功耗的特点,由于采用了新的体系结构,与同等的 ARM9器件相比较,在同样的时钟频率下,性能提高了近 50 %,同时, ARM10E 系列微处理器采用了两种先进的节能方式,使其功耗极低。

SecurCore系列

SecurCore 系列微处理器专为安全需要而设计,提供了完善的 32 位 RISC 技术的安全解决方案,因此, SecurCore 系列微处理器除了具有 ARM 体系结构的低功耗、高性能的特点外,还具有其独特的优势,即提供了对安全解决方案的支持。

Intel 的Xscale、StrongARM

Intel StrongARM SA-1100 处理器是采用 ARM 体系结构高度集成的 32 位 RISC 微处理器。它融合了 Intel 公司的设计和处理技术以及 ARM 体系结构的电源效率,采用在软件上兼容 ARMv4 体系结构、同时采用具有 Intel 技术优点的体系结构。

其中,ARM7、ARM9、ARM9E和ARM10为4个通用处理器系列,每一个系列提供一套相对独特的性能来满足不同应用领域的需求, 而SecurCore 系列专门为安全要求较高的应用而设计。
 
 
 
来源:1号机器人

智造家提供 查看全部
ARM是微处理器行业的一家知名企业,设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件,适用于多种领域,比如嵌入控制、消费/教育类多媒体、DSP和移动式应用等。

2016年7月27日,公司发财报显示,第二季度税前利润为1.301亿英镑(约合1.71亿美元),同比增长5%。在2016年9月,ARM以240亿英镑的价格被软银收购。

尽管被收购,但我们不容错过ARM芯片系列!硬件和软件是一颗ARM架构芯片互相依存的两大部分,本文总结了一颗芯片的软硬件组成,以作为对芯片的入门级概括吧!


5.jpg


硬件方面

主控CPU:运算和控制核心。基带芯片基本构架采用微处理器+数字信号处理器(DSP)的结构,微处理器是整颗芯片的控制中心,会运行一个实时嵌入式操作系统(如Nucleus PLUS),DSP子系统负责基带处理。应用处理器则可能包括多颗微处理器,还有GPU。微处理器是ARM的不同系列的产品(也可以是x86架构),可以是64位或者32位。处理器内部通过“内部总线”将CPU所有单元相连,其位宽可以是8-64位。

总线:计算机的总线按功能可以划分为数据总线、地址总线和控制总线,分别用来传输数据、数据地址和控制信号。CPU内部部件由内部总线互联,外部总线则是CPU、内存、输入、输出设备传递信息的公用通道,主机的各个部件通过总线相连接。外部设备通过相应的接口电路再与外部总线相连接,从而形成了硬件系统。外部总线通过总线接口单元BLU与CPU内部相连。

片上总线标准高级微控制器总线结构AMBA定义了高性能嵌入式微控制器的通信标准。定义了三组总线:AHB(AMBA高性能总线)、ASB(AMBA系统总线)、和APB(AMBA外设总线)。

AHB总线用于高性能、高时钟工作频率模块。AHB为高性能处理器、片上内存、片外内存提供接口,同时桥接慢速外设。DMA、DSP、主存等连在AHB上。ASB总线主要用于高性能系统模块。

ASB是可用于AHB不需要的高性能特性的芯片设计上可选的系统总线。APB总线用于为慢速外设提供总线技术支持。

APB是一种优化的,低功耗的,精简接口总线,可以支持多种不同慢速外设。由于APB是ARM公司最早提出的总线接口,APB可以桥接ARM体系下每一种系统总线。

外设I/O端口和扩展总线:GPIO通用端口、UART串口、I2C、SPI 、SDIO、USB等,CPU和外扩的芯片、设备以及两颗CPU之间(如基带处理器和应用处理器之间)进行通信的接口。一般来说,芯片都会支持多种接口,并设计通用的软件驱动平台驱动。

存储部件和存储管理设备:Rom、Ram、Flash及控制器。处理器系统中可能包含多种类型的存储部件,如Flash、SRAM、SDRAM、ROM以及用于提高系统性能的Cache等等,不同的芯片会采用不同的存储控制组合。参见博文”arm架构的芯片memory及智能机存储部件简述“

外设: 电源和功耗管理、复位电路和watchdog定时复位电路(前者是系统上电运行、后者是Reset或者超时出错运行)、时钟和计数器、中断控制器、DMA、 输入/输出(如键盘、显示器等)、摄像头等。

一颗ARM9架构芯片主控器及外围硬件设备组成如下图所示:

 
6.jpg


软件方面

芯片上的软件主要包括Boot代码、操作系统、应用程序以及硬件的firmware。

Boot程序引导设备的启动,是设备加电后在操作系统内核运行之前运行的一段小程序。通过这段小程序,我们可以初始化硬件设备、建立内存空间的映射图,从而将系统的软硬件环境带到一个合适的状态,以便为最终调用操作系统内核准备好正确的环境。

操作系统(英语:OperaTIng System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,其五大管理功能是:

1处理器管理,主要包括进程的控制、同步、通信和调度。

2存储器管理,主要包括内存的分配、保护和扩充,地址映射。

3设备管理,主要包括设备的分配、处理等。

4文件管理,主要包括文件的存储空间管理,目录管理,文件的读写和保护。

5作业管理,主要包括任务、界面管理,人机交互,语音控制和虚拟现实等。

应用处理器上的操作系统有Android、IOS等,不必多说;基带处理器上则会运行一个RTOS(如Nucleus PLUS)管理整个基带系统上的任务和部件间的通信。

应用程序是为了完成某项或某几项特定任务而被开发运行于操作系统之上的程序。应用处理器上,结合操作系统API和库函数,用户可以开发各色应用程序;基带处理器上则一般只有少量必要的软件支持。

硬件firmware则是简化软件与硬件的交互,让硬件操纵起来更容易。

再来看看ARM处理器系列

ARM微处理器包括下面几个系列,以及其它厂商基于 ARM 体系结构的处理器,除了具有ARM 体系结构的共同特点以外,每一个系列的 ARM 微处理器都有各自的特点和应用领域。

ARM7系列

ARM7 系列微处理器为低功耗的 32 位 RISC 处理器,最适合用于对价位和功耗要求较高的消费类应用。

ARM9系列

ARM9 系列微处理器在高性能和低功耗特性方面提供最佳的性能。

ARM9E系列

ARM9E 系列微处理器为可综合处理器,使用单一的处理器内核提供了微控制器、 DSP 、 Java应用系统的解决方案,极大的减少了芯片的面积和系统的复杂程度。 ARM9E 系列微处理器提供了增强的 DSP 处理能力,很适合于那些需要同时使用 DSP 和微控制器的应用场合。

ARM10E系列

ARM10E 系列微处理器具有高性能、低功耗的特点,由于采用了新的体系结构,与同等的 ARM9器件相比较,在同样的时钟频率下,性能提高了近 50 %,同时, ARM10E 系列微处理器采用了两种先进的节能方式,使其功耗极低。

SecurCore系列

SecurCore 系列微处理器专为安全需要而设计,提供了完善的 32 位 RISC 技术的安全解决方案,因此, SecurCore 系列微处理器除了具有 ARM 体系结构的低功耗、高性能的特点外,还具有其独特的优势,即提供了对安全解决方案的支持。

Intel 的Xscale、StrongARM

Intel StrongARM SA-1100 处理器是采用 ARM 体系结构高度集成的 32 位 RISC 微处理器。它融合了 Intel 公司的设计和处理技术以及 ARM 体系结构的电源效率,采用在软件上兼容 ARMv4 体系结构、同时采用具有 Intel 技术优点的体系结构。

其中,ARM7、ARM9、ARM9E和ARM10为4个通用处理器系列,每一个系列提供一套相对独特的性能来满足不同应用领域的需求, 而SecurCore 系列专门为安全要求较高的应用而设计。
 
 
 
来源:1号机器人

智造家提供