互联网的尽头是芯片吗
百度:基于XPU昆仑芯
2018年7月4日,百度在2018年百度AI开发者大会上宣布推出云端全功能AI芯片“百度昆仑”, 首批产品包含训练芯片“昆仑818-300”、推理芯片“昆仑818-100”。
今年6月24日,百度智能芯片及架构部门完成独立融资,成立昆仑芯(北京)科技有限公司,百度芯片首席架构师欧阳剑出任昆仑芯片公司CEO。
从发布自研芯片到分拆独立融资,百度用了3年。
关于分拆融资的消息,李彦宏在致投资人的信中曾表示,尽管AI芯片是高技术门槛和高风险的投资,但是百度希望在AI芯片领域有所突破,因此选择组建自己的AI芯片公司,因为它与平台能力密切相关,能充分利用百度在深度学习框架领域的优势。
百度并不是一开始就自研。面对一个自身并不专业的领域,百度早期选择和半导体老牌公司合作。2017年的Hot Chips大会上百度首次发布了XPU,这款XPU由百度与赛灵思基于FPGA合作研发,拥有256核心,集成了一个共享内存用于数据同步,所有内核都运行在600MHz。
百度XPU产品路线。图源:量子位
XPU后来成为百度自研芯片的基石。
2018年百度官宣昆仑1芯片,采用自研XPU架构,与适用于垂直场景领域的芯片不同,百度称昆仑除了常用深度学习算法等云端需求,还能适配诸如自然语言处理,大规模语音识别,自动驾驶,大规模推荐等具体终端场景的计算需求。
后来,三星宣布为昆仑1芯片代工,使用14nm工艺和I-Cube封装工艺,终于2020年早期,昆仑1芯片实现量产。
昆仑1的芯片首先被用在了百度自家的产品中,官方称在百度搜索引擎及云计算用户已经部署2万片。时任百度芯片部门负责人欧阳剑表示,昆仑1芯片在150瓦的功率下能实现260 TOPS的处理能力。在单卡单精算力领域,达到了的20TFLOPS,同时在混合精度下算力下,同样也能够达到80TFLOPS。
今年3年,欧阳剑等人以作者身份在IEEE发表了题为《Kunlun – A 14nm high performance AI processor for diversified workloads》的专题文章,成为了ISSCC2021会议第三部分Modern Digital SoCs的三篇文章之一。
IEEE论文《Kunlun – A 14nm high performance AI processor for diversified workloads》由欧阳剑等人撰写
文章对T4与昆仑进行了对比,相比Nvidia T4 GPU ,昆仑性能在不同模型下提升了1.5-3倍。
T4与昆仑1芯片对比。来源:Kunlun – A 14nm high performance AI processor for diversified workloads
在昆仑1的亮眼表现中,昆仑2不期而至。8月18日百度世界2021大会上,李彦宏宣布昆仑2代AI芯片实现量产。相比2018年发布的昆仑1芯片,昆仑2代的性能提升了2-3倍。它采用7nm制程,搭载自研的第二代XPU架构,能用于云、边、端等场景。官方称,昆仑2整数精度(INT8)算力达到 256 TeraOPS,半精度(FP16)为128 TeraFLOPS,而最大功耗仅为 120W。
值得注意的是,百度不是宣布昆仑2流片,而是直接宣布昆仑2量产。目前,昆仑2已经与飞腾等多款国产通用处理器、麒麟等多款国产操作系统以及百度自研的飞桨PaddlePaddle深度学习框架完成了端到端的适配。
另外,百度推出昆仑系列芯片的意义更在于该芯片能够赋能其百度搜索、以及服务各个行业的百度智能云等。从成绩上看,根据EET的报道显示,百度昆仑1已在百度搜索引擎、小度等业务中部署超过2万片,服务50多家外部客户。
阿里巴巴:广泛布局的平头哥
2018年,阿里巴巴正式宣布合并中天微达摩院团队,成立平头哥半导体芯片公司,平头哥也作为阿里巴巴全资半导体子公司注册挂牌了。仅仅成立三年以来,作为一家互联网公司孵化的芯片企业,阿里平头哥已推出了数款产品。
平头哥拥有端云一体全栈产品系列,涵盖数据中心人工智能芯片、处理器IP授权等,实现芯片端到端设计链路全覆盖。公司拥有的玄铁、倚天、寒光、羽阵四个产品系列中,玄铁是处理器IP,倚天和寒光是处理器芯片,羽阵为RFID芯片。阿里平头哥的产品研发非常迅速,仅一年就基于RISC-V发布了处理器IP核玄铁910和含光800 AI芯片。
截至目前,玄铁产品已成系列,共有8和9两个系列,其中8系列CPU有10个,9系列有5个。截止到2020年,基于玄铁架构的CPU出货量已经超过20亿颗。
平头哥玄铁系列
其中,E907兼容RISC-V架构,是玄铁MCU处理器中的性能最高的处理器核。E907主要面向语音入口MCU、TWS、MPU、导航、多模无线接入等应用领域,官方称拥有高工作频率超过1GHz,单位性能可达3.8 Coremark/MHz。
玄铁E907处理器架构图
今年10月19日,在阿里云栖大会上,阿里巴巴宣布平头哥开源玄铁 RISC-V 系列处理器,并开放系列工具及系统软件。此次开源的玄铁系列 RISC-V 处理器,包括玄铁 E902、E906、C906、C910 等 4 款量产处理器 IP。与此前阿里在2019年开源的低功耗微控制芯片设计平台“无剑 100 Open”一道,为全球开发者提供了架构新选择。
在同一天的云栖大会上,平头哥还发布自研云芯片倚天710。据阿里平头哥官方资料,倚天710采用业界最先进的5nm工艺,单芯片容纳高达600亿晶体管;在芯片架构上,倚天710使用2.5D封装包含128个Armv9高性能CPU核,每个CPU核心配置64KB一级指令缓存,64KB一级数据缓存,以及1MB二级缓存,片上集成128MB系统缓存。内存子系统配置8通道DDR5,峰值总带宽达到281GB/s,I/O子系统含96通道PCIe 5.0,双向理论总带宽达到768GB/s。
阿里云智能总裁、达摩院院长在演讲时宣称,倚天710是业界性能最强的ARM服务器芯片,性能超过业界标杆20%,能效比提升50%以上。倚天710将在阿里云数据中心部署应用。
倚天710产品性能对比。图源网络
阿里云经过这几年的发展正逐渐显现出活力,根据财经网的报道显示,对比历史数据,2015财年阿里巴巴首次披露云计算营收,当年阿里云全年收入为12.71亿元,到2021财年营收601.2亿元,7年间增长46倍。
因此,我们也有理由相信,平头哥在芯片领域的部属也将会对阿里巴巴的其他业务起到积极作用。
新秀字节虽迟但到
上月14日,字节跳动入股半导体公司云脉芯联。云脉芯联主要从事数据中心网络芯片。行业人士称投资云脉芯联是字节跳动自研芯片的又一布局行动。
云脉芯联不是字节跳动投资的第一家半导体公司。此前,字节跳动已经接连投资了RISC-V计算平台希姆计算、国产GPU公司摩尔线程、信号产品公司润石科技、AI芯片研发商睿思芯科等一众半导体公司。这些公司大多新近成立,处于A轮或者天使轮融资阶段,涉及半导体设计、销售、平台多个方向。
在投资的同时,字节跳动做了自研的两手准备,今年7月,在字节跳动的招聘官网上,出现了两个芯片工程师岗位信息,这彷佛公开表示了字节跳动正在搭建自己的芯片团队。
两个岗位的任职要求相似,都是和FPGA/ASIC相关,并且多是为服务器以及数据中心服务。
字节跳动拥有抖音、西瓜视频、今日头条等明星产品,其对AI的研究处于领先地位,更强大的AI对算力有更大要求,选择自研AI芯片更容易拉动上述产品迭代。
互联网造芯规律
互联网公司造芯已经成为企业的可能增长极点,无论谷歌、亚马逊等都已经进入并广泛布局。
AI芯片、云计算、IC设计成为互联网公司造芯的三大主力方向。其中,互联网公司广泛从AI芯片自研入手,相比于终端AI芯片,云端AI芯片更受互联网公司青睐。幸运的是,在云端AI芯片领域,中国互联网巨头与美国同行们(亚马逊、谷歌)几乎是同时起步,也未掉队。
提到中国互联网公司造芯哪里不同,主要还是在各家的策略,字节跳动投资案例多,而阿里和百度、腾讯投资半导体事件则少一些,但芯片投资或产品基本是围绕自身产品或服务。
这提现出互联网造芯的优势,与其行业基因一脉相承。
互联网公司拥有大量的线上客户,并能从中积累海量用户数据,从中总结出广泛的应用场景,这是进入芯片行业的另类资本。传统半导体大厂以销售产品为主,要考虑研发成本、存货周期和供应等,而互联网公司产品多用于自身的AI场景推理和数据中心计算,封闭的产品链消弭了大量后顾之忧,自研芯片也可以省掉很大成本。
但是互联网造芯也有很大不足,我们无法从官方的口径中看到市场真实的反应,这容易造成行业的怀疑和不信任,成为互联网公司的弊端之一。再者,BAT的AI芯片多以推理和训练芯片为主,这种芯片并非难以研发。还有,物联网芯片不需要非常高的制程,互联网公司追求高端制程可能遗留资源浪费问题。