编码机

半导体行业专题AI大模型开启新一轮大国竞

发布时间:2023/6/2 14:07:09   
盖博士 http://disease.39.net/bjzkbdfyy/201028/8342574.html

(报告出品方/作者:中航证券,刘牧野)

一、AI史上最长繁荣周期,大国AI竞赛拉开序幕

AI正处史上最长繁荣大周期

人工智能从年被正式提出以来,经历了数十年的发展历程。人工智能诞生初期,其研究主要分为三个流派,即逻辑演绎、归纳统计和类脑计算。

人工智能研究的三大流派各有优劣势。类脑计算流派的目标最为宏远,但在未得到生命科学的支撑之前,难以取得实际应用。归纳演绎流派的思考方式与人类相似,具有较强的可解释性。由于对数据和算力的依赖较少,归纳演绎流派成为人工智能前两次繁荣的主角。随着学界对人工智能困难程度的理解逐渐加深,数理逻辑方法的局限性被不断放大,并最终在第三次繁荣期中,逐渐让位于统计学习的“暴力美学”。

在进入21世纪以来,在大数据和大算力的支持下,归纳统计方法逐渐占据了人工智能领域的主导地位,深度学习的浪潮席卷人工智能,人工智能迎来史上最长的第三次繁荣期,至今仍未有结束的趋势。

通用大模型加持,平民化AI普惠千行百业

深度学习依然受到统计学习的框架限制:特征抽取和模板匹配。相比于人类基于知识的推断,这种方式无疑是低效的,因为对于任何新的概念乃至新的实体,算法都需要专门的训练数据来提供相关的信息。在没有基础模型支撑的情况下,开发者们必须从头开始完成收集数据、训练模型、调试模型、优化部署等一系列操作。对于人工智能开发者和垂直细分行业应用而言,都是重大的挑战。

预训练大模型降本增效,将推动AI普惠千行百业。预训练大模型加持下的人工智能算法(包括计算机视觉、自然语言处理等),相比于普通开发者从头搭建的算法,精度明显上升、数据和计算成本明显下降,且开发难度大幅降低。

GPT基础大模型驱动,引发AIGC范式革命

以ChatGPT为代表的AIGC应用在年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了AIGC(AIGeneratedContent)技术变革,拥有通用性、基础性多模态、参数多、训练数据量大、生成内容高质稳定等特征的AIGC模型成为了自动化内容生产的“工厂”和“流水线”。

基础层是核心,GPT-3模型起关键支撑作用。GPT-3一个大规模的通用语言模型,已经在来自各种来源的大量文本数据上进行了训练。能够产生类似人类的反应,并可用于广泛的语言相关任务。

ChatGPT基于目前较新的GPT-4模型版本进行研发,专注于自然语言对话,接受了更广泛的语言模式和风格培训,因此,能较GPT-4产生更多样化和微妙的响应。

OpenAI的“暴力美学”:大算力和大数据

穷尽所有的测试数据和训练材料,AI就会呈现出恐怖的准确率。OpenAI意识到了“大”和“规模”的力量,沿着该路径狂飙,阅览了几乎所有互联网数据,并在超级复杂的模型之下进行深度学习。

-年,OpenAI做出了有别于市场共识的关键决策,公司在Transformer基础上押注大算力和大数据的“暴力美学”。并在GPT-3后迅速引入了人类反馈,让模型的语言前后逻辑更加明晰、有因果关联。

OpenAI在《ScalingLawsforNeuralLanguageModels》中提出语言大模型所遵循的“规模法则”(ScalingLaw)。ScalingLaw说明:通过独立延长模型训练时间(Compute)、增加训练数据量(DatasetSize)或者扩大模型参数规模(Parameters),预训练模型在测试集上的TestLoss都会单调降低,从而使模型效果越来越好。我们认为,在ScalingLaw的框架下,只要追加数据与算力,大模型的能力就能持续增强。对于OpenAI而言,目前大模型的最大限制是数据和算力的总量。

精细化策略+标注提升ChatGPT模型效果

预训练大模型分为上游(模型预训练)和下游(模型微调)两个阶段。上游阶段主要是收集大量数据,并且训练超大规模的神经网络,以高效地存储和理解这些数据;而下游阶段则是在不同场景中,利用相对较少的数据量和计算量,对模型进行微调,以达成特定的目的。

ChatGPT的训练过程也遵循预训练大模型的基本原理。结合了监督学习和强化学习,并且通过人工标注让模型更好地区别回复的好坏。

我们认为,ChatGPT在模型和数据等环节进行了大量的细节优化,高质量的海量数据加上充分的训练,人工和算法的有机配合,使ChatGPT在模型层面实现领跑。

二、大算力描绘AI的“暴力美学”

大国AI竞赛,国内AI支出规模有望高速增长

据IDC,中国人工智能(AI)市场支出规模将在年增至.5亿美元,约占全球总规模十分之一。年中国加速服务器市场规模达到53.9亿美元(约.3亿人民币),同比+68.6%;预计到年将达到.4亿美元。年复合增长率为19%,占全球整体服务器市场近三成。

我们认为,预训练大模型是现阶段人工智能的集大成者,代表了统计学习流派的最高成就。在新一代技术未出现前,它将是人工智能研究和开发的最强武器。围绕大模型的研发和落地,中美之间已经展开了新一轮的竞争。因此,国内人工智能的支出增速有望超过IDC的预测。

算力芯片主导AI计算市场

AI分布式计算的市场主要由算力芯片(55-75%)、内存(10-20%)和互联设备(10-20%)三部分组成。美国已限制对华销售最先进、使用最广泛的AI训练GPU—英伟达A以及H,国产算力芯片距离英伟达最新产品存在较大差距,但对信息颗粒度要求较低的推理运算能实现部分替代。我们认为,训练芯片受限进一步强调了高制程芯片设计、代工的国产替代紧迫性。而随着人工智能的应用普及,推理芯片的市场需求将加速增长。

AI模型数据规模增长,AI算力需求井喷

当前,预训练模型参数数量、训练数据规模按照倍/年的趋势增长,继续通过增大模型和增加训练数据仍是短期内演进方向。未来使用更多种图像编码、更多种语言、以及更多类型数据的预训练模型将会涌现。当前算力距离AI应用存巨大鸿沟。根据OpenAI数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。英特尔表示,目前的计算、存储和网络基础设施远不足以实现元宇宙愿景,而要想实现真正的元宇宙,目前的计算能力需量要再提高0倍。

算力升级:AI训练芯片空间广阔

IDC预计,到年人工智能芯片市场规模将达亿美元。IDC全球范围调研显示,人工智能芯片搭载率将持续增高。目前每台人工智能服务器上普遍多配置2个GPU,未来18个月,GPU、ASIC和FPGA的搭载率均会上升。通用性递减,专用性增强,为AI芯片的主要发展方向。

年中国以GPU为主实现数据中心计算加速,GPU在算力芯片的市场占有率接近90%。ASIC,FPGA,NPU等非GPU芯片市场占有率超过10%。国际科技网络巨头公司谷歌、脸书,亚马逊等等在AI芯片领域从云端训练到终端产品应用,在开源框架赋能产业行业上有一定的领先优势。国内企业也在打造从AI芯片注重云端训练+AI芯片终端响应+AI算法框架开源的生态体系。

算力升级:冯氏架构“破壁者”,存算一体突破瓶颈

冯氏架构以计算为中心,计算和存储分离,二者配合完成数据的存取与运算。然而,由于处理器的设计以提升计算速度为主,存储则更注重容量提升和成本优化,“存”“算”之间性能失配,从而导致了访存带宽低、时延长、功耗高等问题,即通常所说的“存储墙”和“功耗墙”。

存算一体作为一种新的计算架构,被认为是具有潜力的革命性技术。核心是将存储与计算完全融合,有效克服冯·诺依曼架构瓶颈,并结合后摩尔时代先进封装、新型存储器件等技术,减少数据的无效搬移,从而提升计算效率。中国移动已将存算一体纳入算力网络的十大关键技术。

当前NORFlash、SRAM等传统器件相对成熟可率先开展存内计算产品化落地推动。新型器件中RRAM各指标综合表现较好,MRAM寿命和读写性能较好,均有各自独特优势与发展潜力可持续推动器件成熟,同步进行存内计算探索。

三星电子、SK海力士、台积电、美光、IBM、英特尔等都在进行存算一体技术的研究。国内公司中,亿铸科技、千芯科技、后摩智能专注于大算力存算一体芯片,闪易半导体、苹芯科技、知存科技、智芯科、九天睿芯专注于小算力存算一体芯片。

存力升级:HBM提升存储带宽

以ChatGPT为代表的生成类模型需要在海量数据中训练,对存储容量和带宽提出新要求,HBM(HighBandwidthMemory,高带宽存储器)成为减小内存墙的优选项。HBM将多个DDR芯片堆叠并与GPU封装在一起,是一种基于3D堆叠工艺的高附加值DRAM产品。通过增加带宽,扩展内存容量,让更大模型、更多参数留在离计算核心区更近的地方,从而减少内存和存储解决方案带来的延迟。据Omdia预测,到年,HBM市场的总收入将达到25亿美元。

传输升级:高速光模块放量

传输速度迭代不止,高速光模块出货预计大幅增长。据lightCounting统计,年,G、G和G的高速以太网光模块发货量达万只,年预计将达万只,同比%以上,G的产品有望在年开始逐步放量。

据lightcounting年3月预测,未来随着AI、元宇宙等新技术不断发展,以及网络流量长期保持持续增长,以太网光模块销售额也将保持较快增长并不断迭代升级。预计到年,以太网光模块市场将达到.11亿美元。

三、半导体作为AI算力核心,将再次成为大国博弈焦点

AI大模型催化新一轮半导体制裁

围绕大模型的研发和落地,中美之间已经展开了新一轮的竞争。半导体作为AI算力核心,美国已在年9月限制中国采购最先进的AI训练芯片。我们认为半导体将受到顶层高度

转载请注明:http://www.aideyishus.com/lkzp/4746.html

------分隔线----------------------------