中国人工智能法草案也将提请全国人大常委会审议。在4月发布《生成式人工智能服务管理办法(征求意见稿)》并向社会公众征求意见后,7月13日,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局正式发布《生成式人工智能服务管理暂行办法》(以下简称《办法》)。至此,中国率先交出一份答卷,也可以视为“生成式A时代”下中国关于A治理的独立思考。
《办法》彰显了中国对以生成式A为代表的通用人工智能产业治理的基本态度。与征求意见稿相比,《办法》不再以风险防控为主要导向,业内似乎可以打消此前的“踩刹车”顾虑。正式文件中大幅增加了促发展的内容,同时划定了底线。网信办在就《办法》答记者问时也提出,《办法》坚持目标导向和问题导向,明确了促进生成式A技术发展的具体措施,规定了生成式A服务的基本规范2.
1.1生成式A相关概念
自1956年概念的首次提出至今,人工智能技术已发展超60年。然而,时至今日,其仍未实现大规模应用。生成式A的出现标志着人工智能进入了新纪元,机器开始能够模拟人类的创造性思维,并有望促进社会生产力的大幅跃进。
访问2财经智序频道获取更多报告383中5×
生成式A技术,是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。
基于监督学习的方法差异,机器学习领域可以分为判别式(discriminative )和生成式(generatve )两种典型模型:判别式模型是对条件概率建模,学习不同类别之间的最优边界,从而完成分类任务;生成式模型则面向类建立模型,计算基于类的联合概率,然后根据贝叶斯公式分别计算条件概率,进而根据输入数据预测类别。生成式A更强调学习归纳后的演绎创造,通过模仿式、缝合式的生成创作,不断判别和进化,从而产生全新的内容,其本质是“创造未知世界”。
数据层包括数据提供、数据分析以及标注等环节。生成式A产品的诞生需要依托海量的数据资源。公开资料显示,GPT-3模型的基础来自8000亿个单词的语料库(或45TB的文本数据),包含了1750亿个参数。“8000亿”是ChatGPT 的训练数据,“1750亿”是它从这些训练数据中所学习、沉淀下来的内容。
算力层是A训练的基础设施,包括数据中心、服务器,以及高性能的A芯片。据华泰证券测算,训练一次ChatGPT 模型(13亿参数)需要的算力约27.5PFlop /s-day,即以1万亿次每秒的速度进行计算,需要耗时27.5天;而ChatGPT 单月运营需要算力约4874.4PFlop /s-day。
4人工智能白皮书访问2财经6智庄道获取更多报告57
模型层位于生成式A的中游,是生成式A得以实现的关键环节。生成式A的成型得益于2014年以来GAN(生成对抗网络模型)、Transformer (转换器模型)、Diffusion (扩散模型)等模型的发展与融合。例如,基于多种底层的A技术,OpenAl 公司经过多次迭代的GPT-4模型,谷歌对标GPT-4的大模型PaLM2等,通过开放AP调用,可以赋能各类垂直应用厂商。
商业化应用层则涵盖文本、音频、图片、影片的生成等,是产业链的最下游,但也是A能否大规模应用、能否真正创造价值的关键。
根据PitchBook 的统计数据,2022年投资圈向生成式A公司共投入13.7亿美元(折合人民币约93.69亿元),融资事件发生78起,接近此前5年的总和。据风投公司NFX统计,目前已有550家生成式A公司相继入局,共筹集近140亿美元的资金。互联网及传统A大厂将从云服务、预训练模型提供等的基础层、中间层入手,创业公司则聚焦在下游的垂直应用。多数公司刚刚完成标准化产品输出,开始进入商业化探索的初级阶段。
1.2.1算力
在A大模型时代,A领域的“军备竞赛”正从过去算法和数据层面的竞争,转变为底层算力的竞争。
算力是大模型成本结构中最大的一块,GPU的性能,决定了这个新兴行业的步调。但是,GPU性能提升的速度,已经落后于大模型训练和推理需求的增长。
GPU是训练模型与加速推理的关键算力硬件。大模型拔高了对数据中心带宽、数据存储的门槛。云服务商会采购各类硬件,辅以冷却系统与运维服务,构建灵活、可扩展的laaS平台,按需为客户提供算力。
据介绍,大约每隔4个月,A计算需求就会翻倍。广发证券分析师测算,随着国内生成对话式A产品加速推广,在乐观假设下,国内A大模型在训练与推理阶段或产生相当于1.1万台至3.8万台高端A服务器的算力需求。以英伟达单片A100GPU产品售价10万元、A加速卡价值量占服务器整机约70%计算,则对应126亿元至434亿元增量A服务器市场规模。
1.2.2大模型
大模型已经成为本轮生成式A竞赛的杀手锏。各个科技公司加码大模型,上演“百模大战”。
《中国人工智能大模型地图研究报告》显示,截至今年5月28日,中国10亿参数规模以上的大模型已发布79个。而美国和中国就占全球已发布大模型总量的80%以上。
访问2财经智序频道获取更多报告3683中5天
谷歌基于PaLM2推出聊天机器人巴德(Bard),据介绍Bard支持40多种语言,同时还拥有图像分析功能;微软日前宣布将GPT-4导入全新Bing搜索引擎和Microsoft 365Copilot ,亚马逊也通过发布泰坦(Titan )以宣布加入战局。
中国大模型不断涌现,既有实力雄厚的互联网平台企业:百度、阿里、华为等互联网公司发布“文心一言”、“通义千问”及华为盘古大模型等;也有人工智能新秀,比如澜舟科技的孟子GPT、智谱AI的ChatGLM 、科大讯飞的星火大模型等。
一批高校、科研院所也相继入局,清华大学发布大模型GLM-130B、复旦大学则发布大语言模型MOSS;上海人工智能实验室发布天气预报大模型“风乌”、北京智源人工智能研究院发布“悟道3.0”等。
购买海外苹果ios账号,国际社交账号,chatgpt账号请点击横幅广告即可!
资源问题加QQ客服324581749619泥地 » 2023生成式人工智能发展与监管白皮书-中国AI治理的独立思考.pdf