首页 财经 > 正文

产业升级!百度启动国内首个大模型数据标注基地【附数据标注行业市场分析】

图源:摄图网

当前大模型正处在产业落地前期,高质量的数据是实现大模型产业化的关键要素。生成式AI如文心一言需要海量的数据训练、人工标注、指令微调和基于人类反馈的强化学习,以不断对齐大模型与人类价值观和思维方式,使其更加可用。因此,AI数据标注师这一职业应运而生。


(资料图片)

根据百度官方微博消息,百度智能云(海口)人工智能基础数据产业基地已正式启动运营,这是百度智能云与海口市政府合作共建的国内首个大模型数据标注中心。该数据标注基地拥有数百名专职大模型数据标注师,其中本科学历比例达到100%。

百度智能云数据标注基地业务产品负责人胡驰表示,与传统AI场景下基于客观规则的数据标注形式不同,大模型标注基于偏主观的标注规则,通过排序、打分、评估、多轮对话、内容生成等形式完成问答、对话和专业领域的问答和对话等标注内容。文心一言是基于大模型标注训练的人工智能基座型赋能平台,未来还将推出模型评估服务以促进和引导数据和模型的迭代和优化。

AI应用三大阶段对数据标注服务产生差异化需求

从需求方来看,AI数据标注客户分为AI公司、科技公司、科研机构、行业企业四类。

从不同阶段的AI数据标注服务需求来看,企业应用人工智能算法要经历研发、训练和落地三个阶段,不同阶段对于数据标注服务也有差异化需求。

人工智能推动数据标注产业高速发展

数据标注行业作为人工智能的上游基础产业也在短短数年间迎来了爆发式的发展。根据iResearch数据显示,到2019年,数据标注行业市场规模为30.9亿元,到2020年行业市场规模突破36亿元,预计2025年市场规模将突破100亿元,说明我国数据标注行业处于高速发展阶段。

定制化需求成为主流,数据服务市场步入需求常态化

监督学习下的深度学习算法训练十分依赖人工标注数据,近年来人工智能行业不断优化算法增加深度神经网络层级,利用大量的数据集训练提高算法精准性,ImageNet开源的1400多万张训练图片和1000余种分类在其中起到重要作用,为了继续提高精准度,保持算法优越性,市场中产生了大量的标注数据需求。

时至今日,人工智能从业公司的算法模型经过多年的打磨,基本达到阶段性成熟,随着AI行业商业化发展,更具有前瞻性的数据集产品和高定制化数据服务需求成为了主流。

张宏江院士表示伴随算法的进步实际上数据层面发生的变化也非常明显,从最开始人工的标注,到开放的数据集分享,现在发展到数据自动标注和深层研究。这也是国内数据标注领域里正在发生的现实。

中信证券表示我国数据标注行业在人工智能技术应用中发挥着重要作用,但目前行业发展还面临一些挑战,如数据安全性、人才培养等问题,需要加强监管和政策支持。

前瞻经济学人APP资讯组

更多本行业研究分析详见前瞻产业研究院《中国数据标注行业市场前瞻与投资战略规划分析报告》

同时前瞻产业研究院还提供产业大数据、产业研究报告、产业规划、园区规划、产业招商、产业图谱、智慧招商系统、行业地位证明、IPO咨询/募投可研、IPO工作底稿咨询等解决方案。在招股说明书、公司年度报告等任何公开信息披露中引用本篇文章内容,需要获取前瞻产业研究院的正规授权。

更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。

标签:

精彩推送