数据标注产业亟须冲破“三重困局”

0

罗志恒 王智爽(机械工业规划研究院有限公司)

摘 要:当前,我国数字经济蓬勃发展,数据标注产业作为人工智能技术链条的基石,已形成“国家示范+地方特色”的良好发展格局。但在产业规模快速扩张的背后,数据标注产业正面临技术质量、安全合规和产业生态三个维度的严峻挑战。这些问题共同制约着我国数据质量与产业可持续发展能力的提升。建议强化技术攻坚与标准引领,提升数据安全与合规治理,完善产业协同与生态赋能。

关键词:数据标注;数据安全;产业发展 

一、我国数据标注产业发展现状

数据标注是对数据进行添加标记、说明、解释、分类和编码的过程,是提升人工智能算法、模型核心能力的关键环节。随着人工智能(AI)技术的飞速发展,数据标注作为AI产业链中不可或缺的“基石”,其重要性日益凸显。近年来,在党中央、国务院部署及相关政策指引下,我国数据标注产业实现快速发展,规模持续壮大,专业企业不断涌现。

从政策层面看,2023年,国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部和广电总局公布《生成式人工智能服务管理暂行办法》对数据标注规则、质量评估、人员培训提出要求。2024年,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合印发《关于促进数据标注产业高质量发展的实施意见》,对数据标注这一新兴产业进行系统谋划,提出到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。

从地方层面看,各地积极响应国家政策,纷纷布局数据标注产业。目前,我国已建成四川成都、辽宁沈阳、安徽合肥、湖南长沙、海南海口、河北保定和山西大同7个国家级数据标注基地。北京、河南等20余省市也同步发力,通过制定优惠政策、建设产业园区等方式,推动数据标注产业发展,形成了“国家示范+地方特色”的良好发展格局。

当前,我国高质量数据建设已进入规模化、规范化发展新阶段。《2025高质量数据集研究报告》显示,2025年我国数据标注产业产值已突破80亿元,全国7个数据标注基地数据标注规模再创新高,总规模达17282TB(太字节),已形成医疗、工业、教育等行业的高质量数据集335个;赋能121个国产人工智能大模型研发;引进和培育标注企业223家;标注从业人员达5.8万人;带动数据标注行业相关产值超过83亿元。

二、我国数据标注产业存在的问题

数据标注产业在快速发展的同时,在数据的技术质量、安全合规和产业生态等方面面临严峻挑战,这些是制约产业高质量发展的深层矛盾,亟待系统破解。

(一)技术能力与质量标准的双重瓶颈

数据标注行业当前的技术水平和质量管理体系,难以满足前沿AI应用需求,尤其在高风险、高精度领域存在短板,主要体现在以下三个方面。一是处理复杂场景能力不足。复杂场景数据标注需处理多模态数据、适配极端环境、涉及专业领域,且对精度要求极高。如自动驾驶场景,需对遮挡、反射、恶劣天气下的目标进行多传感器(如激光雷达与摄像头)跨模态融合标注,对工具的多模态数据同步、3D空间感知及时序关联能力要求极高,标注准确率需达到99%以上,远超现有标注工具的能力范畴;医疗影像标注需结合CT、病理文本,精准判断不同组织、器官在影像中的情况,分辨病变的形态、位置和大小等信息。二是缺乏统一质量标准体系。业内缺少通用数据标注质量标准与指南,导致“标准孤岛”现象,标注质量评估体系不完善,导致数据质量一致性难以保障,不同企业甚至同一企业内部标注规则差异显著,给数据共享、流通和应用带来困难。如在图像标注中,有的团队将“车辆”定义为所有交通工具,有的则仅指机动车;在自动驾驶领域,不同企业对障碍物标注的颗粒度差异可达30%,直接影响模型泛化能力。当前,国内虽在特定领域有标注标准的探索,如《胸部CT肺结节数据标注与质量控制专家共识(2018)》《冠状动脉CT血管成像数据标注和质量控制专家共识》,但覆盖范围有限,难以满足AI应用百花齐放的需要。三是人机协作模式效率低下。大多数人机协作仍停留在“AI预标注+人工全量审核”阶段。如谷歌提出的流体标注模型,虽能依托AI自动标注图像数据、通过人工调整偏差以提升标注速度,但初始阶段仍需人工标注提供训练数据集,且在物体边界标记、界面操作速度、类别扩展等方面仍待完善。理想协作模式应为基于主动学习的智能循环,即机器自主识别不确定样本并请求人类专家标注,以最大化提升模型性能,然而目前提供此类服务的平台极少。

(二)数据安全与合规体系的系统性缺位

随着数据要素市场活跃度提升,数据来源日益复杂,涉及个人隐私、商业秘密、国家安全等敏感信息。但行业安全合规体系建设远远滞后于业务发展,导致核心数据面临巨大风险,主要体现在以下三方面。一是数据泄露风险高企。人工标注环节是数据泄露的“高危地带”。标注员会接触和处理大量未脱敏的原始数据,一旦管理不善,极易引发数据泄露事件。2025年6月,数据标注行业巨头Scale AI被曝出数据安全事件,该公司意外公开包含Meta、Google、xAI等核心客户敏感数据的访问权限,内容涉及项目细节、部分训练数据和个人信息。二是数据权属机制不明。“数据要素确权”是数字经济的核心问题,在标注领域尤为突出。原始数据、标注过程数据和最终标注成果的所有权、使用权、收益权大多模糊不清。数据要素确权制度、权责归属与利益分配规则的缺失不仅易引发商业纠纷,还会阻碍数据的流通和价值实现。三是跨境数据合规风险凸显。在数据标注全球分工的趋势下,数据主权挑战加剧,各国数据安全法规存在差异甚至冲突,大幅提升合规难度。如美国公司如果将欧盟用户数据传至中国进行标注,需同时满足欧盟《通用数据保护条例》 (GDPR)、中国数据出境评估要求,还可能受美国CLOUD法案约束。2023年Meta公司因违反数据跨境传输规则被欧盟处以12亿欧元的罚金,显示了跨境数据处理的巨大风险。

(三)产业协同与生态建设的普遍薄弱

数据标注产业高速发展,但产业生态尚不成熟,三大问题制约行业健康发展。一是复合人才严重不足。数据标注行业人才正从劳动密集型向技术与知识密集型转型,但人才结构的升级速度滞后。粤港澳大湾区调研显示,当前数据标注岗位以基础标注员为主,通用标注员占比68.18%,全国范围内,语言数据标注人才缺口超过100万,呈现“低端过剩、高端短缺”的结构性矛盾。随着AI进入智驾、医疗等专业领域,市场需要既懂AI又懂专业的复合型人才。如医疗图像标注需要具备临床经验的人员,而非普通标注员。据麦肯锡报告预测,预计到2030年,中国AI人才缺口将达400万人,其中复合型人才尤其紧缺。二是人力成本持续上升。数据标注项目中,人力成本占总成本比例较高。随着劳动力成本上涨和高质量标注需求增加,成本压力将进一步加剧。对利润微薄的中小标注企业和资金紧张的AI创业公司而言,高昂的标注成本成为阻碍研发创新的主要障碍。如一个中等规模的医疗AI项目,仅数据采集与标注费用就达上百万元,极大提高了行业门槛。三是产业链协同机制不足。标注行业的上中下游之间有效协同机制不足,导致资源错配和效率浪费。上游数据提供方(如医院、汽车企业)与下游模型需求方(AI算法公司)和中游标注服务商之间存在较多信息不畅的情况。比如,一些标注团队不完全理解算法对数据的要求,导致标注结果不符合模型训练需要,反复修改,项目周期延长,成本增加。此外,行业缺少能整合数据资源、标注能力、算法模型与应用场景的协作平台,现有平台在协同深度与功能完整性上仍有待提升。

三、对策建议

(一)强化技术攻坚与标准引领

一是突破复杂场景标注技术。组建“央企标注技术联盟”,加快对高智能、多模态的自动化标注工具和人机协同平台的研发投入,攻克复杂场景标注难题。二是由国家大数据局牵头,联合各中央企业及产学研各方力量制定国家数据标注质量评估规范等行业标准,建立统一的数据标注质量规范与认证体系;建立“标注质量国家实验室”,强化第三方认证能力。三是建设高质量数据集。鼓励包括央国企在内的垂直领域龙头企业加快建设专业领域数据集。

(二)提升数据安全与合规治理水平

一是打造安全基础设施。建设国家级可信数据标注平台,实现“数据可用不可见”的隐私计算应用。二是探索数据确权机制。开展数据资产登记试点,明确标注数据产权归属,为流通奠定基础。推动标注数据纳入资产化管理,探索建立数据交易市场。三是构建跨境标注安全框架。建立“白名单”机制,规范跨境标注数据流动,应对全球日趋严格的监管环境。

(三)完善产业协同与生态赋能

一是培育复合型人才梯队。通过产教融合等方式,加速培养兼具AI技术与行业背景的专业人才。二是促进产业链协同。提升央国企融通带动作用,开源标注技术,惠及中小企业发展。三是激活公共数据价值。打造开放共享的数据与服务生态,释放政府数据标注需求,实现供需精准对接。推动数据标注纳入政府采购范畴,带动产业规模化发展。

参考文献

[1]曾建勋.支撑数据标注产业发展[J].农业图书情报学报,2025,37(1):100-101.

[2]郭凯.浅谈数据标注产业的现实发展意义[J].文渊(中学版),2019(8):763.

[3]中国计算机学会.CCF数发委“数说中国”丨数据标注:构建人工智能高质量发展的核心底座[EB/OL].(2025-04-25)[2025-10-23].https://www.ccf.org.cn/Media_list/sjzlfzwyh/2025-04-25/841933.shtml.

[4]国家数据局.专家解读|畅通数据汇聚、供给、利用堵点 凝力推进数据集高质量建设[EB/OL].(2025-03-06)[2025-10-23].https://www.nda.gov.cn/sjj/zhuanti/sjbz/0414/20250306143724097100325_pc.html.

(罗志恒系机械工业规划研究院有限公司研究员;王智爽系机械工业规划研究院有限公司工程师) 

评论被关闭。