丁明慧 黄付晏 吴琦莹 童 晋(中国信息通信研究院)
摘 要:人工智能发展正在进入由数据驱动的新阶段,数据集作为核心要素之一,逐渐成为推动行业大模型创新与产业变革的核心动力。为推动高质量数据集在各行业的规范化建设,本文通过全面梳理高质量数据集构建的关键环节,总结形成高质量数据集建设方法论,并结合工业制造、文化传媒、低空经济、商贸流通等行业的特性,深入探讨高质量数据集在不同场景下的实践路径。从标准规范、基础设施、场景应用三方面,提出建立统一的数据标准和规范体系、构建高效的数据管理平台和基础设施、加快推动数据集广泛应用和场景化落地等建议,以期为人工智能高质量数据集的建设与落地提供思路。
关键词:数据集;数据标注;高质量数据集;人工智能
一、引言
随着人工智能技术步入以大模型为核心驱动力的全新发展阶段,数据已跃升为推动大模型能力实现跨越式提升、助力产业智能化升级的战略资源。由中国信息通信研究院等单位联合编制的《高质量数据集建设指引》提出,高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型表现的数据的集合。在人工智能产业发展浪潮中,高质量数据集建设已成为核心战略方向,从国家顶层设计到地方创新实践,各行各业都在积极探索。
国家层面围绕高质量数据集建设逐步健全顶层规划。2024年,国家数据局公开发布多份提及推进高质量数据集与数据标注建设的文件。《关于促进数据产业高质量发展的指导意见》提出,支持企业面向人工智能应用创新,开发高质量数据集,大力发展“数据即服务”“知识即服务”“模型即服务”等新业态。随后一系列相关政策相继发布,《关于促进数据标注产业高质量发展的实施意见》《关于促进企业数据资源开发利用的意见》以及《国家数据基础设施建设指引》均提及高质量数据集。2025年2月,国家数据局召开高质量数据集建设工作启动会,国家发展改革委、教育部等27个部门有关司局参加会议,积极推进落实“人工智能+”行动,共同推动高质量数据集建设。
地方政府多措并举,积极探索高质量数据集建设创新路径。一方面,国家数据局统筹建设数据标注基地,成都、沈阳、合肥、长沙、海口、保定和大同等城市围绕生态构建、能力提升、场景应用先行先试,推动区域人工智能产业生态发展。截至2025年上半年,已建设医疗、工业、教育等行业的高质量数据集524个,数据规模超过29 PB,赋能163个国产人工智能大模型研发与应用。另一方面,江苏、贵州、上海、广东、福建、河南、山东等地从数据集建设、数据质量评价、数据产品开发等维度,搭建起互补性强、特色鲜明的政策框架。例如,据媒体报道,苏州市发布首批30个行业高质量数据集,涵盖工业制造、交通运输、科技创新、文化旅游等重点行业领域。
二、人工智能高质量数据集建设方法研究
现有研究与产业实践表明,高质量数据集建设主要存在两种典型模式:“场景驱动”模式与“数据驱动”模式。其中,“场景驱动”模式以明确的业务需求或特定应用场景为起点,通过“需求规划—数据采集—数据处理—质量检测—数据运营”的全流程闭环管理,确保构建出更具应用价值的高质量数据集。而“数据驱动”模式则以大规模、多源异构的数据资源为基础,通过主动式的数据探索、跨维度关联分析及潜在价值挖掘,呈现出“从数据到需求”的逆向驱动特征。随着国家层面政策与各行业实践对高质量数据集的建设目标、应用标准提出更明确的要求,以需求为核心牵引的“场景驱动”模式更契合高质量数据集建设的核心目标和发展方向。
(一)需求规划
数据需求环节核心在于明确人工智能(AI)应用的数据诉求,即依据特定应用场景,界定数据集在数据范围、内容、可用性及质量等维度的具体要求。在数据范围和内容方面,结合预期应用场景,明确所需具体数据类型,涵盖数据格式、统计属性及可分性等关键要素,确保数据类型与AI模型的训练或推理需求高度契合。在数据可用性方面,通过核查数据集所需数据的可用程度,确认服务于特定AI应用的数据能否被有效获取与使用。在数据质量方面,通过搭建数据集专属的数据质量模型,为数据质量评估提供明确的质量基准。例如,在设备故障诊断与预测性维护场景中,数据集需包含设备运行信息、历史故障记录及维护数据,同时强调数据需具备高可靠性与及时性。
(二)数据采集
数据采集环节的核心任务是收集服务于特定人工智能应用的数据,即从需求规划阶段已明确的数据源中,采集实时数据与历史数据。一是结合预期数据源明确采集方式,判断所需数据的获取可能性:包括数据是否已存在且可直接复用、是否可通过转化现有数据满足需求、是否能通过采购或授权获取、是否需新增采集数据等。基于上述判断,进一步确定具体采集路径,包括获取并整合现有数据集、生成数据、直接采集数据(如传感器采集、人工录入等)三类方式。二是对数据收集方法进行测试。若需新增采集数据,需先验证数据收集方法的有效性,必要时调整相关配置参数、传感器规格及安装位置等,确保符合数据收集的规范标准。
(三)数据预处理
数据预处理环节主要是将所收集到的数据处理成可供数据标注等后续环节使用的形式,主要包括数据转换、数据验证、数据清洗、数据抽样、特征创建、特征提取、信息丰富等可选环节。数据转换是在最小化内容损失的前提下,将数据从一种表示或空间转换为另一种表示或空间;数据验证依据正确性、有效性、安全性、隐私性等数据质量特征,验证并确保数据合规可靠;数据清洗通过检测数据中的错误值与缺失值,通过替换、修正、补录或删除等方式处理,实现数据修正;数据抽样则是从数据集中选择数据,抽样可以采用替换或非替换方式进行;特征创建通过构建新特征,使其比原始特征更能有效捕捉数据的核心信息;特征提取用于筛选可用特征的子集,以降低数据维度;信息丰富旨在关联各类数据源,为现有数据补充额外的上下文信息。
(四)数据标注
数据标注是指对文本、语音、图像、视频等各类数据进行说明、解释、分类或编码的过程,从而确保数据能够被人工智能算法有效理解与应用。当前,数据标注技术创新主要聚焦在自动化标注、多模态标注等多个关键技术方向。其中,自动化标注技术借助模型的内在能力完成数据标注,能够实现数据自动生成与标注,可应用于大规模数据集的初步处理工作。多模态标注技术则通过对涵盖图像、文本、音频、视频等多种类型数据的数据集开展同步关联式标注,其核心目标是构建跨模态语义对齐的数据集。
(五)质量评估
质量评估环节主要是通过数据质量评估保障数据集的可用性,并对数据集进行持续的优化和改进,包括数据质量提升、标注体系完善、数据格式改进等。在评估指标方面,高质量数据集要求覆盖说明文档、数据质量及模型应用等维度,有研究系统构建了涵盖定量指标与定性指标的综合评价体系,其中定量指标覆盖数量、体量、类别分布、关键特征、缺失值、异常数据比例等关键要素,定性指标覆盖完整性、规范性、准确性、真实性、时效性、一致性、适配性、干净性等关键要素。在评估技术方面,学术界与产业界已开展相关研究,如采用基于分类器与困惑度的数据集质量评估方法,重点评估预训练数据集质量。
三、人工智能高质量数据集建设实践研究
(一)工业制造领域高质量数据集建设实践
工业数据具有行业多元、环节复杂、模态多样的特点,不同行业的工艺机理差异大,数据涵盖结构化的设备参数、非结构化的图像视频等多种类型,这要求数据集建设必须突破“数据孤岛”,实现跨业务、跨层级数据融合,而传统数据管理模式难以满足需求,因此亟须系统性建设高质量数据集,以适配工业场景的复杂性。
在数据资源供给方面,工业制造场景已初步形成十二大类各环节数据,覆盖研发设计、生产调度、仓储物流、采购与供应链管理等重点领域。设备与产线级数据作为基础层级,主要源自传感器、数控装备、智能机床、条码标签等感知终端,包括设备运行、工艺参数等数据内容。工厂与企业级数据作为核心层级,主要源自企业资源计划(ERP)、制造执行系统(MES)等业务系统,汇聚生产计划、成本投入、经营管理等数据。在数据集构建方面,建立工业数据分类分级体系,明确标注优先级(如核心工艺参数>设备运行日志)。联合标注视觉、听觉、触觉等方面的数据,将生产中的图像(如零部件缺陷图)、时序信号(如设备振动数据)、文本文档(如工艺参数说明)等非结构化数据,转化为机器可识别的结构化标注信息,构建包含设备运行数据、工况数据、用户行为数据、工艺参数等多模态数据的高质量数据集。在数据集应用方面,工业高质量数据集蕴含工业生产、运营、管理等各环节的关键信息,可面向设备故障诊断、生产工艺优化、寿命预测、预测性维护等核心场景,为工程制造行业数字化转型提供有力的数据支持(见图1)。

(二)文化传媒领域高质量数据集建设实践
生成式人工智能、数据合成等新技术发展迅猛,针对文化传媒行业数据加工、训练、质检和应用的市场需求正日趋多元化、定制化、个性化。一方面,基于用户行为数据构建动态画像,同时整合用户反馈数据,可实现新闻内容精准分发。另一方面,面对AI洗稿、伪造新闻等问题,可通过标注真实与伪造样本,让模型可学习文本结构、语义逻辑差异,同时结合区块链技术实现内容溯源,维护新闻公信力。此外,通过整合历史事件数据集,分析关键词共现、情感变化等特征,构建事件演化模型,实现对舆情事件的精准预警、控制。
在数据资源供给方面,依托文本采集终端、图像采集系统、音频采集系统、5G视频采集、3D点云采集车等多样化的采集工具,汇集文字、图片、图表、视音频、报刊等数据资源,覆盖政务、文旅、电商、教育等众多行业领域。在数据集构建方面,以文本、图像、音频、视频、3D点云等多模态数据作为处理对象,全面打通数据采集、标注合成、数据交付等关键链路,形成热点新闻数据集、政情数据集、地方史志数据集等高质量数据集,可依据主题、人物、场景等标签对视频、音频和图片内容进行深度剖析匹配。在数据集应用方面,面向文化创意、广告营销、舆情分析、二次创作等典型应用场景,赋能文化传媒行业内容生产、传播分发、交互体验和商业模式创新(见图2)。以地方史志数据集为例,蕴含丰富的历史地理、文化民俗、社会经济、方言等信息,可用于开发智能寻根系统、地名文化智能管理平台、历史知识图谱与智能检索等数据产品。

(三)低空经济领域高质量数据集建设实践
在低空经济快速发展的背景下,无人机在物流、城市安防、应急救援等场景对多源异构数据的实时感知、智能处理与协同应用提出了前所未有的需求。然而,传统数据采集与处理模式存在“数据孤岛”、时空碎片化、隐私保护不足和应用场景单一等问题,难以满足高动态、高安全、高精度的行业需求。低空经济数据集通过对海量飞行数据、物流数据、地理信息数据等的分析挖掘,可以优化低空空域管理、提高飞行安全性、提升物流配送效率,为低空经济产业发展提供有力支撑。
在数据资源供给方面,通过整合气象、地理、卫星、雷达、航空器传感器等多维度原始数据,经清洗处理生成预训练集,通过指令微调适配任务能力,最终由测试集验证性能并触发反馈优化。其中,原始数据集作为起点,通常包含未经处理的文本、图片、视频等海量数据,通过清洗、去噪和标准化操作转化为预训练集,赋予模型基础语言能力。在数据集构建方面,针对低空目标特性开发3D点云、跨帧连续标注、多模态融合标注等工具,以无人机影像数据、飞行器航路航线、基础设施、起降场、城市CIM数据等关键低空要素数据作为处理对象,打造无人机运行企业数据集、航线规划数据集、无人机飞行实时监测数据集等核心数据集。在数据集应用方面,聚焦城市治理、空域管理、航测遥感、农业生产、环境监测与保护、灾害预警救援、物流规划、能源调度等多元场景应用,推动低空数据要素向生产力转化,为低空经济安全、高效发展提供核心数据底座(见图3)。

(四)商贸流通领域高质量数据集建设实践
商贸流通行业具有供应链链路长、参与主体多元、数据模态(如商品编码、物流轨迹、交易文本、视频监控、物联网传感数据等)复杂的特点,亟须构建覆盖全场景、全链条的行业级数据集,以支撑线上购物、新零售业态、机器人导购、数字贸易、移动支付等场景的算法模型迭代。
在数据资源供给方面,商贸流通作为连接生产与消费的核心枢纽,涵盖零售、物流、跨境贸易、供应链管理等多元业态。通过与用户及合作商户签订授权协议,可获取平台线上购物用户的浏览、搜索、购买、评价等行为数据,上游供应商的库存、物流、价格动态和下游零售商的销售、库存动态等关键数据。依托标签工厂、知识图谱、数据建模等技术手段,对商贸流通全链路的用户轨迹、交易小票、冷链温湿度、货架点云、直播视频等动静态数据进行深度处理,最终形成商品智维、仓储物流、门店运营等高质量数据集。在数据集应用方面,可用于研发智能风控智能体、智能营销助手、智能补货助手等产品,构建景气指数、消费热力图、消费偏好图谱等数据产品,为零售企业的采购计划、库存管理和销售策略提供科学依据(见图4)。

四、构建人工智能高质量数据集的建议
(一)建立统一范式的数据标准和规范体系
高质量数据集建设高度依赖标准与规范支撑,亟须构建覆盖数据采集、处理、存储、分析、共享的全流程标准规范体系。一是围绕数据采集、数据标注、质量评估、建设运营等重点流程,研制更具针对性与可操作性的实施细则及配套标准,形成可推广、可复用的标准规范与实施指南。二是推进重点行业标准研制,结合细分行业特性,细化数据采集、处理、加工、标注等环节的流程要求与标准内容,为高质量数据集的全链条建设、流通与应用提供依据。三是构建覆盖细分行业的高质量数据集质量评测体系与配套工具集,通过标准化的高质量数据集评测工具,对数据集的质量等级进行客观评定,并结合实际应用场景的需求,推动评测方法与工具集的持续迭代升级。
(二)构建高效的数据管理平台和基础设施
高质量数据集建设需要强大的数据管理平台和基础设施支撑,降低数据应用门槛,推动数据集市场化流通和规模化应用。一是深化各类数据基础设施效能发挥。依托数联网、可信数据空间、数据元件等实践方案,推动工业制造、交通运输、金融服务、医疗健康等行业高质量数据集在安全合规的框架内有序流动,构建跨部门、跨行业、跨地区的高质量数据集体系。二是拓宽多元化数据供给渠道。加大公共数据授权运营平台推广力度,引导企业数据在安全合规前提下有序开放,探索授权运营、数据交换、数据交易等多元供给路径,并加速构建行业数据产品、供需对接清单及共享型行业共性数据资源库。三是推进数据标注与数据集管理平台建设。集成数据集建设、评测、流通工具及人工智能模型,为重点行业提供覆盖数据集开发建设、应用服务、价值运营的全链条支撑。
(三)推动数据集的广泛应用和场景化落地
数据集建设的最终目的是实现数据的应用和价值创造。一是结合行业与区域发展特色,形成适用于本行业、地区的建设路线,推动各领域数据集均衡发展。聚焦典型应用场景,打造满足共性需求的高价值场景数据集,形成可复制的示范效应。加快具身智能、低空经济等创新领域高质量数据集建设布局,助力新兴产业、未来产业与人工智能深度融合发展。二是强化数据领域人才培育。加快构建数据标注人才队伍梯度化体系,搭建数据标注实训基地及产教融合协作平台,培养兼具专业性与技术性的高层次数据标注人才。制定人工智能数据标注职业标准及职业技能等级认定体系,进一步畅通人才职业晋升渠道。
五、总结与展望
高质量数据集覆盖制造、金融、医疗、交通、公共安全、自然资源、地理信息、人力资源、社会治理、科学研究等重点行业,且以高价值应用、高知识密度、高技术含量为显著特征,成为支撑各行业数字化转型的核心基础。未来,在数据工具优化与大模型技术推动下,对高质量数据集建设过程中数据标注、质量评估的效率与效果提出了更高的要求,跨语言、跨领域、跨模态语义对齐、数据合成等关键核心技术也将进一步得到拓展与深化。面向未来更广阔的发展空间,需要通过建立统一标准规范、完善数据基础设施和强化行业应用牵引,持续提升高质量数据集建设运营能力,最终构建起覆盖全流程、贯通各环节的高质量数据集建设格局,为数据要素市场化配置与数字经济高质量发展奠定基础。
参考文献
[1] 穆晓君,吴桐,加雄伟,等.大模型时代:高质量数据的构建,治理与未来展望[J].信息通信技术, 2024, 18(3):63-68.
[2] 江苏省数据局.关于印发《江苏省发展数据标注产业建设高质量数据集实施方案(2025-2027年)》的通知[EB/OL]. (2025-08-16)[2026-02-25]. https://wwW. afdata.0rg.cn/PolicyPlace/55fd9b3b-544c-4993-83a6-9c472b9c9560.
[3] 国家数据局. 2024年“数据要素×”大赛优秀项目案例集—商贸流通案例之八 海量消费数据赋能传统零售业转型升级[EB/OL].(2025-02-04)[2026-02-25]. https://www.nda.gov.cn/sjj/zhuanti/ztsjysx/ds/0127/20250127125922927502062_mobile.html.
[4] 胡坚波.加快建设高质量数据集 推动人工智能赋能行业发展[J].中国信息界,2025(8):6-8.
(丁明慧、黄付晏、吴琦莹系中国信息通信研究院工程师;童晋系中国信息通信研究院高级工程师)