推动钢铁行业高质量数据集建设的路径与策略

0

梁    斌    张    辰(中国电子信息产业发展研究院;北京首开亿方物业服务有限公司)

摘 要:当前,高质量数据集建设已成为推动钢铁行业智能化转型的核心驱动力。本文系统梳理了国内钢铁企业及数据服务商在高质量数据集建设方面的现状、问题和发展诉求,建议从加强政策支持、构建行业生态、攻关关键技术、创新商业模式、完善标准体系五个方面着手,共同推动钢铁行业高质量数据基础设施建设,以实现数据价值的最大化与可持续流通。

关键词:钢铁行业,高质量数据集,智能化转型

一、钢铁行业高质量数据集建设现状

(一)数据基础规模化初见成效,数据资产化、多模态、全链路成为行业共识

当前,我国大型钢铁企业普遍开展大规模数据治理与资产化工作,为高质量数据集建设奠定了坚实基础。大型钢铁企业中,一些钢铁企业或联合省内其他钢铁企业,挖潜治理钢铁行业数据,开发高质量数据集;一些企业依托自身“1+N”大数据中心,形成规模化数据底座,构建了包含文本、图像、视频的多模态语料库;还有企业盘点集团全域数据资源,构建了覆盖全生命周期、实现 IT/OT 语义对齐的多模态全链路数据资产。数据服务商企业中,一些数据服务商企业构建了大宗商品全产业链数据集、空天地海遥感数据集、行业知识图谱数据集和标注训练数据集等,涵盖海量多源、异构多模态、分布式的数据源及采集形式。

(二)数据治理方法论特征明显,数据治理体系逐步完善

大型钢铁企业的数据治理方法主要分为“数据治理 1.0”和“数据治理 2.0”两个阶段。“数据治理 1.0”阶段以工业互联为核心,依托装备实现作业自动化、流程透明化,并逐步推进业务数字化,主要表现为大数据中心建设、工业互联网部署、数据资源汇聚整合等特征;“数据治理 2.0”阶段以数据融合为核心,以“知识 + 数据 + 算力 + 算法”共同驱动创新发展与管理变革,主要表现为人工智能技术应用、数据价值挖掘、交易流通机制探索等特征。例如,钢铁企业在数据治理 1.0 阶段主要构建数据管理组织与质量体系,建成云边端湖仓一体的大数据中心;在数据治理 2.0 阶段主要围绕 AI 场景开启全链路数据治理与人工智能场景应用行动计划,旨在构建多模态高质量全景数据集,解决分散在各工序、各层级中的多模态数据融合与组织难题,促进 AI 用数能力提升。数据服务商企业的数据治理方法主要包括采用专业团队采集、爬虫技术、交易购买等方式,通过创新技术应用实现数据加工与质量把控,输出高质量行业数据、解决方案与标准工具等。例如,一些数据服务商企业通过构建人工采集与自动采集相结合的多模态数据采集体系,形成独特的质量管理模式,对外输出行业数据产品和解决方案,提供价格基准服务和决策支持服务。

(图片由 AI 生成)

(三)应用场景多元化趋势显著,数据驱动价值逐步显现

在工艺生产层面,钢铁企业的“中厚板轧制力预测”“新型合金焊丝成分设计”等应用提出“知识-数据”双轨驱动架构,将冶金知识与人工智能技术深度融合,实现了轧制力预测准确率、合金焊丝研发效率大幅提升,研发成本大幅降低;“一体化配料应用”提高了制造与采购协同效率,大幅降低吨铁成本;“AI 排程模型应用”大幅提高了制造机组人工排产效率。

在质量检测层面,数据服务商企业的 “产品一贯质量分析应用”通过整合全链路多源数据,建立“预测—预警—追溯”三级管控体系,实现产品一贯制质量提升;钢铁企业的“智能金相检测应用”通过自研智控一体金相检测系统,实现金属物夹杂物、晶粒度、脱碳层等高准确率识别评级;“热轧钢卷端面智能识别”“冷轧镀锌捞渣智能识别”等应用借助机器视觉、大模型等技术检查钢卷圆度、锌液表面锌渣等情况,实现智能识别与质检分析。

在经营管理层面,钢铁企业的“智慧经营决策应用”通过整合全流程经营数据,建立价值链贯通模型与智能决策体系,实现全局智慧决策升级与经营抗风险能力提升;数据服务商企业的“钢联宗师大模型应用”为钢铁、有色、能源等行业提供价格基准和市场深度分析,支持期货和现货交易决策,已进入国际价格结算体系,较好解决了大宗商品的交易效率、成本及合规问题。

(四)产业全链条化发展明显,数据赋能模式不断创新

在数据集建设前期规划中,企业普遍委托或联合科研院校、互联网企业、智库咨询等机构开展数据集建设整体规划服务。同时,借鉴钢铁企业同行、制造企业与技术服务商等先进企业的数据治理架构和分层管理方法,在建设路径、技术选型和组织协作上实现更加精准的匹配,确保数据集建设既符合行业最佳实践,又贴合自身生产与管理特点。

在数据集建设过程中,企业普遍采用 “外部专家技术指导 + 内部专家数据标注”的模式,即外部专家提供数据集设计、数据标准制定等技术方案协作,内部人员承担数据汇聚、清洗、规范化处理等任务,业务专家提供深度工艺逻辑和领域知识支撑,指导开展数据特征提取与标签定义,并对标注结果进行评审与修正。

数据集建设完成后,企业严格实施数据分级分类管理制度。例如,大部分钢铁企业针对仅使用内部数据构建或仅限内部使用的数据集,按照内部数据管理规范流程,全面管控数据集的质量与安全;针对存在对外流通共享场景的数据集,委托具备资质的第三方合规机构全面审核数据来源合法性、隐私保护合规性、质量安全性等。

在高质量数据赋能行业发展方面,有的钢铁企业提出建设钢铁行业高质量数据集公共服务平台,撮合产学研单位共建高质量数据集与智能体社区,探索高质量数据集流通与在线模型 SaaS 化服务,赋能企业转型升级与自造血能力;有的钢铁企业牵头产业链上下游成立钢铁产业链可信数据空间联盟,探索钢铁行业可信数据空间建设工作,提出“数据不出域、模型可流转”的安全协同范式,结合联邦建模、分阶段授权等方式推动数据价值共创共享,推进产业链数据协同;有的数据服务商企业推出数据产品及衍生服务,提供买卖双方长协合同谈判与结算、金融机构投资决策、政府产业决策与宏观调控决策等服务。

二、钢铁行业高质量数据集建设面临的四大问题

(一)数据壁垒与流通困境

一是不同企业间自动化、数字化、智能化的程度不一,导致不同企业的高质量数据集建设应用深度及广度存在显著差异,难以形成协同发展的规模效应。二是数据互通标准化率不足,不同企业采用的设备通信协议、数据格式差异较大,形成普遍存在的 “数据孤岛”现象,导致跨厂、跨工序数据共享难。三是生产工艺数据涉及企业核心竞争力,数据出厂、跨系统流通等面临严格审查,企业普遍采用“一刀切”处理方式,导致企业间数据流通意愿低,制约行业级模型训练。

(二)数据治理与技术投入成本高

一是除部分龙头企业外,大多数企业对数据资源的整体规划不足、治理需求不明、管理应用不规范,无法为企业各层级的管理和决策提供更具针对性的数据支撑,导致大量数据沉淀且难以直接使用,存在数据采集不全面、后期治理成本高、管理应用规范差等问题。二是限于钢铁行业数据的专业性、关联性、流程性、时序性和解析性等特点,多源数据融合、稀缺数据合成、非结构性数据标注等关键技术亟须攻关。比如,有钢铁企业反馈,大模型训练与向量数据库等新技术带来巨大的算力与存储成本,单个钢铁企业配套难度大。

(三)复合型人才与领军人才稀缺

复合型人才须具备行业领域专业知识与人工智能通用知识体系等解决具体业务问题的能力;领军人才须具备以人工智能技术驱动业务发展的前瞻研判能力与突破传统思维范式的跨界创新战略能力。调研发现,多数钢铁企业通过“内部培养为主,外部引进为辅”的方式缓解技术人才缺口问题,且“懂技术 + 懂管理 + 懂经营”的领军人才尤为紧缺。此外,跨行业产学研合作平台不足,导致研究人员、数据工程师、行业专家难以紧密合作,人才交流与培养机制存在一定不足。

(四)行业标准与完整生态缺失

一是高质量数据集标准体系不完善,包括数据规范术语、通信接口、质量评估、价值评定、交易流通等方面缺乏统一的、可行性的行业标准。二是高价值数据集开发周期长、成本高、复用率低,数据价值转化路径不清晰,商业模式不成熟,产学研用各环节之间的衔接配合不够紧密、协同效应不足,这些问题制约数据产业完整生态的高速发展。

三、钢铁行业高质量数据集建设的策略建议

锚定流程工业数字化转型的共性需求,建议将钢铁行业作为高质量数据集建设的先行试点领域,重点突破,形成行业典范。在总结提炼钢铁行业成功经验的基础上,审慎论证并有序向水泥、玻璃等关键流程行业延伸拓展,构建体系化、高质量的工业数据资源池,为深化工业智能化应用奠定坚实基础。

(一)加强政策支持,健全数据定价与流通机制

建议政府完善政策支持体系,加大财政资金投入,依据区域 / 城市发展特色,以专项项目形式为牵引,重点支持钢铁行业数据集建设与技术研发。探索原创数据集确权、评估、交易与收益分配等机制,鼓励钢铁企业探索商业模式创新,培育可持续供给生态。

(二)构建行业生态,促进数据共享与协同发展

建议由主管部门或行业协会牵头,组建钢铁行业数据生态联盟,共同定义数据脱敏、安全交换的标准与协议,探索基于区块链、联邦学习、隐私计算等技术的行业数据共建机制。推动建设行业级的可信数据空间与基准测试平台,建立产学研政协同网络与数据要素收益分配机制,提升企业参与度,形成可持续的行业级数据流通生态。

(三)聚焦关键技术攻关,降低高质量数据集建设门槛 鼓励钢铁企业与科研院所合作,攻关 “小样本学习”“自监督学习”等技术,降低对大量标注数据的依赖。研发面向钢铁行业的“低代码 / 无代码”数据标注与模型开发工具,赋能业务专家参与数据生产,提高数据集建设效率。推广“知识—数据”双驱的建模方法论,提升 AI 模型的精准性与可解释性。开发覆盖钢铁行业高质量数据集建设全流程的工具链体系,包括数据采集、预处理、标注、增强与合成等环节,提升数据集建设的质量和效率。

(四)创新商业模式,探索数据价值变现路径

鼓励钢铁企业构建高质量数据集可信空间,探索“数据集 + 模型”的 SaaS 化订阅服务,实现数据价值的可持续流通,赋能企业形成自造血能力。支持第三方数据服务平台向“数据 + 工具 + 赋能”综合服务升级,探索数据服务商业新模式。推动基于区块链、隐私计算等技术的数据资产确权与交易试点,构建健康有序的行业数据生态。

(五)完善标准体系与人才培养机制,夯实高质量发展基础

建议围绕基础通用标准定义、关键技术标准与质量控制标准等,建立高质量数据集的系列标准。加快制定行业数据治理相关标准规范,如机器视觉数据标注、知识图谱构建等,推动高质量数据集建设的标准化与规范化。鼓励高校与企业联合培养“专业工程 + 数据科学”的复合型人才,加强在职人员的数据技能培训,解决专业人才短缺问题。

(梁斌系中国电子信息产业发展研究院人工智能研究测评事业部技术副总师、高级工程师;张辰系北京首开亿方物业服务有限公司第七分公司办公室主任、中级经济师)

评论被关闭。