发展工业高质量数据集-中国工业互联网研究院

3月31日，由浙江省经济和信息化厅、浙江省数据局主办，宁波市经济和信息化局、宁波市数据局等承办的“数赋智能商领发展”浙江数商发展推进会在宁波举行。工业和信息化部信息技术发展司副司长李丽，国家数据局数据资源司副司长张慧星，宁波市委常委、常务副市长赵海滨出席会议并致辞。浙江省政府副秘书长施清宏，中国工业互联网研究院院长鲁春丛，浙江省经信厅副厅长董钊、浙江省数据局副局长吴旭升，宁波市智能制造专家委员会主任陈炳荣、宁波市经信局局长王懿栋、宁波市数据局局长朱晓丽出席会议。蓝卓数字、景联文科技、海亮股份、联通数智、蚂蚁数科等企业分享了实践案例。数商和供数企业代表，人工智能与行业数据需求企业代表，有关高校院所、科研单位、行业协会负责人等生态单位代表等共约300人参加会议。

会上，中国工业互联网研究院院长鲁春丛以《发展工业高质量数据集》为题作主题报告。

主要内容如下

发展工业高质量数据集

中国工业互联网研究院院长鲁春丛

（2026年3月31日浙江宁波）

当前，人工智能发展之快、辐射之广、影响之深，正在成为重塑全球经济结构、改变全球竞争格局的变革性力量。数据作为新型生产要素，是推动人工智能赋能实体经济、激活新质生产力的“关键燃料”。习近平总书记强调，“我国数据资源丰富，产业体系完备，应用场景广阔，市场空间巨大。要推动人工智能科技创新与产业创新深度融合……统筹推进算力基础设施建设，深化数据资源开发利用和开放共享”。《“十五五”规划纲要》明确提出，要完善数据标准体系和质量管理体系，加快建设人工智能语料库，面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集。这为我们的工作指明了方向，提供了遵循。

一、深刻认识发展工业高质量数据集的重要意义

人工智能正从感知智能向认知智能、决策智能快速跃升，深刻改变人类生产生活方式。谁能率先把数据要素从“沉睡资源”转化为“核心资产”，谁就能在新一轮科技革命和产业变革中赢得主动、赢得未来。

（一）释放海量工业数据潜能的现实路径。以大模型为代表的人工智能技术快速演进，得益于过去三十年互联网高速发展所积累的海量数据。随着模型参数量的指数级增长，继续依赖通用数据对模型性能的提升效果已趋于平缓，且难以满足工业复杂场景下的深度认知与精准决策需求。调研显示，一个典型的中等规模智能工厂，仅人、机、料、法、环等各类要素的连接点就多达1200到1500个。我国拥有超过600万家制造业企业，这些连接点汇聚起来，每天都在产生着规模难以估量的、蕴含丰富工业机理的“数据洪流”。但目前对这些数据的开发利用尚处于初级阶段，潜力远未释放。激活这片广阔的工业数据“蓝海”，亟需将各行各业的原始数据转化为行业高质量数据集。

（二）提升模型和智能体性能的重要方法。从产业实践看，在推进工业智能应用中，往往“七分在数据、三分在模型”。例如，在设备预测性维护场景，不少企业在引入振动、声纹、工艺参数等高质量数据后，同一套模型的故障预判准确率会显著提升。调研发现，许多智能化改造项目中，数据汇聚、清洗、标注、治理等基础性工作占据了绝大部分项目投入，这是由工业数据天然复杂性决定的。多元异构，传感器数据、视频图像、规章文本等模态多样、格式各异；多级分布，数据分散在设备单元、产线、车间以及企业的管理系统，难以打通；深度耦合，数据背后隐藏着复杂的工艺原理和“老师傅”的隐性经验。要下大力气建设高质量行业数据集，打通数据壁垒，为大模型和智能体在工业场景应用提供丰富“养料”。

（三）抢占人工智能主战场的战略抓手。规模巨大的实体经济场景与海量数据，是人工智能时代的战略资源。我国凭借全球领先的制造业基础、数智基础设施，将人工智能大规模部署于机器人、物流网络等实体场景，获得了海量、专业化、具有高度价值的真实世界数据。这些数据是任何网络爬虫或合成数据都无法复制的。加快发展工业高质量数据集，就是要打通数据到智能的转化链路，将我国庞大的应用场景和数据规模优势，转化为人工智能产业胜势。

二、我国工业高质量数据集建设取得积极进展

在政产学研用各方协同推进下，工业高质量数据集建设已在汽车、原材料、装备制造等多个领域起步探索，推动大模型和智能体扎根生产场景，形成了一批标志性成果。

（一）汽车制造领域，打造上下游协同的“数据底盘”。汽车制造产业链长、配套企业众多、数据互通不足，导致协作效率低、抗风险能力弱。龙头车企建设“产业链协同调度高质量数据集”，全面整合原材料供应、在途货物、生产排产、终端订单等全链条关键数据。经过清洗治理和统一规范，实现产业链上下游数据互用互通。依托该数据集训练的智能协同模型，支撑了供需精准匹配和毫秒级动态平衡。上游供应商能准确预判整车厂需求变化，整车厂也能及时掌握上游供应能力，推动供应链响应速度提升40%，显著增强了产业链韧性和竞争力。

（二）有色金属冶炼领域，实现专家经验的“数字传承”。冶金行业工艺复杂，传统生产高度依赖“老师傅”的经验判断。大型冶金集团深度整合涵盖电流、电压、浓度等多个维度的车间监测与加工历史数据，构建电解铝工艺机理高质量数据集。利用数据集训练AI模型，成功将模糊的工艺逻辑显性化，实现工艺参数的精准预测，分子比预测偏差控制在0.06以内，生产温度波动减少30%，让产线具备“专家级”智能预警和诊断能力，大幅提升生产稳定性和能效水平。

（三）高端装备制造领域，赋能柔性制造的“群体智能”。高端装备制造普遍面临机器人适应性不足、突发异常难应对以及多机协同困难等问题。工程机械头部企业搭建涵盖机器人环境感知、应急处理与群体协同的具身智能感知联动数据集。沉淀数百万组“视觉－触觉－动作”同步数据，精准记录了异常处理时的关节角度、力度控制等多维信息。依托该数据集训练协作大模型，实现机器人从单机控制向群体智能协作的跨越。在智能产线上，设备可自主优化路径并相互配合，平均每6分钟下线一台挖掘机，可同时混线生产100多种型号产品，实现“大规模、多品种、小批量”的柔性制造。

三、推进工业高质量数据集建设的重点任务

让工业数据更好地赋能于模型、应用于场景、转化为价值，数智基础设施建设是前提，分类打造高质量数据集是有效路径。

（一）建立一套能打破“数据孤岛”的智能基础设施。向下对接各类异构数据源和工业协议，向上支撑大模型部署、智能体运行和业务应用构建，中间以统一的语义模型让AI真正理解业务。

过去，打破“数据孤岛”往往是指把数据汇聚到同一个数据库或集成到同一个平台上。但人工智能时代提出了全新的要求，数据汇聚不等于数据连通，系统集成不等于语义贯通。比如，一家制造企业的ERP里有“订单”，MES里有“工单”，SCADA里有“批次号”，这三个概念可能指的是同一件事，但如果AI不能理解它们之间的关系，不能读懂数据背后所代表的业务语义，那数据孤岛依然存在，只是换了一种形式。打破“数据孤岛”，不再是物理层面的数据搬家，而是语义层面的数据贯通，AI要能理解数据之间的实体关系、业务逻辑和因果链条。只有实现语义层面的贯通，才能打造出真正适合大模型训练和应用的高质量数据集，形成有结构、有语义、有关联的数据资产。

打破数据孤岛之后，数据的价值绝不仅仅停留在训练行业模型上。要大力推进IT、CT、OT和DT的“4T融合”，打通数据语义、保障决策可信可控，让传感器读数、设备状态、产线运行参数、供需匹配、物流位置等数据参与到AI的推理决策中，形成感知、理解、决策的闭环。

（二）构建三类工业高质量数据集。产业链数据集，主要反映重点产业链与产业集群上下游的供给关系及实体信息，是国家和地方进行产业分析、区域规划的重要支撑。面向重点产业链，要统筹通信、算力、云服务和工业软件等资源，打造一体化数据基础设施。通过在关键环节和重点区域部署边缘计算节点，打破安全共享壁垒，分布式整合龙头企业及其上下游数据，形成可多方复用的高质量产业链通用数据集和典型场景数据集。企业运营数据集，是打破企业内部“信息孤岛”、提升市场波动响应能力的关键，涵盖订单、采购、库存、物流、财务等环节。要贯通从集团总部到生产现场的一体化数据链路，规范数据采集交互标准，通过权限分级和脱敏措施确保数据安全可信，按业务板块系统沉淀可复用的数据资源，支撑企业的决策分析与精细化管理。企业生产数据集，直接反映生产制造全流程的物理状态，包括设备运行轨迹、工艺参数、产能良率等数据，是“人工智能+制造”最难啃的“深水区”，也是训练工业大模型最宝贵的“语料”。要以工厂一线为重点，依托边缘计算节点和工业互联网平台，实现关键设备状态、工艺参数和质量结果的持续采集与结构化沉淀。不断完善数据采集、校验、标注标准，规范建设路径，持续打造真实可靠的高质量生产数据集。

工业和信息化部已正式启动“工业数据筑基行动”，率先开展高质量行业数据集建设的先行先试工作。为落实好这项工作，中国工业互联网研究院联合汽车、有色金属、高端装备等重点行业的龙头企业，聚焦解决“三个问题”，积极推进实践探索。

一是“建什么”。从解决实际业务痛点出发，系统梳理产业链协同、生产管控、企业管理三个维度的人工智能应用场景图谱。对应每一个应用场景需求，精准提炼人工智能模型、智能体训练所需的数据要求。产业链协同场景重点明确原材料供给、在途物流、终端订单等数据内容，数据格式、准确率、更新延迟等关键指标。生产管控场景聚焦设备运行参数、工艺投料记录等核心数据，明确采集频率、数据完整性等建设标准。企业管理场景则将财务、人力、库存等数据的规范口径与标准化要求进一步统一。通过“场景—模型—数据集”需求的层层映射，清晰界定每类数据集“需要什么数据、建到什么标准”，从源头上杜绝“建用脱节”。

二是“去哪找”。围绕应用场景图谱明确的数据需求，对产业链上下游企业及各业务环节开展摸排，精准掌握各主体、各系统的数据类型、规模及格式规范等情况。通过工业数据资产登记，形成工业数据目录体系。对设备运行、物流仓储等大类数据，构建标准化目录。对同类型、不同系统、不同格式的数据，进行语义映射和归一化处理，实现跨主体数据的语义互通，打破数据“语言壁垒”。构建数据标识解析系统，为每个数据集赋予唯一“身份”，实现数据集的路由寻址与快速定位查询。

三是“怎么用”。严守“数据物理不出域”原则，采用“云边协同”技术路线，实现“数据可用不可见”安全共享。企业侧部署边端数据空间，集成联邦学习、密态计算等隐私计算技术。云边协同完成模型训练任务，边缘侧实现数据语义规范化与本地计算，原始数据不上云，切实保护企业商业秘密与数据安全。云侧统筹协调各边缘节点，整合分布式计算结果开展联合运算，最终输出满足要求的智能模型与业务决策依据。在边缘侧计算过程中同步开展数据清洗、标注与迭代优化，持续提升数据质量，形成“数据越用越规范、模型越训越精准”的良性循环。