首页 > 新闻动态 > 机构动态

机构动态
发展工业高质量数据集
发布时间:2026-03-31 22:19:15

3月31日,由浙江省经济和信息化厅、浙江省数据局主办,宁波市经济和信息化局、宁波市数据局等承办的“数赋智能 商领发展”浙江数商发展推进会在宁波举行。工业和信息化部信息技术发展司副司长李丽,国家数据局数据资源司副司长张慧星,宁波市委常委、常务副市长赵海滨出席会议并致辞。浙江省政府副秘书长施清宏,中国工业互联网研究院院长鲁春丛,浙江省经信厅副厅长董钊、浙江省数据局副局长吴旭升,宁波市智能制造专家委员会主任陈炳荣、宁波市经信局局长王懿栋、宁波市数据局局长朱晓丽出席会议。蓝卓数字、景联文科技、海亮股份、联通数智、蚂蚁数科等企业分享了实践案例。数商和供数企业代表,人工智能与行业数据需求企业代表,有关高校院所、科研单位、行业协会负责人等生态单位代表等共约300人参加会议。


会上,中国工业互联网研究院院长鲁春丛以《发展工业高质量数据集》为题作主题报告。


主要内容如下


发展工业高质量数据集

中国工业互联网研究院院长 鲁春丛

(2026年3月31日 浙江宁波)


当前,人工智能发展之快、辐射之广、影响之深,正在成为重塑全球经济结构、改变全球竞争格局的变革性力量。数据作为新型生产要素,是推动人工智能赋能实体经济、激活新质生产力的“关键燃料”。习近平总书记强调,“我国数据资源丰富,产业体系完备,应用场景广阔,市场空间巨大。要推动人工智能科技创新与产业创新深度融合……统筹推进算力基础设施建设,深化数据资源开发利用和开放共享”。《“十五五”规划纲要》明确提出,要完善数据标准体系和质量管理体系,加快建设人工智能语料库,面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集。这为我们的工作指明了方向,提供了遵循。


一、深刻认识发展工业高质量数据集的重要意义


人工智能正从感知智能向认知智能、决策智能快速跃升,深刻改变人类生产生活方式。谁能率先把数据要素从“沉睡资源”转化为“核心资产”,谁就能在新一轮科技革命和产业变革中赢得主动、赢得未来。


(一)释放海量工业数据潜能的现实路径。以大模型为代表的人工智能技术快速演进,得益于过去三十年互联网高速发展所积累的海量数据。随着模型参数量的指数级增长,继续依赖通用数据对模型性能的提升效果已趋于平缓,且难以满足工业复杂场景下的深度认知与精准决策需求。调研显示,一个典型的中等规模智能工厂,仅人、机、料、法、环等各类要素的连接点就多达1200到1500个。我国拥有超过600万家制造业企业,这些连接点汇聚起来,每天都在产生着规模难以估量的、蕴含丰富工业机理的“数据洪流”。但目前对这些数据的开发利用尚处于初级阶段,潜力远未释放。激活这片广阔的工业数据“蓝海”,亟需将各行各业的原始数据转化为行业高质量数据集。


(二)提升模型和智能体性能的重要方法。从产业实践看,在推进工业智能应用中,往往“七分在数据、三分在模型”。例如,在设备预测性维护场景,不少企业在引入振动、声纹、工艺参数等高质量数据后,同一套模型的故障预判准确率会显著提升。调研发现,许多智能化改造项目中,数据汇聚、清洗、标注、治理等基础性工作占据了绝大部分项目投入,这是由工业数据天然复杂性决定的。多元异构,传感器数据、视频图像、规章文本等模态多样、格式各异;多级分布,数据分散在设备单元、产线、车间以及企业的管理系统,难以打通;深度耦合,数据背后隐藏着复杂的工艺原理和“老师傅”的隐性经验。要下大力气建设高质量行业数据集,打通数据壁垒,为大模型和智能体在工业场景应用提供丰富“养料”。


(三)抢占人工智能主战场的战略抓手。规模巨大的实体经济场景与海量数据,是人工智能时代的战略资源。我国凭借全球领先的制造业基础、数智基础设施,将人工智能大规模部署于机器人、物流网络等实体场景,获得了海量、专业化、具有高度价值的真实世界数据。这些数据是任何网络爬虫或合成数据都无法复制的。加快发展工业高质量数据集,就是要打通数据到智能的转化链路,将我国庞大的应用场景和数据规模优势,转化为人工智能产业胜势。


二、我国工业高质量数据集建设取得积极进展


在政产学研用各方协同推进下,工业高质量数据集建设已在汽车、原材料、装备制造等多个领域起步探索,推动大模型和智能体扎根生产场景,形成了一批标志性成果。


(一)汽车制造领域,打造上下游协同的“数据底盘”。汽车制造产业链长、配套企业众多、数据互通不足,导致协作效率低、抗风险能力弱。龙头车企建设“产业链协同调度高质量数据集”,全面整合原材料供应、在途货物、生产排产、终端订单等全链条关键数据。经过清洗治理和统一规范,实现产业链上下游数据互用互通。依托该数据集训练的智能协同模型,支撑了供需精准匹配和毫秒级动态平衡。上游供应商能准确预判整车厂需求变化,整车厂也能及时掌握上游供应能力,推动供应链响应速度提升40%,显著增强了产业链韧性和竞争力。


(二)有色金属冶炼领域,实现专家经验的“数字传承”。冶金行业工艺复杂,传统生产高度依赖“老师傅”的经验判断。大型冶金集团深度整合涵盖电流、电压、浓度等多个维度的车间监测与加工历史数据,构建电解铝工艺机理高质量数据集。利用数据集训练AI模型,成功将模糊的工艺逻辑显性化,实现工艺参数的精准预测,分子比预测偏差控制在0.06以内,生产温度波动减少30%,让产线具备“专家级”智能预警和诊断能力,大幅提升生产稳定性和能效水平。


(三)高端装备制造领域,赋能柔性制造的“群体智能”。高端装备制造普遍面临机器人适应性不足、突发异常难应对以及多机协同困难等问题。工程机械头部企业搭建涵盖机器人环境感知、应急处理与群体协同的具身智能感知联动数据集。沉淀数百万组“视觉-触觉-动作”同步数据,精准记录了异常处理时的关节角度、力度控制等多维信息。依托该数据集训练协作大模型,实现机器人从单机控制向群体智能协作的跨越。在智能产线上,设备可自主优化路径并相互配合,平均每6分钟下线一台挖掘机,可同时混线生产100多种型号产品,实现“大规模、多品种、小批量”的柔性制造。


三、推进工业高质量数据集建设的重点任务


让工业数据更好地赋能于模型、应用于场景、转化为价值,数智基础设施建设是前提,分类打造高质量数据集是有效路径。


(一)建立一套能打破“数据孤岛”的智能基础设施。向下对接各类异构数据源和工业协议,向上支撑大模型部署、智能体运行和业务应用构建,中间以统一的语义模型让AI真正理解业务。


过去,打破“数据孤岛”往往是指把数据汇聚到同一个数据库或集成到同一个平台上。但人工智能时代提出了全新的要求,数据汇聚不等于数据连通,系统集成不等于语义贯通。比如,一家制造企业的ERP里有“订单”,MES里有“工单”,SCADA里有“批次号”,这三个概念可能指的是同一件事,但如果AI不能理解它们之间的关系,不能读懂数据背后所代表的业务语义,那数据孤岛依然存在,只是换了一种形式。打破“数据孤岛”,不再是物理层面的数据搬家,而是语义层面的数据贯通,AI要能理解数据之间的实体关系、业务逻辑和因果链条。只有实现语义层面的贯通,才能打造出真正适合大模型训练和应用的高质量数据集,形成有结构、有语义、有关联的数据资产。


打破数据孤岛之后,数据的价值绝不仅仅停留在训练行业模型上。要大力推进IT、CT、OT和DT的“4T融合”,打通数据语义、保障决策可信可控,让传感器读数、设备状态、产线运行参数、供需匹配、物流位置等数据参与到AI的推理决策中,形成感知、理解、决策的闭环。


(二)构建三类工业高质量数据集。产业链数据集,主要反映重点产业链与产业集群上下游的供给关系及实体信息,是国家和地方进行产业分析、区域规划的重要支撑。面向重点产业链,要统筹通信、算力、云服务和工业软件等资源,打造一体化数据基础设施。通过在关键环节和重点区域部署边缘计算节点,打破安全共享壁垒,分布式整合龙头企业及其上下游数据,形成可多方复用的高质量产业链通用数据集和典型场景数据集。企业运营数据集,是打破企业内部“信息孤岛”、提升市场波动响应能力的关键,涵盖订单、采购、库存、物流、财务等环节。要贯通从集团总部到生产现场的一体化数据链路,规范数据采集交互标准,通过权限分级和脱敏措施确保数据安全可信,按业务板块系统沉淀可复用的数据资源,支撑企业的决策分析与精细化管理。企业生产数据集,直接反映生产制造全流程的物理状态,包括设备运行轨迹、工艺参数、产能良率等数据,是“人工智能+制造”最难啃的“深水区”,也是训练工业大模型最宝贵的“语料”。要以工厂一线为重点,依托边缘计算节点和工业互联网平台,实现关键设备状态、工艺参数和质量结果的持续采集与结构化沉淀。不断完善数据采集、校验、标注标准,规范建设路径,持续打造真实可靠的高质量生产数据集。


工业和信息化部已正式启动“工业数据筑基行动”,率先开展高质量行业数据集建设的先行先试工作。为落实好这项工作,中国工业互联网研究院联合汽车、有色金属、高端装备等重点行业的龙头企业,聚焦解决“三个问题”,积极推进实践探索。


一是“建什么”。从解决实际业务痛点出发,系统梳理产业链协同、生产管控、企业管理三个维度的人工智能应用场景图谱。对应每一个应用场景需求,精准提炼人工智能模型、智能体训练所需的数据要求。产业链协同场景重点明确原材料供给、在途物流、终端订单等数据内容,数据格式、准确率、更新延迟等关键指标。生产管控场景聚焦设备运行参数、工艺投料记录等核心数据,明确采集频率、数据完整性等建设标准。企业管理场景则将财务、人力、库存等数据的规范口径与标准化要求进一步统一。通过“场景—模型—数据集”需求的层层映射,清晰界定每类数据集“需要什么数据、建到什么标准”,从源头上杜绝“建用脱节”。


二是“去哪找”。围绕应用场景图谱明确的数据需求,对产业链上下游企业及各业务环节开展摸排,精准掌握各主体、各系统的数据类型、规模及格式规范等情况。通过工业数据资产登记,形成工业数据目录体系。对设备运行、物流仓储等大类数据,构建标准化目录。对同类型、不同系统、不同格式的数据,进行语义映射和归一化处理,实现跨主体数据的语义互通,打破数据“语言壁垒”。构建数据标识解析系统,为每个数据集赋予唯一“身份”,实现数据集的路由寻址与快速定位查询。


三是“怎么用”。严守“数据物理不出域”原则,采用“云边协同”技术路线,实现“数据可用不可见”安全共享。企业侧部署边端数据空间,集成联邦学习、密态计算等隐私计算技术。云边协同完成模型训练任务,边缘侧实现数据语义规范化与本地计算,原始数据不上云,切实保护企业商业秘密与数据安全。云侧统筹协调各边缘节点,整合分布式计算结果开展联合运算,最终输出满足要求的智能模型与业务决策依据。在边缘侧计算过程中同步开展数据清洗、标注与迭代优化,持续提升数据质量,形成“数据越用越规范、模型越训越精准”的良性循环。