习近平总书记深刻洞察数字经济蓬勃发展的时代大势,历史性提出将数据确立为生产要素的重要论断。中共中央、国务院相继印发《关于构建数据基础制度更好发挥数据要素作用的意见》《数字中国建设整体布局规划》,从国家层面对数据的开发利用、交易流通、收益分配、安全治理等作出系统部署,构筑起数据作为一种生产要素的顶层制度框架和行动指南。近日,工业和信息化部印发《工业互联网和人工智能融合赋能行动方案》(以下简称《行动方案》),明确提出健全工业数据汇聚、治理、流通与共享体系,在重点行业培育和打造一批高质量数据集。这一部署既是贯彻落实党中央、国务院决策部署的具体举措,也是推动工业互联网建设的重要抓手,同时也是夯实人工智能在工业领域规模化应用和深度赋能的核心支撑。
数据是人工智能的基本要素,高质量工业数据是工业互联网与人工智能融合赋能的基础与纽带。一方面,高质量工业数据驱动人工智能在工业领域的应用深化,推动工业互联网智能化升级。另一方面,工业互联网为高质量工业数据集建设提供采集网络、处理平台、服务生态,推动人工智能在工业领域技术迭代与创新。
四维机理筑牢产业智能化底座
《行动方案》提出基础底座升级行动,巩固和增强工业互联网的泛在连接、智能治理、可信流通、场景迭代等特性,构成了工业互联网赋能高质量工业数据集建设的内在机理。
泛在连接筑基,打破数据孤岛,实现多源异构数据的高效汇聚。工业互联网通过集成5G/5G-A、时间敏感网络(TSN)、工业光网、边缘计算等多种网络与计算技术,实现了人、机、料、法、环、测等全要素以及研发、生产、销售、服务等全流程的广泛互联。通过这种立体化的泛在连接,工业互联网能够实现多源、异构、海量、高频工业数据的高效、实时、常态化汇聚与整合,从而为构建一个覆盖面广、时效性强、维度丰富的超大规模工业数据资源池奠定坚实的物理与连接基础。
智能治理提质,强化平台服务,实现数据质量的标准化管控。工业互联网沉淀的模型池、算法库、算力资源,为平台化服务开发提供了关键的基础设施与能力组件,实现了平台治理任务的模块化封装与高效执行。基于这种灵活高效的平台服务能力,工业互联网能够构建一套覆盖数据接入、解析、清洗、标注、融合与归档的全生命周期数据治理框架,从而将原始、杂乱的数据流转化为标准统一、格式规范、语义清晰、可信可用的数据资产,为构建高质量工业数据集体系提供核心能力保障。
可信流通增值,构建交易生态,实现数据价值的市场化变现。工业互联网依托区块链、联邦计算、数字身份认证等安全与可信技术,构建了一套涵盖资产确权、定价、审计、结算与监管的交易生态。通过这种安全可信的交易生态,工业互联网能够实现跨主体、跨区域、跨行业工业数据的合规授权、可控使用与有效追溯,推动工业数据从静态资产向动态生产要素转化,促进工业数据在更大范围内依规有序流动与融合应用,真正释放工业数据的潜在经济与社会价值。
场景迭代闭环,深入应用场景,实现数据集质量的持续优化。工业互联网通过工业APP、数字孪生、智能体等技术,打通了设备状态预测、工艺调优、装备调参等具体工业应用场景的“场景解析—数据收集—模型开发”的迭代闭环。通过这种以用促建、循环提升的迭代闭环能力,工业互联网能够实现工业数据集在真实工业环境中不断接受校验、补充与演进,驱动工业数据集紧随应用需求而动态进化,从而为构建一个自我完善、可持续演进的高质量工业数据集体系提供根本动力。
四大核心技术支撑高质量工业数据集建设
《行动方案》提出数据模型互通行动和应用模式焕新行动,构建起覆盖数据全生命周期的技术支撑体系,为高质量工业数据集建设提供了能力保障。
多源异构数据智能感知与采集技术是高质量工业数据集获取源头数据的核心手段。工业互联网综合运用高精度传感器、智能仪器仪表、嵌入式数据采集终端、机器视觉与声学感知等智能感知技术,结合OPC UA、MQTT、Modbus等多样化工业协议解析与适配技术,实现对物理设备状态、生产工艺参数、环境信息及业务系统日志等多源异构数据的全面感知与无损、自动化和智能化采集,为构建高质量工业数据集提供源头活水与真实原料。
智能化数据治理技术是解决工业数据质量痛点、实现数据资产化的关键路径。工业互联网集成了数据智能清洗、自动化标注、多模态数据融合以及元数据管理等智能化数据治理技术,以平台化的治理工具链与服务对汇聚的原始数据执行标准化、结构化、知识化处理,有效解决工业数据中存在的噪声大、碎片化、标注成本高、语义不一致等质量问题,为构建标准统一、质量可信、易于理解与应用的数据资产提供核心技术手段。
数据集质量评估与动态优化技术是保障工业数据集持续适配产业需求的重要支撑。工业互联网不仅能在工业数据集构建阶段进行质量量化与验证,更能在应用过程中持续监测数据分布变化、模型性能衰减与业务需求演进。通过综合应用数据质量多维评估、漂移检测、性能反馈、数据增强与合成等技术,进而触发工业数据集的针对性增补、修正与版本迭代,实现工业数据集的持续生命力和高可用性。
数据安全可信与合规流通技术是破除数据流通壁垒、释放数据要素价值的必要前提。工业互联网深度融合区块链、隐私计算、数据脱敏与差分隐私、细粒度访问控制与审计等技术,能够在数据共享、交易与协同计算的全过程中,有效保护数据主权和数据隐私,构建安全可信的数据流通技术底座,破除数据价值挖掘中的信任壁垒,为数据跨域融合应用与数据要素市场化配置提供了必需的技术前提与信任基础。
以“数据汇聚—可信流通—场景赋能”激活工业数据要素潜能
《行动方案》提出“数据汇聚—可信流通—场景赋能”的完整链路,为高质量工业数据集建设提供了具体的实施路径。
建立工业数据资源目录体系。实施路径的首要基础在于对海量、分散的工业数据资源进行系统性盘点。通过制定并推广统一的工业数据资源分类分级标准、元数据描述规范与标识编码规则,构建覆盖区域、行业、企业的多级联动数据资源目录。利用自动化发现、智能语义识别与目录同步技术,实现对新兴数据资源在现有数据资源目录中的动态注册和统一编目。数据资源目录的构建、维护与更新旨在破解数据资源“摸不清、找不到”的困境,形成全局数据资源地图,为数据资源的共享交换、授权使用与价值挖掘提供清晰的“索引”与“导航”。
构建工业数据可信流通基础设施。实施路径的重要抓手在于打造一个支撑数据安全、可信、高效流动的公共基础环境,为集数据确权登记、存证溯源、安全计算、合规审计与交易结算等功能于一体的数据流通提供保障,降低多方主体间的数据协作门槛与技术复杂度,保障数据主权、数据隐私和数据安全,促进数据在产业链上下游、区域产业集群以及产学研用之间的合规、有序、规模化流通,激活数据要素潜能。
推动高价值工业数据集的开发与应用。实施路径的价值闭环在于将数据资源转化为驱动产业发展的核心动能。围绕钢铁、航空、船舶、工程机械等重点行业的核心痛点,针对消费与生产、供应与制造、产品与服务等典型场景的迫切需求,组织和培育工业企业、工业互联网企业、工业数据服务商等产业力量,开展面向特定领域与问题的高价值、高复用性工业数据集的联合开发、标注与封装,牵引工业数据集在真实场景中落地应用,赋能制造业数字化转型与智能化升级。
作者:中国工程院院士、合肥工业大学教授 杨善林
来源:人民邮电报