互时核心技术——AI工业数据治理
ET数据数量多、变更频繁、关系复杂、格式多样,对人员的工程技术能力要求高,人工治理费时,难有成效。只有几何级数地提升自动化程度,才能切实可行的治理ET数据。
为此,互时科技于2018年起就引入了AI技术提升自动化程度,经过多年探索和打磨,已经形成了较为全面的AI+工业 Know-how 的ET数据治理技术体系,应用场景覆盖数据提取、转换、映射、校验、聚合等多个环节,能够有效提升数据治理的自动化水平,大幅降低人工干预工作量。
互时科技将AI技术应用在工程图纸、技术资料、异构编码等非结构化信息载体上,采用了深度学习、生成式对抗网络(GAN)和NLP等技术,开发了一系列算法和模型:
-
适用于P&ID图和ISO图的图例识别模型
-
适用于ISO 图和装配图的图表文字识别模型
-
P&ID图纸对抗网络模型
-
文档模式及页面方向识别模型
-
ISO图和装配图材料表识别算法
-
设备规格书和属性表识别算法
-
异构编码映射模型
-
P&ID和ISO图管线识别模型
-
P&ID和ISO图重建算法
-
……
基于上述算法,形成了覆盖数据提取、转换、映射等多个环节的AI“神器”:
- 自动提取 P&ID、ISO、设备装配图的工程对象和功能规格
- 自动提取PDF格式的设备规格书和属性表等技术资料的属性规格自动拆分PDF格式文档
- 自动映射异构编码
- 自动重建数字图纸等
在应用AI技术的过程中,互时研发团队充分认识到了传统AI在ET数据治理领域的局限性:一方面,AI通常基于“大样本”训练模型,而大规模复杂系统的ET数据特征是“小样本”;另一方面,AI不擅长解决几何模型推理问题,而工业ET数据大量存在于图形中。因此,互时科技在AI基础上深度融合了工业Know-how,用于解决小样本问题,同时弥补AI推理缺陷。
以【P&ID图纸识别】技术为例,该技术能够自动识别甚至重绘图纸上的设备阀门仪表等图例符号以及管道和逻辑关系等线条。互时科技通过绘制P&ID图纸的工业Know-how生成图纸扩大样本数量,并根据工业Know-how定义判别器,利用GAN网络的随机性补充样本的干扰多样性,从而构建出符合训练条件的样本。同时,对于管线和拓扑关系等对象的识别和重绘,互时科技采用基于工程制图的工业Know-how识别管段在图面走向、标注和连接关系等内容。
再以【异构编码匹配】为例,该技术能够对同一对象在多个编码体系下的编码和描述进行自动匹配。如果采用通常的NLP技术路线,训练该模型需要数十万条不同的编码和描述,且每条编码都要标记其真实含义。这意味着需要大量具备工程技术知识的工程师参与,同时处理每条编码和描述并提取真实含义需要数分钟的工作量,因此标记成本是巨大且难以实现的。为此,互时科技利用工业Know-how编写数个针对特定样本范围的编码含义提取器对数据进行自动标记;同时利用工业Know-how去随机生成物资编码补充数据集。