在企业大数据实操过程中的人工智能技术
文章摘要:大数据、云计算和高级算法,这三大技术趋势的独特融合帮助人工智能走出了学术界,并使其在日常应用中无处不在。如今,人工智能已经从根本上改变了软件的编写方式,并将其融入日常数字体验中,比如写电子邮件、搜...
大数据、云计算和高级算法,这三大技术趋势的独特融合帮助人工智能走出了学术界,并使其在日常应用中无处不在。如今,人工智能已经从根本上改变了软件的编写方式,并将其融入日常数字体验中,比如写电子邮件、搜索网页、买衣服、搜索和听音乐以及建立网站。然而,人工智能在制造、运输、航空、发电、金融服务和其他行业的全球基础设施系统中的传播速度稍慢。
虽然这些行业有大量数据,但数据通常无法导出或不好处理,例如:数据不在公共领域;油气勘探或环境影响报告需要知识渊博的人进行注释;来自燃气轮机、泵、压缩机的传感器数据以多种格式保存在复杂的数据存储中,并且不总是被清除;飞机维护日志或手册,这些困难的挑战使得应用那些革命性的互联网搜索、阅读发票、翻译语言和进行对话的人工智能技术不适用于专门领域。
工业中的人工智能从业者意识到,传统的监督机器学习方法和来自学术界与研究的大规模模型往往在专业领域失败,这使得商业企业中的大数据操作变得非常困难。正如Gartner高级总监分析师Chirag Dekate在2019年所说,“试飞看似简单,但部署到生产中却是出了名的困难。”
与依赖数据科学家和软件开发的人员相比,行业采用的关键
是赋予深入了解流程和数据的权力。然而,使中小企业(如飞机技术人员、发电厂运营商、财务分析师、海关代理等)能够直观、快速地定义、构建和部署自己的专用人工智能,需要新的数据发
现、工具、自动化和数据科学验证方法。
在企业中操作最普遍的大数据形式的一些经验证的技术包括:
基于数字传感器数据的正常行为建模为非计划资产停机创建早期预警
工业运营通常依赖于燃气轮机等关键高价值资产。一天的计划外停机或停电可能会使电力公司或公用事业提供商损失约30万美元的收入——对消费者的影响可能会严重得多。由于其关键性,这些系统通常都是冗余的,并且有全面的预防性维护计划。具有讽刺意味的是,这使得传统的监督机器学习变得困难,因为在系统的生命周期中很少有故障。
正常行为建模是一种与领域无关的半监督机器学习技术,可以通过将任何系统表示为过程参数的组合来快速建模。SME在历史数据中确定系统正常行为的时间框架,然后AI开始学习过程参数之间的潜在关系。自动编码器是一种神经网络,它对历史数据进行训练,并将潜在关系存储为一组权重。一旦训练了自动编码器,它就可以用于预测或重新生成输入过程参数。如果和当过程参数的预测值或再生值与测量值、历史值不匹配时,标准化误差被用作“异常”或异常的度量。
在这种类型的正常行为模型可以产品化之前,需要根据系统中实际停机和事件的历史记录对其进行回测。如果选定的工艺参数很好地代表了系统的行为,那么在任何大修之前,一些或所有参数应开始趋向于异常范围。正常行为模型应该通过提高异常水平来预测这一点。如果异常水平在停机前持续提高足够多,则可用于创建未来停机的预警系统。
在实践中,可以使用超参数优化自动训练数十或数百个正常行为模型。创建一个目标函数来测量预测的准确性和预警的长度。这个目标函数使得可以通过编程方式对所有模型变量进行评估和排序,并将最好的模型变量部署到生产中。可以添加额外的调整层,以基于异常级别和用户的偏好来选择用于发出警报的正确动态阈值。
与传统建模相比,正常行为模型具有以下优势:
领域不限。只要以合理的频率和精度测量/记录过程变量,就可以使用该方法。
无监督学习。前期工作仅限于变量选择和确定标称运行条件,通常可由SME执行。
使用基于自组织密度的聚类在自然语言记录中查找模式。
自然语言记录在工业环境中非常常见,它是产品测试、应用程序/安全日志、设备维护、物流、运输等一系列流程的基础。实际上,企业中的大多数记录都是半结构化记录,有一列或多列结构化数据(数字、日期、类别)和一列或多列自然语言文本,通常是为人类消费而创建的。在企业中,对半结构化记录的需求几乎是迫切的。在理想的世界中,收集到的关于流程的所有数据都可以是数字、日期和多选分类元素。然而,在实践中,自然语言被引入记录有多种原因:
并非所有的过程模式在设计时都是已知的,从而导致“其他”或“一网打尽”的类别。
指令或程序最好用自然语言表示,并随着时间的推移不断改进。
故障排除、诊断、调查等通常会生成以前未知的知识,使自然语言成为必要。
企业中的运营记录通常是功能性的/简明扼要的,包含打字和口语,并且通常包含缩略语和行话(例如ty wrap=Tyvek wrap,ee=employee)。这使得标准搜索和自然语言建模技术有些无效。此外,使用自然语言的方法可能有很多种,因此一个全面的规范化方案是站不住脚的。例如,上述事件可以按其严重程度(即轻伤)进行分类,也可以按受伤点(即手部受伤)进行分类。这两个类别并不相互排斥,需要将其视为单独的分类方案。如果没有中小企业的大力支持,大多数自然语言记录很少被分析,而且仍然没有被利用。
在自然语言记录中找到有用模式的一种实用方法是ad-hoc聚类。为了检索信息,中小企业首先对其记录使用常见的搜索技术。然而,阅读成百上千的结果往往是乏味的,简单地阅读前“n”个结果会给遗漏的信息留下空间。为了避免这些陷阱,AI对搜索结果应用基于密度的聚类。当基于密度的方法(如DBSCAN或HDBSCAN)用于记录的句子嵌入时,它们倾向于聚类语义相似的语言,而不会对拼写、变位、错别字和口语高度敏感。SME可以很容易地读取集群中的几个代表性记录,以完全理解它。此外,对前“n”个集群的分析通常会暴露搜索结果中的所有主要信息模式。这些聚类现在也可以成为分类方案的初始候选,该方案可以逐步围绕数据创建分类结构。这种技术在长尾搜索问题中不断显示出很高的价值,因为SME的意图不能事先准确和完全知道,但可以随着时间的推移进行定义和应用。
使用发现循环从文档中检索信息或知识
为了推动关键和时间敏感的决策,每个行业、政府机构和军事部门的分析师都会遇到大量必须处理的内容。高管们依靠分析师准确解读报告、新闻、咨询和调查,为自信、深思熟虑的决策提供决策支持。通过探索性阅读寻找正确的内容是一种认知上的负担,并且会产生决策疲劳。此外,分析师通常在探索深奥的概念,这些概念很难用标准搜索工具所需的关键词和逻辑规则清晰表达。分析人士普遍认为,“他们看到了就知道了。”
在考虑上述新闻摘录中的叙事文本示例时:
第二个例子实际上没有使用“爆发”一词,但中小企业可能会很快将其评估为爆发的主要指标。为了解决这些深奥的知识获取场景,SME首先使用一个或多个代表他们想要找到的想法的关键词来搜索他们的文档。然后,Discovery Loop AI从结果中选择25-50个最具代表性的句子,并使用简单的点击手势,使SME能够将结果分成一个或多个有意义的类别。或者,SME还可以指示句子中的子字符串,以便逐字提取。
AI训练CNN分类器学习SME指定的类别。任何未加括号的句子都会自动分配到“不有趣”的类别。这样训练的模型对原始搜索结果中的所有句子进行推理。基于推断的类别预测及其相对预测置信度,AI呈现至少两组句子供SME审查和/或纠正——基于分配给初始组25-50个句子的类别标签,“最像标签x”和“最不像标签x”。由于人工智能只训练25-50个句子的模型,并对搜索结果进行推理,因此循环通常只需几分钟。同样,每个复习小组只有25-50句话,SME只需要复习几分钟。这种快速迭代被称为发现循环,使SME能够快速发现信息,而无需关注关键词,而只需阅读并做出关键决策。随着SME管理更多带标签的句子,AI重新训练分类或提取模型,以提高准确性,并通过使用从带标签句子中提取的关键字执行查询扩展来增加文档集的覆盖率。在任何时候,可以对文档集中的所有句子运行该模型,以获得与SME定义的深奥概念相匹配的句子的综合子集,然后可以在分析师报告中引用或引用这些句子作为证据。
基于ad-hoc密度的聚类和Discovery Loop与经典监督分类方法相比具有以下优势:
减少传统方法前期所需的繁琐、全面的标签负担
使中小企业能够在发现新信息时逐步开发类别
使SME能够仅对有用的数据子集进行建模
所有技术的一个共同特点是使用AI增强中小企业的知识和直觉,使他们能够专注于高价值决策。通过避开学术界流行的经典监督建模方法,这些技术通过提供SME指尖上的即时智能,专注于快速实用。
反观国内也有许多企业在人工智能领域深耕,沃丰科技就是一家在人工智能领域颇有建树的企业。
沃丰科技是中国人工智能与营销服务解决方案提供商,依托人工智能、大数据、云计算等核心技术,打造了一体化客户全生命周期解决方案。沃丰科技拥有Udesk、GaussMind、ServiceGo、微丰等完整的产品矩阵,将人工智能技术应用到企业的营销获客、销售管理、客户服务及企业内部共享服务等各个场景,为消费品、制造业、生命科学、汽车、央国企、数字政府、金融等多个行业提供定制化解决方案,全面助力企业实现数字化转型,得到众多世界500强、中国500强客户的信赖。
文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/update/27090