企业级搜索应该有什么样子的能力
文章摘要:GaussMind搜索方案专注在金融、司法、制造业等行业,构建的是包含了统数据获取、模型训练、搜索应用与管理的企业搜索平台,在核心的算法技术与架构、行业场景数据积累、模块化解决方案组件三个维度进行沉淀积累,形成专业的企业搜索解决方案。
GaussMind搜索方案专注在金融、司法、制造业等行业,构建的是包含了统数据获取、模型训练、搜索应用与管理的企业搜索平台,在核心的算法技术与架构、行业场景数据积累、模块化解决方案组件三个维度进行沉淀积累,形成专业的企业搜索解决方案。
企业级搜索平台分为智能分析、智能搜索、智能展现、智能管理四方面能力:
智能分析
GaussMind搜索平台的智能分析模块,包含内容处理与内容分析两部分。
内容处理是指对需要接入的数据内容做基本处理:
1、先进行结构化的转换,比如图片内容进行OCR的光学字符识别、语音内容进行ASR的文字转换等,让多媒体格式转换为文本信息。
2、对相应的内容进行拆分和提取,典型的如期刊文献会有标题介绍、插图、表格提取、结构化目录、时间/来源等要素的提取和关联。
内容分析则是对要搜索的内容进行挖掘和建模:
1、在内容的语义理解的层面上,对历史查询和目标文件进行处理,以自然语言理解技术在字词层级做新词发现、词性识别、扩展词挖掘;在语句段落层面做查询意图分类、依存句法识别、文本纠错等处理;在段落和文章级别进行内容分类、主题模型、自动摘要等处理。
2、根据具体的场景需要,在业务应用层面构建定义统一的业务知识模型,抽取业务实体属性、做知识对齐数据融合,为关联推理等知识图谱应用服务。
整个智能分析的过程是在搜索发生以前,涉及到数据清洗、模型训练调优、人工校验等工作,是机器对所要处理的内容进行理解的过程,同时需要业务专家介入指导。分析处理等工作用户是无感知的,但会明显的影响上线初期的查询效果。
智能搜索
GaussMind智能搜索的能力贯穿整个用户搜索流程,一次完整的搜索流程,是从用户针对某一目标输入内容开始,到进入到下一个搜索目标开始时结束。
对不同用户,在搜索时是带着各自的用户画像进入的,热门搜索、输入提示、意图分类等应用加快查询的理解;搜索内容改写、语义扩展词等是对查询内容进行补充;通过语义标签、自动摘要、筛选和排序选择等功能,搜索引擎能快速定位到结果范围。
排序是搜索引擎的核心模块之一,可以简单分为基础粗排序、精确排序和业务重排序三个步骤,分别是指根据查询相关性函数的模型排序、基于行为数据学习的模型排序、业务逻辑中特殊情况排序。搜索后的切换关键词、筛选、点击、翻页等都会记录到搜索中的行为日志,会影响搜索的排序模型调优和效果分析。拉开搜索的水平效果的,主要是粗排的召回策略和精排的学习算法两个环节,这里涉及到诸多技术和算法细节。排序框架会根据业务场景进行模型与策略上的调整。
精准度提高的同时,搜索的查询范围和查询方式也在扩大:支持对图片、音频、视频等格式的内容进行搜索,对QA问答、Wiki百科、流程嵌套附件等复杂结构的定位搜索,表格内容信息理解与查询,图数据库的推理、问答和对比等复杂逻辑的查询等等。
智能展现
GaussMind企业搜索平台在用户搜索到内容后,结果的显示包含知识卡片、结果列表、图片和数据图表、系统服务界面、知识图谱等多种呈现的形态。
知识卡片是根据确定的搜索意图,以用户易于理解的形式将结构化信息重新组合呈现,可以实现对人物卡片、物品信息、组织架构、接入的系统服务(比如邮箱中往来邮件、OA中请假流程等)等的快速搜索理解和嵌入式卡片信息呈现。对结构化数据以图形化呈现,把表格数据以业务场景的需要自动转换为直观的图表,针对经常使用的数据场景,预置了诸如分析比例构成的环形图、相互比较的走势图、关联分析的散点图等,省去了人工对数据处理取结论的繁复过程。
在语义搜索的同时,同步对知识图谱进行查询,在推理问答等的业务场景下,图数据库的查询效率和可解释性更好,信息脉络关系呈现更直观。
智能管理
企业搜索平台的智能管理,主要是包括数据统计、模型训练和算法评估、文档内容管理、搜索配置等的管理,以及部分常用的数据系统的接入与权限管理。
搜索的数据统计分析是将用户端查询进行记录,根据指标进行统计分类和分析,体现出搜索整体的情况,比如热门搜索、搜索无结果等。搜索的管理配置则包含有意图分类训练、badcase管理、算法效果评估、词库管理等工具,提升搜索引擎在算法效果的客观性和维护效率。
企业级搜索面对的数据源主要有数据库类、知识文档管理类、各类IT办公系统类、互联网采集类、生产制造系统类等等。为确保数据对接准确与规范,一般会把数据和权限信息按照指定的接口上报给搜索引擎,或者对要接入的系统资源定时扫描同步变更。搜索平台采用RBAC权限管理机制,基于统一的用户和角色对接入资源进行权限管理。
搜索引擎背后折射的企业IT建设水平
通过互联网搜索信息几秒就可以找到所需内容,而在工作场景中常常发生的是,昨天在公司某系统看到的文件今天就搜索不到的情况。从企业内的实际情况来看,一个“公司里搜不到信息”的情境,不仅仅是搜索技术的问题,其实也是企业协作效率、IT技术能力、管理水平的体现。
业务视角
业务往往是企业的核心竞争力,员工在信息获取能力上的差异,也影响着工作效率,知识在企业内部的能够有效的沉淀、管理、传递与扩散,会给员工的业务能力和决策效率带来提升。
国内某科研机构的智能搜索项目上线时,同步挖掘了报告材料间的上下游、引用、转述等关系。研究人员在查询到目标报告时能直接体现出材料之间内容关系,间接提高了机构课题研究的工作效率。
技术视角
信息技术对业务的赋能后,使得企业实现弯道超车的案例比比皆是,技术创新的收益往往比较直观。当前人工智能技术应用的价值,已经在被各行业的头部企业所认可,智能文本处理是企业内应用较为普遍的一类:文档资料数据的搜索、合同的自动审核比对、商品的个性化推荐、系统数据自动化流转等应用比比皆是,文本智能化正在迅速地应用到桌面办公的各个场景。
GaussMind搜索是多项文本智能技术的汇总,有着比较广泛的企业应用场景覆盖,比如企业级搜索、对外的服务查询、资料文档库搜索、多媒体信息查询、智能客服、系统日志查询分析等等。
管理视角
企业搜索能够与企业的门户、文档信息系统、通讯/流程/培训系统、资源业务系统等进行整合,各部门因工作目标和内容的不同,对企业目标的理解和执行难免会有盲区,实施此类多部门跨业务的项目,需要管理者透视公司的信息流和业务运转,高瞻远瞩地规划建设方案和管理思想,落地务实地推进系统能力和应用效果,发挥企业内搜索到统一信息知识管理的价值。
GaussMind搜索是企业信息资产整理汇总后的出口,每个员工都可以各取所需,企业级搜索的应用是信息、业务、管理的组织效率的体现。运用企业级搜索,小到找出一份合同补充材料解决内部沟通的效率问题,大到针对核心产品盘点资源投入以洞察公司的发展情况,在多个视角下企业搜索都能发挥出相应的价值。运用人工智能技术去重塑企业级搜索服务,是企业全方位的效率提升。
文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/faq/16325