医药行业的知识图谱平台构建
文章摘要:GaussMind知识图谱内置多种格式的数据接入能力。知识图谱数据的三要素,包括<实体,属性,关系>。其中,实体是图谱中的节点,关系是图谱中的连接边,属性是描述实体的信息。
沃丰科技GaussMind知识图谱平台,通过ETL模块连接各个数据源,并进入统一的处理流程,如下图1所示:
多源数据连接:GaussMind知识图谱内置多种格式的数据接入能力。知识图谱数据的三要素,包括<实体,属性,关系>。其中,实体是图谱中的节点,关系是图谱中的连接边,属性是描述实体的信息。例如,在构建药企的药品知识图谱时,图谱的数据来源是药品说明书、药品实验数据等,从中识别出的药品名和适应的疾病名,作为知识图谱的两类实体;药品中的各个项,如不良反应、性状、适应症、注意事项等,作为实体的属性;药品之间的关联,如配合共同使用、同种类、不能共同使用等,作为实体之间的关系。基于此构建的图谱,通过图谱的搜索查询功能,就可以回复诸如“头孢呋辛酯片适合哪些病症?”等药品咨询问题,为内部员工和外部患者提供医药虚拟助手的服务。
GaussMind内置的医学抽取模型,已经基于医疗主数据进行了模型优化。另外GaussMind也支持客户上传自定义的标注数据,来进一步调优模型,以适应客户独有的数据(如图3所示)。
图4展现了一个非结构化抽取的示例:
知识融合:在数据构建图谱的过程中,需要对识别出的实体进行对齐,包括不同的实体对应到同一个本体、不同的数据对齐到同一个实体等,比如同一个药品有不同的别名,就需要对其进行实体对齐。GaussMind支持通过运算符来进行知识融合,也支持通过配置同义词库,来对知识进行融合,图5展示了一个构建的药品图谱的本体结构:
文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/faq/16262