大模型知识库对比外挂知识库优劣分析
文章摘要:大语言模型改变了我们获取信息、学习和交流的方式,让我们能够迅速获得精准答案,能理解和生成自然语言文本,减轻了文字工作者的负担,在医疗、教育、法律、金融等各个领域逐渐渗透。然而,大语言模型的构建和应用仍存在许多争议和讨论,其中最核心的争议之一是如何将新的知识或领域知识融入到模型中。
ChatGPT的火爆把“大语言模型”这个新名词推到了大众的视野里。
大语言模型 (large language model,LLM) 是一种语言模型,由具有许多参数(通常数十亿个权重或更多)的神经网络组成,使用自监督学习或半监督学习对大量未标记文本进行训练。
大语言模型改变了我们获取信息、学习和交流的方式,让我们能够迅速获得精准答案,能理解和生成自然语言文本,减轻了文字工作者的负担,在医疗、教育、法律、金融等各个领域逐渐渗透。
然而,大语言模型的构建和应用仍存在许多争议和讨论,其中最核心的争议之一是如何将新的知识或领域知识融入到模型中。
一种常见的方法是,将知识训练进基础模型,使其在生成文本时能够反映出这些知识。这种方法可以使模型更加准确和一致,但同时也增加了模型的训练难度和成本,并且模型的幻觉问题(指模型在生成文本时,可能会出现与事实不符的情况,这是因为模型在训练过程中可能会受到某些偏差或噪声的影响)也不易控制。
另一种方法是使用外挂知识库,直接在模型外部存储和管理知识库。这种方法可以更加灵活地管理和更新知识,外挂知识库可以包含各种领域的知识,比如医学、法律、金融、制造业等,从而使模型在生成文本时能够更加准确地反映出这些知识。此外,这种方法还可以降低模型的训练难度和成本,同时降低模型出现幻觉问题的概率。问题在于,如何高效的从外挂知识库召回知识,成为整个流程的瓶颈。此外,外挂的知识库和模型中存在的世界知识之间的关系也需要厘清,以确保模型在生成文本时能够准确地反映这些知识。
接下来,我们将结合沃丰科技自研“原心大模型”的研发与实践经验,探讨、对比以上两种行业大模型训练方法,分析它们在不同场景下的优缺点,并提出一些实用的建议。通过深入理解这两种方法,能够帮助企业更好地选择和应用大语言模型,以适应不同的需求和挑战。
一、将知识训练进基础大模型
将知识训练进基础模型,是大型语言模型的核心环节,这使得模型能够在生成文本时反映出新的知识或领域知识。其训练方法多种多样,可以选择全量修改基础模型的参数,或者冻结某些参数层,近修改少量层。此外,还可以使用Prompt Tuning方式,在保持基础模型不改变的情况下训练增量模型。
l 预训练-微调是一种无监督的学习方法,先让模型在大规模的无标签语料库上进行预训练,学习到语言通用规则,然后在特定任务的数据上进行微调,使模型适应特定任务。这种方法可以提高模型的泛化能力(即通用能力),但需要大量的计算资源和时间。指令微调是一种有监督的学习方法,它通过提供明确的训练数据和指令,让模型学习如何完成特定任务,这种方法可以快速适应新的任务,但需要明确的训练数据和指令。
另外,我们也可以使用Prompt Tuning方式,在保持基础模型不改变的情况下训练增量模型,比如LoRA和PTuning-V2。这种训练方式可以在不改变基础模型的情况下,通过训练增量模型来增加新的知识和领域知识。
根据我们的经验,全量参数训练时,注入新知识最好先采用无监督学习的方式,添加包含新知识的无监督语料,混合基础无监督语料一起训练。这种方法不仅可以增强模型的知识储备,还可以维持新旧知识连贯性。需要注意的是,在训练过程中,要在新旧语料比例方面找到适当的平衡,以确保模型既能够有效地吸收新知识,也能减少模型对旧知识的遗忘。
总的来说,基础模型在大语言模型中起着关键的作用,通过预训练和微调,可以使模型学习到丰富的语言知识和结构,并使其适应特定的任务和领域。而训练方法的选择,取决于具体的应用场景和任务需求。
二、大模型外挂知识库
外挂知识库是一种独特的数据存储和管理工具,其主要功能是实时提供知识信息,以扩充或限制语言模型的知识范围。不同于基础模型,外挂知识库并不依赖于语言数据训练,而是通过组织和存储结构化、非结构化的知识进行工作。接下来,让我们更深入地了解其优点、挑战和可能的解决方案。
外挂知识库的优点
1. 更新速度快:由于外挂知识库可以独立于基础模型进行更新,它可以快速适应信息的变化,实时更新知识库中的信息。
2. 私有化定制:外挂知识库可以定制和管理不同领域的知识,因此它能提供更专业、更准确的信息。
3. 与基础模型解耦:这意味着基础模型和外挂知识库两部分可以各自升级和改进,而不会互相影响,为开发人员提供了更大的灵活性。
外挂知识库的挑战
1. 额外成本高:外挂知识库需要人工维护和更新,需要单独开发召回算法和排序算法。
2. 内容解析难度大:外挂知识库需要将各种格式的知识内容(图文、表格、PPT等)梳理和解析到知识库中。
3. 知识融合问题:由于外挂知识库和基础模型是分离的,因此在融合两者的信息时可能会出现不匹配、不一致的问题。
4. 知识表示问题:不同类型的知识可能需要保存成不同长度的知识片段,而且知识片段通常不是问答形式,和查询语句在形式上有差异。
总的来说,尽管外挂知识库有其局限性,但它仍然是一个强大的工具,能够提供更全面和准确的知识支持,以增强语言模型的能力。通过合理的方法和设计,我们可以充分利用外挂知识库的优势,最大限度地提高其效益。
可以看到,将知识训练到基础模型的方法适用于那些知识领域性强,专业度高的场景,比如医疗问答、法律法规判定等。这种方法可以让模型更好地理解和运用行业知识,提高模型在垂直领域(行业)的智力。但是,它需要大量的行业知识和计算资源,训练成本较高,训练时间较长。此外,如果行业知识更新较快,那就需要不断更新模型,维护成本也较高。另一方面,和基础模型耦合之后,基础模型升级后可能需要重新训练,带来不必要的消耗和风险。
而外挂知识库的方法,适用于那些知识概念较常用且数据私有化要求高的场景,比如企业文档问答、企业知识梳理等。这种方法可以提供更加准确和可靠的知识支持,提高模型的可靠性和准确性,同时保证企业的知识不被训练到大模型中,一定程度上保证了企业知识的安全性。但这种方法需要手动构建和维护知识库,人工的工作量较大,而且知识库的质量和更新速度也会直接影响模型的效果。此外,如果知识库过于庞大,可能会影响模型的推理速度和效率。
综上所述,将知识训练到基础模型和使用外挂知识库各有优缺点,应根据具体的应用场景和需求来选择合适的方法。
》》点击免费试用智能知识库系统,优势一试便知
文章为沃丰科技原创,转载需注明来源:https://www.udesk.cn/ucm/faq/59194