文本分析系统
2019-11-22

文本分析系统

描述了一种文本分析系统。将自然语言输入单元(1)布置为使用户能够以自然语言输入自由文本(10)。将自然语言处理单元(2)布置为在输入自由文本(10)的同时对自由文本(10)的至少部分进行处理以获得所述自由文本所表示的语义的显式表示(11)。将显式信息输入单元(3)布置为使用户能够输入与语义的显式表示(11)有关的显式信息(12)。所述系统包括用于在用户仍正在输入自由文本(10)的同时为用户可视化显式表示(11)的至少部分的可视化单元(4)。将用户界面(5)布置为向用户提供对自然语言输入单元(1)和显式信息输入单元(3)两者的同时访问。

US7,493,253B1公开了这样一种系统和方法:既采用语言相关术语又采用概念的独立于语言的形式本体(formalontology)对自由文本文档进行索引,以提取自由文本文档的深层含义。通过提供语言本体作为形式本体的一部分而教导自然语言理解系统什么是概念之间的适当关系以及什么不是。语言本体含有有关语言如何起用的规则以及人类思维在表达人类意识层面的事实时所遵循的原理。

所述系统可以包括关联单元6,其用于在自由文本10的一部分和语义的显式表示11的对应部分之间建立关联。关联单元6可以操作地连接至自然语言处理单元2,以接收有关从自由文本的哪部分提取哪些语义元素的信息。语义的显式表示11的对应部分应当表示与之相关联的自由文本1〇的部分的语义。例如,可以将这些关联存储到存储语义的显式表示11的数据结构内。也可以将所述关联存储为单独的数据结构。

来自自由文本的摘录的例子如下,下文简称为例1:“我被要求对这一患者执行针对乳腺癌的医疗肿瘤学会诊。女士岁,白种女性,据过去的医疗史中描述存在多种医疗问题。她体重已经有些下降,但是不知道有多少。既往医疗史:她以前做过主动脉瘤修复。她还在很多年前因跌倒而使左髋部发生过非病理性骨折。”

下文将描述一种示范性情况。该例子可以代表经常在临床报告中发现的情况。可以提取患者医疗史和家族史的摘要的语义图。医疗史可能很重要,因为其提供了针对当前护理情节的信息,并且为诊断和治疗提供了相关背景。家族史可能在各种各样的可能具有基因原因的疾病(例如,癌症、心血管病)中有关,因为其可以提示当前患者的易患病体质和加大的风险。也可以将家族史用于诊断和治疗选择这两者。

图4示出了简化的本体和语义图。

用于在输入文本的同时对文本的至少部分进行处理以获得所述自由文本所限定的语义的显式表示的自然语言处理单元;以及

可以将显式信息输入单元3布置为使用户能够确认或拒绝语义的显式表示11。这可以采用简单的单选按钮或复选按钮实现,并且可以将其存储成布尔变量,以作为显式信息12。

所述系统包括被布置成为用户提供对自然语言输入单元和显式信息输入单元两者的同时访问的用户界面。例如,这可以采用图形用户界面元件或相互并排显示的微件实现,从而用户能够通过引发点击事件或触摸事件而选择它们当中的任何一者。因而,能够使用户采用自然语言输入单元输入一些自由文本,之后采用显式信息输入单元输入一些显式信息,尔后继续输入更多的自由文本。这样,用户能够采用自由文本和显式信息的组合向系统传达预期的信息,并且能够在用户正输入自由文本时直接对显式信息做出任意校正。用户不必执行对数据的任何回顾性检查来验证正确性。

所述系统包括被布置成为用户提供对自然语言输入单元和显式信息输入单元两者的同时访问的用户界面。例如,这可以采用图形用户界面元件或相互并排显示的微件实现,从而用户能够通过引发点击事件或触摸事件而选择它们当中的任何一者。因而,能够使用户采用自然语言输入单元输入一些自由文本,之后采用显式信息输入单元输入一些显式信息,尔后继续输入更多的自由文本。这样,用户能够采用自由文本和显式信息的组合向系统传达预期的信息,并且能够在用户正输入自由文本时直接对显式信息做出任意校正。用户不必执行对数据的任何回顾性检查来验证正确性。

所述系统可以包括算法改进单元,其用于基于用户所输入的显式信息而改进自然语言处理单元所使用的自然语言处理算法。这允许自动改进用于自然语言处理的算法,从而使将来需要的校正更少。

图4示出了简化的本体和语义图。