UIMA 架构允许您轻松插入定制的分析组件,并将它们与其他组件合并。您的 UIMA 应用程序不需要知道分析组件共同合作生成结果的细节。集成和组织多个分析组件是 UIMA 框架的工作。
UIMA 应用程序可能分析纯文本并识别人员、位置和组织;它也可能识别关系,比如为谁工作或在什么地方工作。应用程序通常可以拆分成组件。例如 “语言识别” =>“特定于语言的部分” =>“句子范围检测” =>“实体检测(人员/位置的名称等等)”。
组件之间可能存在依赖性。例如,“句子范围检测” 必须先于 “特定于语言的部分”。 每个组件都是自含的并且可以与其他组件组合。每个组件(用 Java 或 C++ 编写)实现由其他框架定义的接口,并通过 XML 描述符文件提供自我描述元数据。UIMA 框架管理组件和在拍喊滚它们之间流动的数据。分析引擎、注释器和 Common Analysis Structure 分析引擎 是 UIMA 中的中央构建块。分析引擎包含一个或多个注释器 或其他分析引擎。每个注释器实现一个特定的文本分析功能。这种递归式打包允许您通过简单的分析引擎构建复杂的分析引擎。每个注释器将其结果储存在具有类型的特征结构 中,该结构仅是包含类型和一组属性/值对的数据结渗裤构。
注释 是一种特殊的特征结构,它被附加到需要分析的工件的某个区域。例如,注释可能被附加到文档中的一段文本上。对于这种情况,注释在文档中包含一个特定的开始和结束位置。这意味着可以方便地使用注释指定信息提取结果
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)