ACE2005语料库是语言数据联盟(LDC)发布的由实体,关系和事件注释组成的各种类型的数据,包括英语,阿拉伯语和中文培训数据,目标是开发自动内容提取技术,支持以文本形式自动处理人类语言。
ACE语料解决了五个子任务的识别:entities、values、temporal expressions、relations and events。这些任务要求系统处理文档中的语言数据,然后为每个文档输出有关其中提到或讨论的实体,值,时间表达式,关系和事件的信息。
ACE语料库的获取链接: https://catalog.ldc.upenn.edu/LDC2006T06
有关ACE英文语料库注释准则的详细内容可参考: https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/ english-events-guidelines-v5.4.3.pdf(该路径的上一目录下也可查看到其他语言的注释规则解释。
ACE注释任务对应于三个研究目标:实体检测和跟踪(EDT),关系检测和表征(RDC)以及事件检测和表征(EDC)。第四个注释任务,实体链接(LNK),将对单个实体及其所有属性的所有引用分组到一个复合实体中。
实体检测和跟踪(EDT) : 是核心注释任务,为所有剩余任务提供基础。后来的ACE任务确定了七种类型的实体:人员,组织,位置,设施,武器,车辆和地缘政治实体(GPE)。每种类型进一步分为子类型(例如,组织子类型包括政府,商业,教育,非营利,其他)。注释器标记了文档中每个实体的所有提及,无论是命名,名义还是代名词。对于每一次提及,注释器都识别出代表实体的字符串的最大范围,并标记每个提及的头部。嵌套提及也被捕获。每个实体根据其类型和子类型进行分类,并根据其特定类别,通用,属性,负面量化或未指定类别进一步标记。在LNK注释任务期间,注释器审查整个文档,以便将同一实体的提及分组在一起他们还标记了转喻的案例,其中一个实体的名称用于指代与其相关的另一个实体。
关系检测和表征(RDC) : 涉及实体之间关系的识别。此任务已添加到ACE的第2阶段。RDC针对物理关系,包括位置,近处和部分整体社会/个人运含关系,包括商业,家庭和其他一系列的就业或会员关系工件与代理商之间的关系(包括所有权)从属关系,如种尺悄嫌族人与GPE之间的关系,如公民身份最后是话语关系。对于每个关系,注释器都识别出两个主要参数(即,链接的两个ACE实体)以及关系的时间属性。由明确的文本证据支持的关系与那些依赖于读者的语境推理的关系不同。
ACE阶段3增加了一项新的挑战: 事件检测和表征(EDC) 。在EDC中,注释器识别并描述了EDT实体参与的五种类型的事件。目标类型包括交互,移动,转移,创建和销毁事件。注释器陵手为每个事件标记文本提及或锚点,并按类型和子类型对其进行分类。他们根据特定类型的模板进一步确定了事件参数(代理,对象,源和目标)和属性(时间,位置以及其他类似工具或目的)。
每个注释文件对应四个版本:
1.原文本文件(.sgm):所有源文件(包括中文文件)都以UTF-8编码;
2.ACE程序格式(APF)文件(.apf.xml):采用官方ACE注释文件格式;
3.AG 文件(.ag.xml):使用LDC注释工具包创建的注释文件;
4.TABLE文件(.tab):存储以ID识别的ag.xm文件及其对应的apf.xml文件之间映射表。
实体检测与识别: 实体提及的每个文档都需要实体输出。此输出包括实体的属性和提及的信息。实体属性当前仅限于实体类型,实体子类型,实体类以及用于引用实体的名称。每个实体提及的输出包括提及类型,其头部的位置和范围,以及可选的提及角色和提及风格(文字或转喻,该属性以apf文件格式编码为名为“metonymy_mention”,为true表示“转喻风格”的引用,false表示“文字”引用,默认为文字),table1与table2列出了ACE实体类型,子类型和类。table3列出了提及类型。
源文本文件(.sgm): 所有源文件(包括中文文件)都以UTF-8编码。 这些文件使用UNIX样式的行尾。 仅评估开始文本标记<TEXT>和结束文本标记</ TEXT>之间的文本。 此规则的一个例外是,一个TIMEX2注释放在<DATETIME>和</ DATETIME>标记之间,即使它们出现在TEXT标记之外。 APF文件(.apf.xml): ACE Pilot格式是XML对齐注释的一种形式。有关ACE程序格式的定义链接已失效,若需查找更多相关内容可查看: http://xml.coverpages.org/acePilot.html 。 AG文件(.ag.xml): LDC注释图格式。 LDC的ACE内部注释文件格式。 可以使用LDC的注释工具查看这些文件。 TABLE文件(.tab): 同上。
sgm是电脑的即时存档格式。。想要sav很简单啊。。打开GBA模拟器,读取你的即时存档,然后打开游戏目录,记录。然后去C:\\vba里找到和那个游戏同名的sav文件,Sav就是save,保存的意思。Sav文件是一种数据格式,不能通过第三方软件进行修改。即使用编辑软件如EDIT打开,它也是一片乱码。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)