1
/3
在你使用 WikiTaxi 之前,必须先下载它和维基百科的离线数据库,我们提供了简化版的英文版、完整英文版和中文版的维基数据库供大家下载,下载链接位于文章结尾处,请根据自己的需求选择下载。不过数据比较大,并且服务器位于国外,速度有点不尽人意,只能有点耐心吧。
2
/3
导入维基数据库到 WikiTaxi
因为维基百科提供的离线数据库(.xml.bz2)文件格式 WikiText 并不能直接使用,所以我们需要先将数据库转换成 WikiTaxi 的 .taxi 格式。下载解压 WikiTaxi 之后你可以看到一个 WikiTaxi_Importer.exe 的文件,双击运行它。简单来说,它就是一个转换数据库格式的工具。使用方法和简单,第一项选择 .xml.bz2 文件,第二项选择要保存转换好的.taxi文件,然后按 Import Now 即可开始。中间那个横条是用来调整分配多少内存给该工具来进行转换工作,当然能用的内存越多,转换速度也就也快了。转换好之后,如没特别需要,之前那个.xml.bz2的文件你可以删除掉了。
3
/3
运行 WikiTaxi
如果你已经制作好.taxi数据库之后,那么双击运行 wikitaxi.exe ,在菜单里选择 “Options”->“Open *.taxi Database”来打开刚才那个制作好的.taxi数据库文件即可。然后,就没然后了,你现在已经拥有一个离线的维基百科数据库了!想查询什么直接搜索就行了。
使用方法
1
/2
WikiTaxi首先需要Wikipedia的数据文件,比如在这里可以下载英文版本的备份导出文件:
http://dumps.wikimedia.org/enwiki/
一般选择pages-articles.xml.bz2,20100916的备份导出文件已经达到了6.1G。
下载之后,运行WikiTaxi_Importer.exe,将该数据文件转换提取成自己的数据库格式文件.taxi,通常设置更多的内存,会提高转换提取的速度,这个过程可能会有几十分钟以上。WikiTaxi转换提取后的数据库约为10.7G。
2
/2
转换提取完成后,运行WikiTaxi.exe, 打开数据库文件,即可开始离线浏览、搜索Wikipedia了,默认是随机挑选的页面。在数据库转换提取正确的情况下,就可以删除Wikipedia备份导出文件了。如果希望运行时自动加载数据库文件,可以创建使用命令行参数方式,
我对.xml文件不是很熟悉,但是对如何转换lsd文件还是比较了解的其实很简单,
lsd文件是从unicode编码的txt文件转换而成的
词典的格式最起码包括两个部分
最开始是 词典标题部分例如以下引号部分,其中的第一行是词典名称
第二第三行是词典的原语言和目标语言,当然例子中为英俄词典
“#NAME "test"
#INDEX_LANGUAGE "English"
#CONTENTS_LANGUAGE "Russian"”
然后是词典的主要部分,一行是原文,顶格写,第二行是译文,制表符+译文部分
例如
“知识产权
(制表符)指法律规定公民、法人对其科学、技术、文化等知识领域中的创造性智力成果所享有的专有权。知识产权主要包括两部分:(1)版权以及近似版权的邻接权(2)工业产权, 主要指专利、实用新型与外观设计、商标以及服务(劳动)标记、厂商名称、货源标记等”
按照这样的格式一行一行以此类推。
等字典做好了,然后保存为txt文件,一定是unicode编码的。然后把后缀从txt改为dsl,实用abbyy linvo软件自带的compiler 就可已转换成lsd文件了
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)