下载的wiki离线数据库,格式是xml怎么用呢?

下载的wiki离线数据库,格式是xml怎么用呢?,第1张

简单步骤分步阅读

1

/3

下载 WikiTaxi 和离线维基百科数据库

在你使用 WikiTaxi 之前,必须先下载它和维基百科的离线数据库,我们提供了简化版的英文版、完整英文版和中文版的维基数据库供大家下载,下载链接位于文章结尾处,请根据自己的需求选择下载。不过数据比较大,并且服务器位于国外,速度有点不尽人意,只能有点耐心吧。

2

/3

导入维基数据库到 WikiTaxi

因为维基百科提供的离线数据库(.xml.bz2)文件格式 WikiText 并不能直接使用,所以我们需要先将数据库转换成 WikiTaxi 的 .taxi 格式。下载解压 WikiTaxi 之后你可以看到一个 WikiTaxi_Importer.exe 的文件,双击运行它。简单来说,它就是一个转换数据库格式的工具。使用方法和简单,第一项选择 .xml.bz2 文件,第二项选择要保存转换好的.taxi文件,然后按 Import Now 即可开始。中间那个横条是用来调整分配多少内存给该工具来进行转换工作,当然能用的内存越多,转换速度也就也快了。转换好之后,如没特别需要,之前那个.xml.bz2的文件你可以删除掉了。

3

/3

运行 WikiTaxi

如果你已经制作好.taxi数据库之后,那么双击运行 wikitaxi.exe ,在菜单里选择 “Options”->“Open *.taxi Database”来打开刚才那个制作好的.taxi数据库文件即可。然后,就没然后了,你现在已经拥有一个离线的维基百科数据库了!想查询什么直接搜索就行了。

使用方法

1

/2

WikiTaxi首先需要Wikipedia的数据文件,比如在这里可以下载英文版本的备份导出文件:

http://dumps.wikimedia.org/enwiki/

一般选择pages-articles.xml.bz2,20100916的备份导出文件已经达到了6.1G。

下载之后,运行WikiTaxi_Importer.exe,将该数据文件转换提取成自己的数据库格式文件.taxi,通常设置更多的内存,会提高转换提取的速度,这个过程可能会有几十分钟以上。WikiTaxi转换提取后的数据库约为10.7G。

2

/2

转换提取完成后,运行WikiTaxi.exe, 打开数据库文件,即可开始离线浏览、搜索Wikipedia了,默认是随机挑选的页面。在数据库转换提取正确的情况下,就可以删除Wikipedia备份导出文件了。如果希望运行时自动加载数据库文件,可以创建使用命令行参数方式,

wiki现在被封了,但是用这个代理可以上 proxyhub.co.uk

我现在就用这个,英国的,速度也挺快。 支持wiki,我也很喜欢wiki。 如果想将整个网站弄下来,我平时都是用 offline explorer(注意offline explorer里也可以设置自己连网的代理,很方便). 破解版在 crsky.com上有,用baidu一搜就出来了。 但是wiki的信息量相当大,而且也不知道网站用没用特殊的防批量下载保护技术,如果你坚持要把整个网站下载下来就祝你好运了。

维基百科中文版使用方法

1、下载维基百科中文版和离线维基百科数据库

在你使用维基百科中文版之前,必须先下载它和维基百科的离线数据库。

2、导入维基数据库到软件

因为维基百科提供的离线数据库(.xml.bz2)文件格式 WikiText 并不能直接使用,所以我们需要先将数据库转换成 WikiTaxi 的 .taxi 格式。下载解压 WikiTaxi 之后你可以看到一个 WikiTaxi_Importer.exe 的文件,双击运行它。简单来说,它就是一个转换数据库格式的工具。使用方法和简单,第一项选择 .xml.bz2 文件,第二项选择要保存转换好的.taxi文件,然后按 Import Now 即可开始。中间那个横条是用来调整分配多少内存给该工具来进行转换工作,当然能用的内存越多,转换速度也就也快了。转换好之后,如没特别需要,之前那个.xml.bz2的文件你可以删除掉了。

3、运行维基百科中文版

如果你已经制作好.taxi数据库之后,那么双击运行 wikitaxi.exe ,在菜单里选择 “Options”->“Open *.taxi Database”来打开刚才那个制作好的.taxi数据库文件即可。然后,就没然后了,你现在已经拥有一个离线的维基百科数据库了!想查询什么直接搜索就行了。

*** 作说明

源码在source文件夹下,data文件夹用来存放 .zim 文件,需要自己在维基百科按需下载 .zim 文件。

PC端浏览器访问界面:

下图中每一个方框是一个数据库,自己去下面提供的网站根据需要下载对应的zim数据库文件。

打开下图这个页面后,需要点击进入相应的库才能搜索,不能在这个页面直接搜索!!!

手机端浏览器访问界面:

维基百科中文版注意事项

(1)程序运行之后会自动打开默认浏览器来访问地址localhost上的离线维基百科,如果无法打开请检查hosts文件;

(2)程序运行之后会后台展示一个黑底绿字的命令行窗口,用来展示提示信息,如Kiwix Server IP地址,请勿关闭该窗口,在用户关闭浏览器窗口后,此窗口会自动关闭;

(3)程序使用的离线维基百科数据库为kiwix.org制作的zim文件,使用前请自行到地址下载自己所需语言和学科的zim文件:

请将zim文件下载好后,放到程序根目录的 data 文件夹下,程序就会自动识别并在浏览器中展示。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9249341.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-26
下一篇 2023-04-26

发表评论

登录后才能评论

评论列表(0条)

保存