前一段时间,我为获取纯文本的Wikipedia文章制作了两个类。我知道它们不是最佳解决方案,但是您可以根据需要进行调整:
wikipedia.py
wiki2plain.py
您可以像这样使用它:
from wikipedia import Wikipediafrom wiki2plain import Wiki2Plainlang = 'simple'wiki = Wikipedia(lang)try: raw = wiki.article('Uruguay')except: raw = Noneif raw: wiki2plain = Wiki2Plain(raw) content = wiki2plain.text
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)