nltk中使用的Wordnet不支持阿拉伯语。如果您正在寻找阿拉伯语Wordnet,那么这是完全不同的事情。
对于阿拉伯语词网,请下载:
- http://nlp.lsi.upc.edu/awn/get_bd.php
- http://nlp.lsi.upc.edu/awn/AWNDatabaseManagement.py.gz
您使用以下命令运行它:
$ python AWNDatabaseManagement.py -i upc_db.xml
现在得到类似的东西
wn.synset('إنتظار')。阿拉伯语Wordnet具有功能
wn.get_synsets_from_word(word),但提供了偏移量。它也只接受数据库中发声的单词。例如,你应该使用
جَمِيل的
جميل:
>> wn.get_synsets_from_word(u"جَمِيل")[(u'a', u'300218842')]
300218842是جميل的同义词集的偏移量。
我检查了单词إنتظار,看来它在AWN中不存在。
有关在此处使用AWN获取同义词的更多详细信息。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)