全宋诗的分析系统

全宋诗的分析系统,第1张

该系统由北京大学中文系李铎教授(研究员)主持研发。

2005年1月16日,由中华人民共和国教育部组织召开了北京大学《〈全宋诗〉分析系统》的专家鉴定会,傅璇琮任主任委员。中国古代文学、文献学、语言学、计算机科学界的专家所组成的鉴定委员会认真听取了该项目组的系统研制报告、查新报告、专家测试组的测试报告,并现场观看了系统演示。鉴定委员会经过认真评审、质询答疑,一致认定:

一、由北京大学中文系研制的《〈全宋诗〉分析系统》实现了系统技术方案,达到了该项目预定的各项指标要求。

二、《〈全宋诗〉分析系统》底层主要有以下数据库:1、依据北京大学古文献研究所编纂的《全宋诗》完整数据库;2、北京大学中文系依据《佩文韵府》、《广韵》等韵书建设并扩展的音韵库;3、北京大学中文系李铎完成的教育部科研项目“诗歌模型库”;4、北京大学中文系研制的古代诗人复合称名数据库;5、繁简字一对多关系库。

三、《〈全宋诗〉分析系统》建立在自行研制的数据管理系统基础之上,系统运行效率高、性能稳定、界面友好、加密性能高。

四、《〈全宋诗〉分析系统》突破了以往的全文检索的信息提供模式,在数据深层挖掘和知识发现方面具有开创性意义。其重出诗提取、格律诗标注、字及字组的频率分布统计、用户自作诗的格律分析等带有智能化特点,该系统提供多维的检索分析方式,为中国古代文学、古代汉语、文献学等研究领域提供了可靠的分析数据。它标志着,计算机科学在中文信息处理应用方面由全文检索的信息提供模式开始转向智能分析模式。

鉴定委员会一致认为:《〈全宋诗〉分析系统》是信息处理技术与中国古代文学研究的有效结合,展示出信息技术在中国古代文学研究领域应用的方向和广阔前景,该系统达到了国际领先水平。在信息处理技术与中国古代文学研究结合方面居国际领先地位。

鉴定会员会一致同意通过鉴定。

建议研制单位进一步加强该系统的通用性,形成更强大的中国古代诗歌研究平台,并将其应用于已整理的中国古代诗歌文献数据,如《诗经》、《先秦汉魏六朝诗》、《全唐诗》、《全宋词》等。建议上级单位加强支持力度。

数据分析揭秘:唐朝诗人间有怎样的微妙社交关系

数据侠

前进四先生 03-20 11:08

李白对杜甫的感情,远不及杜甫对李白的深?白居易才是唐诗圈里“大V”中的战斗机?除了吟诗作对,数据侠告诉你,关于唐诗我们还可以用数据分析来激扬文字,寻找那些流散在字里行间的人物关系。

用CBDB数据库,打开分析唐朝诗人关系的大门

前段时间随着《中国诗词大会》的热播,全国人民掀起了读唐诗的浪潮。在我还念中学的时候,每当心情不好,就靠读诗词来排遣。作为一名古典诗词爱好者,慢慢读得多了,就发现唐朝诗人之间存在着微妙的关系。

比如杜甫非常喜欢李白,到了做梦都想见李白的地步:三夜频梦君,情亲见君意(《梦李白》)。而李白向孟浩然表过白:吾爱孟夫子,风流天下闻(《赠孟浩然》)。孟浩然的好基友则是王昌龄:数年同笔砚,兹夕间衾裯(《送王昌龄之岭南》)。

出于好奇心,我一度想理清楚他们之间的关系。但是这件事主要有两个非常棘手的点:

全唐诗数量太多了,一共有四万多首。

诗人的别称太多,比如杜甫:按字称为子美,按排行称为杜二,按官职称为杜工部。整理起来非常麻烦。

针对第一点,我现在用计算机来做,即使数量再多也无所谓。

第二点则稍微费事一点,我们使用了哈佛大学编纂的《中国历代人物专辑资料库》(China Biographical Database Project 以下简称CBDB)。CBDB记录了中国历代名人的传记资料,并保存在关系型数据库中。

CBDB由很多张表组成,每张表记录了人物的不同信息。在我们这次的分析中,只用到了其中两张表,人物的主要信息表:BIOG_MAIN和人物的别名表:ALTNAME_DATA。首先从BIOG_MAIN中查询出人物编号c_personid,接着用c_personid从ALTNAME_DATA中查询出别名,如下图所示:

图中能够看到杜甫有三个别称:子美、杜二、杜工部。

当然也有很多重名的现象。比如我们查询王维时,会找出一堆叫王维的。

这个时候,我们就要使用生卒年来判定:这个人物到底是不是唐朝的。这次要从数据库中查询人物的生卒年。

唐朝建立于618年,灭亡于907年。对比后立刻发现,第二个王维才是我们要找的诗人王维。

查询别名核实一下:

看到了熟悉的王右丞和摩诘,没错,这正是王维同学。

由于CBDB收罗的历史人物太多,重名现象非常严重。经过一番探索,我最终设置了如下的排除重名策略:

如果人物生卒年俱全,那么只要生卒区间和唐朝持续时间有交集即可。如果存在这样的诗人,那么直接把这个人作为全唐诗中的作者。

如果人物只有生年或者卒年,那么生年或卒年必须在唐朝的持续时间内。将这样的人加入候选人列表。

如果人物生卒年都不详,那么舍弃之。

经过这三条判断之后:

如果候选人列表为空,那么说明CBDB中没有目标人选,舍弃这位诗人。

如果候选人多于一个,则说明排除重名失败,舍弃这位诗人。

这种策略并不完美,存在部分注明诗人被舍弃的情况。为此我手动添加了他们:

还有部分诗人的别称比较尴尬,属于唐诗中的常用词,需要手动去除。如下:

经过这一番筛选,全唐诗中原本的2609位作者,只剩下了762位。这就够了,著名的诗人都在这个列表当中,接下来我们只关心这762位诗人之间的关系。

李白不如杜甫重情义,白居易才是真“大V”

利用上面的诗人及别称列表,我们在全唐诗中来搜索诗人之间的引用关系。规则是:诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1。一首诗如果提到多次对方,只算一次引用。

经过计算机一番运转,最终得到了引用关系表。

首先来检查一下李白和杜甫之间的引用关系:

不错,杜甫写了12首与李白有关的诗,李白则只有3首与杜甫有关的诗。李白这种朋友,确实差劲了一点啊

从这张图也可以看出,我们的程序能够识别出诗人的别名,比如杜甫的《寄李十二白二十韵》和李白的《鲁郡东石门送杜二甫》都没有直接提到对方的名字。

除此之外,我还给诗人之间的引用关系排了个座次,下面显示了排名前三十的引用关系:

我们看到,全唐诗中排名第一的好基友绝对是陆龟蒙和皮日休。这两位互相提到对方的次数都在百次以上,这是因为陆龟蒙和皮日休特别喜欢唱和,你写一首送我,我再回一首赠你,跟现在微博大V之间的互动差不多。这两位常年唱和,最后将往来的唱和诗作编写了中国文学史上的第一本唱和诗集:《松陵集》。为了不辜负他们之间的友谊,文学史上通常将两者合称为“皮陆”。

并列第二的则是白居易和刘禹锡、白居易和元稹。白居易和刘禹锡同年(772年)出生,从政道路都是各种被贬谪。两人都很长寿,刘禹锡71岁时去世,白居易则活了75岁。白居易在得知刘禹锡去世的消息时,写下了千古名句:

“四海齐名白与刘,百年交分两绸缪。同贫同病退闲日,一死一生临老头。”

白居易和元稹我不想多写了,大家只要知道二人在文学史上被合称为“元白”,就能想见二者的亲密关系了。从排名前三十的引用关系来看,白居易绝对是唐朝诗人朋友圈中的明星,是大V中的大V。

唐朝诗人引用关系的社交网络

只有引用关系列表岂不是有些干巴巴的,接下来才是本文的重头戏。我将使用ECharts来可视化诗人之间的引用关系,最终得到诗人们的社交网络。

因为我们的样本中一共有762位诗人,为了避免画出的图太拥挤,看不清,我只将前一百的引用关系图示化,如下图:

箭头表示诗人们之间的引用关系。比如说白居易引用了元稹,那么就有白居易指向元稹的箭头,元稹引用了白居易,相应的也有元稹指向白居易的箭头。

箭头的粗细程度则表示了诗人们之间引用关系的强弱。白居易引用元稹的数量为167次,元稹引用白居易的数量为88次,那么白居易指向元稹的箭头就要粗一些。

图中清晰的显示除了唐朝诗人的两个大型朋友圈:杜甫-李白朋友圈、白居易朋友圈。没错,他们分别是盛唐和中唐两个时期的核心诗人。

虽然只画出了排名前一百的引用关系,但还是很拥挤。文学史上将唐诗根据时间划分为4个阶段:初唐、盛唐、中唐、晚唐。接下来我们就分别画出这四个阶段的社交网络图。

初唐诗人

从箭头的粗细来看,初唐诗人中关系最好的是宋之问和沈铨期。这两位正是宫廷诗人的代表,他们两位确定了近体诗的格律,对仗等规则。粗略的说,近体诗的规则就是他们俩发明出来的。对了,他们俩在文学史上一般也合成“沈宋”哦,看来要成为好基友,没有文学史的认证是不行的。

盛唐诗人

(说明:为了制图清晰,盛唐诗人社交网络只画出了引用数大于等于2的关系。)

盛唐诗人的核心无疑是“李杜文章在,光焰万丈长”中提到的李白和杜甫了。我们再次看到,杜甫指向李白的箭头比李白指向杜甫的箭头要粗得多。而且盛唐的诗人们明显分为两群,一群以李白-杜甫为核心,一群以皇甫冉和刘长卿为核心,为什么有这样的局面?我也不知道,有没有对文学史比较了解的朋友,请在评论里赐教。

中唐诗人

(说明:为了制图清晰,中唐诗人社交网络只画出了引用数大于等于2的关系。)

中唐诗人社交网的特征很明显,各位诗人紧紧团结在以白居易、元稹、刘禹锡为核心的“文坛政治局”周围,勠力同心,同舟共济,为唐诗从浪漫主义向现实主义的伟大转折做出了历史性贡献。

晚唐诗人

晚唐诗人的社交网络比较散乱,没有明显的核心。其中最重要的就是李商隐和杜牧了,他俩得到了文学史认证的“小李杜”好基友称号。

这篇文章写到这里,我突然意识到,即使一个人对唐诗没有任何了解,他只要看这些社交网络图,就能立刻发现哪位诗人是同时代诗人的核心,哪位诗人的影响最大。这些都是很有用的信息。

而我们可以用计算机来分析任何时代的人物关系。中国恰好是历史文献最全的国家,如果能对这些文献统一做系统的分析,岂不是可以做出随着时间变化的历史人物关系图?

这在以前是不可能的事,现在随着计算机技术的发展和古典文献的数字化进程,逐渐有可能了。这当然是很大的工作量,任何个人都不可能实现。我想,有没有可能参考linux的开发过程,用开源的方式,大家一起来完成这件事。

唐代是一个政治、经济、文化都极尽灿烂的伟大时代,蕴造出一个诗的王朝。唐诗不仅是学术界取之不尽的巨大矿藏,而且也是当代大众文化消费和群众精神生活的需要。在这种普及与提高的双重期望下,各类唐诗辞典应运而生。上海辞书出版社所编《唐诗鉴赏辞典》,马东田主编的《唐诗分类大辞典》,宋绪连等主编的《唐诗艺术技巧分类辞典》,范之麟、吴庚舜主编的《全唐诗典故辞典》,孙寿玮编的《唐诗字词大辞典》,郁贤皓主编的《李白大辞典》等都是很有特色和成就的辞书著作。已出数种综合辞书中,以张忠纲先生主编的《全唐诗大辞典》(语文出版社2000年出版,以下简称张著)所出最晚,篇幅最巨,信息量最大,可谓后来居上,成为世纪之交唐诗辞典的集成之作。

张著的集成性首先表现在其“集”字上,即对前此唐诗辞书编纂成果和经验的广泛吸纳。张著的词目编排包括:作者简介、唐诗名篇、唐诗名句、格律与流派体类、语词典故、地名名胜、唐诗著作七大部分,每部分都尽可能地容纳已知的研究成果。作者简介部分就充分吸收了周祖谓先生主编《中国文学家大辞典·唐五代卷》中的研究成果,周之书无征不信,考析精严,极得学界赞誉。张著则在此基础上又纳入了近年来新的发现,有所考订损益,共收录《全唐诗》、《全唐诗补编》的作者三千五百余人,基本上涵盖了迄今所知的唐五代作者,《全唐诗》误收的唐前及五代后作者,亦予收录,给使用者带来了极大的方便。

再如唐诗名篇、唐诗名句、语词典故、地名名胜诸部分,选录唐诗名篇佳作4500余首,唐诗名句2000余则,语词典故14000余条,地名名胜1000余条,这不仅是编著者广泛阅读原典和审慎考辨选择的结果,也是编著者在《唐诗鉴赏辞典》(上海辞书出版社)、《唐诗鉴赏辞典补编》(周啸天主编)、《唐诗名篇鉴赏辞典》(霍松林、程千帆等主编)、《全唐诗佳句类编》(竞鸿、陆力主编)、《全唐诗典故辞典》(范丈麟、吴庚舜主编》、《唐诗典故辞典》(李文学编)、《唐诗字词大辞典》(孙寿玮编)、《唐诗百科大辞典》(王洪、田军主编)、《唐诗大辞典》(周勋初主编)等已有辞书基础上的融会贯通。故能兼取众长.在材料的广度和量度方面更上层楼。从具体的统计数字看,张著收取条目凡28000余条,远远高于《唐诗百科大辞典》的13000条、《唐诗大辞典》的6000条。总字数达346万余字,亦数倍于《唐诗百科大辞典)和《唐诗大辞典》。

张著的集成性还表现在其“成”字上,集成不是蹈旧,而是继承的创造。“集”是对前人成果的总结和借鉴,“成”则是成就,是自成一家的创造。张著的成就和创造一是反映在结构体例上,一是反映在其内容材料上。

与前几种唐诗综合性辞典相比较,张著在结构上最明显的创造是将“格律与流派体类”单独作为一部分划分出来。体类既可指诗的文字形式和格律体裁,又可指诗的风格体貌或流派,而唐诗的流派繁多、众体兼备、格律多变,是中国古典诗歌发展高峰的重要促媒,因此这里将格律与流派合为一部分来编纂是有道理的。张著如此划分的价值还在于他强调了流派的重要性,尽管流派与格律部分收词不足500条,在全书七部分中条目最少,但在结构上却与其他六部分并驾齐驱,地位相等,这反映出编著者宏通的史的眼光。其注重流派,利于打破传统诗史联缀单个诗人诗作的框架,变个体研究为群体研究,从时代精神、文人心理、社会审美习尚等发展演变的角度,动态立体地把握唐诗流变的过程,从而在更深层面上去领会唐诗的风神气韵。

张著在内容材料上的成就和创造,且还反映在对此前同类辞书的补缺上。在收录唐诗研究著作时,张著下限至1998年12月,这就把20世纪90年代以来的一些重要研究著作也收入了,如董乃斌的《李商隐的心灵世界》(上海古籍出版社1992年),蒋寅的《大历诗风》(上海古籍出版社1992年),吴汝煜主编的《唐五代人交往诗索引》(上海古籍出版社1993年),詹镁主编的《李白全集校注汇释集评》 (百花文艺出版社1996年),屈守元、常思春主编的《韩愈全集校注》(四川大学出版社1996年),陈铁民的《王维集校注》(中华书局1997年),谢思炜的《白居易集综论》(中国社会科学出版社1997年),张清华的《韩学研究》(江苏教育出版杜1998年)等,基本反映了本世纪唐诗研究的进程与特色。

张著中还有不少辞条述及中国唐代文学学会及其他学会的一些学术活动、著作,显示出编著者对当代学术发展的关注,同时让非专业研究的人们,对唐诗研究界也能有一基本的了解,从另一个角度扩大了唐诗的影响。如通过“中国唐代文学学会”条,即了解到早在1982年,唐代文学研究者已结成一个有组织团体,且创办了《唐代文学研究》(原名《唐代文学论丛》)、《唐代文学研究年鉴》两个会刊,这为后来唐代文学研究的繁荣奠定了良好的基础。通过对90年代初相继成立的"王维研究会”、“韩愈研究会”、“中国李商隐研究会”、“中国柳宗元研究会”、“中国杜甫研究会”等介绍,使人了解此时已掀起了唐诗研究的一个小高潮。 从总体上看,张著最大的特点,正如傅璇琮先生在该书序中所言:“注意普及与专业研究的结合……既着意把唐诗的基本知识(如诗人、作品、诗体、流派等)尽可能系统、全面地介绍给广大的读者,又充分吸收近二十年来研究的新成果,展示新时期唐代文学研究。”惟其如此,张著才无愧于一部兼顾知识性、学术性和工具性的成功的唐诗辞书著作。

以上就是关于全宋诗的分析系统全部的内容,包括:全宋诗的分析系统、数据分析揭秘:唐朝诗人间有怎样的微妙社交关系、急急急急!!!关于社科文献检索的作业!!!好的话追加20分!!!等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9531233.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存