当唐诗宋词遇上大数据

当唐诗宋词遇上大数据,第1张

文/戴玥

数据的角度解读唐诗宋词,居然能得出超乎想象的结论。这是我所在的浙江大学计算机学院CAD&CG(计算机辅助设计与图形学)国家重点实验室与新华网合作推出的两款数据新闻作品“我有柔情似水,亦有豪情万丈——唐代女诗人群像”和“宋词缱绻,何处画人间”所研究的内容。

什么是数据新闻?数据新闻又称数据驱动新闻,是指基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。如果把未经处理的数据比作新鲜的食材,那么数据新闻就是将一道精心烹饪的菜肴呈现在读者面前。“一千个读者心中有一千个哈姆雷特”,每个人都能从中品出不同的滋味。

为了更加深入地了解“菜肴”的烹制方法,我在浙江大学紫金港校区采访了两个作品的总负责人陈为教授与项目的具体负责人张玮老师。与两位老师的谈话,使得看似神秘的“烹制方法”逐渐清晰起来。

科学而严谨的“仕女图”:唐代女诗人群像

唐诗项目“我有柔情似水,亦有豪情万丈——唐代女诗人群像”分析了约5.5万首唐诗,采用多样化的图表对唐代女诗人的创作情况进行了可视化呈现。

第一幅图表是关于唐代诗人创作数量的一览图,分别对存世1首、2首、3~5首、5~10首、10~50首及50首以上作品的诗人数量以点阵图的方式进行了表述,每一个点都代表着一位诗人,鼠标悬浮在点上便显示出诗人的姓名与作品数,诗人的性别则用灰色与朱红色区分。在不同阶段,用画像着重标出了著名的代表诗人,如在“3~5首”的阶段里,存世3首作品的张若虚是其中的代表,而在“50首以上”的阶段中,存世3009首的白居易又是其中的翘楚。面对单纯的数字,我们或许不能敏锐地感知背后的意义,而在点阵图中,较之于许许多多仅留下孤篇的诗人,我们便可以感受到有3009首作品传世的香山居士在当时及后世拥有多么惊人的影响力。三千余篇诗作历经一千多年时间长河的波涛汹涌仍然传递到了我们手中,这又是怎样一份文化与 历史 的厚重。

第二幅图表是“唐代女诗人全景图”,将唐朝划分为初唐、盛唐、中唐、晚唐四个阶段。此处同样采用了点阵的表现方式,但用朱砂色的花朵代替了“点”,不同形状的花朵代表着女性诗人的不同身份,她们有的是宫廷诗人,如上官婉儿,有的是士大夫妻女,有的则是民间女子或歌妓,而作品存留数量最多同时也最著名的几人,如薛涛、李冶、鱼玄机等人,则以盛开的荷花标记。人们常以花朵喻美人,而这些朱红的花朵也仿佛承继了这些女子的惊才绝艳,在纸卷上美好而热烈地盛开。

在我们的印象里,盛唐才是诗人辈出的时代,其时有李杜等冠绝古今的大诗人出现,想必此时的女性诗人数量应该最多。但这张全景图却给出了不一样的答案——盛唐时的女性诗人仅仅比初唐与中唐稍多,反而是晚唐时期女性诗人数量为最,几是中唐与盛唐时期的两倍。发现这个与认知大相径庭的事实后,我开始尝试为此找到一种解释。联系此前所学,我想或许是因为晚唐时 社会 状况江河日下,诗风亦偏于阴柔细腻,恰与女性的特质相符,使得女性诗人数量剧增。而我们所认为是诗歌盛世的盛唐时期,诗风大气而雄壮,这大概与女性气质不符吧。

第三幅图表是“诗人诗作字频词频图”,字词的大小与深浅显示着它们被使用的频率。女性诗人作品中最高频词“相思”便可说明女诗人的一贯风格,与我们寻常的认知没有太大出入,女诗人常常在诗中抒发“相思”与“寂寞”之情。同男性诗人一样,“风”与“人”都是最高频的字,而较之于男性,女性诗人又更喜欢运用“花”“月”“春”等柔美的意象,而通过这些意象,女性独特的内心体验可见一斑。

最后是“唐代女诗人社交图”,图中选取了最具代表的几位女性诗人,将她们的社交关系以圆与线的方式表现出来,线的粗细则代表社交关系的深浅。通过这张图可以发现,薛涛与李冶两位著名的女诗人都与刘禹锡有过诗作唱和。或许我们未能知晓同时位列唐朝四大女诗人的这两位才女是否有过交集,但此刻她们却历经遥远的时空被线联系在一起。

之后另有薛涛与李冶单独的社交关系图。在李冶的社交图中,诗人与陆羽、皎然之间形成了一个三角,可见这也是一个诗人之间的“小圈子”,三人都对茶学、佛学等有很大的兴趣,并且也曾互有酬和。而“女校书”薛涛的社交图中类似的圈子更多也更大,最大的有元稹、白居易、刘禹锡、严绶等人,他们大多互相认识或者熟识,仿佛是古代版的“朋友圈共同好友”,隐匿在典籍中的错综复杂的关系网络具象为简单明了的社交图,似乎古人被时间重重遮掩的面貌也在霎时间清晰起来。

新闻的网页背景模拟了泛黄古卷,配上古雅的图案设计与字体设计,构成了一幅交织着理性与严谨的“仕女图”,虽未有画像出现,但透过数据架成的时光之桥,我们仿佛能透过千年的尘埃而窥见美人含羞的影子。

对于数据新闻作品的外观设计,项目的具体负责人张伟老师表示,他们对每一个图表都做了两套以上的方案,经过不断的筛选与考量之后才有我们所见的这一套外观。网页设计也如古时画工制画一般,如切如磋,如琢如磨,方能以美的姿态唤起观者精神的共鸣。

宋朝词人的情绪表达

宋词项目“宋词缱绻,何处画人间”以《全宋词》为样本,从近21000首词作、1330位词人的庞大数据中呈现了丰富的图表。有别于唐诗作品的精致与古典气息,宋词作品的外观则带有朦胧的写意风格,图表亦多处采用了水墨元素,将精确的数据渲染出诗意之美。

整篇作品分为三个版块,“万水千山走遍”“草木皆有情,词即人生”“春风化雨,历久弥新”。在第一个板块“万水千山走遍”中,首先映入眼帘的就是一幅宋朝的疆域图,其中以灰点代表着词人们曾到达过的地方,灰点越大代表到达越多人次。灰点密集地覆盖了宋朝的大半版图,除了青藏高原一带鲜有涉足外,天山南北亦有词人们的足迹。鼠标悬浮其上会显示出词人的行进路线,跨度最大的一条由疆域的最北端一直延伸到最南的临海地区。孔子周游列国的路线其实仅在河南至山东一带,但今天高铁几个小时就能到达的路途,孔子却走了十数年。这条从南至北贯穿宋朝疆域的路线,很有可能耗费了一位词人一生的时间。

之后是宋朝词人的全景图,这幅全景图采用了折线图的方式,横轴为北宋至南宋的各个 历史 阶段,而纵轴为词人作品数量。每一段线条代表一位词人,水平线是词人的平民时期,向上的折线则是词人的仕途时期,线条的灰色与棕色来区分婉约派与豪放派。在众多词人中,一生布衣“梅妻鹤子”的林逋与女性词人李清照的线条都是一条水平线,其余词人的线条都有起有伏,一生的悲欢跌宕都被一条简单的线所勾勒,引人唏嘘。

在第二个版块“草木皆有情,词即人生”中,首先对《全宋词》的词频进行了统计。最高频词分别为“东风”“何处”“人间”,宋朝的积贫积弱以及靖康之变加重了词人心中的漂泊感,他们仿佛一直在寻觅,无论是“今宵酒醒何处”,还是陆放翁常书于词中的“归何处”,都是一声声对心灵的叩问。

第二幅图表是宋代著名词人常见意象及其表达情绪的统计,喜、怒、哀、乐、思五种情绪分别用不同颜色表示,每一种意象都有它所承载情绪表达次数的饼状统计图,鼠标悬浮在词人名上可以显示出他们所使用的意象表达情绪次数的比例。王国维曾言“以我观物,故物皆著我之色彩”,豪放派代表人物辛弃疾常用“酒”“月”等意象,使人联想到边关冷月、煮酒悲歌,而晏殊之子晏几道词风婉约,他少年时家道中落,此后一生流离,词中多以落魄王孙的形象出现,常在“小楼”中流连时光,他的名句“舞低杨柳楼心月,歌尽桃花扇底风”恰能道出他词中风情。

我好奇如何才能计算出意象中承载的情绪,陈为教授告知是根据已有的算法和模型来计算的,“对文字当中的 情感 进行计算,是计算机学界研究了二十年的一个问题,已经有了标准方法”,“对于我们来说,这就是教科书上的东西”。原来文学与计算机的结合并不只是今年才兴起的,早已产生了超越我们想象的进步。

最后一个版块“春风化雨,历久弥新”中将各个词牌代表词作的平仄以长短不一的线段标出,配以人声朗诵,词被还原了它原始的音乐功能,原先掩藏在字词背后的韵律被直观地展现出来。或许相隔千年时光,乐坊的客人也在与我们欣赏着同一首曲子词,咀嚼同一段繁复绵长的 情感 。

数据化与词学研究的碰撞引入了“定量”的思维方式

唐诗宋词与大数据结合而产生的一大效果,即是效率的提升。一张张制作精美的图表将关键信息在眼前一字排开,根据需要可以信手采撷。我不由感叹,如果我之前作业所需的资料也能以这样的方式呈现,想必可以省下不少时间。

陈为教授介绍,在大数据普及之前,人文学者们获取信息需要依靠查阅实物典籍,将一本本书从头翻到尾, 科技 进步后,很多典籍都有了电子扫描版,但还是需要人工检索,在电脑上将所有的文字读完。但大数据带来了改变,“假设我能够把它核心的、关键的特征和信息提炼,并用计算机建模做出来,然后呈现在屏幕上,这些人的关键信息就这些,他跟谁有关系,他有什么作品,他的生活环境怎样,这就极大地提高了效率。”

就读人文专业的我,时常为了解一位古代诗人在某一时间段生活的 社会 环境,对着许多影印版的史志和诗人年谱进行“肉眼检索”,繁体竖排小字看久了让人眼睛发花。

我想到自己曾做的一份唐宋词名物意象变迁的作业,我选择了“钗”的意象。在例举含有该意象的词作时,已经有现成的唐宋词数据库,其中收录了相当数量的唐宋词,我只需要输入“钗”“银钗”“凤钗”等关键词,就能轻松获取与之相关的一篇篇作品,方便快捷。而在调查“钗”本身材质与形制的变迁时,我所查到的相关饰物名录和图鉴有些甚至没有目录和页码,只能面对繁体竖排字一页一页地查阅,看到可能有用的信息也只能使用pdf阅读软件自带的标记功能。一次查找需要耗费很长的时间,而获取的信息却远远不能与付出的时间等价。有时候翻完了一本几百页的书,能够得到的有用信息也只有几句话。从这一点来说,大数据的普及着实是一种迫切的需要,它也为人文社科的研究者带来了福音,省去了许多繁复而低效率的案头劳作。

大数据除了能够极大提高科研效率,同时也为研究提供了一种“定量分析”的思维角度。

唐宋词的数据化研究是20世纪90年代开始兴起的一种研究趋势,与20世纪90年代的数据 科技 发展息息相关。而数据化与词学研究的碰撞引入了“定量”的思维方式,譬如如何确定一首词在宋代的受欢迎程度,这在以前的研究中是难以衡量的,即使能够定性,也是“空口无凭”,没有相应的证据。但大数据却可以解决这个难题,统计宋代词话中这首词被收录的次数,就可以大概得出其受欢迎程度的量化结果。统计数据本身就使得结果更精确,也更有说服力。

虽然大数据能够带来诸多益处,但大数据与文学研究的交汇中也产生了一些需要注意的问题。在一节专业课上,老师曾举过一个大数据研究的例子。在《全金元词》中,使用频率最高的词调有两个,最高为《黑漆弩》,其次是《木兰花慢》。《木兰花慢》是我们耳熟能详的词调,而《黑漆弩》对于并不十分专业的我来说却是闻所未闻。《黑漆弩》在宋代也几乎没有作品传世,但它为何会成为使用频率最高的词调?原来《黑漆弩》到元代时,进入元杂剧成为了一种曲调,也就是说,它是一种曲化的词调,可以称之为曲调。由此反映出了问题,在利用大数据研究词的时候,样本问题需要得到重视,譬如在研究《全金元词》中使用频率最高的词调时,像《黑漆弩》这样曲化的词调就不应该计入样本中。采样问题成为词学研究大数据化的“拦路虎”。

除了已知样本的问题,词学研究领域样本的不断变动同样也困扰着学者们。唐宋词不断有遗词被发现,样本在不断地补充。而相对于现存数量有限的唐宋词,明清词的数量更是多如恒河之沙,几乎难以穷尽,如此庞大的样本本身就是一个令人头疼的难题。

人文学科与大数据的合作,已经有了令人欣喜的发展,但仍旧任重而道远。

作为一个人文专业的学生,我也期待着美好图景成为现实的一天。

文章选自《大学生》

1. 有专门编辑文章的软件吗

文星超级写作助手 4.0《文星超级写作助手》是一套功能丰富、相当实用的写作辅助软件。

(1)该系统提供了一个约五百万汉字的庞大的语言素材库,包括词汇库、描写语段库、唐诗宋词库、名人名言库、谚语俗语库、古文名句库、歇后语库、精彩范文库八个数据库,采用科学细致的分类(500个类目)系统,并辅以关键词查询手段,使用户可以快速方便地找到自己需要的精彩词汇、语句、语段和范文,以供自己写作时借鉴和参考。(2)该系统可以帮助用户建立自己的语言素材库,并同样可以对它们进行快速的查找,平时有爱东摘西抄的朋友可以把你的小本本扔掉了。

(3)该系统另有《投稿地址大全》、《投稿管理系统》、《通讯录》、《记事本》以及《汉语词典》、《成语词典》、《词语联想词典》、《魔鬼辞典》等多个实用工具。本系统非常适合写 *** 好者和广大中小学生朋友使用!《文星》,造就一代文学之星! 公文写作助手 2.0办公司,当文秘,一刻也离不开写文章。

可是许多人,却因为写不出文章而发愁。其实,写文章也有很多诀窍,其中最关键的,就是要先学会模仿,而后才能熟中生巧,写出一手漂亮文章来。

本电子书积累类作者多年写文章的经验,既提供了各种行政、经济、法律、礼仪、事物、新闻类文章的写作要点,又提供了各种公文的例文和范本。即使你没有任何写作经验,对着范本来个照本宣科,马上就会写出一手漂亮文章来。

特别提示:本书提供了数百篇例文,对于初学者,可以利用复制、粘帖的办法,快速写出称心的文章.正所谓:有此软件做助手,从此写作不再愁。

2. 有写作文的软件吗

/25/25109

“作文之星”是一款能由电脑自动书写作文的中小学生作文写作软件,有了她,可以让你从此不再为写作文而烦恼,您只需轻轻点击几下鼠标就可以由电脑自动写出令你感到满意的优秀作文。软件内含强大的作文写作题材库(总字数超过一千万字,约合50本作文书的容量)可以用它书写出超过一万篇不一样的作文,而且作文写作题材库可以随意扩充。软件内还带有三千五百多篇全国各地的优秀获奖作文,只要点击鼠标就可以自动套用:-)在软件中您可以选择“电脑自动”及“作文模板”这两种方式书写作文,熟练使用软件后,用“电脑自动”方式写出一篇千字以上的优秀作文不需要一分钟的时间。软件还集合了多种写作辅助工具“辞海成语辞典”、“唐诗精选”、“宋词精选”、“元曲精选”、“名人名言”、“歇后语精选”、“词汇查询”等等18种写作辅助工具

该系统由北京大学中文系李铎教授(研究员)主持研发。

2005年1月16日,由中华人民共和国教育部组织召开了北京大学《〈全宋诗〉分析系统》的专家鉴定会,傅璇琮任主任委员。中国古代文学、文献学、语言学、计算机科学界的专家所组成的鉴定委员会认真听取了该项目组的系统研制报告、查新报告、专家测试组的测试报告,并现场观看了系统演示。鉴定委员会经过认真评审、质询答疑,一致认定:

一、由北京大学中文系研制的《〈全宋诗〉分析系统》实现了系统技术方案,达到了该项目预定的各项指标要求。

二、《〈全宋诗〉分析系统》底层主要有以下数据库:1、依据北京大学古文献研究所编纂的《全宋诗》完整数据库;2、北京大学中文系依据《佩文韵府》、《广韵》等韵书建设并扩展的音韵库;3、北京大学中文系李铎完成的教育部科研项目“诗歌模型库”;4、北京大学中文系研制的古代诗人复合称名数据库;5、繁简字一对多关系库。

三、《〈全宋诗〉分析系统》建立在自行研制的数据管理系统基础之上,系统运行效率高、性能稳定、界面友好、加密性能高。

四、《〈全宋诗〉分析系统》突破了以往的全文检索的信息提供模式,在数据深层挖掘和知识发现方面具有开创性意义。其重出诗提取、格律诗标注、字及字组的频率分布统计、用户自作诗的格律分析等带有智能化特点,该系统提供多维的检索分析方式,为中国古代文学、古代汉语、文献学等研究领域提供了可靠的分析数据。它标志着,计算机科学在中文信息处理应用方面由全文检索的信息提供模式开始转向智能分析模式。

鉴定委员会一致认为:《〈全宋诗〉分析系统》是信息处理技术与中国古代文学研究的有效结合,展示出信息技术在中国古代文学研究领域应用的方向和广阔前景,该系统达到了国际领先水平。在信息处理技术与中国古代文学研究结合方面居国际领先地位。

鉴定会员会一致同意通过鉴定。

建议研制单位进一步加强该系统的通用性,形成更强大的中国古代诗歌研究平台,并将其应用于已整理的中国古代诗歌文献数据,如《诗经》、《先秦汉魏六朝诗》、《全唐诗》、《全宋词》等。建议上级单位加强支持力度。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9795525.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-02
下一篇 2023-05-02

发表评论

登录后才能评论

评论列表(0条)

保存