问题描述:
1.什么是:“文本数据库”
2.与access有什么区别?
有什么联系?
详细解释一下么
解析:
ctb论坛就采用了
php+txt架构
一、CTB的历史
ctb是16hot在01年底牵头,由我和win参与,将整个结构搭建了起来。结构是16和win设计,02年底我实现了大部分功能,后来Felixsun和ccxx加入,并由ccxx实现了更多的功能。在03年初的时候,整个论坛是比较成型了。
具体来说,ctb应该在04年初基本停顿了,一直没有什么新的比较大的改动。
从03年以来我就没有负责过,都是以jivi为首的爱好者在维护吧。
我也有3年左右没有来过这里了,也对不住ctb的忠实的用户和爱好者。在此向大家道歉了!真诚的道歉,因为虽然很少来这里,但还是觉得这里是自己的家。
二、说一下我吧
写ctb基本都是在上大学的时候,03年毕业后,可以说对ctb没有进行过改动和维护。首先是工作比较忙,没有了更多的业余时间;其次是写ctb的文本代码编写,就象旅行说的一样,太让人抓狂了,不象sql程序那样,不象桌面程序那样行云流水。
毕业后,和16商量过,计划开发mysql的论坛,也由于种种原因没有实施计划。可能是比较懒的缘故吧。自从php5出来后,我对sqlite是比较看好的,认为sqlite的出现基本结束了php的文本程序的历史。也写了一段sqlite的php论坛,而且基本功能也成型了,但由于国内sqlite的空间没有成规模和自己比较懒的缘故吧,这个论坛一直没有对外发布过。
过年的时候,和雪人计划合作开发c#的论坛,已经编写了雏形代码,后来由于他去了discuz工作,而搁浅。我想不久,discuz在雪人的努力下应该发布discuz的c#版本吧。
原来都是凭着兴趣,和 *** 在写程序,没有考虑过任何商业运做。把写代码当成一种享受,就象在网吧玩游戏的孩子对游戏的乐趣一样。没有过多考虑过商业化的东西。如果开始我和16就比较考虑商业化的东西,ctb也应该成为国内最大、最著名的论坛了,呵呵。
现在主要从事工作是c++底层代码的编写,以及php业务系统的设计,还有就是c#桌面程序的实现。其他的工作中就用不到了,有兴趣的朋友可以来wangyzh@dns联系我。
三、一些将来的设想
开始的时候是凭 *** ,平兴趣去写代码,ctb也可以算国内代码质量比较好的程序了,但后来随着接触各种程序的加多,发现自己存在各种不足,无论是结构设计还是具体代码优化。不敢说,国内大部分论坛程序的代码都很差吧,但至少从结构设计上,基本是没有比较漂亮的。不要提效率如何如何好,呵呵,现在的服务器,运行各种论坛程序基本效率是差不多的,除非你的程序写的极差,有各种安全漏洞。越到后来自己越想把代码结构和具体编写完美实现,但越来越发现自己的不足,需要学习,需要改进,所以一直没有彻底的开始和去完成,所以时间也拖到了现在。
从来没有停止过一种想法,那就是彻底的升级ctb或从新编写ctb,无论是sqlite或mysql数据库。还是其他的,但一直由于各种原因而没有从新彻底的开始。
今天先说这么多吧,在不久的将来,大家会看到我们的新产品的。。。
一、文本挖掘定义文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。
二、文本挖掘步骤
1)读取数据库或本地外部文本文件
2)文本分词
2.1)自定义字典
2.2)自定义停止词
2.3)分词
2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤
3)构建文档-词条矩阵并转换为数据框
4)对数据框建立统计、挖掘模型
5)结果反馈
三、文本挖掘所需工具
文本挖掘将使用R语言实现,除此还需加载几个R包,它们是tm包、tmcn包、Rwordseg包和wordcloud包。
四、实战
本文所用数据集来自于sougou实验室数据。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)