谁帮忙解释一下“文本数据库”?

谁帮忙解释一下“文本数据库”?,第1张

分类: 电脑/网络 >>程序设计 >>其他编程语言

问题描述:

1.什么是:“文本数据库”

2.与access有什么区别?

有什么联系?

详细解释一下么

解析:

ctb论坛就采用了

php+txt架构

一、CTB的历史

ctb是16hot在01年底牵头,由我和win参与,将整个结构搭建了起来。结构是16和win设计,02年底我实现了大部分功能,后来Felixsun和ccxx加入,并由ccxx实现了更多的功能。在03年初的时候,整个论坛是比较成型了。

具体来说,ctb应该在04年初基本停顿了,一直没有什么新的比较大的改动。

从03年以来我就没有负责过,都是以jivi为首的爱好者在维护吧。

我也有3年左右没有来过这里了,也对不住ctb的忠实的用户和爱好者。在此向大家道歉了!真诚的道歉,因为虽然很少来这里,但还是觉得这里是自己的家。

二、说一下我吧

写ctb基本都是在上大学的时候,03年毕业后,可以说对ctb没有进行过改动和维护。首先是工作比较忙,没有了更多的业余时间;其次是写ctb的文本代码编写,就象旅行说的一样,太让人抓狂了,不象sql程序那样,不象桌面程序那样行云流水。

毕业后,和16商量过,计划开发mysql的论坛,也由于种种原因没有实施计划。可能是比较懒的缘故吧。自从php5出来后,我对sqlite是比较看好的,认为sqlite的出现基本结束了php的文本程序的历史。也写了一段sqlite的php论坛,而且基本功能也成型了,但由于国内sqlite的空间没有成规模和自己比较懒的缘故吧,这个论坛一直没有对外发布过。

过年的时候,和雪人计划合作开发c#的论坛,已经编写了雏形代码,后来由于他去了discuz工作,而搁浅。我想不久,discuz在雪人的努力下应该发布discuz的c#版本吧。

原来都是凭着兴趣,和 *** 在写程序,没有考虑过任何商业运做。把写代码当成一种享受,就象在网吧玩游戏的孩子对游戏的乐趣一样。没有过多考虑过商业化的东西。如果开始我和16就比较考虑商业化的东西,ctb也应该成为国内最大、最著名的论坛了,呵呵。

现在主要从事工作是c++底层代码的编写,以及php业务系统的设计,还有就是c#桌面程序的实现。其他的工作中就用不到了,有兴趣的朋友可以来wangyzh@dns联系我。

三、一些将来的设想

开始的时候是凭 *** ,平兴趣去写代码,ctb也可以算国内代码质量比较好的程序了,但后来随着接触各种程序的加多,发现自己存在各种不足,无论是结构设计还是具体代码优化。不敢说,国内大部分论坛程序的代码都很差吧,但至少从结构设计上,基本是没有比较漂亮的。不要提效率如何如何好,呵呵,现在的服务器,运行各种论坛程序基本效率是差不多的,除非你的程序写的极差,有各种安全漏洞。越到后来自己越想把代码结构和具体编写完美实现,但越来越发现自己的不足,需要学习,需要改进,所以一直没有彻底的开始和去完成,所以时间也拖到了现在。

从来没有停止过一种想法,那就是彻底的升级ctb或从新编写ctb,无论是sqlite或mysql数据库。还是其他的,但一直由于各种原因而没有从新彻底的开始。

今天先说这么多吧,在不久的将来,大家会看到我们的新产品的。。。

一、文本挖掘定义

文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

二、文本挖掘步骤

1)读取数据库或本地外部文本文件

2)文本分词

2.1)自定义字典

2.2)自定义停止词

2.3)分词

2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤

3)构建文档-词条矩阵并转换为数据框

4)对数据框建立统计、挖掘模型

5)结果反馈

三、文本挖掘所需工具

文本挖掘将使用R语言实现,除此还需加载几个R包,它们是tm包、tmcn包、Rwordseg包和wordcloud包。

四、实战

本文所用数据集来自于sougou实验室数据。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9242780.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-26
下一篇 2023-04-26

发表评论

登录后才能评论

评论列表(0条)

保存