typecho对于大数据负载能力如何比如1000万数据，有谁测试过吗_CMS教程

众所周知，java在处理数据量比较大的时候，加载到内存必然会导致内存溢出，而在一些数据处理中我们不得不去处理海量数据，在做数据处理中，我们常见的手段是分解，压缩，并行，临时文件等方法；

例如，我们要将数据库（不论是什么数据库）的数据导出到一个文件，一般是Excel

或文本格式的CSV；对于Excel来讲，对于POI和JXL的接口，你很多时候没有办法去控制内存什么时候向磁盘写入，很恶心，而且这些API在内存构

造的对象大小将比数据原有的大小要大很多倍数，所以你不得不去拆分Excel，还好，POI开始意识到这个问题，在384的版本后，开始提供

cache的行数，提供了SXSSFWorkbook的接口，可以设置在内存中的行数，不过可惜的是，他当你超过这个行数，每添加一行，它就将相对行数前

面的一行写入磁盘（如你设置2000行的话，当你写第20001行的时候，他会将第一行写入磁盘），其实这个时候他些的临时文件，以至于不消耗内存，不过

这样你会发现，刷磁盘的频率会非常高，我们的确不想这样，因为我们想让他达到一个范围一次性将数据刷如磁盘，比如一次刷1M之类的做法，可惜现在还没有这

种API，很痛苦，我自己做过测试，通过写小的Excel比使用目前提供刷磁盘的API来写大文件，效率要高一些，而且这样如果访问的人稍微多一些磁盘

IO可能会扛不住，因为IO资源是非常有限的，所以还是拆文件才是上策；而当我们写CSV，也就是文本类型的文件，我们很多时候是可以自己控制的，不过你

不要用CSV自己提供的API，也是不太可控的，CSV本身就是文本文件，你按照文本格式写入即可被CSV识别出来；如何写入呢？下面来说说。。。

在处理数据层面，如从数据库中读取数据，生成本地文件，写代码为了方便，我们未必要

1M怎么来处理，这个交给底层的驱动程序去拆分，对于我们的程序来讲我们认为它是连续写即可；我们比如想将一个1000W数据的数据库表，导出到文件；此

时，你要么进行分页，oracle当然用三层包装即可，mysql用limit，不过分页每次都会新的查询，而且随着翻页，会越来越慢，其实我们想拿到一

个句柄，然后向下游动，编译一部分数据（如10000行）将写文件一次（写文件细节不多说了，这个是最基本的），需要注意的时候每次buffer的数据，

在用outputstream写入的时候，最好flush一下，将缓冲区清空下；接下来，执行一个没有where条件的SQL，会不会将内存撑爆？是的，这个问题我们值得去思考下，通过API发现可以对SQL进行一些 *** 作，例如，通过：PreparedStatement

statement =

connectionprepareStatement(sql)，这是默认得到的预编译，还可以通过设置：PreparedStatement

statement = connectionprepareStatement(sql ,

ResultSetTYPE_FORWARD_ONLY ,

ResultSetCONCUR_READ_ONLY);

来设置游标的方式，以至于游标不是将数据直接cache到本地内存，然后通过设置statementsetFetchSize(200);设置游标每次遍历的大小；OK，这个其实我用过，oracle用了和没用没区别，因为oracle的jdbc

API默认就是不会将数据cache到java的内存中的，而mysql里头设置根本无效，我上面说了一堆废话，呵呵，

我只是想说，java提供的标准API也未必有效，很多时候要看厂商的实现机制，还有这个设置是很多网上说有效的，但是这纯属抄袭；对于oracle上面

说了不用关心，他本身就不是cache到内存，所以java内存不会导致什么问题，如果是mysql，首先必须使用5以上的版本，然后在连接参数上加上

useCursorFetch=true这个参数，至于游标大小可以通过连接参数上加上：defaultFetchSize=1000来设置，例如：

jdbc:mysql://xxxxxxxxxxxx:3306/abczeroDateTimeBehavior=convertToNull&useCursorFetch=true&defaultFetchSize=1000

上次被这个问题纠结了很久（mysql的数据老导致程序内存膨胀，并行2个直接系统

就宕了），还去看了很多源码才发现奇迹竟然在这里，最后经过mysql文档的确认，然后进行测试，并行多个，而且数据量都是500W以上的，都不会导致内

存膨胀，GC一切正常，这个问题终于完结了。

我们再聊聊其他的，数据拆分和合并，当数据文件多的时候我们想合并，当文件太大想要

拆分，合并和拆分的过程也会遇到类似的问题，还好，这个在我们可控制的范围内，如果文件中的数据最终是可以组织的，那么在拆分和合并的时候，此时就不要按

照数据逻辑行数来做了，因为行数最终你需要解释数据本身来判定，但是只是做拆分是没有必要的，你需要的是做二进制处理，在这个二进制处理过程，你要注意

了，和平时read文件不要使用一样的方式，平时大多对一个文件读取只是用一次read *** 作，如果对于大文件内存肯定直接挂掉了，不用多说，你此时因该每

次读取一个可控范围的数据，read方法提供了重载的offset和length的范围，这个在循环过程中自己可以计算出来，写入大文件和上面一样，不要

读取到一定程序就要通过写入流flush到磁盘；其实对于小数据量的处理在现代的NIO技术的中也有用到，例如多个终端同时请求一个大文件下载，例如视频

下载吧，在常规的情况下，如果用java的容器来处理，一般会发生两种情况：

其一为内存溢出，因为每个请求都要加载一个文件大小的内存甚至于更多，因为java

包装的时候会产生很多其他的内存开销，如果使用二进制会产生得少一些，而且在经过输入输出流的过程中还会经历几次内存拷贝，当然如果有你类似nginx之

类的中间件，那么你可以通过send_file模式发送出去，但是如果你要用程序来处理的时候，内存除非你足够大，但是java内存再大也会有GC的时

候，如果你内存真的很大，GC的时候死定了，当然这个地方也可以考虑自己通过直接内存的调用和释放来实现，不过要求剩余的物理内存也足够大才行，那么足够

大是多大呢？这个不好说，要看文件本身的大小和访问的频率；

其二为假如内存足够大，无限制大，那么此时的限制就是线程，传统的IO模型是线程是

一个请求一个线程，这个线程从主线程从线程池中分配后，就开始工作，经过你的Context包装、Filter、拦截器、业务代码各个层次和业务逻辑、访

问数据库、访问文件、渲染结果等等，其实整个过程线程都是被挂住的，所以这部分资源非常有限，而且如果是大文件 *** 作是属于IO密集型的 *** 作，大量的CPU

时间是空余的，方法最直接当然是增加线程数来控制，当然内存足够大也有足够的空间来申请线程池，不过一般来讲一个进程的线程池一般会受到限制也不建议太多

的，而在有限的系统资源下，要提高性能，我们开始有了new

IO技术，也就是NIO技术，新版的里面又有了AIO技术，NIO只能算是异步IO，但是在中间读写过程仍然是阻塞的（也就是在真正的读写过程，但是不会

去关心中途的响应），还未做到真正的异步IO，在监听connect的时候他是不需要很多线程参与的，有单独的线程去处理，连接也又传统的socket变

成了selector，对于不需要进行数据处理的是无需分配线程处理的；而AIO通过了一种所谓的回调注册来完成，当然还需要OS的支持，当会掉的时候会

去分配线程，目前还不是很成熟，性能最多和NIO吃平，不过随着技术发展，AIO必然会超越NIO，目前谷歌V8虚拟机引擎所驱动的nodejs就是类

似的模式，有关这种技术不是本文的说明重点；

将上面两者结合起来就是要解决大文件，还要并行度，最土的方法是将文件每次请求的大

小降低到一定程度，如8K（这个大小是经过测试后网络传输较为适宜的大小，本地读取文件并不需要这么小），如果再做深入一些，可以做一定程度的

cache，将多个请求的一样的文件，cache在内存或分布式缓存中，你不用将整个文件cache在内存中，将近期使用的cache几秒左右即可，或你

可以采用一些热点的算法来配合；类似迅雷下载的断点传送中（不过迅雷的网络协议不太一样），它在处理下载数据的时候未必是连续的，只要最终能合并即可，在

服务器端可以反过来，谁正好需要这块的数据，就给它就可以；才用NIO后，可以支持很大的连接和并发，本地通过NIO做socket连接测试，100个终

端同时请求一个线程的服务器，正常的WEB应用是第一个文件没有发送完成，第二个请求要么等待，要么超时，要么直接拒绝得不到连接，改成NIO后此时

100个请求都能连接上服务器端，服务端只需要1个线程来处理数据就可以，将很多数据传递给这些连接请求资源，每次读取一部分数据传递出去，不过可以计算

的是，在总体长连接传输过程中总体效率并不会提升，只是相对相应和所开销的内存得到量化控制，这就是技术的魅力，也许不要太多的算法，不过你得懂他。

类似的数据处理还有很多，有些时候还会将就效率问题，比如在HBase的文件拆分和

合并过程中，要不影响线上业务是比较难的事情，很多问题值得我们去研究场景，因为不同的场景有不同的方法去解决，但是大同小异，明白思想和方法，明白内存

和体系架构，明白你所面临的是沈阳的场景，只是细节上改变可以带来惊人的效果。

你的环境中没有安装 JSON 库，导致程序退而求其次使用了这个解析库，然后触发了一些遗留 BUG。错误提示很明显是说Typecho_Json这个库找不到，仔细阅读代码就可以发现这句话应该是函数本身的一个递归遍历，应该调用的是自身。解决办法就是把这个库的所有 Typecho_Json 替换成 Json。

事实上你搜索一下会发现，这个文件在早前的版本中是叫 Typecho_Json 的，只是在后来的版本中改了名字，但是内部的名字忘了改回来了而已。

当然是TYPECHO啦。

我说几个值得比对的地方吧，你自己鉴别。

第一，你去比对typecho 和 emlog 的文档。以及作者对其的介绍。

第二，我承认EMLOG插件很多，我不知道你懂不懂代码，但是看emlog插件写法和挂钩机制，实在有点恶心。typecho虽然没有什么成形的大型插件可看，但是他在官方站点已经放出了插件开发API，而且有一个作者原版插件就已经说明了写法优雅。

第三，程序整体架构上。typecho有相对完善的路由功能类似 /indexphp/function/1 的路径。每层路径都有相应的含义。这个是仿写WP博客的，但是效率比WP高一点。EMLOG在这个方面完全是菜鸟级别了。indexphp 很多都是 _$get('action') 然后一个个判断。效率极低了。

第四，都支持伪静态，但是typecho的路由功能略胜一筹，因为每级URL都有相应的含义亲和搜索引擎。

第五。很多人都希望转出EMLOG，给你一些文章参考，网上找的。

第六。速度。你自己感受typecho很快TYPECHO 3000篇还没事似的，EMLOG 3000篇文章就会很慢了。typecho效率不错。

第七 cpu内存占用两个都势均力敌不到3MB。

都是手工打的。希望你认真看。

大概2005年就开始折腾博客了，从第一次用自己开发的aps+html网站，到看了网上到处都是现成的网站，自己辛苦几星期甚至几个月弄出来的东西，其实都已经有了，你想到的或没想到的功能都有了，甚至需要扩展功能只需要花几分钟增加一个插件就搞定。

于是开始使用现成的cms系统，一开始接触是使用动易的cms系统，因为使用的asp和aspx开发，自己略懂一些，可以看懂代码自己二次修改。

但是，动易的界面设计不符合个人审美，还有模板就那几个，于是开始接触到帝国cms，WordPress，也开始摸索PHP，中间也还尝试过zblog、emlog、typecho等。不过最终还是觉得WordPress是最好用：

易于安装维护；模板多如牛毛，无论国内的国外的都很多，哪天看不爽了在用着的主题或发现更好看的主题，换，最多半天的事情，就可以“大装修”完；教程也是满天飞，使用过程中遇到什么问题，随时一搜，基本上都能找到解决办法；海量的功能插件，需要扩展目前流行的一些功能，基本都能找到相应的插件来实现。有着全球那么多程序员大神帮你不断的更新和完善功能、漏洞、美化、优化

所以，有什么理由不选WordPress？我目前还剩下两个博客，也都是使用的WordPress搭建的。

typecho 2 wordpress下载：

1本程序将typecho数据转换到wordpress，强烈建议在本地环境进行转换，并且做好原数据的备份。

2测试条件：typecho 08 & WordPress 312

3wordpress版本要求：> 30建议使用最新版本。

4重要：程序目前只能够全新转换，将清空除wp_users,wp_usermeta,wp_options,wp_links以外的所有表，请将重要数据备份。

5程序将转换你的全部文章，包括附件，你只需要复制usr/uploads文件夹下文件到wordpress的wp-content/uploads下即可。

6程序将转换你的全部评论，分类和全部tag，没有使用的tag将不被转换。

首页在模板目录建立一个 category 文件夹，将分类模板文件放到这个目录内，如 Printsphp

以下是分类模板样本：

<php $this->need('headerphp'); > 头部

<php if ($this->have()): > 不可删

<php while($this->next()): > 不可删

<a href="<php $this->permalink() >" title="<php $this->title() >"><php $this->content(); ></a>

<php endwhile; > 结尾

<php $this->need('footerphp'); > 底部

然后在后台创建分类，分类的缩略名必需是分类模板的名字如分类模板名为Printsphp那么分类缩略名必需是Prints才行。然后在postphp页调用以下代码。

<php if ($this->category == 'blog') { >

<div><h4><php $this->title() ></h4></div>

<div><php $this->author(); > <php ('October'); ><php $this->date('F j, Y'); ></div>

<div><php $this->content('Continue Reading'); ></div>

<php if (empty($this->options->sidebarBlock) || in_array('ShowRecentPosts', $this->options->sidebarBlock)): >

<php $this->need('footerphp'); >

<php } elseif ($this->category == 'zhoupin') { >

<div><span><php $this->content(); ></span></div>

<php $this->need('footerphp'); >

<php } elseif ($this->category == 'Prints') { >

<div><span><php $this->content(); ></span></div>

<php $this->need('footerphp'); >

<php if ($this->category == 'News') { >

<div><h2><php $this->title() > <br/><php ('October'); ><php $this->date('F j, Y'); ></h2></div>

<div><php $this->content(); ></div>

<php if (empty($this->options->sidebarBlock) || in_array('ShowRecentPosts', $this->options->sidebarBlock)): >

<php $this->need('footerphp'); >

创建分类方法二

一、不同分类输出不同模板

先在当前模板目录下建立一个 category 目录，然后比如你要给 slug 为 default 的分类专门建立模板，那么就在 category 目录下创建一个名为 defaultphp 的文件，这样程序在访问 default 分类时会自动调用这个模板文件。

使用 $this->categories 和 $this->category 这两个变量就可以满足你的需要了，不过需要你自己手动循环输出。你可以 print_r 一下这两个变量，看看它们的结构。

二、post页调用方法

<php if ($this->category == "分类A的缩略名"): > 固定给某一个分类的模板

// 这里是分类A的样式

<php elseif ($this->category == "分类B的缩略名"): > 固定给某一个分类的模板可添加N个，只需复制即可

// 这里是分类B的样式

// 这里是分类C的样式这里写的是通用模板样式

附：分类名称调用

<php $this->category(','); > //带连接的分类名称，逗号为多分类时的间隔符

<php $this->category(',', false); > //不带连

以上就是关于typecho对于大数据负载能力如何比如1000万数据，有谁测试过吗全部的内容，包括:typecho对于大数据负载能力如何比如1000万数据，有谁测试过吗、typecho做的一个网站，下载了主题，但是报错warning call_user_func_array()expects parameter 1、emlog typecho这两个哪个好，主要从安全，速度，效率和系统cpu内存占用来比较等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10127326.html

typecho对于大数据负载能力如何比如1000万数据，有谁测试过吗

发表评论

评论列表（0条）