论文讨论的主要是隐性反馈协同过滤解决方案,先来明确两个概念:显性反馈和隐性反馈:
显性反馈行为包括用户明确表示对物品喜好的行为
隐性反馈行为指的是那些不能明确反应用户喜好
举例来说:
很多应用场景,并没有显性反馈的存在。因为大部分用户是沉默的用户,并不会明确给系统反馈“我对这个物品的偏好值是多少”。因此,推荐系统可以根据大量的隐性反馈来推断用户的偏好值。
根据已得到的隐性反馈数据,我们将用户-条目交互矩阵Y定义为:
但是,Yui为1仅代表二者有交互记录,并不代表用户u真的喜欢项目i,同理,u和i没有交互记录也不能代表u不喜欢i。这对隐性反馈的学习提出了挑战,因为它提供了关于用户偏好的噪声信号。虽然观察到的条目至少反映了用户对项目的兴趣,但是未查看的条目可能只是丢失数据,并且这其中存在自然稀疏的负反馈。
在隐性反馈上的推荐问题可以表达为估算矩阵 Y中未观察到的条目的分数问题(这个分数被用来评估项目的排名)。形式上它可以被抽象为学习函数:
为了处理缺失数据,有两种常见的做法:要么将所有未观察到的条目视作负反馈,要么从没有观察到条目中抽样作为负反馈实例。
传统的求解方法是矩阵分解(MF,Matrix Factorization),为每个user和item找到一个隐向量,问题变为:
这里的 K表示隐式空间(latent space)的维度。正如我们所看到的,MF模型是用户和项目的潜在因素的双向互动,它假设潜在空间的每一维都是相互独立的并且用相同的权重将它们线性结合。因此,MF可视为隐向量(latent factor)的线性模型。
论文中给出了一个例子来说明这种算法的局限性:
1(a)是user-item交互矩阵,1(b)是用户的隐式空间,论文中强调了两点来理解这张图片:
1)MF将user和item分布到同样的隐式空间中,那么两个用户之间的相似性也可以用二者在隐式空间中的向量夹角来确定。
2)使用Jaccard系数来作为真实的用户相似性。
通过MF计算的相似性与Jaccard系数计算的相似性也可以用来评判MF的性能。我们先来看看Jaccard系数
上面的示例显示了MF因为使用一个简单的和固定的内积,来估计在低维潜在空间中用户-项目的复杂交互,从而所可能造成的限制。解决该问题的方法之一是使用大量的潜在因子 K (就是隐式空间向量的维度)。然而这可能对模型的泛化能力产生不利的影响(e.g. 数据的过拟合问题),特别是在稀疏的集合上。论文通过使用DNNs从数据中学习交互函数,突破了这个限制。
论文先提出了一种通用框架:
针对这个通用框架,论文提出了三种不同的实现,三种实现可以用一张图来说明:
GMF :
上图中仅使用GMF layer,就得到了第一种实现方式GMF,GMF被称为广义矩阵分解,输出层的计算公式为:
MLP :
上图中仅使用右侧的MLP Layers,就得到了第二种学习方式,通过多层神经网络来学习user和item的隐向量。这样,输出层的计算公式为:
NeuMF :
结合GMF和MLP,得到的就是第三种实现方式,上图是该方式的完整实现,输出层的计算公式为:
论文的实验用于回答以下研究问题:
RQ1 我们提出的NCF方法是否胜过 state-of-the-art 的隐性协同过滤方法?
RQ2 我们提出的优化框架(消极样本抽样的log loss)怎样为推荐任务服务?
RQ3 更深的隐藏单元是不是有助于对用户项目交互数据的学习?
接下来,首先介绍实验设置,其次是回答上述三个问题。
数据集使用了两个公开的数据集:MovieLens 和 Pinterest 两个数据集,它们的特征总结在表1中
1.MovieLens :这个电影评级数据集被广泛地用于评估协同过滤算法。论文使用的是包含一百万个评分的版本,每个用户至少有20个评分。 虽然这是显性反馈数据集,但论文有意选择它来挖掘(模型)从显式反馈中学习隐性信号的表现。为此,论文将其转换为隐式数据,其中每个条目被标记为0或1表示用户是否已对该项进行评级。
2.Pinterest :这个隐含的反馈数据的构建用于评估基于内容的图像推荐。原始数据非常大但是很稀疏。 例如,超过20%的用户只有一个pin(pin类似于赞一下),使得难以用来评估协同过滤算法。 因此,论文使用与MovieLens数据集相同的方式过滤数据集:仅保留至少有过20个pin的用户。处理后得到了包含55,187个用户和1,580,809个项目交互的数据的子集。 每个交互都表示用户是否将图像pin在自己的主页上。
评估方案 : 为了评价项目推荐的性能,论文采用了leave-one-out方法(留一法)评估,该方法已被广泛地应用于文献。即:对于每个用户,论文将其最近的一次交互作为测试集(数据集一般都有时间戳),并利用余下的培训作为训练集。由于在评估过程中为每个用户排列所有项目花费的时间太多,所以遵循一般的策略,随机抽取100个不与用户进行交互的项目,将测试项目排列在这100个项目中。排名列表的性能由命中率(HR)和归一化折扣累积增益(NDCG)来衡量。 没有特别说明的话,论文将这两个指标的排名列表截断为10。如此一来,HR直观地衡量测试项目是否存在于前10名列表中,而NDCG通过将较高分数指定为顶级排名来计算命中的位置。论文计算了每个测试用户的这两个指标,并求取了平均分。
−ItemPop 。按项目的互动次数判断它的受欢迎程度,从而对项目进行排名。 这对基于评估推荐性能来说是一种非个性化的方法。
−ItemKNN 。这是基于项目的标准协同过滤方法。
−BPR 。该方法优化了使用公式的MF模型,该模型具有成对排序损失,BPR调整它使其可以从隐式反馈中学习。它是项目推荐基准的有力竞争者。论文使用固定的学习率,改变它并报告了它最佳的性能。
−eALS 。这是项目推荐的 state-of-the-art 的MF方法。
HR(命中率)和 NDCG(归一化折损累计增益),HR直观地衡量测试项目是否存在于前10名列表中,而NDCG通过将较高分数指定为顶级排名来计算命中的位置,重点介绍NDCG
NDCG这个名字可能比较吓人,但背后的思想却很简单.一个推荐系统返回一些item并形成一个列表,我们想要计算这个列表有多好,每一项都有一个相关的评分值,通常这些评分值是一个非负数,这就是gain(增益).此外对于这些没有用户反馈的项我们通常设置起增益为0.
累计增益(CG)
我们将这些增益相加就是Cumulative Gain(累计增益,CG),CG就是将每个推荐结果相关性的分支累加后作为整个推荐列表的得分.
rel i 表示处于位置i的推荐结果的相关性,k表示要考察的推荐列表的大小.
折损累计增益(DCG)
CG的一个缺点是没有考虑每个推荐结果处于不同位置对整个推荐效果的影响,例如我们总是希望相关性高的结果应该排在前面 .显然,如果相关性低的结果排在靠前的位置会严重影响用户的体验,所以在CG的基础上引入位置影响因素,即DCG(Discounted Cumulative Gain),这里指的是对于排名靠后推荐结果的推荐效果进行“打折处理”。假设排序越往后,价值越低。到第i个位置的时候,它的价值是 1/log 2 (i+1),那么第i个结果产生的效益就是 rel i * 1/log 2 (i+1),所以::
从上面的式子可以得到两个结论:
1.推荐结果的相关性越大,DCG越大
2.相关性好的排在推荐列表前面的话,推荐效果越好,DCG越大.
归一化折损累计增益(NDCG)
DCG仍然有不足之处,即 不同的推荐的推荐列表之间,很难进行横向的评估,而我们评估一个推荐系统不可能仅使用一个用户的推荐列表及相应结果进行评估,而是对整个测试机中的用户及其推荐列表结果进行评估 .那么不同的用户的推荐列表的评估分数就需要进行归一化,也即NDCG(Normalized Discounted Cumulative Gain,归一化折损累计增益).
在介绍NDCG之前还需要知道另一个概念,IDCG(Ideal DCG),指推荐系统为某一用户返回的最好推荐结果列表,即假设返回结果按照相关性排序,最相关的结果放在前面,此序列的DCG为IDCG.因此DCG的值介于(0,IDCG],故NDCG的值介于(0,1]。NDCG计算公式:
IDCG为理想情况下最大的DCG值。
其中 |REL| 表示,结果按照相关性从大到小的顺序排序,取前p个结果组成的集合。也就是按照最优的方式对结果进行排序。
实际的例子
假设推荐系统返回来的5个结果,其模型评分分别是 1.2、0.7、0.1、0.2、4.0。
我们首先通过公式4.2计算出DCG值为2.39278,按照公式4.4来计算出iDCG的值为3.6309
最后通过公式4.3计算出NDCG为65%
更多的推荐模型评估方法参考: https://statusrank.coding.me/articles/639f7364.html
图4(Figure 4)显示了 HR@10 和 NDCG@10 相对于预测因素数量的性能。
图5(Figure 5)显示了Top-K推荐列表的性能,排名位置K的范围为1到10。
总的来看论文提出的NeuMF模型(结合GMF和MLP)效果不错,对比其他方法都要好。
Figure 6 表示将模型看作一个二分类任务并使用logloss作为损失函数时的训练效果。
Figure7 表示采样率对模型性能的影响(横轴是采样率,即负样本与正样本的比例)。
上面的表格设置了两个变量,分别是Embedding的长度K和神经网络的层数,使用类似网格搜索的方式展示了在两个数据集上的结果。增加Embedding的长度和神经网络的层数是可以提升训练效果的。
Web日志挖掘分析的方法日志文件的格式及其包含的信息
①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico
⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.0.3)+Gecko/20060426
+Firefox/1.5.0.3。
①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等);
⑤访问模式;⑥agent,即用户使用的 *** 作系统类型和浏览器软件。
一、日志的简单分析
1、注意那些被频繁访问的资源
2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:
3、观察搜索引擎蜘蛛的来访情况
4、观察访客行为
应敌之策:
1、封杀某个IP
2、封杀某个浏览器类型(Agent)
3、封杀某个来源(Referer)
4、防盗链
5、文件重命名
作用:
1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。
2.对IP进行统计,可以得到用户的分布情况。
3.对请求URL的统计,可以得到网站页面关注情况。
4.对错误请求的统计,可以更正有问题的页面。
二、Web挖掘
根据所挖掘的Web 数据的类型,可以将Web 数据挖掘分为以下三类:Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也称为Web日志挖掘)。
①Web内容挖掘。Web内容挖掘是指从文档的内容中提取知识。Web内容挖掘又分为文本挖掘和多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,Web文本挖掘已经有了比较实用的功能。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等。Web文档中的标记,例如<Title>和<Heading>等蕴含了额外的信息,可以利用这些信息来加强Web文本挖掘的作用。
②Web结构挖掘。Web结构挖掘是从Web的组织结构和链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。Web结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页和相似网页,提高Web搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。Web结构挖掘还可以用于对Web页进行分类、预测用户的Web链接使用及Web链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。
③Web使用记录挖掘。Web使用记录挖掘是指从Web的使用记录中提取感兴趣的模式,目前Web使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问和交互的信息,可以通过分析和研究Web日志记录中的规律,来识别网站的潜在用户可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行Web日志挖掘可以根据用户访问的Web记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些Web页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。
通过对Web服务器日志中大量的用户访问记录深入分析,发现用户的访问模式和兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息和知识,用于分析站点的使用情况,从而辅助管理和支持决策。当前,web日志挖掘主要被用于个性化服务与定制、改进系统性能和结构、站点修改、商业智能以及web特征描述等诸多领域。
三、Web日志挖掘的方法
(一)首先,进行数据的预处理。
从学习者的访问日志中得到的原始日志记录并不适于挖掘,必须进行适当的处理才能进行挖掘。因此,需要通过日志清理,去除无用的记录;对于某些记录,我们还需要通过站点结构信息,把URL路径补充成完整的访问序列;然后划分学习者,并把学习者的会话划分成多个事务。
(二)其次,进行模式发现
一旦学习者会话和事务识别完成,就可以采用下面的技术进行模式发现。模式发现, 是对预处理后的数据用数据挖掘算法来分析数据。分有统计、分类、聚类、关等多种方法。
① 路径分析。它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。路径分析可以用来确定网站上的频繁访问路径, 从而调整和优化网站结构, 使得用户访问所需网页更加简单快捷, 还可以根据用户典型的浏览模式用于智能推荐和有针对性的电子商务活动。例如:70% 的学习者在访问/ E-Business /M2时,是从/EB开始,经过/ E-Business /SimpleDescription,/ E-Business /M1;65%的学习者在浏览4个或更少的页面内容后就离开了。利用这些信息就可以改进站点的设计结构。
② 关联规则。 使用关联规则发现方法,可以从Web的访问事务中找到的相关性。关联规则是寻找在同一个事件中出现的不同项的相关性,用数学模型来描述关联规则发现的问题:x=>y的蕴含式,其中x,y为属性——值对集(或称为项目集),且X∩Y空集。在数据库中若S%的包含属性——值对集X的事务也包含属性——值集Y,则关联规则X=>Y的置信度为C%。
③ 序列模式。在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。它能发现数据库中如“在某一段时间内,客户购买商品A,接着会购买商品B,尔后又购买商品C,即序列A→B→C出现的频率高”之类的信息。序列模式描述的问题是:在给定的交易序列数据库中,每个序列按照交易的时间排列的一组交易集,挖掘序列函数作用是返回该数据库中高频率出现有序列。
④ 分类分析。发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类学习者。分类包括的挖掘技术将找出定义了一个项或事件是否属于数据中某特定子集或类的规则。该类技术是最广泛应用于各类业务问题的一类挖掘技术。分类算法最知名的是决策树方法,此外还有神经元网络、Bayesian分类等。例如:在/ E-Business /M4学习过的学习者中有40%是20左右的女大学生。
⑤聚类分析。可以从Web访问信息数据中聚类出具有相似特性的学习者。在Web事务日志中,聚类学习者信息或数据项能够便于开发和设计未来的教学模式和学习群体。聚类是将数据集划分为多个类,使得在同一类中的数据之间有较高的相似度,而在不同类中的数据差别尽可能大。在聚类技术中,没有预先定义好的类别和训练样本存在,所有记录都根据彼此相似程度来加以归类。主要算法有k—means、DBSCAN等。聚类分析是把具有相似特征的用户或数据项归类,在网站管理中通过聚类具有相似浏览行为的用户。基于模糊理论的Web页面聚类算法与客户群体聚类算法的模糊聚类定义相同,客户访问情况可用URL(Uj)表示。有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客户Ci和URL(Uj)间的关联度:式中m为客户的数量,hits(Ci)表示客户Ci访问URL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵,再根据相似类[Xi]R的定义构造相似类,合并相似类中的公共元素得到的等价类即为相关Web页面。
⑥统计。统计方法是从Web 站点中抽取知识的最常用方法, 它通过分析会话文件, 对浏览时间、浏览路径等进行频度、平均值等统计分析。虽然缺乏深度, 但仍可用于改进网站结构, 增强系统安全性, 提高网站访问的效率等。
⑦协同过滤。协同过滤技术采用最近邻技术,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。
(三)最后,进行模式分析。
模式分析。基于以上的所有过程,对原始数据进行进一步分析,找出用户的浏览模式规律,即用户的兴趣爱好及习惯,并使其可视化,为网页的规划及网站建设的决策提供具体理论依据。其主要方法有:采用SQL查询语句进行分析;将数据导入多维数据立方体中,用OLAP工具进行分析并给出可视化的结果输出。(分类模式挖掘、聚类模式挖掘、时间序列模式挖掘、序列模式挖掘、关联规则等)
四、关联规则
(一)关联规则
顾名思义,关联规则(association rule)挖掘技术用于于发现数据库中属性之间的有趣联系。一般使用支持度(support)和置信度(confidence)两个参数来描述关联规则的属性。
1.支持度。规则 在数据库 中的支持度 是交易集中同时包含 , 的事务数与所有事务数之比,记为 。支持度描述了 , 这两个项集在所有事务中同时出现的概率。
2.置信度。规则 在事务集中的置信度(confidence)是指同时包含 , 的事务数与包含 的事务数之比,它用来衡量关联规则的可信程度。记为
规则 A Þ C:支持度= support({A}È{C}) = 50%,置信度= support({A}È{C})/support({A}) = 66.6%
(二)Apriori方法简介
Apriori算法最先是由Agrawal等人于1993年提出的,它的基本思想是:首先找出所有具有超出最小支持度的支持度项集,用频繁的(k—1)-项集生成候选的频繁k-项集;其次利用大项集产生所需的规则;任何频繁项集的所有子集一定是频繁项集是其核心。
Apriori算法需要两个步骤:第一个是生成条目集;第二个是使用生成的条目集创建一组关联规则。当我们把最小置信度设为85%,通过关联规则的形成以及对应置信度的计算,我们可以从中得到以下有用的信息:
1.置信度大于最小置信度时:我们可以这样认为,用户群体在浏览相关网页时,所呈列的链接之间是有很大关联的,他们是用户群的共同爱好,通过网页布局的调整,从某种意义上,可以带来更高的点击率及潜在客户;
2.置信度小于最小置信度时:我们可以这样认为,用户群体对所呈列链接之间没太多的关联,亦或关联规则中的链接在争夺用户。
五、网站中Web日志挖掘内容
(1)网站的概要统计。网站的概要统计包括分析覆盖的时间、总的页面数、访问数、会话数、惟一访问者、以及平均访问、最高访问、上周访问、昨日访问等结果集。
(2)内容访问分析。内容访问分析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的时间等。
(3)客户信息分析。客户信息分析包括访问者的来源省份统计、访问者使用的浏览器及 *** 作系统分析、访问来自的页面或者网站、来自的IP地址以及访问者使用的搜索引擎。
(4)访问者活动周期行为分析。访问者活动周期行为分析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。
(5)主要访问错误分析。主要访问错误分析包括服务端错误、页面找不到错误等。
(6)网站栏目分析。网站栏目分析包括定制的频道和栏目设定,统计出各个栏目的访问情况,并进行分析。
(7)商务网站扩展分析。商务网站扩展分析是专门针对专题或多媒体文件或下载等内容的访问分析。
(8)有4个方向可以选择:①对用户点击行为的追踪,click stream研究;②对网页之间的关联规则的研究;③对网站中各个频道的浏览模式的研究;④根据用户浏览行为,对用户进行聚类,细分研究;(如果你能够结合现有的互联网产品和应用提出一些自己的建议和意见,那就更有价值了。)
(9)发现用户访问模式。通过分析和探究Web日志记录中的规律,可以识别电子商务的潜在客户,提高对最终用户的服务质量,并改进Web服务器系统的性能。
(10)反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。
六、相关软件及算法
(一)相关软件:
1.数据挖掘的专用软件wake。
2.用OLAP工具
3.已经有部分公司开发出了商用的网站用户访问分析系统,如WebTrends公司的CommerceTrends 3.0,它能够让电子商务网站更好地理解其网站访问者的行为,帮助网站采取一些行动来将这些访问者变为顾客。CommerceTrends主要由3部分组成:Report Generation Server、Campain Analyzer和Webhouse Builder。
4.Accrue公司的Accrue Insight,它是一个综合性的Web分析工具,它能够对网站的运行状况有个深入、细致和准确的分析,通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期的顾客关系。
(二)相关算法:
1.运用各种算法进行数据挖掘:GSP算法, Prefixspana算法,
2.关联规则分析:Apriori、FP-growth算法等。
3.Apriori算法及其变种算法
4.基于数据库投影的序列模式生长技术(database project based sequential pattern growth)
5. Wake算法、MLC++等
6. PageRank算法和HITS算法利用Web页面间的超链接信息计算“权威型”(Authorities)网页和“目录型”(Hubs)网页的权值。Web结构挖掘通常需要整个Web的全局数据,因此在个性化搜索引擎或主题搜索引擎研究领域得到了广泛的应用。
7.参考检索引擎的挖掘算法,比如Apache的lucene等。
大体试用了一下三个系统,得出了一个比较粗浅的结论:1、phpcms:phpcms自2007版本开源以后才开始引起广泛关注,但这次也是头一次研究。用了几天,有了一点初步的印象。(以下以2007版为例,2008版尚未正式推出)粗看起来,phpcms 2007是三者中最为完善的,各项功能考虑的很细致,导致进了新手进了后台先要晕半天才行。各项功能,比如UNIX系统的权限、模版修改、广告、商城、信息、单网页。。。。都做的相当的完备了。发表文章的关键字、作者、来源、自动远程图片保存等等,都做的不错。但是,phpcms发表文章的摘要,似乎是只能自动截取,不能手工设置,灵活性欠佳。发表的文章可以通过关键字来索引相关贴,做的不错。支持通行证方式进行论坛和其它系统的整合,可以进行正向和反向两种方式的整合。但是文档说的不太清楚,研究了半天才成功。但是反向整合pw5.0.1登录后自动跳转不回来。phpcms 2007的后台安排的太琐碎,看的头晕。发一篇文章也要晕半个钟头,而且首页的更新莫不清规律,幻灯片老半天不更新。phcms尽管功能很强大,但是却缺少一样重要的东西:可视化的模版工具,这也是php168和dedecms共同的缺点。在这方面,他们甚至不如刚刚起步的DiyPage好,DiyPage只是一个刚刚具备了雏形的CMS系统,却拥有一个很方便的后台可视化界面设计工具,即使是菜鸟也可以轻松设计界面(虽然灵活性没那么强大,但是足够你用了)。phpcms 2007整体以频道为依据进行组织,即使你不想用频道,哪也得用,这个已经由不了你了 。所以如果仅仅是一个比较简单的网站,也用上一个频道,看起来够别扭的,这是phpcms 2007最大的缺点,不过看了phpcms 2008beta2发现,phpcms终于解除了这个垃圾限制。发现phpcms的广告功能似乎不完善,一个广告位定义了两个广告,不能自动轮换,总是显示第一个。phpcms虽然实现了模块化,但是不管你用不用,一大堆模块稀里呼噜就装上了,看起来很不爽,也不直观。phpcms虽然是很早就是商业化运作的软件,然后开发效率却是不高,新版本屡屡跳票,影响了它的产品形象,让开源以来积累的人气和一些拥趸大失所望。然而最近贴上了六间房以后,资金应该是没有压力了,新版本也开始浮出水面,2008beta1已经发布了,可惜问题多多。phpcms 2008 beta2 在 MySQL4 上还是有使用问题,不过比beta1强一些,beta1直接就安装不了,不知道正式版是否会正式放弃MySQL4。phpcms 2008beta2看上去不错,新功能令人振奋的,界面清爽。以前一团乱麻的后台界面已经打扫干净了。phpcms 2008的标签采用了中英文混合的方式,对菜鸟来说更加容易上手,比较新颖。另外,beta2好像是实现了类似php168的可视化模版中的标签设置方式,虽然不是可视化的设计模版,总归可以自定义一些元素样式了。不过这个beta2版也还是顶多算是个预览版,BUG极多,功能不全。如果准备用phpcms的话,怕是还要大大的等几天才行。另外,phpcms官方论坛对免费版的支持很不到位,伤了很多粉丝的心。2、dedecms5.1应该是dedecms正式商业化运作以后推出的第一个版本吧?以前的dedecms个体作坊式的发展,由于作者兼职时间和精力不足,导致发展缓慢,新版本频频跳票,引起广大粉丝的强烈不满,甚至导致柏拉图和dedecms用家之间的语言冲突。然而dedecms在商业化运作以后,新版本的发布周期大大缩短,产品功能不断改进,界面美化了很多,人气和用户数量大大增长了,现在看发展势头不错。dedecms的根目录是最简单的,只有几个文件,比以上两个都强多了,其实这样不仅看起来清爽,维护起来也方便,值得表扬 dedecms的频道非常费解,看起来只有频道模型,要增加频道就要添加模版文件有点费解,仔细研究发现,这个dedecms其实和php168的方式差不多,任何栏目都可以添加子目录,绑定域名,其实就和频道是一个意思,栏目和频道可以互相转换。dedecms的通行证只支持反向整合,就是dedecms可以用服务端的用户数据登录。其实所谓整合,一般也就是这样的。论坛用整站用户数据的情况恐怕极为少见,对论坛管理也不利。但是dedecms的通行证整合,需要修改论坛文件,不明白为啥要这样,是因为论坛的通行证功能还不完善吗?dedecms的广告管理用起来比较麻烦,要先定义标签,然后手工在模板中插入。好像模版上没预定义好广告位置,实在是太不应该了。。。。相当于手动 *** 作,不符合当今历史潮流啊。而且大家常用的广告自动轮换功能,也没有实现。试用发现,dedecms有时还有一些小毛病,比如远程附件功能,有时发现无法自动转存到本地。另外,在模块数量上,dedecms也无法和php168和phpcms相比,只有文章、下载、图片、Flash等基本的功能,不知道dedecms 2007发布以后能否有所改观 dedecms的相关文章、热点文章等功能,用了静态生成的方式直接写入到了HTML文件中,这样在生成HTML后,无法自动更新,需要经常手工重新生成全部HTML才能更新相关文档和热点文档。但是大量的重复生成所有HTML文件效率太低下了,这方面dedecms不如php168最新添加的相关文章功能,是用JS方式实现的,不需要更新HTML就能自动索取最新的相关文章。但是使用JS方式也存在服务器效率的问题。 dedecms的首页、列表页、还有文章页都使用了单独的模板,没有使用header和footer模板,这样的好处是可以产生各种风格的页面(允许首页、列表页、内容页使用不同的风格),但是缺点是修改添加头部和底部广告、导航条的时候,相当费劲,要一个一个模板的修改。而且dedecms的版权声明字段设置太小,只有250字节,写不进去多少内容,顶多能添加个计数器就不错了。dedecms起步就用了类似XML标签方式,而且官方还提供了Dreamweaver的插件来识别标签,应该说在国内是比较独到的。但是这种方式也需要新手一定的时间才能适应。同时,dedecms一直缺乏比较完善的文档,也进一步加大了菜鸟上手的难度。dedecms最大的问题就是没有提供类似Diypage的可视化设计方式,因为标签比较难于上手,对新手来说做模板是很头疼的问题。dedecms 5.1比4.0功能有了很多进步,增加DIGG功能,还有类似分类信息之类的功能都实现了。不过也有退步,比如关键词、相关帖功能都严重退步了,发帖也很不方便,而且dedecms在商业版本和免费版本之间做功能和代码区分,也自然会在免费版本上有所缩水。dedecms商业化发展以后,目前出现的问题是免费版的技术支持做的不太到位,比phpcms强不了多少欢迎分享,转载请注明来源:内存溢出
评论列表(0条)