网络,数学上称为图,最早研究始于1736年欧拉的哥尼斯堡七桥问题,但是之后关于图的研究发展缓慢,直到1936年,才有了第一本关于图论研究的著作。
1960年,数学家Erdos和Renyi建立了随机图理论,为构造网络提供了一种新的方法。在这种方法中,两个节点之间是否有边连接不再是确定的事情,而是根据一个概率决定,这样生成的网络称作随机网络。随机图的思想主宰复杂网络研究长达四十年之久,然而,直到近几年,科学家们对大量的现实网络的实际数据进行计算研究后得到的许多结果,绝大多数的实际网络并不是完全随机的,既不是规则网络,也不是随机网络,而是具有与前两者皆不同的统计特征的网络。这样的一•些网络称为复杂网络,对于复杂网络的研究标志着网络研究的第三阶段的到来。
1998年,Watts及其导师Strogatz在Nature上的文章《Collective Dynamics of Small-world Networks》,刻画了现实世界中的网络所具有的大的凝聚系数和短的平均路径长度的小世界特性。随后,1999年,Barabasi及其博士生Albert在Science上的文章《Emergence of Scaling in Random Networks》提出无尺度网络模型(度分布为幂律分布),,刻画了实际网络中普遍存在的“富者更富”的现象,从此开启了复杂网络研究的新纪元。
随着研究的深入,越来越多关于复杂网络的性质被发掘出来,其中很重要的一项研究是2002年Girvan和Newman在PNAS上的一篇文章《Community structure in social and biological networks》,指出复杂网络中普遍存在着聚类特性,每一个类称之为一个社团(community),并提出了一个发现这些社团的算法。从此,热门对复杂网络中的社团发现问题进行了大量研究,产生了大量的算法。
许多复杂系统都可以建模成一种复杂网络进行分析,比如常见的电力网络、航空网络、交通网络、计算机网络以及社交网络等等。复杂网络不仅是一种数据的表现形式,它同样也是一种科学研究的手段。
复杂网络的定义
钱学森对于复杂网络给出了一种严格的定义:
复杂网络具有网络平均路径长度较小、聚类系数较大、节点度分度服从幂律分布等相同特性
言外之意,复杂网络就是指一种呈现高度复杂性的网络,其特点主要具体体现在如下几个方面:
小世界特性(Small world theory)又被称之为是六度空间理论或者是六度分割理论(Six degrees of separation)。小世界特性指出:社交网络中的任何一个成员和任何一个陌生人之间所间隔的人不会超过六个。
在考虑网络特征的时候,通常使用两个特征来衡量网络:
对于规则网络,任意两个点(个体)之间的特征路径长度长(通过多少个体联系在一起),但聚合系数高(你是朋友的朋友的朋友的几率高)。对于随机网络,任意两个点之间的特征路径长度短,但聚合系数低。而小世界网络,点之间特征路径长度小,接近随机网络,而聚合系数依旧相当高,接近规则网络。
复杂网络的小世界特性跟网络中的信息传播有着密切的联系。实际的社会、生态、等网络都是小世界网络,在这样的系统里,信息传递速度快,并且少量改变几个连接,就可以剧烈地改变网络的性能,如对已存在的网络进行调整,如蜂窝电话网,改动很少几条线路,就可以显著提高性能。
现实世界的网络大部分都不是随机网络,少数的节点往往拥有大量的连接,而大部分节点却很少,节点的度数分布符合幂率分布,而这就被称为是网络的无标度特性(Scale-free)。将度分布符合幂律分布的复杂网络称为无标度网络。
例如,知乎中用户的fellow数的分布情况:
无标度特性反映了复杂网络具有严重的异质性,其各节点之间的连接状况(度数)具有严重的不均匀分布性:网络中少数称之为Hub点的节点拥有极其多的连接,而大多数节点只有很少量的连接。少数Hub点对无标度网络的运行起着主导的作用。从广义上说,无标度网络的无标度性是描述大量复杂系统整体上严重不均匀分布的一种内在性质。
其实复杂网络的无标度特性与网络的鲁棒性分析具有密切的关系。无标度网络中幂律分布特性的存在极大地提高了高度数节点存在的可能性,因此,无标度网络同时显现出针对随机故障的鲁棒性和针对蓄意攻击的脆弱性。这种鲁棒且脆弱性对网络容错和抗攻击能力有很大影响。
研究表明,无标度网络具有很强的容错性,但是对基于节点度值的选择性攻击而言,其抗攻击能力相当差,高度数节点的存在极大地削弱了网络的鲁棒性,一个恶意攻击者只需选择攻击网络很少的一部分高度数节点,就能使网络迅速瘫痪。
人以类聚,物以群分。复杂网络中的节点往往也呈现出集群特性。例如,社会网络中总是存在熟人圈或朋友圈,其中每个成员都认识其他成员。集群程度的意义是网络集团化的程度;这是一种网络的内聚倾向。连通集团概念反映的是一个大网络中各集聚的小网络分布和相互联系的状况。例如,它可以反映这个朋友圈与另一个朋友圈的相互关系。
下图为网络聚集现象的一种描述:
真实网络所表现出来的小世界特性、无尺度幂律分布或高聚集度等现象促使人们从理论上构造出多样的网络模型,以解释这些统计特性,探索形成这些网络的演化机制。本节介绍了几个经典网络模型的原理和构造方法,包括ER随机网络模型、BA无尺度网络模型和小世界模型。
ErdOs-Renyi随机网络模型(简称ER随机网络模型)是匈牙利数学家Erdos和Renyi提出的一种网络模型。1959年,为了描述通信和生命科学中的网络,Erdos和Renyi提出,通过在网络节点间随机地布置连接,就可以有效地模拟出这类系统。这种方法及相关定理的简明扼要,导致了图论研究的复兴,数学界也因此出现了研究随机网络的新领域。ER随机网络模型在计算机科学、统计物理、生命科学、通信工程等领域都得到了广泛应用。
ER随机网络模型是个机会均等的网络模型。在该网络模型中,给定一定数目的个体(节点),它和其他任意一个个体(节点)之间有相互关系(连接)的概率相同,记为户。因为一个节点连接k个其他节点的概率,会随着k值的增大而呈指数递减。这样,如果定义是为每个个体所连接的其他个体的数目,可以知道连接概率p(k)服从钟形的泊松(Poisson)分布,有时随机网络也称作指数网络。
随机网络理论有一项重要预测:尽管连接是随机安置的,但由此形成的网络却是高度民主的,也就是说,绝大部分节点的连接数目会大致相同。实际上,随机网络中连接数目比平均数高许多或低许多的节点,都十分罕见。
在过去40多年里,科学家习惯于将所有复杂网络都看作是随机网络。在1998年研究描绘万维网(以网页为节点、以超级链接为边)的项目时,学者们原以为会发现一个随机网络:人们会根据自己的兴趣,来决定将网络文件链接到哪些网站,而个人兴趣是多种多样的,可选择的网页数量也极其庞大,因而最终的链接模式将呈现出相当随机的结果。
然而,事实并非如此。因为在万维网上,并非所有的节点都是平等的。在选择将网页链接到何处时,人们可以从数十亿个网站中进行选择。然而,我们中的大部分人只熟悉整个万维网的一小部分,这一小部分中往往包含那些拥有较多链接的站点,因为这样的站点更容易为人所知。只要链接到这些站点,就等于造就或加强了对它们的偏好。这种“择优连接(Preferential Attachment)”的过程,也发生在其他网络中。在Internet上,那些具有较多连接的路由器通常也拥有更大的带宽,因而新用户就更倾向于连接到这些路由器上。在美国的生物技术产业内,某些知名公司更容易吸引到同盟者,而这又进一步加强了它在未来合作中的吸引力。类似地,在论文引用网络(论文为节点,引用关系为边)中,被引用次数较多的科学文献,会吸引更多的研究者去阅读并引用它。针对这些网络的“择优连接”的新特性,学者提出了BA无尺度网络模型。
无尺度网络的发现,使人类对于复杂网络的认识进入了一个新的天地。无尺度网络的最主要特征是节点的度分布服从幂次定律。BA模型是无尺度网络(Scale-free Network)的第一个抽象模型。由于考虑了系统的成长性(Growth)和择优连接性,BA模型给我们带来了很多启发,并且可以应用于多种实际网络。但是BA模型的两个基本假定,对于解释许多现实中的现象来说过于简单,与现实的网络还有较大的距离。
有学者试图对BA模型进行扩展,即根据现实中的网络,增添某些假定,以便进一步探索复杂网络系统的规律。对BA模型的扩充可以考虑三个因素:择优选择的成本、边的重新连接、网络的初始状态。扩充的BA模型可以更好地模拟现实世界中的网络现象。
1999年,丸Barabasi和兄Albert在对互联网的研究中发现了无尺度网络,使人类对于复杂网络系统有了全新的认识。过去,人们习惯于将所有复杂网络看作是随机网络,但Barabasi和Albert发现互联网实际上是由少数高连接性的页面组织起来的,80%以上页面的链接数不到4个。只占节点总数不到万分之一的极少数节点,却有1000个以上的链接。这种网页的链接分布遵循所谓的“幂次定律”:任何一个节点拥有是条连接的概率,与1/k成正比。它不像钟形曲线那样具有一个集中度很高的峰值,而是一条连续递减的曲线。如果取双对数坐标系来描述幂次定律,得到的是一条直线。
Scale-free网络指的是节点的度分布符合幂律分布的网络,由于其缺乏一个描述问题的特征尺度而被称为无尺度网络。其后的几年中,研究者们在许多不同的领域中都发现了无尺度网络。从生态系统到人际关系,从食物链到代谢系统,处处可以看到无尺度网络。
为什么随机模型与实际不相符合呢Barabasi和Albert在深入分析了ER模型之后,发现问题在于ER模型讨论的网络是一个既定规模的,不会继续扩展的网络。正是由于现实当中的网络往往具有不断成长的特性,早进入的节点(老节点)获得连接的概率就更大。当网络扩张到一定规模以后,这些老节点很容易成为拥有大量连接的集散节点。这就是网络的“成长性”。
其次,ER模型中每个节点与其他节点连接时,建立连接的概率是相同的。也就是说,网络当中所有的节点都是平等的。这一情况与实际也不相符。例如,新成立的网站选择与其他网站链接时,自然是在人们所熟知的网站中选择一个进行链接,新的个人主页上的超文本链接更有可能指向新浪、雅虎等著名的站点。由此,那些熟知的网站将获得更多的链接,这种特性称为“择优连接”。这种现象也称为“马太效应(Matthew Effect)”或“富者更富(Rich Get Richer)”。
“成长性”和“择优连接”这两种机制解释了网络当中集散节点的存在。
BA无尺度模型的关键在于,它把实际复杂网络的无尺度特性归结为增长和优先连接这两个非常简单的机制。当然,这也不可避免地使得BA无尺度网络模型和真实网络相比存在一些明显的限制。比如,一些实际网络的局域特性对网络演化结果的影响、外界对网络节点及其连接边删除的影响等。
一般自然的或者人造的现实网络与外界之间有节点交换,节点间连接也在不断变化,网络自身具有一定的自组织能力,会对自身或者外界的变化作出相应的反应。因此,在BA模型基础上,可以把模型的动力学过程进行推广,包括对网络中已有节点或者连接的随机删除及其相应的连接补偿机制。
对每一个时间步长,考虑如下三种假设:
复杂网络研究中一个重要的发现是绝大多数大规模真实网络的平均路径长度比想象的小得多,称之为“小世界现象”,或称“六度分离(Six Degrees of Separation)”。
所谓小世界现象,是来自社会网络(Social Networks)中的基本现象,即每个人只需要很少的中间人(平均6个)就可以和全世界的人建立起联系。在这一理论中,每个人可看作是网络的一个节点,并有大量路径连接着他们,相连接的节点表示互相认识的人。
1998年,Watts和Strogatz引入了一个介于规则网络和完全随机网络之间的单参数小世界网络模型,称为WS小世界模型,该模型较好地体现了社会网络的小平均路径长度和大聚类系数两种现象。
WS小世界模型的构造方法如下:
在WS小世界模型中,p=0对应于规则网络,p=l则对应于完全随机网络,通过调节声的值就可以控制从规则网络到完全随机图的过渡。因此,WS小世界网络是介于规则网络和随机网络之间的一种网络。
WS小世界模型构造算法中的随机化过程有可能破坏网络的连通性。因此,Newman和Watts稍后提出了NW小世界模型。NW小世界模型的构造方法如下:
NW模型只是将WS小世界模型构造中的“随机化重连”改为“随机化加边”。
NW模型不同于WS模型之处在于它不切断规则网络中的原始边,而是以概率p重新连接一对节点。这样构造出来的网络同时具有大的聚类数和小的平均距离。NW模型的优点在于其简化了理论分析,因为WS模型可能存在孤立节点,但NW模型不会。当户足够小和N足够大时,NW小世界模型本质上就等同于WS小世界模型。
小世界网络模型反映了实际网络所具有的一些特性,例如朋友关系网,大部分人的朋友都是和他们住在同一个地方,其地理位置不是很远,或只在同一单位工作或学习的同事和同学。另一方面,也有些人住得较远的,甚至是远在异国他乡的朋友,这种情形好比WS小世界模型中通过重新连线或在NW小世界模型中通过加入连线产生的远程连接。
小世界网络模型的主要特征之一是节点之间的平均距离随远程连接的个数而指数下降。对于规则网络,平均距离L可估计为L正比于N;而对于小世界网络模型,L正比于ln(N)/1n(K)。例如,对于一个千万人口的城市,人与人的平均接触距离是6左右,这使得生活人群之间的距离大大缩短。该模型由一个规则的环组成,通常是一个一维的几乎具有周期性边界条件的环(即环中每个节点几乎都连接到一固定数目的邻近节点)和少量的随机选取节点连接成的“捷径” (重新连接现存的边)。小世界网络同时具有“高网络聚集度”和“低平均路径”的特性。
从小世界网络模型中可以看到,只要改变很少的几个连接,就可以剧烈的改变网络的性能。这样的性质也可以应用其他网络,尤其是对已有网络的调整方面。例如,蜂窝电话网,改动很少几条线路(低成本、低工作量)的连接,就可以显著提高性能。也可以应用到互联网的主干路由器上,以改变流量和提高传输速度。同样的思路也可以应用到电子邮件的快速传递、特定Web站点的定位等。
如果学习复杂网络,目前认为最好的视频教程:
社交计算与社会网络分析Network Analysis
1) 复杂网络中聚类算法总结
2) Network Analysis复杂网络分析总结
3) 复杂网络和社会网络
看了之前的回答,都不专业
聚类分析是一种无指导的分析,如果理解聚类的核心含义,你就能明白,聚类的数量是没有标准的,必须人为设定,但是特殊的聚类方法可以给你一些参考,比如:系统聚类,它可以生成聚类树,这样你就能直观判断分成几类合适。再比如:二阶聚类,系统模型会自动选择分成几类(如果不人为设定)。
聚类是无指导的训练样本,分类是有指导的训练样本,分类就是通过已知的样本建立分类规则,来预测新样本的分类,为什么是有指导的?因为分类是用样本的其它属性来解释、预测我们感兴趣的属性的模型,这是白话。举例:我们知道一批用户的人口统计变量、消费、工资和贷款还款情况,现在我们要用用户的人口统计变量、消费、工资来对用户的贷款还款情况进行预测,这就是分类模型,在这里要用到分类决策树。就是说我们用样本的其它属性来对样本的贷款还款情况建立分类规则,然后对未来的新样本进行预测,判断新用户是否是理想的放贷对象
聚类系数是看跟你链接的两个点是不是也链接,或者你的两个朋友是不是认识,所以是看整个网络中有多少个三元组。描述整个网络聚类指标
社团结构是研究子图,如果一个网络是母图,那么有多少个子图的问题。属于集体化指标。一般说了一个子图里包含一些3元组,链接两个子图的A B 两点分别属于两个不同的子图。
如果3元组也是集团的话,那么都是描述集团化的吧。
CiteSpace的核心功能是产生由多个文献共被引网络组合而成的一种独特的共被引网络,以及自动生成的一些相关分析结果。每个文献共被引网络对应于一个历时一年或几年的时间段。最终显示的网络不是各个网络之间的简单叠加,而是要满足一些条件(详见2004年PNAS的论文)。解读这样的网络(我称为递进式知识领域分析)的要点包括:网络整体结构,网络聚类,各聚类之间的关联,关键节点(转折点)和路径。解读时可从直观显示入手,然后再参照各项指标。
结构:是否能看到自然聚类(未经聚类算法而能直观判定的组合),是否包括转折点(有紫色外圈的节点),通过算法能得到几个聚类?每个节点大小代表它的总被引次数。大圈则总被引高。
时间:每个自然聚类是否有主导颜色(出现时间相对集中),是否有明显的热点(节点年轮中出现红色年轮,即被引频率是否曾经或仍在急速增加)?通过各个年轮的色彩可判断被引时间分布。时间线显示将每一聚类按时间顺序排列,相邻聚类常常对应相关主题(聚类间共引)。聚类之间的知识流向也可从时间(色彩)上看到(由冷色到暖色)。
内容:每个聚类的影响(被引时涉及的主题,摘要,和关键词)和几种不同算法所选出的最有代表性的名词短语?
指标:每个聚类是否具有足够的相似性(silhouette值是否足够大,太小则无明确主题可言),整个聚类是否有足够节点(太少则很可能全都出自同一篇文献的参考文献,因而缺乏普遍意义)?
Tips:每个节点上,右键d出的选择中,有一项是通过DOI连接到原文出版社提供的网页。可用CiteSpace的图谱作为一个直接浏览相关文献的界面。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)