Bi-GCN：基于双向图卷积网络的社交媒体谣言检测_CMS教程

传统的谣言检测方法缺乏从谣言的 传播（propagation） 和 扩散（propagation） 结构中学习的高层表示。最近的研究已经开始从谣言的传播结构中学习高层表示，比如RvNN等方法。然而这些方法只关注谣言的传播却忽略了谣言扩散的影响。虽然一些方法已经开始尝试使用CNN来引入谣言扩散信息，但是基于CNN的方法只能捕获局部邻域的相关特征，却不能处理图或树结构中的全局结构关系，因此谣言扩散的全局结构特征在这些方法中被忽略了。事实上CNN也并非被设计用来从结构化的数据中学习高层特征，不过图卷积网络（Graph Convolutional Network,GCN）可以做到。

GCN已经在很多领域取得了成功，不过我们不能简单地将GCN应用到谣言检测任务上。如下图(a)所示，GCN，或者称为无向GCN（UD-GCN）聚合信息只依赖相关帖子的关系却丢失了贴子之间的顺序关系：

UD-GCN虽然可以处理谣言扩散的全局结构特征，但是忽略了谣言传播的方向。沿着关系链的深度传播与社区群体内部的广度扩散是谣言的连个主要特点，因此需要一个方法来同时处理这两种传播方式。

本文提出了Bi-GCN方法来同时处理谣言的传播与扩散。Bi-GCN同时在top-down和bottom-up的图结构上进行 *** 作，具体的通过top-down GCN（TD-GCN）来处理谣言的传播，以及通过bottom-up GCN（BU-GCN）来处理谣言的扩散。如上图(b)(c)所示，TD-GCN从父亲节点到子节点前向传播信息来模拟谣言的传播，BU-GCN从节点的子节点聚合信息来表示谣言的扩散过程。

使用代表谣言检测数据集，代表第个事件，是事件的数量，，代表帖子的数量，是原帖子，是第个相关回复的帖子，代表传播结构。具体的，被定义为一个图，是根节点，代表从被回复的帖子到转发帖子或回复帖子的边的集合（如上图(b)）。举例来说，如果回复了，那么将有一条有向边，也就是；如果回复了，那么将有一条有向边，也就是。定义为邻接矩阵：

是帖子的特征矩阵，采用top-5000词的TF-IDF值作为帖子的特征向量。对于每个，都被关联的其真实性标签（False Rumor和True Rumor)），有时也有更细粒度的分类（Non-rumor, False Rumor, True Rumor, Unverified Rumor）。给定数据集，目的是学习分类器来进行谣言检测。

GCN的卷积 *** 作被看做是一个消息传递（message-passing）的结构：

是第层的图卷积层（Graph Conventional Layer,GCL）计算得到的隐层特征矩阵，是信息传递函数，是训练参数矩阵。

本文采用的GCN采用第三代GCN，也就是 Semi-Supervised Classification with Graph Convolutional Networks 中提出的GCN架构，参考链接：第三代图卷积网络：使用图卷积网络进行半监督分类。

按照上面的GCN结构，图卷积层定义为：

其中，，代表第个节点的度，，代表激活函数，比如ReLU。

DropEdge是用来减少基于GCN的模型过拟合的方法。在每个训练epoch中，按照一定概率随机丢掉一些边来为输入数据引入一些随机性和多样性。假设图边的总数为，丢弃率为，DropEdge以后的邻接矩阵就变为：

是使用随机采样的边构成的矩阵。

Bi-GCN的核心思想是学习谣言传播和扩散的高层表示，在本文中采用的GCN都是用两层上述图卷积层。下图展示了模型的整个流程，主要分为4步：

对于一个事件，构建它的传播图结构，和分别是邻接矩阵和特征矩阵，只包括前面图(b)中从上到下的边。每个训练epoch中都会按照几率来获得。以和为基础，构建Bi-GCN模型，Bi-GCN包括两种，top-down GCN（TD-GCN）和bottom-up GCN（BU-GCN），两种GCN的邻接矩阵是不同的，采用的特征矩阵是相同的。对于TD-GCN，，而对于BU-GCN，。

将和应用到前面的图卷积过程，一共有两个图卷积层：

这里代表TD-GCN两个图卷积层的隐层特征。是TD-GCN的卷积核参数矩阵。采用ReLU作为激活函数，同时在图卷积层上应用Dropout。

与TD-GCN采用类似的过程得到和。

事件的源帖子通常包含丰富的信息，能够产生广泛的影响，因此有必要更好地利用源帖子的信息来学习节点和源帖子之间更精确的节点表示。本文提出了一种根节点特征增强的策略来更好地利用源帖子信息。具体的，对于TD-GCN的第层，我们拼接第层每个节点的隐层特征向量和第层的根节点特征向量来构建一个新的特征矩阵：

有。按照上述规则，再计算时用代替，然后得到：

类似地，以同样的方式获得和。

谣言的传播和扩散表示通过聚合TD-GCN和BU-GCN的节点表示来获得，采用mean-pooling的方式：

然后拼接这两个表示：

接着通过多个全连接层和softmax层进行预测：

这里是所有类的概率。训练时使用交叉熵损失并且应用L2正则化，使用随机梯度下降SGD和Adam优化器进行训练。

在Weibo,Twitter15,Twitter16三个数据集上进行实验，数据集统计如下：

以下是在三个数据集上的结果：

对比不同架构和有无根节点特征增强对模型性能的影响：

谣言传播的不同时期所达到的模型性能：

第一类： FCN（完全卷积网络）

简介;FCN是一种端到端的深度学习图像分割算法，让网络做像素的预测，直接得到label map

传统cnn缺点：存储开销大，效率低下，像素块的大小限制了感受区域的大小

FCN改变了什么：经典的cnn在卷积层之后时使用了全连接层得到固定长度的整个输入图像的概率向量，适合用于图像的分类和回归任务，经过 softmax后可以获得类别概率信息，但是这个概率信息是1维的，只能表示出整个图像的类别，所以这种全连接方法不适用于图像分割。FCN将Cnn的全连接层换成卷积层（1000个节点的全连接层换成1000个11的卷积核的卷积层），这样可以得到2维的fp,再通过softmax可以得到每个像素点的类别信息，从而解决分割问题。

FCN结构:FCN可以接受任何尺寸的输入图像，在最后得到的fp后，通过反卷积层进行上采样，使他恢复到输入图像的尺寸，从而可以对每一个像素都产生预测,保留原始图像当中的空间信息。

为啥cnn不能随便尺寸输入：因为cnn的全连接层会得到一个拉直的向量，向量中比方说有nn个元素，这nn个元素每个元素当作一个结点与下一层全连接，如果下一层比方说节点数是4096，权值数就是4096nn。神经网络结构确定，那么权值数就要确定了，上一层的输出就不能变了，然后倒着往前推，每一层输出都不能变，因此输入就必须得固定。

skip state:由于最后这个特征图太小，容易丢失很多细节，增加一个skip state这样的一个结构，最后一层的预测（局部信息）和更浅层（全局信息）预测结合起来，这样就是既局部还全局。

FCN缺点：实施推理速度不够快，对各个像素进行分类，没有考虑像素与像素之间的一个关系，不容易移植到三维图像当中。

第二类：基于CNN和完全连接的CRF的语义分割算法

FCN可能忽略了有用的场景级语义上下文，为了集成更多上下文信息

cnn+crf>cnn+softmax

fcn得到粗分值图，经过双线性插值上采样恢复分辨率，然后再将它传递给全连接的crf层细化分割结果。最终实验表明：有更高的准确率来定位边界。

第三类：编码器加解码器结构（unet,vnet）

分为一般的分割跟医学图像的分割。

一个是使用从VGG 16层网络采用的卷积层的编码器，另一个是将特征向量作为输入并生成像素级类概率图的反卷积网络。

segnet

SegNet的主要新颖之处在于解码器对其较低分辨率的输入特征图进行升采样。具体来说，它使用在相应编码器的最大池化步骤中计算出的合并索引来执行非线性上采样，从而消除了学习上采样的需求与其他竞争性体系结构相比，SegNet的可训练参数数量也明显更少并且能够提升边缘刻画度。 (ex:SDN,Linknet,w-net)

segnet的encoder过程中卷积起到提取特征的作用，使用的是same卷积，卷积后不改变的大小。同时在decoder过程中，同样是采用了same卷积，作用是upsample之后丰富变大的信息

u-net

（医学影像分割的论文几乎都是用u-net来改良的）

在医学图像分割上,在编码器部分，类似于FCN，下采样采用conv33，全卷积神经网络。

上采样 conv22 ，插值法（不使用转置卷积，为了让特征图保持着均匀的色差）

最后有个11（将特征通道数降至特定的数量 )

为了降低在压缩路径当中造成的图像细节损失，作者会将压缩路径当中的fp叠加到拓张路径的相同尺寸的fp上，再进行conv,upsample以此整合更多更完整的图像信息。

v-net

基于FCN用于3D医学图像分析的图像分割网络。最后输出的是三维的单通道数据，代表每一个像素是前景还是背景的概率，如果概率大于05是前景，概率小于05是背景。

第四类：多尺度分析跟金字塔网络

尺度：分辨率多尺度：所训练出来的成功的模型，他在换到另一个尺度下很有可能失效

提出了一个pspnet,实现利用上下文信息的能力来进行场景解析，又到了老生常谈的问题，FCN不能很好的利用全局信息（比如说，FCN非认为右边是车，但是左边就有船坞，他不能利用这种线索来进行一个判断）

DM-Net (Dynamic Multi-scale Filters

Network) Context contrasted network and gated multi-

scale aggregation (CCN) Adaptive Pyramid Context

Network (APC-Net) Multi-scale context intertwining

(MSCI)

第五类：实例分割当中基于r-cnn的模型

r-cnnfast r-cnnfaster r-cnn mask r-cnn

Mask RCNN使用ResNet+FPN（特征金字塔网络）进行特征提取。顶层特征（最后一层特征图），感受野最大，特征信息最丰富，但对小物体的检测效果并不好。因此，将多个阶段的特征图融合在一起（FPN），这样既有了高层的语义特征，也有了底层的轮廓特征。

RoI Align替代RoI Pooling RoI Pooling有什么问题？经过两次量化，使特征图对应位置不准。

增加Mask分支（语义分割）Mask分支只做语义分割，类型预测的任务交给另一个分支。

不管何种模型，其损失函数（Loss Function）选择，将影响到训练结果质量，是机器学习模型设计的重要部分。对于判别模型，损失函数是容易定义的，因为输出的目标相对简单。但对于生成模型，损失函数却是不容易定义的。

GAN算法原理：

1）G是一个生成的网络，它接收一个随机的噪声z，通过这个噪声生成，记做G(z)。

3）在最理想的状态下，G可以生成足以“以假乱真”的G(z)。对于D来说，它难以判定G生成的究竟是不是真实的，因此D(G(z)) = 05。

4）这样目的就达成了：得到了一个生成式的模型G，它可以用来生成。

在训练过程中，生成网络G的目标就是尽量生成真实的去欺骗判别网络D。而判别网络D的目标就是尽量把G生成的和真实的分别开来。这样，G和D构成了一个动态的“博弈过程”。

2再以理论抽象进行说明：

GAN是一种通过对抗过程估计生成模型的新框架。框架中同时训练两个模型：捕获数据分布的生成模型G，和估计样本来自训练数据的概率的判别模型D。G的训练程序是将D错误的概率最大化。可以证明在任意函数G和D的空间中，存在唯一的解决方案，使得G重现训练数据分布，而D=05（D判断不出真假，50%概率，跟抛硬币决定一样）。在G和D由多层感知器定义的情况下，整个系统可以用反向传播进行训练。在训练或生成样本期间，不需要任何马尔科夫链或展开的近似推理网络。实验通过对生成的样品的定性和定量评估，证明了GAN框架的潜在优势。

Goodfellow从理论上证明了该算法的收敛性。在模型收敛时，生成数据和真实数据具有相同分布，从而保证了模型效果。

GAN公式形式如下：

1）公式中x表示真实，z表示输入G网络的噪声，G(z)表示G网络生成的；

2）D(x)表示D网络判断是否真实的概率，因为x就是真实的，所以对于D来说，这个值越接近1越好。

3）G的目的：D(G(z))是D网络判断G生成的的是否真实的概率。G应该希望自己生成的“越接近真实越好”。也就是说，G希望D(G(z))尽可能得大，这时V(D, G)会变小。因此公式的最前面记号是min_G。

4）D的目的：D的能力越强，D(x)应该越大，D(G(x))应该越小。这时V(D,G)会变大。因此式子对于D来说是求最大max_D。

GAN训练过程：

GAN通过随机梯度下降法来训练D和G。

1)首先训练D，D希望V(G, D)越大越好，所以是加上梯度(ascending)

2)然后训练G时，G希望V(G, D)越小越好，所以是减去梯度(descending)；

GAN训练具体过程如下：

GAN算法优点：

1）使用了latent code，用以表达latent dimension、控制数据隐含关系等；

2）数据会逐渐统一；

3）不需要马尔可夫链；

4）被认为可以生成最好的样本（不过没法鉴定“好”与“不好”）；

5）只有反向传播被用来获得梯度，学习期间不需要推理；

6）各种各样的功能可以被纳入到模型中；

7）可以表示非常尖锐，甚至退化的分布。

GAN算法缺点：

1）Pg(x)没有显式表示；

2）D在训练过程中必须与G同步良好；

3）G不能被训练太多；

4）波兹曼机必须在学习步骤之间保持最新。

GAN的应用范围较广，扩展性也强，可应用于图像生成、数据增强和图像处理等领域。

1）图像生成：

目前GAN最常使用的地方就是图像生成，如超分辨率任务，语义分割等。

2）数据增强：

用GAN生成的图像来做数据增强。主要解决的问题是a)对于小数据集，数据量不足，可以生成一些数据；b)用原始数据训练一个GAN，GAN生成的数据label不同类别。

GAN生成式对抗网络是一种深度学习模型，是近年来复杂分布上无监督学习最具有前景的方法之一，值得深入研究。GAN生成式对抗网络的模型至少包括两个模块：G模型-生成模型和D模型-判别模型。两者互相博弈学习产生相当好的输出结果。GAN算法应用范围较广，扩展性也强，可应用于图像生成、数据增强和图像处理等领域。

以上就是关于Bi-GCN：基于双向图卷积网络的社交媒体谣言检测全部的内容，包括:Bi-GCN：基于双向图卷积网络的社交媒体谣言检测、第五天综述笔记2 10大类基于深度学习的segmentation model、卷积神经网络之GAN(附完整代码)等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10106199.html

Bi-GCN：基于双向图卷积网络的社交媒体谣言检测

发表评论

评论列表（0条）