- 2022/5/2日报
- COS-LDL摘要理解
- 解决问题
- 2022/5/3日报
- 大数据处理技术结课报告
- COS-LDL引入理解
- 2022/5/4日报
- LDLM阅读
- 2022/5/5日报
- 组会
- COS-LDL相关工作理解
- COS-LDL算法理解
COS-LDL摘要理解
这是师姐的一篇LDL论文,采用了cosine相似度来来衡量
θ
\theta
θ里面的标签相关性。标签相关性在提升算法精度上面有着重要的作用。具体的论文后续将在后面的博客更新。未完待续。。。。
Pytorch学习:
Pytorch安装下面这些包出错问题。
torch-geometric、torch-sparse、torch-scatter、torch-cluster、 torch-spline-conv安装时常常由于版本问题报各种错。
还是老规矩
- 搞个虚拟环境
conda create -n pytorch python=3.8.5
安装好Pytorch,对应找好版本。
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
注意还是用命令去看下cuda的版本
nvidia-smi
确保大于等于cudatoolkit的版本。
进入环境卸载torch-geometric、torch-sparse、torch-scatter、torch-cluster、 torch-spline-conv(有啥卸啥)
conda activate pytorch
pip uninstall torch-scatter torch-sparse torch-cluster torch-spline-conv
查看自己的torch版本以及cuda
conda list
在网站中找到对应的库:https://pytorch-geometric.com/whl/我的pytorch是1.11 cuda是11.3为例
pip install torch-scatter -f https://pytorch-geometric.com/whl/torch-1.11.0+cu113.html
pip install torch-sparse -f https://pytorch-geometric.com/whl/torch-1.11.0+cu113.html
pip install torch-cluster -f https://pytorch-geometric.com/whl/torch-1.11.0+cu113.html
pip install torch-spline-conv -f https://pytorch-geometric.com/whl/torch-1.11.0+cu113.html
最后安装torch-geometric
pip install torch-geometric
即可解决上述问题。
2022/5/3日报
大数据处理技术结课报告
介绍 LDL 是什么、LDL 与现有的算法(MLL)区别是什么(参考下图) 、LDL 解决了什么样的问题、LDL 的应用。
- LDL是MLL的泛化框架。
- LDL提供比 MLL 更丰富的信息,同时解决了标签模糊的问题(通过给每个实例分配一个标签分布,而不是MLL那样分配逻辑标签)
- LDL解决标签模糊的问题。
- LDL应用在年龄估计,面部表情识别等。
介绍现存的算法,现存算法在那些地方是可取的。点出标签相关性可以提高算法精
度。(LDLLC、IIS-LLD、LDL-SCL等)
提出自己的算法:设计了距离映射矩阵来描述相关性。陈述 LDL 要做的事情:找
到最优的 θ,使得预测的标签分布与真实的标签分布近可能的相似。
实验设计的简单描述,以及这个方法所作出的贡献。
1)提出了一种新的基于余弦的相关性 LDL 算法。
2)通过以下方式描述任意两个标签之间的相关性结合三元和距离相关性。
3)三元相关采用余弦相似度来表征标签之间的相关类别。
4)距离相关采用欧几里得距离来描述标签之间的相关程度。
2022/5/4日报
LDLM阅读
本文摘要叙述了目前存在LDL的输出空间巨大的问题和现有研究的主要方法以及提出了一种全新的paradigm(LDL-LDM),同时在两种LDL的情况下验证其有效性。相关叙述如下:标签相关性有助于缓解标签分布学习(LDL)的巨大输出空间。然而,现有的研究只考虑全局和局部标签相关性之一,或者利用一些先验知识(例如,有时不成立的低秩假设)来利用标签相关性。为了以数据驱动的方式有效地利用全局和局部标签相关性,本文提出了一种新的LDL方法,称为利用标签分布流形进行标签分布学习(LDL-LDM)。本文的基本想法是,标签分布的潜在流形结构可能编码标签之间的相关性。LDL-LDM的工作原理如下:首先,为了利用全局标签相关性,学习标签分布流形,并鼓励模型的输出位于同一流形中。第二,学习标签分布流行的不同集群的样本,以考虑局部标签相关性。第三,为了处理不完全标签分布学习(incomplete LDL),同时联合学习标签分布和标签分布流形。理论分析证明了该方法的通用性。最后,实验结果验证了LDL-LDM在full and incomplete LDL情况下的有效性。
与单标签学习和多标签学习相比,LDL有助于处理标签模糊。同时造成输出空间巨大的问题。在耿新老师的LDL文章就说明了输出空间的大小:In detail, for a problem with
c
c
c different labels, there are
c
c
c possible outputs for SLL, and
2
c
−
1
2^c − 1
2c−1 possible outputs for MLL. As for LDL,there are infinite possible outputs as long as they satisfy that
d
x
y
∈
[
0
,
1
]
\bm{d_x^y \in [0,1]}
dxy∈[0,1] and
∑
y
d
x
y
=
1
\bm{\sum_yd_x^y=1}
∑ydxy=1,说明探索LDL的标记相关性的迫切性。
介绍现有的两种相关性:全局标签相关性和局部标签相关性。
其中全局标签相关性由所有样本共享。
局部标签相关性由不同样本组共享。
为了证明全局和局部标签相关性共存,给出了两幅图像以及标签分布。
首先,“Sky”和“Clo”的标签描述度对于(a)和(b)高度相关,(a)和(b)显示了全局标签相关性,因为“Sky”和“Clo”通常一起出现。其次,对于(a)(来自“Des”组的图像),“Sky”的标签描述度与“Des”的标签描述度正相关,与“Wat”的标签描述度负相关。相反,对于(b)(来自“Wat”组的图像),“Sky”的标签描述度与“Wat”的正相关,与“Des”的负相关,即不同样本组具有不同的标签相关性,这表明了局部标签相关性。
就目前已经提出的许多LDL算法利用全局标签相关性,局部标签相关性和两种相关性组合,其大多数现有工作都依赖于低秩假设来利用标签相关性,这在MLL中得到了广泛采用。然而,与MLL的0/1标签不同,标签描述度是真实值,其相关性要复杂得多-低秩假设可能不成立。为了证明这一点,作者在实验时使用数据集的标签分布,这表明所有数据集都具有满秩标签分布矩阵。因此,低秩假设可能导致性能恶化,需要数据驱动的方法来更有效地利用标签相关性,同时获取真实标签分布代价巨大,作者提出了一种新的LDL算法,称为标签分布流形学习利用标签分布流形(LDL-LDM)来解决上述挑战。它以数据驱动的方式利用全局和局部标签相关性,可以处理不完整的LDL。其基本思想是,标签分布存在于概率单纯形中,其底层结构可能编码标签相关性。
2022/5/5日报
组会 COS-LDL相关工作理解
- 回顾一下 LDL 的基础知识并给出问题陈述。然后,回顾目前主流的 LDL 方法。
- 问题陈述
描述自己的符号系统,标签分布满足什么条件。举例标签分部是什么样的,最后讲
述标签分布学习最终要干什么。 - LDL 方法
以三个策略为基础展开叙述:问题转换策略、算法适应策略、专用算法策略。
问题转换策略:将标记分布学习问题转化为单标记学习问题的一个直接方法, 就是
将训练样本转化成加权的单标记样本。
算法适应策略:某些传统算法可以自然地扩展为能够处理标记分布的算法。
专用算法策略:与问题转化和算法改造这两种间接策略相比, 专用算法与标记分布
问题更加匹配。
由于是专用算法,遵循专用算法策略的设计框架,COS-LDL 方法包括以下三个方
面:输出模型、目标函数和优化方法。
-
输出模型
最大熵模型:
p ( y j ∣ x i ; θ ) = exp ( ∑ r = 1 q θ k r x i r ) ∑ k = 1 c exp ( ∑ r = 1 q θ k r x i r ) . (1) \displaystyle p(y_{j}|x_{i};\theta ) = \frac {\exp \left({\sum _{r = 1}^{q}\theta _{kr}x_{ir}}\right)}{\sum _{k = 1}^{c}\exp \left({\sum _{r = 1}^{q}\theta _{kr}x_{ir}}\right)}.\tag{1} p(yj∣xi;θ)=∑k=1cexp(∑r=1qθkrxir)exp(∑r=1qθkrxir).(1) -
目标函数
基础损失函数:
D K L ( d i ∥ p i ) = ∑ j = 1 c d i j ln d i j p i j , (2) D_{\mathrm{ KL}}(d_{i}\|p_{i}) = \sum _{j = 1}^{c} d_{ij}\ln \frac {d_{ij}}{p_{ij}},\tag{2} DKL(di∥pi)=j=1∑cdijlnpijdij,(2)
距离映射向量的相关性:
c o s ( θ i , θ j ) = ∑ k = 1 q θ i k θ j k ∑ k = 1 q θ i k 2 ∑ k = 1 q θ j k 2 . (3) \displaystyle cos(\theta _{i}, \theta _{j}) = \frac {\sum ^{q}_{k=1}{\theta _{ik}}{\theta _{jk}}}{\sqrt {\sum ^{q}_{k=1}{\theta _{ik}}^{2}}\sqrt {\sum ^{q}_{k=1}{\theta _{jk}}^{2}}}.\tag{3} cos(θi,θj)=∑k=1qθik2 ∑k=1qθjk2 ∑k=1qθikθjk.(3)
三种关系如下:
δ ( θ i , θ j ) = s g n ( cos ( θ i , θ j ) ) = { − 1 , cos ( θ i , θ j ) < 0 , 0 , cos ( θ i , θ j ) = 0 , 1 , cos ( θ i , θ j ) > 0. (4) \displaystyle \delta (\theta _{i}, \theta _{j}) = sgn\Big (\cos (\theta _{i},\theta _{j})\Big )\!=\!\! \begin{cases} -1, & \cos (\theta _{i},\theta _{j}) < 0,\ 0, & \cos (\theta _{i},\theta _{j}) = 0,\ 1, & \cos (\theta _{i},\theta _{j}) > 0. \end{cases}\tag{4} δ(θi,θj)=sgn(cos(θi,θj))=⎩⎪⎨⎪⎧−1,0,1,cos(θi,θj)<0,cos(θi,θj)=0,cos(θi,θj)>0.(4)
距离相关性:
d i s ( θ i , θ j ) = ∑ k = 1 q ( θ i k − θ j k ) 2 . (5) \displaystyle dis(\theta _{i}, \theta _{j}) = \sqrt {\sum _{k = 1}^{q}(\theta _{ik}-\theta _{jk})^{2}}.\tag{5} dis(θi,θj)=k=1∑q(θik−θjk)2 .(5)
基于余弦的距离映射函数:
ϕ ( θ i , θ j ) = δ ( θ i , θ j ) ∗ d i s ( θ i , θ j ) . (6) \displaystyle \phi (\theta _{i}, \theta _{j}) = \delta (\theta _{i}, \theta _{j}) * dis(\theta _{i}, \theta _{j}).\tag{6} ϕ(θi,θj)=δ(θi,θj)∗dis(θi,θj).(6)
目标函数:
T ( θ ) = ∑ i = 1 n D K L ( d i ∥ p i ) + λ 1 ∑ i = 1 c ∑ j = 1 c ϕ ( θ i , θ j ) + λ 2 ∥ θ ∥ F 2 = ∑ i = 1 n ∑ j = 1 c ( d i j ln d i j p ( y j ∣ x i ; θ ) ) + λ 1 ∑ i = 1 c ∑ j = 1 c ϕ ( θ i , θ j ) + λ 2 ∥ θ ∥ F 2 . (7) \displaystyle T(\theta )=\sum _{i = 1}^{n}D_{\mathrm{ KL}}(d_{i}\|p_{i}) + \lambda _{1}\sum _{i = 1}^{c}\sum _{j = 1}^{c}\phi (\theta _{i},\theta _{j}) + \lambda _{2}\|\theta \|_{F}^{2} \=\sum _{i = 1}^{n}\sum _{j = 1}^{c}\left({d_{ij}\ln \frac {d_{ij}}{p({y_{j}}|{x_{i}};\theta )}}\right) + \lambda _{1}\sum _{i = 1}^{c}\sum _{j = 1}^{c}\phi (\theta _{i},\theta _{j}) \+\, \lambda _{2}\|\theta \|_{F}^{2}.\tag{7} T(θ)=i=1∑nDKL(di∥pi)+λ1i=1∑cj=1∑cϕ(θi,θj)+λ2∥θ∥F2=i=1∑nj=1∑c(dijlnp(yj∣xi;θ)dij)+λ1i=1∑cj=1∑cϕ(θi,θj)+λ2∥θ∥F2.(7)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)