20-余弦相似度及其R实现

20-余弦相似度及其R实现,第1张

余弦相似度 (Cosine Similarity) 通过计算两个向量的夹角余弦值来评估他们的相似度。将向量根据坐标值,绘制到向量空间中,求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向越吻合,则越相似。

以二维空间为例,上图的a和b是两个向量,我们要计算它们的夹角θ。余弦定理告诉我们,可以用下面的公式求得:

在文本处理中,要使用余弦相似度算法,首先得将文本向量化,将词用“词向量”的方式表示可谓是将 Deep Learning 算法引入 NLP 领域的一个核心技术。自然语言处理转化为机器学习问题的第一步都是通过一种方法将这些文本数学化。其思路如下:

举例:
句子A:这只皮靴号码大了。那只号码合适。
句子B:这只皮靴号码不小,那只更合适。

1、中文分词:
使用结巴分词对上面两个句子分词后,分别得到两个词集:

2、列出所有词,将listA和listB放在一个set中,构成词包:

3、使用词集分别对listA和listB计算词频

4、对listA和listB进行oneHot编码后得到的结果如下:
listAcode = [1, 2, 1, 2, 1, 1, 1, 1, 0, 0]
listBcode = [1, 2, 1, 1, 0, 0, 1, 1, 1, 1]
5、得出两个句子的词频向量之后,就变成了计算两个向量之间夹角的余弦值,值越大相似度越高。

6、两个向量的余弦值为0805823,接近1,说明两句话相似度很高。

两个句子的相似度计算步骤如下:
1通过中文分词,把完整的句子分成独立的词集合;
2求出两个词集合的并集(词包);
3计算各自词集的词频并将词频向量化;
4代入余弦公式就可以求出文本相似度。
注意,词包确定之后,词的顺序是不能再修改的,不然会影响到向量的变化。

以上是对两个句子做相似度计算,如果是对两篇文章做相似度计算,步骤如下:
1找出各自文章的关键词并合成一个词集合;
2求出两个词集合的并集(词包);
3计算各自词集的词频并将词频向量化;
4代入余弦公式就可以求出文本相似度。
句子的相似度计算只是文章相似度计算的一个子部分。文章的关键词提取可以通过其他的算法来实现。

词频TF(Term Frequency),是一个词语在文章或句子中出现的次数。要在一篇很长的文章中寻找关键字(词),就一般的理解,一个词对文章越关键在文章中出现的次数就越多,于是我们就采用“词频”进行统计。

但是这也不是绝对的,比如“地”,“的”,“啊”等词,它们出现的次数对一篇文章的中心思想是没有帮助的,只是中文语法结构的一部分而已。这类词也被称为“停用词”,所以,在计算一篇文章的词频时,停用词是应该过滤掉的。

仅仅过滤掉停用词就能解决问题吗也不一定。比如分析政府工作报告,“中国”这个词语必定在每篇文章中都出现很多次,但是对于每份报告的主干思想有帮助吗?对比“反腐败”、“人工智能”、“大数据”、“物联网”等词语,“中国”这个词语在文章中应该是次要的。

TF算法的优点是简单快速,结果比较符合实际情况。缺点是单纯以“词频”做衡量标准,不够全面,词性和词的出现位置等因素没有考虑到,而且有时重要的词可能出现的次数并不多。这种算法无法体现词的位置信息,位置靠前的词与位置靠后的词,都被视为重要性相同,这是不科学的。

联系到层次分析法的思想,可以赋予每个词特定的权重,给那类最常见的词赋予较小的权重,相应的较少见的词赋予较大的权重,这个权重叫做“逆文档频率”(Inverse Doucument Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。而TF-IDF值就是将词频TF和逆文档频率IDF相乘,值越大,说明该词对文章的重要性越高。这就是TF-IDF算法。


物联网的解释

中国 物联网校企联盟将物联网的 定义 为当下 几乎 所有技术与 计算 机、互联网技术的结合,实现物体与物体 之间 :环境以及 状态 信息实时的实时 共享 以及智能化的收集、传递、处理、 执行 。广义上说,当下 涉及 到信息技术的应用,都可以纳入物联网的范畴。     物联网是新一代信息技术的 重要 组成部分。其英文名称是“The Internet of things”。 由此 ,顾名思义,“物联网就是物物相连的互联网”。这有两层意思:第一,物联网的核心和 基础 仍然 是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。物联网就是“物物相连的互联网”。物联网通过智能感知、 识别 技术与普适计算、泛在网络的 融合 应用,被称为继计算机、互联网之后世界信息产业发展的第三次浪潮。物联网是互联网的应用 拓展 ,与其说物联网是网络,不如说物联网是业务和应用。因此,应用 创新 是物联网发展的核心,以用户体验为核心的创新20是物联网发展的 灵魂 。

词语分解

物的解释 物 ù 人以外的 具体 的 东西 :事物。生物。物体。货物。礼物。文物。物价。 物质 。地大物博。物极必反。 内容,实质: 言之有物 。 指自己以外的人或跟自己 相对 的环境:物议( 群众 的批评)。待人接物。物望所归(众望 联网的解释 若干 单个的设备 相互 连接成网络;若干较小的网络相互连接成更大的网络:~发电|计算机~。

“iotnac可以组成单词cation。
具体释义如下: 读音:[ktan] 表达意思:指正离子,阳离子,阳离子是原子失去一些核外电子后的粒子。 词性:通常在句中作名词。 例句:Amphipathic cation association polymer, preparation pro。

云计算是实现物联网的核心。运用云计算模式,使物联网中数以兆计的各类物品的实时动态管理,智能分析变得可能。物联网通过将射频识别技术、传感器技术、纳米技术等新技术充分运用在各行各业之中,将各种物体充分连接,并通过无线等网络将采集到的各种实时动态信息送达计算处理中心,进行汇总、分析和处理。
从物联网的结构看,云计算将成为物联网的重要环节。物联网与云计算的结合必将通过对各种能力资源共享、业务快速部署、人物交互新业务扩展、信息价值深度挖掘等多方面的促进带动整个产业链和价值链的升级与跃进。物联网强调物物相连,设备终端与设备终端相连,云计算能为连接到云上设备终端提供强大的运算处理能力,以降低终端本身的复杂性。二者都是为满足人们日益增长的需求而诞生的。

信息类专业主要与通信、电子、计算机等专业有关。

通信工程:

通信工程(也作电信工程,旧称远距离通信工程、弱电工程)是电子工程的一个重要分支,电子信息类子专业,同时也是其中一个基础学科。该学科关注的是通信过程中的信息传输和信号处理的原理和应用。

信息工程:

“信息工程”英文是Information Engineering,信息工程专业是建立在超大规模集成电路技术和现代计算机技术基础上,研究信息处理理论、技术和工程实现的专门学科。

电子信息与技术:

电子信息科学与技术专业培养具备电子信息科学与技术的基本理论和基本知识,受到严格的科学实验训练和科学研究初步训练。

能在电子信息科学与技术、计算机科学与技术及相关领域和行政部门从事科学研究、教学、科技开发、产品设计、生产技术管理工作的电子信息科学与技术高级专门人才。

电子信息工程:

电子信息工程是一门应用计算机等现代化技术进行电子信息控制和信息处理的学科,主要研究信息的获取与处理,电子设备与信息系统的设计、开发、应用和集成。

物联网工程:

物联网(Internet of Things)这个词,国内外普遍公认的是 MITAuto-ID 中心Ashton 教授1999年在研究RFID时最早提出来的。

在2005年国际电信联盟(ITU)发布的同名报告中,物联网的定义和范围已经发生了变化,覆盖范围有了较大的拓展,不再只是指基于RFID技术的物联网。

信息对抗技术 :

信息对抗技术专业培养具备进攻与防御信息战技术系统及其决策支持系统以及民用信息安全防护等方面的基础理论知识和技术综合能力。

能在科研单位、高等学校、信息产业及其使用管理部门从事系统设计、技术开发、 *** 作管理和安全防护方面工作的高级工程技术人才。

数据科学与大数据技术 :

数据科学与大数据技术专业,简称数科或大数据,旨在培养具有大数据思维、运用大数据思维及分析应用技术的高层次大数据人才。

计算机科学与技术:

计算机科学与技术是研究计算机的设计与制造,并利用计算机进行有关的信息表示、收发、存储、处理、控制等的理论方法和技术的学科。

计算机属于信息类专业。

扩展资料:

美国著名物理化学家吉布斯(Josiah Willard Gibbs)创立了向量分析并将其引入数学物理中,使事件的不确定性和偶然性研究找到了一个全新的角度,从而使人类在科 学把握信息的意义上迈出了第一步。他认为“熵”是一个关于物理系统信息不足的量度。

电子学家、计算机科学家认为“信息是电子线路中传输的信号”。

我国著名的信息学专家钟义信教授认为“信息是事物存在方式或运动状态,以这种方式或状态直接或间接的表述”。

美国信息管理专家霍顿(FWHorton)给信息下的定义是:“信息是为了满足用户决策的需要而经过加工处理的数据。”简单地说,信息是经过加工的数据,或者说,信息是数据处理的结果。

根据对信息的研究成果。科学的信息概念可以概括如下:

信息是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。

参考资料:

百度百科-信息  百度百科-信息工程专业(相似专业一栏)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/13408427.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-30
下一篇 2023-07-30

发表评论

登录后才能评论

评论列表(0条)

保存