php自动提取文章关键字?

php自动提取文章关键字?,第1张

现在很多web系统都用到了不少的自然语言处理技术来提高客户体验。

主要技术:

1.文章关键字提取.

2.相关文章(产品)推荐.

最近有不少网友问道,这里以php为例子讲解下php的"关键字提取"的实现,同时这个也是实现"相关文章推荐"的前提.

基本分以下几个步骤:

一.对文章进行分词

php的中文分词程序还是有不少的,从前辈的scws,到用纯php实现的phpAnalysis,phpcws(phpcws)以及本人开发的robbe扩展。

这里的讲解是使用"robbe分词扩展"来进行分词,robbe兴许不是最好的,但一定是最快的。

选择的分词器需要支持停止词过滤。

二.统计词条词频并且排序:

对一篇文章分词后,统计每个词条出现的次数。然后按照词频降序排序下,你想要的结果在前面几个词中。

前提是去除了出现词频很高的停止词,要不然得到的都是一些无用的停止词。

现在,很多web系统都用到了不少的自然语言处理技术来提高客户体验.主要技术:1.文章关键字提取.2.相关文章(产品)推荐.最近有不少网友问到,这里以php为例子讲解下php的"关键字提取"的实现,同时这个也是实现"相关文章推荐"的前提。

基本分以下几个步骤:

一.对文章进行分词:php的中文分词程序还是有不少的,从前辈的scws,到用纯php实现的phpAnalysis,phpcws(phpcws)以及本人开发的robbe扩展。这里的讲解是使用"robbe分词扩展"来进行分词,robbe兴许不是最好的,但一定是最快的。选择的分词器需要支持停止词过滤。

二.统计词条词频并且排序:对一篇文章分词后,统计每个词条出现的次数,然后按照词频降序排序下,你想要的结果在前面几个词中。回龙观IT培训建议前提是去除了出现词频很高的停止词,要不然得到的都是一些无用的停止词。

智能计算机技术

智能计算机技术的两大内容是体系结构和人机接口。也就是说,智能计算机既要有智能化的头脑和躯干,也要有智能化的五官和四肢。

在体系结构方面,智能计算机是要试图打破冯•诺依曼式计算机的存储程序式的框架,实现类似人脑结构的计算机体系结构,以期获得自学习、自组织、自适应、分布式的并行计算的功能。虽然在分布式和并行处理方面取得了很大的进展,但并没有在总体上打破冯•诺依曼式计算机的体系。

然而,在智能接口方面取得的进展却是显著的。文字识别、语音识别、语音合成、图像识别、机器翻译、自然语言理解等技术已经开始实用化,成为智能计算机领域中的标志性成果。

智能接口技术的目的是使人们能够更加方便、更加自然地与计算机打交道。这样就要求计算机能够看懂文字,听懂语言,能够朗读文章,甚至能够进行不同语言之间的翻译。这些也恰恰是智能理论所要研究的基本问题。因此智能接口技术的研究既有巨大的应用价值,又有基础的理论意义,多年来一直是最活跃的研究领域,成果也最为显著。

1. 文字识别

在文字识别方面,已经开发出了较高水平的OCR技术、笔输入技术和笔迹鉴别技术。OCR是光学字符读取装置的英文缩写。它通过扫描仪将印刷或书写在纸面上的文字输入到系统后进行识别。由于系统工作时,文字已经书写完毕,因此被称为脱机文字识别。OCR又有印刷体OCR和手写体OCR之分。笔输入系统是通过专用的书写板和笔输入文字,由于一边写一边识别,也称为联机文字识别。从技术难度来讲,脱机识别比联机识别难度要大,而手写体脱机识别自然又比印刷体脱机识别的难度大。目前笔输入技术、印刷体OCR技术已经达到较高的实用化水平,而手写体OCR技术也正在向实用化迈进。从应用方面看,由于笔输入技术是掌上电脑Palm PC理想的输入手段,因此得到了比OCR更大的应用面。笔迹鉴别技术是一种特殊的文字识别技术,它的目的不是识别文字,而是识别文字书写者。相对来讲,技术难度更大一些。目前这类系统还只能为笔迹鉴别专家做一些初级的预分类工作。

2. 语音识别

语音识别首先分特定人识别和非特定人识别。特定人识别是只能识别特定的某个人或某几个人的技术,而非特定人识别不限识别对象。非特定人识别通用性好,应用面广,但难度也较大。面向不同的应用,语音识别系统所要识别的词汇量是不同的。目前,小词汇量特定人语音识别技术已经达到较高的实用化水平,典型的应用是手机人名声控拨号系统。非特定人小词汇量以及特定人大词汇量这两类语音识别技术也已开始走向实用,如声控自动售票系统、特定人文稿听写系统。而非特定人大词汇量语音识别技术还远未成熟。此外,话者鉴别技术也是一个重要的研究方向。

3. 图像识别

图像识别是模式识别的一个重要应用领域,目前在指纹鉴别、手语识别、面容识别、表情识别等方面正在取得进展。

4. 语言合成

语音合成技术也是非常重要的智能接口技术,特别是通过文语转换技术可以让计算机朗读文章,因而受到了很大重视。这一技术有两个关键性能,一是正确,二是自然。正确是指文字的读音要正确,保证这一点的难度在于一个字常常有几个读音,到底那个读音正确要根据组词甚至前后文来判断。例如不能将"银行"的"行"读成"xing2"。为保证正确性,必须先对句子进行分词。这一点西文有着得天独厚的优势,因为词与词间有空格分离,而对汉语的句子进行分词却不是简单的事。合成的语音要让人能听得懂听得舒服,还必须有较高的自然度。即读出来的文章韵律和节奏要比较准确。要做到自然,常常需要对句子进行分析和理解,知道哪儿重、哪儿轻、何时急、何时缓。可见,语音合成技术并不简单,尤其是汉语语音合成更难。语音合成技术有很高的应用价值,除了让计算机为我们朗读文章之外,模仿特定人的语音合成技术还可以让计算机模拟亲友的声音朗读他们所写的书信和文章。

5. 自然语言理解

自然语言理解是指用计算机自动处理和理解自然语言。自然语言具有语法灵活、不规范,语义模糊、与语境相关性大等特点。这些特点使得用机器处理自然语言非常困难。但是,要提高信息处理的自动化和智能化水平,这一技术又是十分急需的。多年来,人们对这一课题展开了深入的研究,并已取得了一些可喜的成果。在句法分析、语义理解、语言生成等方面,提出了多种基于数理语言学的有效方法。近年来,统计语言学发展迅速,其方法不但在句法分析、语义分析、语言自动生成等方面得到了应用,而且统计语言模型的方法在语音识别中也发挥了非常重要的作用。自然语言理解在自动文摘、机器翻译等方面的应用成果也是令人瞩目的。

6. 机器翻译

机器翻译是指用计算机自动实现不同语言之间的转换,如汉译英、英译汉、日译汉等等。这种技术为人们对外交流,学习国外的科学文化知识提供了极大的方便。当前,机器翻译在Internet上应用更是发挥作用,它可以当即翻译下载的外文资料,使人们真正可以通过Internet方便地了解世界。机器翻译一般要经过分析和生成两个步骤,即通过分析源语得到一个含有语法语义信息的树形中间结构;再由生成器将其转换为一个等价的基于目标语的深层结构,并把这个深层结构转换为表层结构,输出目标语。在这里,最关键的还是对源语的分析。由于汉语自动分词是一个难题,当汉语作为源语时,源语的分析工作也就比较难。因此,将汉语译成外语的机器翻译系统比将外语译成汉语的机器翻译系统更难实现。我国的机器翻译研究近年来取得了很大的进展,英汉机器翻译系统已达到了初步实用化的水平,而汉英机器翻译系统在一些关键技术上也已取得重要突破。

智能控制技术

控制技术是在20世纪20年代逐步建立了以频域法为主的经典控制理论后发展起来的。控制技术首先在工业生产中得到了广泛的应用。在空间技术发展的推动下,50年代又出现了以状态空间法为主的现代控制理论,使控制技术得到了广大的发展,产生了更多的应用领域。60年代以来,随着计算机技术的发展,许多新方法和技术进入工程化、产品化阶段,显著加快了工业技术更新的步伐。这对自动控制技术提出了新的挑战,也为其发展提供了条件,促进了智能理论在控制技术中的应用,形成了智能控制技术。

智能控制技术主要用来解决那些用传统的方法难以解决的复杂系统的控制问题,如智能机器人系统、计算机集成制造系统(CIMS)、复杂的工业过程控制系统、航天航空控制系统、社会经济管理系统、交通运输系统、通信网络系统、环保与能源系统等。这些复杂系统具有以下特点:①控制对象存在严重的不确定性,控制模型未知或模型的结构和参数在很大的范围内变化;②控制对象具有高度的非线性特征;③控制任务要求复杂。例如,在智能机器人系统中,要求系统对一个复杂的任务具有自行规划和决策的能力,有自动躲避障碍达到目的地的能力。

智能控制技术通常通过智能控制系统发挥作用。为智能控制系统下一个严格的定义并不是一件容易的事。简单地说,智能控制系统是指具备一个智能行为的系统,利用人工智能的方法,它能够解决难以用数学的方法精确描述的复杂的、随机的、模糊的、柔性的控制问题,具有自学习、自适应、自组织的能力。

智能控制技术涉及到许多智能理论,主要包括:自学习、自适应、自组织理论,知识工程,信息熵理论,Petri网理论,人机系统理论,形式语音与自动机理论,大系统理论,神经网络理论,模糊集合论,优化理论等等。

目前智能控制的基础技术包括模糊控制技术、神经网络控制技术、专家控制技术、学习控制技术、分层递阶控制技术。

1. 模糊控制技术

模糊控制技术就是以模糊集合理论为基础的智能控制技术。模糊集合理论为控制技术摆脱建立精确数学模型提供了手段,使控制系统像人一样基于定性的模糊的知识进行控制决策成为可能。在模糊控制系统中,能够将人的控制经验和知识包含进来,从这个意义上说,模糊控制是一种智能控制。模糊控制既可以面向简单的被控对象,也可以用于复杂的控制过程。

2. 神经网络控制技术

神经网络控制技术就是基于人工神经网络的控制技术。神经网络具有高速并行处理信息的能力,这种能力适于实时控制和动力学控制;神经网络具有很强的自适应能力和信息综合能力,这种能力适用于复杂系统、大系统和多变量系统的控制;神经网络的非线性特性适用于非线性控制。神经网络具有学习能力,能够解决那些用数学模型或规则描述难以处理的控制过程。

3. 专家控制技术

专家控制技术是基于人工智能中专家系统的控制技术。专家系统是一种基于知识的系统,它主要面向各种非结构化问题,尤其能处理定性的、启发式或不确定的知识信息,经过各种推理过程到达系统的任务目标。这种控制技术能够适用于模型不充分、不精确甚至不存在的复杂过程。

4.学习控制技术

学习控制技术是基于人工智能中机器学习理论的控制技术。学习的意义主要是指自动获取知识、积累经验、改善知识性能。学习控制能够解决由于被控对象的非线性和建模不良所造成的不确定性问题。

5.分层递阶控制技术

智能控制系统除了实现传统的控制功能外,还要实现规划、决策、学习等智能功能。因此智能控制往往需要将智能的控制方法与常规的控制方法加以有机的结合。分层递阶控制是实现这一目的的有效方法。在分层递阶控制中,上层的作用主要是模仿人的行为功能,因而主要是基于知识的系统。它所实现的规划、决策、学习、数据的存取、任务的协调等,主要是对知识进行处理。下层的作用是执行具体的控制任务,主要是进行数值 *** 作和计算。

智能控制技术有着广阔的应用领域,包括智能机器人控制、智能过程规划与控制、专家控制、智能调度、语音控制、康复智能控制器等。

20世纪70年代,机器人技术发展成为一个专门的学科。各种卓有成效的工业机器人实用范例,促成了机器人应用领域的进一步扩大,出现了各种结构的机器人样机。随着大规模集成电路的不断进步,以及微型计算机的普遍应用,特别是人工智能理论与技术的发展,机器人的控制智能化水平得到了大幅度的提高。

一般将机器人的发展分为3个阶段。第一阶段的机器人只有"手",以固定程序工作,不具有外界信息的反馈能力;第二阶段的机器人具有对外界信息的反馈能力,即有了感觉,如力觉、触觉、视觉等;第三阶段,即所谓"智能机器人"阶段,机器人已经具有了自主性,有自行学习、推理、决策、规划等能力。

为了能够在环境中自主活动(控制),智能机器人应当具有感知能力,包括视觉、听觉、触觉、味觉等等。而且在一些应用环境中,还应当有与环境的对话能力。近年来,这方面的研究已经取得了显著的进展。特别是在视觉方面的某些能力,已经接近了人眼的水平。

智能机器人已经在在工业、空间、海洋、军事、医疗等众多领域得到了实际应用,并已经取得了巨大的效益。

工业机器人主要有装配机器人、搬运机器人、弧焊机器人、喷漆机器人。这些机器人在汽车、电子、电器以及核工业中发挥了远超过人的作用。空间机器人主要从事3个方面的工作:空间建筑和装配,卫星和其他航天器的维护和修理,以及空间生产和科学实验。海洋机器人主要用于海洋开发、打捞、扫雷、侦察、援潜救生等。如机器人在北大西洋海底找到"泰坦尼克"巨轮的事件轰动了全球。我国863计划项目6,000 m水下机器人的研制成功,为我国勘探海底资源,进行海底科学研究提供了有力的武器。军用机器人是指那些执行军事任务的机器人,如扫雷机器人、排爆机器人、消防机器人、哨兵机器人、侦察机器人、反坦克机器人等。在医疗方面,微型机器人可以作毫米级视网膜手术,接通神经,在血管中穿行,在脏器内进行病理检查等。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/7767577.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-09
下一篇 2023-04-09

发表评论

登录后才能评论

评论列表(0条)

保存