请百度的是如何进行数据搜索的

请百度的是如何进行数据搜索的,第1张

主爬虫主要负责发现新的网页。一个网页在新索引建立之后,马上会被主爬虫发现。如果一个网页建立索引需要经过一个月的时间,这个网页就会失效。

尽管Google在作猜测,下列内容都是真实可信的:

1) 幽灵登陆页上的排名不能等同于索引页的排名。

2) 在每月新数据库建立之前,必须将幽灵登陆页从数据库中移走。但是,这只是暂时的移走。

如果您的索引中有这样登陆页,您的主要目标应该是让该页在Google新页上拥有排名。若您想做到这点,您需要定期、有规律、最好是每天,有一定间隔地更新网站内容。

案例分析:同样的遭遇

(1)五天之前,我向互联网上传一个新的小网站,这一次我没有像以往那样把这个网站与我的其他网站建立链接,而是通过添加 lhtml将该网址添加到Google中去。我静静等待这个网站被发现。三天以 后,用该网站的主要关键词进行搜索,这个网站能排到搜索结果的前十名,并且记录显示130个访问者访问过该网站。但是,一天之后,这个网站消失了。这一次,他不仅是掉出前十名,而且是掉出整个 Google目录。网站本身一点问题没有,没有作弊,没有隐藏链接,没有内容复制,没有关键词堆砌,就这样默默地网站消失了。

我仔细考虑该网站的欠缺之处,排名消失的原因也许在于这个网站缺少导入链接,也许因为这个网站有一个d出窗口。也许,也许,有无数个也许在等着我。

(2)经常有人向我们咨询这类问题,为了满足不同询问者的需要,我们写了一篇文章,希望有所帮助。

一个新网页没有被Google主目录收取,直到:

1 该网页被Google主目录搜索蜘蛛抓取。

2 该网页在被Google主目录搜索蜘蛛抓取之后,须经过一段更新时间。

只有以上两条全都满足,新网页被Google主目录确确实实抓取到,新网页上的排名才有可能转化成真正排名 。

Google有两种抓取形式

1 主抓取

2 新抓取一个新的网页首先被“新抓取”蜘蛛抓取。但也有特例的时候。在Google月更新刚刚完成那一段时间之后,一个网页通常被“主抓取”蜘蛛抓取。每月更新一般在每个月的20号到28号之间,能够持续几天。

为了区分两种蜘蛛的差异,我们可以先来看一下一组IP 地址。

1 “主抓取”蜘蛛= 21623946

2 “新抓取”蜘蛛= 646882

为了进一步解释明白新网页发生的Google幽灵现象,我们假设该网页首先被“新抓取”蜘蛛抓取。在Google两个月更新之间,“新抓取”蜘蛛来抓取新网页。在主抓取期间,通过链接新网页能够被抓 取。新抓取期间,情况也是一样。

尽管这个网页没有经过此次更新,也没有收录在Google主目录里,但是抓取之后,搜索蜘蛛开始衡量该网页内容和质量,并把该网页收录在搜索结果里。这次衡量是十分不稳定的,易受外界影响,经常发生变化。

当每月定期更新来临时,这些网页会产生波动。每月定期更新就是Google波动。但是,您需要记住,“主抓取”蜘蛛没有阅读该网页,所以这个网页没有加入主索引中。所以,当每月更新结束后,这个新 网页仍被看作是新网页但是不久以后,“主抓取”蜘蛛将会阅读这个新网页,在下个月更新之后,该页面才能被收录进主索引。这需要经历一段时间。在此之前,Google不显示任何导入链接,这个网页的排名也因此多变、不稳定。

让我们总结一下:

如果一个新网页首先被一个“新抓取”蜘蛛抓取,然后被“主抓取”蜘蛛抓取,这个网页需要经过两次月更新。换句话说,这个新网页需要经过两个月才能被主索引收录,在被主索引收录之后,才可能获取稳定的排名。

这期间新网页可能在Google搜索结果页中出现,也可能消失,这种不稳定的情况完全是正常的。

还有一种情况。如果一个新网页首先被“主抓取”蜘蛛抓取(这通常发生在一月的下旬),那么这个网页只等一个月的时间就可以进入“主索引”。

网站设计者和拥有者如果不了解Google抓取新网页的过程,他们的工作将难以开展。网页排名可能一路飙升,名列前十名,让人欣喜若狂,也可能陡然狂降,甩出二百名开外,令人垂头丧气。

信息检索不等于搜索引擎

互联网的发展明显地促进了信息检索技术的发展和应用,一大批搜索引擎产品诞生,为网民提供了很好的快速信息获取和网络信息导航工具,但是将信息检索等同于使用搜索引擎就陷入了误区。搜索引擎技术中也普遍采用了全文信息检索技术,但互联网信息搜索和企业信息搜索是不同的。

一是数据量。传统信息检索系统一般索引库规模多在GB级,但互联网网页搜索需要处理几千万上亿的网页,搜索引擎的基本策略都是采用检索服务器群集,对大多数企业应用是不合适和不必要的,并不适用于企业应用。

二是内容相关性。信息太多,查准和排序就特别重要,Google等搜索引擎发展了网页链接分析技术,根据互联网上网页被连接次数作为重要性评判的依据。但企业网站内部的网页链接由网站内容采编发布系统决定,其链接次数存在偶然因素,不能作为判别重要性的依据。真正的企业应用的检索要求基于内容的相关性排序,就是说,和检索要求最相关的信息排在检索结果的前面,链接分析技术此种排序基本不起作用。

三是实时性。搜索引擎的索引生成和检索服务是分开的,周期性更新和同步数据,大的搜索引擎的更新周期需要以周乃至月度量;而企业信息检索需要实时反映内外信息变化,搜索引擎系统机制并不能适应企业中动态性数据增长和修改的要求。

四是安全性。互联网搜索引擎都基于文件系统,但企业应用中内容一般均会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。

五是个性化和智能化。由于搜索引擎数据和客户规模的限制,相关反馈、知识检索、知识挖掘等计算密集的智能技术很难应用,而专门针对企业的信息检索应用能在智能化和个性走得更远。

(InformationRetrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。

目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。

信息检索技术的热点

◆智能检索或知识检索

传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果,比如用户可以进一步缩小查询范围至“微机”、“服务器”或扩大查询至“信息技术”或查询相关的“电子技术”、“软件”、“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。

◆知识挖掘

目前主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。

自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。

◆异构信息整合检索和全息检索

在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。

另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。

随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务项目。

随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化,20世纪60年代到80年代,在信息处理技术、通讯技术、计算机和数据库技术的推动下,信息检索在教育、军事和商业等各领域高速发展,得到了广泛的应用。Dialog国际联机情报检索系统是这一时期的信息检索领域的代表,至今仍是世界上最著名的系统之一。

搜索引擎工作流程

互联网是一个宝库,搜索引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜索引擎的相关知识及使用技巧上能力不足。国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。作为互联网的第二大服务,这种状况应该改变。

互联网的迅速发展,导致了网上信息的爆炸性增长。全球目前的网页超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎正是为了解决这个“迷航”问题而出现的技术。

搜索引擎的工作包括如下三个过程:

1在互联中发现、搜集网页信息;

2对信息进行提取和组织建立索引库;

3再由检索器根据用户输入的查询关字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

发现、搜集网页信息

需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息, 然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如百度公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所 获得的信息保存下来以备建立索引库和用户检索。

索引库的建立

关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。新浪搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。

本文来自CSDN博客,转载请标明出处:>

SEO是由英文SearchEngineOptimization缩写而来,中文意译为“搜索引擎优化”。SEO是指通过站内优化比如网站结构调整、网站内容建设、网站代码优化等以及站外优化,比如网站站外推广、网站品牌建设等,使网站满足搜索引擎收录排名需求,在搜索引擎中提高关键词排名,从而吸引精准用户进入网站,获得流量,产生直接销售或品牌推广。

SEO *** 作流程从四个方面做:整体优化、结构优化、网页优化,以及百度重要策略解读。

整站优化

百度需要优质站点为搜索引擎数据库源源不断地输入物料,同时优质站点也需要从百度获得搜索引擎用户,并将这些搜索引擎用户转化为网站的用户。知名站点可以视为优质站点的一部分,是指已经有较高用户知名度的网站。那么,站点越是知名,就越应从长远考虑,以用户体验为重,积极、合理的进行网站优化,远离作弊和恶意SEO行为,建立与百度更加稳固的合作关系。知名站点一旦有恶意的作弊行为,所产生的恶劣影响将是巨大的,有可能会受到搜索引擎更为严格的惩罚。知名站点更应从长远考虑,提升用户口碑,用高质量的内容赢得用户青睐。不应为了短期的流量,不顾用户的体验,做有损品牌形象的事情。

网站结构

一,友好的网站结构

1,扁平or树型:说到网站结构,都会提到扁平结构和树型结构,言必称“结构扁平化”,这些指的是物理结构,即基于内容聚合的目录及文件位置决定的结构。其实对于百度搜索引擎来说,只要结构合理、有逻辑性、内容有规律可循都可以,都是友好的。

2,链接结构:相对于物理结构,就要说到逻辑结构:即通过内部链接形成的链接结构,逻辑结构才是搜索引擎最关注的。对于一个网站来说,网页仅仅可以通过首页——目录1——目录2一层一层follow到是远远不够的,一个优秀的链接结构应该是网状的。

1)首页链接应该链向重要的频道页,频道页再链向下面的节点页或普通页面。同时,频道页、节点页和普通页面都应该可以链回到首页

2)无论哪些页面之间互相链接,都需要一个描述恰当的锚文本

3)链接不要放在JS、FLASH等搜索引擎不可见的位置,使用做链接入口应该完善alt标签(百度搜索引擎目前仅支持对部分JS和FLASH进行解析,绝大多数放在JS和FLASH里的链接都是获取不到的)

5)“离首页越近”的网页,越容易受到百度重视。这个“近”指的是页面离首页的点击距离。即使URL所在目录层级较深,只要在首页有入口,百度也认为这是一个非常重要的页面。

6)不要产生可怕的孤岛页面。虽然百度在提交入口、社会化挖掘方面做了许多工作,但链接抓取依然是百度获得新页面的最重要渠道

二,合理的domain结构

除了在网站建设的时候站长会思考到底使用二级域名还是子目录,在网站运营的过程中,也会考虑是否要把子目录的内容拆分成二级域名。因为很多SEO人员认为二级域名相对独立,其首页会得到百度的重视,能获得更好的排位——其实这是一个片面的错误观点,百度会通过很多指标对同domain下的二级域名和子目录进行重要程度判断,并没有武断地认为谁天生就会比谁强一些。

当SEO认为站内结构已经阻碍了网站高速发展就会考虑改版,最常见的改版便是将子目录移出主站点、单独形成二级域名。但大家都知道,改版肯定会对站点的收录排名和流量造成影响,一定要谨慎。那么在什么情况下才真的需要将子目录换成二级域名呢?其实只有一点:即子目录的内容足够丰富,且与主域的主题关联性不强!

网页优化

一,标题的结构

1,标题字数控制在60个字节内:从以往的经验看,检索用户比较喜欢50个字节左右的标题;对于产品人员和编辑来说,过短的标题有可能无法全面表达网页主题;对于搜索引擎来说,标题过长意味着“超标”,只会保留前60个字节的内容。

反面case福州到北京旅游_北京旅游天气如何_北京旅游景点介绍_北京好玩吗_现在去北京旅游会热吗

2,重要内容放在标题的最前面:在众多检索结果中,用户的目光往往聚焦在标题前半段,所以重要信息内容放在标题前部非常重要。

正面case关之琳否认脑癌发作称洗牙遭误会|关之琳|癌症_凤凰娱乐

3,放置网站名称,增加曝光机会:有些站点已经在某领域有了一定的知名度和权威性,其站名名称已经成为一种品牌,可以将该品牌词体现在标题中,用户在面对众多结果时,更倾向于选择点击自己熟知网站提供的信息。即使网站目前的知名度还不够,更不应该放过每个品牌曝光的机会。

正面case法国卢浮宫博物馆藏文物精品在中国国家博物馆展出-新华网

注:网页优化需注意以下三点:

1,关键词过度堆彻:有些站点为了提高网站的相关性,在TITLE、description、keywords等地方进行关键词堆彻,非旦无法起到优化作用,还有可能被惩罚。

2,关键词过度优化:一些网页过度强调文章中的关键词,甚至将关键词生硬地穿插在文章中,这些都极容易被搜索引擎识别并惩罚。

3,经常改变网页的TITLE和Description:每一次更换网页的TITLE和Description等标签,都有一个百度发现解析记录的过程,没有一个准确的时间段可以描述,如果这个过程时间很短可能不会造成恶劣影响,但如果时间较长,则有可能影响搜索用户的体验。所以说,网页的各种标签应该在网站建设阶段设计好。

策略解读

一,石榴算法

2013年5月17日发布公告,百度质量团队针对低质量网页推出了石榴算法,旨在打击含有大量妨碍用户正常浏览的恶劣广告的页面,尤其是d出大量低质广告、存在混淆页面主体内容的垃圾广告的页面。

二,百度绿萝算法10&20

在石榴算法公布前,百度质量团队于2013年2月19日发布公告推出绿萝算法,针对买卖链接行为再次强调:买卖链接行为一方面影响用户体验,干扰搜索引擎算法;另一方面让投机建站者得利、超链中介者得利,真正勤勤恳恳做好站的站长在这种恶劣的互联网超链环境中无法获得应有的回报。因此针对买卖链接行为在清除外链计算的基础上,以下三个类型的网站将会受到不同程度的影响:

1、超链中介

2、出卖链接的网站

3、购买链接的网站

总结:SEO优化应该贯穿于从网站建设到上线内容补充更新的全过程,而不是独立存在的“事后”行为。优化不仅仅是SEO人员的事儿,只有技术人员、产品人员,包括编辑都拥有SEO意识和SEO思维,才能做出搜索引擎和用户都喜欢的产品。

以上就是关于请百度的是如何进行数据搜索的全部的内容,包括:请百度的是如何进行数据搜索的、求提高网站搜索排名的方法,急、与数据库相比,搜索引擎有哪些优点和缺点等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10192343.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存