网站如何做搜索引擎?

网站如何做搜索引擎?,第1张

搜索引擎的工作过程包括以下哪些步骤 搜索引擎的基本工作原理包括如下三个过程:

1.爬行和抓取:首先在互联网中发现、搜集网页信息;

2.建立索引库:同时对信息进行提取和组织建立索引库;

3.排名:再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户

1、网页抓取

Spider每遇到一个新文档,都要搜索其页面的链接网页。搜索引擎蜘蛛访问web页面的过程类似普通用户使用浏览器访问其页面,即B/S模式。引擎蜘蛛先向页面提出访问请求,服务器接受其访问请求并返回HTML代码后,把获取的HTML代码存入原始页面数据库。

2、预处理,建立索引

为了便于用户在数万亿级别以上的原始网页数据库中快速便捷地找到搜索结果,搜索引擎必须将spider抓取的原始web页面做预处理。网页预处理最主要过程是为网页建立全文索引,之后开始分析网页,最后建立倒排文件(也称反向索引)

要想让你的网站和搜索引擎相处融洽,并让用户尽可能准确地获得所需信息,在设计页面时掌握一些与搜索引擎有关的基本技巧还是非常必要的。不论是通过商业软件建立的网站内部的搜索引擎还是一些公共的搜索引擎(比如Google),其实它们的基本规则都是一样的。本文介绍如何让你的网站更容易被搜索引擎检索到,你将学会一些基本的控制搜索结果的方法,另外还有确保网站页面能够被搜索引擎检索到并能让用户获得更准确的检索结果的技术。

用Meta标记控制搜索结果

要控制搜索引擎的结果,不论是内部搜索引擎还是外部搜索引擎,最基本的方法就是给页面写入名称属性为ROBOT的Meta标记,其内容还应该包括INDEX或者NOINDEX,以及FOLLOW或者NOFOLLOW。这些简单的标记会告诉搜索引擎该如何处理这个页面。不论是内部还是外部搜索引擎,都会按照META标签的指示来处理这个页面,如下所示:

INDEX表示将该页面加入搜索引擎的搜索列表中,而NOINDEX则表示不把该页加入搜索引擎列表。这是最关键的一个参数,如果选择了NOINDEX,那么在搜索结果中就不会出现该页。比如:在一个电子商务网站,对于停产的产品页面,如果将ROBOTMeta标签设定为NOINDEX,则在网站的搜索结果中就不会搜索到这个产品的页面,而你仍然需要把这些老的产品放在目录中,这样需要该产品信息的用户可以从产品分类中查阅到相关信息,这就避免了一般用户搜索出一大堆老旧产品页面。那些较新的产品,可以设定为INDEX,以便搜索引擎可以将其显示在搜索结果中。

FOLLOW项表示搜索引擎要跟踪页面中的其它超级链接,而NOFOLLOW则告诉搜索引擎不跟踪页面里的链接。如果你的页面中有一些其它网站的链接,可以将页面设置为NOFOLLOW,这样你网站内部的搜索引擎就不会在搜索结果中列出其它网站的内容。比如在网站论坛的页面中,你就应该设置为NOFOLLOW,以免搜索引擎跟随帖子内的链接进入其它网站。而另一种情况,假如你打算建立了一个全是其它网站链接的页面,那么则应该将其设置为NOINDEX,FOLLOW,这样搜索引擎就会跟随页面中的链接进行搜索,而不会把这个页面本身列在搜索结果中。

建立索引列表提高搜索能力

建立一个具有良好搜索能力的网站最大的问题是如何让搜索索引知道哪些页面该列入搜索范围。通常,搜索引擎会首先定位在网站的首页,然后根据网页中的链接遍历整个网站的页面。这对于那些使用AHREF标签作为链接标志的网站来说确实有效,但是如今很多网站都采用了基于JavaScript的链接形式。由此引发的问题是,搜索引擎找不到页面中的链接,因此无法遍历整个网站的页面,造成搜索列表只能找到位于首页的几个标准形式的链接。

这种情况的解决方法很简单,就是在网站中建立一个页面,它包含所有你希望可以被搜索到的页面链接。如果这是一个电子商务网站,那么这个页面可能包含网站内所有产品页面的链接,如果是一个社区,那么这个页面可以包含所有讨论页面的链接。编写这样的页面也不需要什么特殊的脚本语言,完全是纯HTML页面,其中的内容基本上全部是用来表示链接的AHREF标签。它的作用只有一个,就是让搜索引擎快速找到网站内所有希望被搜索到的页面。

有时候当网站本身没有站点索引时,这个技术可以起到站点索引的效果。另外,通过服务器的文件系统或者通过IIS虚拟目录,你也可以创建一个类似的列表文件,这样的列表有可能包含站点下的所有文件。因此它可能会令搜索引擎搜索到站点下一些很久以前的孤立页面或文件。

不论如何,这样的一个搜索索引(searchcrawler)启始页应该具有METAROBOT标签,并告诉搜索引擎追踪该页内的所有链接但并不将该页面列入搜索结果。上面我们提到,这样的页面应该写成NOINDEX,FOLLOW,这样搜索引擎才可以按我们希望的方式遍历整个网站。

<AHREF="./searchcrawler.aspx"></A>

消除页面中的干扰

在保证搜索引擎可以检索到全部页面后,我们要做的就是精简搜索结果,让用户获得最有价值的信息。第一步就是消除页面中会分散搜索引擎注意力的项目。举个例子来说,导航菜单对于搜索引擎来说基本没有用处,因为它们会出现在每个页面中,并且包含的内容完全相同。另一方面,客户可能并不能很精确的给出所要查询内容的关键词,而是仅仅给出一个模糊的词,这个词可能出现在网站的导航菜单里,也给搜索定位带来了麻烦。

不过要解决这些问题也不是没有办法。当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,robot包含一个User-Agent(用户代理)字符串行,用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索的。因此当搜索引擎发来请求时,则可以屏蔽掉页面中的菜单以及广告等与网页内容无关的信息。

通过这种机制,搜索引擎搜索到的内容都是与用户的需求紧密联系的,不会检索到与核心内容无关的信息,也不会将导航菜单中的关键字也列出在搜索结果中。

为页面添加正确标题

要优化搜索引擎的性能,还需要注意为页面添加正确的标题。大部分搜索引擎会在搜索结果中列出页面标题。同样,在META标签中使用KEYWORDS参数也可以在搜索结果中提高相应关键字的排名。

雅虎是如何抓取我的网站的?

雅虎应用雅虎搜索引擎技术(Yahoo!SearchEngineTechnology,简称YST),它是一套基于算法的Web索引抓取程序,能够自动探测网络内容。YST这套机器搜索程序从因特网上采集文档,建立起一个可搜索的索引系统。这些文件(即您的网站文件)能被YST程序发现和抓取的主要原因是,在因特网其他的网页上包含有这些文档的直接链接。

YST搜索程序严格遵守robots.txt标准执行抓取,因此,对于那些您不希望被雅虎搜索引擎返回的结果,搜索程序不会执行抓取。任何被robots.txt标准认为不适宜抓取的文件,既不会被包括在抓取文档中,也不会进入到搜索引擎的数据库。

____________________________________________________________________

主动向搜索引擎提交自己的网址

____________________________________________________________________

向百度、Google、Yahoo提交网址是不用花钱的,其提交页面分别为:

/search/url_submit.html

/intl/zh-CN/add_url.html

/search_submit.html?source=yisou_www_hp

还有一个比较特殊且重要的网站就是

2.友情连接友情连接可以给一个网站带来稳定的客流。另外还有助于网站在GOOGLE等搜索引擎种的排名。

3.搜索引擎登陆排名

中文搜索引擎,目前用的最多的是百度和GOOGLE,目前此两个搜索引擎都有收费服务,当然也有免费登陆。对于收费服务,根据自己的情况选择。百度是每下点击0.3元。google每下点击为0.5元,其他的中国搜索联盟也有收费排名服务。个人认为价格较高,不太划算。

4.网络广告投放

网络广告投放虽然要花钱,但是给网站带来的流量却是很客观的,不过如何花最少的钱,获得最好的效果,这就需要许多技巧了。

5.邮件广告

广告邮件目前大多都成了垃圾邮件,这主要的原因是因为邮件地址选择,邮件设计等原因。广告邮件要设计的让人喜欢,发给不讨厌它的人,很不容易。

6.病毒式营销

病毒式营销主要是利用互利的方法,让网友帮自己宣传,制造一种象病毒传播一样的效果。下面介绍几个常用的方法:

7.BBS宣传BBS宣传,虽然花费精力,但是效果非常好。网络营销,细节致胜,网站推广,全面出击。呵呵!!BBS宣传要选择自己潜在客户在的bbs,或者人气比较好的BBS。

8.活动宣传活动宣传也是一种很好的宣传方式,不过不是什么活动都能够有效果的,想有很好的效果,就必须有很好的策划。几年前,一个72小时网上生存测试让刚刚有两个月网龄的网站dreamer一夜出名。

个人网站被百度加入到搜索引擎具体方法如下:

第一、网站域名,网站的域名一定要和网站主题相符,这样利用百度对你站的信誉评价。

第二、网站建设完成之后迅速把网站提交给百度,百度提交入口处http://www.baidu.com/search/url_submit.html。同时提交各大搜索引擎和目录同样是首选方法;

第三、网站的内容写原创文章最好;

第四、软文营销;

第五、经常在百度搜素自己站点的名称和域名,这样对于百度的相关搜素很有用,容易把你站的关键词记住。

第六、经常到各大论坛和博客发表一些文章,同时注明你站的链接,这样对于百度的收录,同样有很大的价值。

第七、内部链接策略,链接分为外链和内链,合理的外链对于百度容易顺着内链抓取网站的其他页面。

第八、外部链接策略,可以尽量把你网站和高的pr值链接;

第九、口碑营销,对于新站的朋友,善于利用人际关系,宣传本站;

第十、合理利用收藏、书签、和rss订阅。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/11642874.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存