2024年6月12日发(作者:)

搜索引擎实验

实验报告

网址:/

以谷歌搜索引擎为例:

一、搜索引擎简介

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜

集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,

是为用户提供检索服务的系统。

现在的搜索引擎有百度、谷歌、雅虎、搜狗、迅雷等等。

下面介绍下谷歌的工作原理:

Google采用了两个重要的特性,因此而获取了准确的查询结果:第一,

Google利用网页的链接结构计算出每个网页的等级排名,这就是所谓的

PageRank;第二,Google利用了链接提供的信息进一步改善搜索结果。

Google使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。深度

探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之中。刷新探测

器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起

来,Google是发现了一个新的网页,之后再频繁地再访,来看看是否还有什么

新的更新。如果有,这个新网站就会被加入到刷新探测器的名单中进行访问。

刷新探测器取得的结果是汇总在一个单独的数据库里。每一次刷新探测器进

行新的一轮循环的时候都被重写。刷新探测器和Google的主要索引是合在一起

提供搜索结果的。

Google的操作模式

收集---->采编/索引---->反馈的工作程序。事实上,搜索引擎包括以下几

个元素。

抓取状态:搜索引擎派出探测器到互联网上不知疲倦地搜集网页。

网页仓库:搜索来的网页要集中在一个地方存储,等候索引处理。

索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原

始网页资料被删除掉。

索引状态:将压缩后的网页编目在不同的索引之下。

问询状态:将用户问询所用的白话转换成搜索引擎读的懂的计算机语言,来

咨询各个索引求得相关答案。

排名状态:搜索引擎将相关答案根据一定的标准以列表的形式排列给用户。

搜索引擎认为最好的答案被推荐在首位,较次的排列随后,以此类推。

Google的数据中心高度机密,我们能了解到的不多:

1.在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的

世界各地。

2.每个数据中心有50万平方英尺那么大,建造一个数据中心要花费约6亿美

元。

数据中心是世界上最高效的设施之一,而且也非常环保,几乎没

有碳排放。

4.数据中心使用50到100兆瓦的电力,由于需要冷却,通常建在便于用水的

地方。

服务器安置在一个一组容得下1160台服务器的有房子那么大的标

准集装箱容器中。

Google处理流程:

1.你写博客、或在Twitter上推微博、更新站点等诸如此类往web上添加内

容的操作

爬虫(一种作为搜索引擎构件的智能代理程序)抓取你网页的

title和description、keyword等内容。

3.一旦被Google爬虫访问到,网页几秒内就被索引了

基于链接评估域名和网页的总体PageRank值。

5.检查网页以防止作弊行为

6.在对页面做了损害分析后,现在每个页面都有很多用于辅助用户搜索的数