搜索引擎的索引容量大战 |
|
编译:Karen |
| 一份最新的研究论文显示,截至2005年1月份,全球网页数量已逾115亿之多。该论文由意大利比萨大学Antonio Gulli(现任ASK Jeeves公司高级产品经理)和爱荷华州立大学Alessio Signorinialso共同完成,报告中对各家搜索引擎对WEB资源的覆盖率(占有率)进行了评估。
该调研共进行了五轮测试评估(评估数据如下)。评估结果显示,在对WEB资源的占有和覆盖率上,Google当仁不让雄踞首位,其次是雅虎,MSN和Teoma分列第三和第四位。
|
| |
搜索引擎WEB资源覆盖率(%) |
| |
Google |
Yahoo! |
MSN |
Teoma |
| 第一轮 |
76.30 |
69.28 |
62.03 |
57.58 |
| 第二轮 |
76.09 |
69.39 |
61.90 |
57.69 |
| 第三轮 |
76.27 |
69.37 |
61.87 |
57.70 |
| 第三轮 |
76.05 |
69.30 |
61.73 |
57.57 |
| 第五轮 |
76.11 |
69.26 |
61.96 |
57.56 |
| 平均 |
76.16 |
69.32 |
61.90 |
57.62 |
|
| 本文将对各大搜索引擎索数据库容量的发展情况进行回顾,不过首先,大家应该对这一指标有一个正确和公允的认识。
正确理解搜索引擎的数据库容量所代表的意义
搜索引擎之间所进行的索引容量大战一度成为人们的目光之焦点。然而我们不禁要问,对搜索引擎而言,是否索引的数据越多就越好呢?这种理解显然有失偏颇。
固然,在查找一些不同寻常或者是很难找到的信息方面,索引容量巨大的搜索引擎往往能够帮助人们找到所需要的东西。但我们也要看到,在查找热门话题方面或是普通的信息时,索引容量大的并不一定能够提供比索引容量小的搜索引擎更好的搜索结果。这就好比Google的索引容量可能是雅虎的两倍,但我们并不能说雅虎的搜索结果质量只有Google的一半好。事实上,雅虎的搜索质量在某些方面几乎可以和Google相媲美。换言之,数据库规模不能替代搜索结果相关度的高下。搜索引擎拥有庞大的网页并不意味着用户能够在优先搜索结果中得到最恰当的网页。因而搜索引擎的网络覆盖率,只能作为搜索引擎的搜索相关度的衡量指标之一。 |
| |
|
搜索引擎的索引容量发展史(1995-2003年) |
| |
下表向我们展示了搜索引擎索引规模从1995年到2003年历时8年的发展情况。该表中只列出了那些仍然活跃在舞台上的搜索引擎。而那些已经退出搜索舞台或不再使用其检索技术的搜索引擎如Northern Light,Excite,Infoseek等等都未在此表中出现。 |
|
| WEB文本资讯索引容量(1995年12月―2003年9月,单位:十亿) |
 |
| GG=Google;ATW=AllTheWeb;INK=Inktomi;TMA=Teoma;AV=AltaVista |
|
|
搜索引擎索引容量的第一次大战(1997-1999年) |
| |
点评:搜索引擎索引容量的第一次大战爆发于1997年,历时两年,至1999年。这场大战的导火索是AltaVista。1995年,当AltaVista势如破竹横空出世的时候,其数据库容量远远超过当时的其它搜索引擎。因而这最让AltaVista引以为傲的优势顺理成章变成了搜索引擎容量之战的导火索。在1996年初,各家搜索引擎就纷纷采用各种手段来提高其数据库索引容量,以期不逊色甚至要超过AltaVista。在经过一系列变化之后,到了1997年年底,最后的赢家分别花落AltaVista和Inktomi,它们成为当时索引容量最大的两家搜索引擎。但Inktomi此后却一直停滞不前,败下阵来,反而是当时的后起之秀Northern Light初生牛犊不怕虎,迎头赶上,索引容量达到15,000万之高,与AltaVista并驾齐驱,共享荣光。 |
|
| WEB文本资讯索引容量(1995年12月―1999年6月,单位:百万) |
 |
| EX=Excite;GO=GO/Infoseek;NL=Northern Light;LY=Lycos |
|
|
搜索引擎索引容量的第二次大战(1999-2002年) |
| |
点评:正当AltaVista和Northern Light庆祝它们在索引容量大战之中的辉煌战功时,AllTheWeb的出现使这两大搜索引擎功亏一篑。AllTheWeb亮相伊始,就达到了高达20,000万索引容量的最高记录。平衡被打破,新一轮角逐又开始了。首先是当时最大的两大搜索引擎AllTheWeb和AltaVista之间展开的追逐战。但到了2000年,Google以其50,000万索引容量的最高记录让这场大战形成了最后定局,并以绝对优势遥遥领先其各路竞争对手。此后Google更是丝毫不见懈怠,索引容量以令人瞠目结舌之速一路飙升,远非其它搜索引擎所能望其项背。 |
|
| WEB文本资讯索引容量(1999年9月―2002年3月,单位:百万) |
 |
| GG=Google;AV=AltaVista;NL=Northern Light;ATW=AllTheWeb;INK=Inktomi |
|
|
搜索引擎索引容量的第三次大战(2002年6-12月) |
| |
点评:就在Google占据了两年之久的索引容量第一的宝座之后,AllTheWeb以20亿的索引容量又一次登上索引容量第一的宝座,打破了由Google所保持的15亿最高记录。但AllTheWeb并没有高兴多久,大概最多两个月之后Google就将其索引容量发展到30亿,与此同时,Inktomi也发布了一款新型搜索引擎,并声称其索引容量亦达到了这个数字。 |
|
| WEB文本资讯索引容量(2002年6月―2003年9月,单位:十亿) |
 |
| GG=Google;ATW=AllTheWeb;INK=Inktomi;TMA=Teoma;AV=AltaVista |
|
|
搜索引擎索引容量的第四次大战(2003-2004年) |
| |
Google将索引容量的最高记录保持在30亿达将近一年之后,就在2003年8月,AllTheWeb又一次向Google发起冲击,称其索引规模已达33亿,又一次破了Google的记录。但仅仅几天之后,Google就还AllTheWeb以颜色,称其索引规模已达32亿。到得当年年底,Google的索引容量已高达40亿,继续雄踞索引规模之最的宝座。
直到2004年11月份,Google在索引规模上又有了质的飞跃。其索引容量翻了一番,达到80亿。排名第二的是MSN,其索引容量逾50亿。雅虎没有给出任何相关数据,但据专家估计,其索引容量应在42亿左右。排名第四的是Ask Jeeves,索引容量达到25亿。参见下表。(注:下表中所列数字为搜索引擎现行索引的WEB文本资讯之规模,其中包括HTML文件,文本文件、PDF文件、微软Office系列文档及其它类型相似的文件。统计数据不包括图片和多媒体格式的文件。也不包括Google论坛(Google Group)的讨论信息。)
|
|
| 搜索引擎 |
自报索引规模 |
页面深度 |
备注: |
| 注:倘若一个网站有大量页面,搜索引擎不一定会检索每个网页,甚至每个单词。页面深度即指搜索引擎实际检索的页面内容的多少。 |
| Google |
81亿 |
101K |
| Google只检索部分网页而非全部,即当页面大小超过101K,则Google只会检索前101K文字内容而忽略之后的内容。目前尚未听说Google在这方面有什么进展。 |
| MSN的网页检索深度来自于该搜索引擎去年8月份在圣何塞举办的搜索引擎战略研讨会上公布的数据。作者将检查并确认该数据是否仍然有效。 |
| 雅虎数据亦来自该会议。但据一些专家实际测试发现,雅虎对一些网页的检索深度可达800K。 |
| Ask Jeeves拒绝在该会议上透露具体数字,仅表示:“我们跟其它搜索引擎公司差不多。” |
|
| MSN |
50亿 |
150K |
| Yahoo |
42亿(估) |
500K |
| Ask Jeeves |
25亿 |
101K+ |
|
|
| 解析Google信息检索技术专利申请书 (2005-07-01) |
| Google专利申请书揭密PageRank技术 (2005-06-24) |
| 搜索引擎营销(SEM)的可喜发展趋势 (2005-06-22) |
| PageRank并非评估网页的最佳工具 (2005-05-30) |
| DMOZ关闭“站点提交状态”论坛 (2005-05-30) |
| |
更多翻译/原创稿件... |
| |