搜索引擎的历史:从1945到Google 2007编辑本段回目录
作者:searchenginehistory.com 来源:译言
As We May Think (1945):
在享受过受二战影响的对科学发展的黄金时代后,超文本和内存扩展到概念在1945年7月真正走进来人们的生活,Vannaver Bush的“As We May Think”在Atlantic月刊上发表了。
他呼吁科学家们一起工作,建造一个造福全人类的一体的知识库。这里是摘录他主要观点的一些句子和段落。
专业化对取得进展来说越来越重要,相应的,在学科之间架起桥梁的努力也越来越肤浅。
面临的困难似乎较少因为我们不恰当发表的看法的程度和如今兴趣的种类,而更是因为我们现在的能力根本不足以使这些看法产生多大的影响。人类的获得的经验正在以巨大的速率增长,我们将这些迷宫一样的结果提取为暂时的重要条目的方式就像以前我们造横帆的大船一样(工程量大)。
如果一项纪录在科学上有价值,它必须一直扩展和储存。总之,它要能被查阅。
他不仅是数据存储坚定的支持者,他也相信如果数据源对人类有用,那么我们应该尽我们最大的努力使这些数据源好好运转。
我们在获取这些纪录时的愚昧主要是由索引系统的人工操作引起的……人不能希望人工的完全复制精神过程,但是他肯定能从这个过程中学到东西。至少他能进步,因为他得到的知识是相对持久的。
假如人能反思灰暗的过去并更加完整客观的分析他现在的问题,那么他的精神境界能得到提高。人类建造了一个如此复杂的社会,所以他需要更完整的机械化他的纪录以便将他的经验变成一个有逻辑的结果而不仅仅是被他有限的记忆能力遗忘掉大半。
随后他提出了一个无限制的、虚拟的、快速、可靠、可扩展、联合记忆存储的和可恢复的系统的想法。他将这个设备命名为memex。
Gerard Salton (1960s - 1990s):
卒于1995年8月28日的Gerard Salton是现代搜索技术之父。他在哈佛和康奈尔大团队开发出了SMART信息恢复系统。Salton’s Magic Automatic Retriever of Text包含了类似向量空间模型、逆文档频率(IDF),术语频率(TF),术语偏离值(term discrimination values)等概念和相关反馈机制。
他写了一本56页的书,叫做 A Theory of Indexing,这本书里很好的解释了很多他的实验,这些实验大部分是以搜索为基础的。Tom Evslin发表了(文章)a blog entry介绍和Mr. Salton工作的情况。
Ted Nelson:
Ted Nelson在1960年创造龄Xanadu项目,并在1963年制造了超文本这个概念。他在Xanadu这个项目中的目标是建造一个有简单用户界面的计算机网络,用来解决类似归属感这样的社会问题。
当Ted着在反对复杂的标记代码,受损链接和其他一些在万维网中与传统HTML相关的问题时,他得到了很多有关建造一个万维网的启发。
直到现在还有很多关于Xanadu项目为什么没有腾飞的争论。
这是 提供了有关Nelson先生的背景和许多资源的Wiki链接。
Advanced Research Projects Agency Network:
ARPANet是最终导致因特网出现的网络。这里是一篇介绍ARPANet很好的文章和一个1972年有关ARPANet很有趣的Google视频。
Archie (1990):
最早的几百个网站出现于1993年,大部分在大学里,但是很久之后才有了Archie。最早出现的搜索引擎叫Archie,是1991年由Alan Emtage,一个蒙特利尔的McGill大学的学生创造的。开始打算叫它“Archives”,但被简写成了Archie。
Archie用结合一个基于脚本的数据采集器和正则表达式,将用户查询和文件名相匹配的方法帮助解决了数据分散的问题。
Bill Slaski 提供了关于archie的更多背景知识.
Veronica & Jughead:
由于口口相传,Archie流行起来,它开始变成计算机的代名词,Archie变得如此流行使得Nevada大学的计算服务系统组开发了Veronica。Veronica和Archie有相同的目标,但它基于纯文本。不久,另一个与Veronica作用相同的用户界面Jughead出现了,他们都用作从Gopher传文件,Gopher是Minnesota大学的Mark McCahill1991年开发作为Archie替补的系统。
File Transfer Protocol:
Tim Burners-Lee 在这个时候出现了,但这是还没有万维网。当时人们共享文件的主要方法就是通过File Transfer Protocol(FTP)。
如果你有一个想要共享的文件,你就会设置一个FTP服务器。如果有人想要得到这个文件,他就会用一个FTP客户端。这个程序在小的团队中很有效率,但数据在收集过程中也变得不完整。
Tim Berners-Lee & the WWW (1991):
来源:维基百科:
当1980年六月到十二月间,Berners-Lee是CERN的独立合同工时,他提议了一个基于超文本的项目,促进了研究人员之间分享和升级信息的能力。在Robert Cailliau的帮助下,他建立了一个叫Enquire的原型系统。
1980年之后,他离开CERN到John Poole's Image Computer Systems Ltd公司工作,但1984年他回到CERN并成为该公司的一位fellow。1989年,CERN是欧洲最大的因特网节点,Berners-Lee看到了将超文本加入因特网的机会。用他的话来说,“我必须将超文本的这个想法与TCP和DNS的想法结合--踏哒--万维网出现了”。他将Enquire系统中类似的重要想法用到万维网的创作当中,他设计并实现了第一个网络浏览器和编辑器(叫WorldWideWeb并在NeXTSTEP上开发)和第一个叫httpd的Web服务器(HyperText Transfer Protocol daemon的缩写)。
第一个网站在http://info.cern.ch/上建立并且在1991年8月6日上线。它解释了什么是万维网,人们怎样能拥有一个浏览器以及怎样建立一个网络服务器。他也是世界上第一个网络目录,因为Berners-Lee维护着他自己以及其他站点的条目。
1994年,Berners-Lee在麻省理工大学成立了the World Wide Web Consortium (W3C)。
Tim还创造了the Virtual Library,世界上最古老的网络目录,Tim还写了一本书介绍开办这个网站的故事,叫做Weaving the Web.
What is a Bot?(什么是Bot?)
计算机机器人是一类用来执行人类无法达到的快速重复任务的一类程序。bot这个习语是网络上用来描述任何与用户交互或手机数据的东西的。
搜索引擎用“爬虫”来收集(或爬取)网络上的信息。他们就像普通浏览器一样请求网页信息,只是爬虫不仅读信息进行索引还要记录链接。
引用的链接可以被看作可信任网页的代称。链接的文本可以帮助描述一个网页的内容。多次引用的链接可以帮助确定一个网页或网站存在于哪个专题社区中。附加的链接可以帮助搜索引擎查找新的文件和便于以后搜索。
另一个机器人的例子时候Chatterbots,它是用来增加某个话题的分量的。这些机器人尝试想人一样表现并与人一起就特定话题交流。
Parts of a Search Engine:(搜索引擎的一部分:)
搜索引擎主要由三部分组成。搜索引擎爬虫通过跟踪链接来请求那些没有被索引过的页面,或那些上次索引之后就没有更新过的页面。这些爬来的页面被增加到搜索引擎的索引里(也叫目录)。当你用主搜索引擎搜索的时候,你不是真的在搜索网络,而是搜索稍微有一些过时的内容索引,这些索引可以大体上代表整个网络的内容。搜索引擎的第三部分是搜索界面和相关软件。对每一次查询请求,搜索引擎都要做以下这些事情中的大多数或全部:
保存用户输入的查询,检查(用户输入)并用高级语法匹配以及坚持用户有没有拼写错误,对拼写错误给出推荐的流行查询或纠正后的值。检查这个查询是否与其他垂直搜索的数据库相关(比如新闻搜索或产品搜索)并从这种查询经常搜到的结果里挑选几个提供相关链接。收集这个搜索结果相关网页的条目。这些结果根据网页内容、可用数据、链接引文数据进行排序。请求一下相关的广告放置在结果旁边。
搜索人通常只点击最上面的几个搜索结果,这在Jakob Nielsen的文章里被提到,并在this search result eye tracking study.中做了备份。
Want to learn more about how search engines work?(想知道更多关于搜索引擎如何工作的知识吗?)
Google怎样收集和排序结果?Google的工程师Matt Cutts简单的讨论了Google是怎样工作的。Google的工程师Jeff Dean给华盛顿大学的同学做了一个演讲,谈到了在Google搜索的查询是怎样在搜索到视频的。芝加哥的Tribune运营了叫做Gunning for Google的任务,包括很多音频的采访,三个专栏,这些图形化的介绍了Google是怎么工作的。员工怎样为搜索引擎工作,以及因特网搜索引擎如何工作。
Types of Search Queries:(查询的种类:)
Andrei Broder写了一篇文章:A Taxonomy of Web Search [PDF],介绍了最经常的三种搜索条目:
信息--寻找关于一个题目的静态信息
事务--在哪里购物,在哪里下载,或与结果交互
导航--最后给我一个特定的URL
Improve Your Searching Skills:(提高你的搜索技巧:)
想更好的搜索吗?一般大规模搜索引擎提供:
高级搜索页面,帮助搜索人精炼他们的查询条件:请求新一点或老一点的文件,本地的或in nature?,在特定领域,用特定格式发布,或别的方式来精炼他的查询。比如说~字母说明与Google相关。垂直搜索数据库可以帮助结构化信息索引或限制搜索的索引以检索更结构化的源,文件以及信息。
Nancy Blachman的Google Guide提供了许多在Google中搜索到秘诀。Greg R.Notess的Search EngineShowdown提供了一个搜索特征的图表。
还有许多流行的小一些的垂直搜索服务,比如,Del.icio.us让你搜索有用户书签的URL,Technorati让你搜索博客。
World Wide Web Wanderer:(万维网漫游者:)
不久,网络上第一个机器人出现了。在1993年6月,Matthew Gray引入了万维网漫游者。他最初想要测量网络的增长,并且创建这个机器人来计算活动的网络服务器数量。不久他将这个机器人升级为计算实际URL数量。他的数据库叫Wandex。
这个Wanderer是一个解决方案也是一个大麻烦,因为它一天连接同一个页面数百次而导致了系统滞后。没多久之后,他修复了这个bug,但人们开始质疑机器人的价值。
ALIWEB:
1993年10月,Martijn Koster建造了一个类目录的网络索引器,或称ALIWEB,作为Wanderer的回答。ALIWEB爬取元数据并允许用户根据他们的网页描述提交他们希望索引的网页。这说明不需要机器人来收集数据,并且不多占带宽。ALIWEB不好的一面是很多人不知道如何提交他们的页面。
Robots Exclusion Standard:
Martjin Kojer还主持了the web robots page,这个网页为搜索引擎应该索引的内容和不应该索引的内容制定了标准。这个标准允许网管从整个网站的水平或基本页面阻止机器人。
默认情况下,如果信息存在于公共网络服务器,而且人们能链接得到,搜索引擎基本都会索引下来。
2005年Google领导了针对博客垃圾评论的改革,创建了个人级的不能跟踪的属性。在Google的推动下,nofollow快速的改变了那些声称不是为商业目的及不能编辑的链接的目的。
Primitive Web Search:(原始的网络搜索)
直到1993年12月,三个成熟的搜索引擎机器人在网络上冲浪:JumpStation、World Wide Web Worm、和Repository-Based Software Engineering (RBSE)爬虫。JumpStation在网页上采集有关标题和题头的信息并用简单的线性搜索得到。随着网络的成长,JumpStation慢慢的停用了,WWW Worm索引标题和URL,JumpStation和World Wide Web Worm的问题是他们用他们发现结果的顺序排列这些结果,无差别(对待所有结果)。而RSBE爬虫执行了一个排序系统。
由于早期的搜索算法做的链接分析不够多,而且缓存太少的整页内容,如果你不知道你要查内容的确切名称或非常确定你要查的内容,那么你很难查到你想要的结果。
Excite:
Excite是从项目Architext来到,Architext是1993年2月,有6个斯坦福的本科生发起的。他们的想法是通过统计分析词语的联系使得搜索的效率更高。他们不久以后,在1993年中,取得了资金支持并发布了他们的在网站上应用的软件。
1999年,一个叫@Home的广播提供商花65亿美元买下了Excite,并把它命名为Excite@Home。2001年10月Excite@Home提出破产申请。InfoSpace在破产程序下花1000万美元买下了Excite。
Web Directories:
VLib:
当Tim Berner-Lee开创了网络时他也创办了the Virtual Library,一个松散的联合的专题专家维护的相关专题链接列表。
EINet Galaxy
EINet Galaxy网络目录1994年1月诞生,它与现在的目录组织方式相似。它成功的最大原因是它不仅有web查找方式,还有Gopher何Telnet查找特征。1994年的网络容量其实并不要求一个网络目录,但其他的目录也跟随它接二连三的出现了。
Yahoo! Directory(雅虎目录)
1994年4月,David Filo和David Yang创办了Yahoo! Directory,作为他们最喜欢网页的一部分。随着他们链接数量的增长,他们必须重新组织变成可搜索的条目。使这个产品超过Wanderer的是他们对每个URL提供了一个人力编制说明。随着时间的增长,由于Yahoo! Directory增长的雅虎变成了一个包含商业收费的站点。随着时间增长,列出商业站点的比率增加。目前的一年开销是299美元。很多提供信息的站点都免费加到雅虎目录下。
Open Directory Project
1998年,Rich Skrenta和他朋友组成的一个小组创办了Open Directory Project项目,是一个任何人都可以下载并部分或全部使用的一个目录。ODP(或称DMOZ)是因特网上最大的目录,几乎全部是志愿的编辑在维护。Open Directory项目后来受挫,它的网站管理员们等待着被雅虎目录并掉。Netscape在1998年11月把Open Directory项目买下来了。同一个月的晚些时候,美国在线宣布将以45亿美元的价格收购Netscape公司的全部股份。
LII
Google提供图书管理员时事通讯,以帮助图书管理员和其他网站编辑,使信息更易于访问和更好的分类网站。第二个Google管理员时事通讯是由Librarians' Internet Index的执行官Karen G. Schneider发明的。LII是一个提供给图书管理员的高质量的目录。她的文章解释了当她和她的员工查找可信资源添加到LII时他们在找什么。大部分其他的目录,特别是那些有付费选项的项目,跟管理员选择有限目录查找相比质量更差。
Internet Public Library是另一个维护的很好的网站目录。
Business.com
由于维持一个目录是一件耗时的事情,而且一般而言,由于商业模型缺乏规模效应,使得目录的质量和大小会在得到了半打目录以后急剧下降。还有很多的小行业,垂直的,或面向本地的目录。例如Business.com,就是一个商业网站的目录。
Looksmart
Looksmart是1995年成立的。他们凭借频繁增加他们引用率的和雅虎目录竞争。2002年过渡成一个每次点击支付的供应商,对列出站点的每一次点击,收取点击费。虽然这让他们提供起来那些需要付费的列表给MSN之类的门户网站而从中获利,但这使得他们经营起来的信誉和忠诚死亡了。2003年,当微软宣布他们要丢弃Looksmart(这个合作伙伴)时,这也中断了他们的商业模式。
在2002年3月,Looksmart买了一个叫WiseNut的搜索引擎,但这没有带来牵引力。Looksmart同时还拥有一个垂直网站的文章列表,但由于相关性不大,LookSmart几乎失去了他们所有的动力。1998年,Looksamrt想通过花2千万美元收购非商业的Zeal目录来扩大它的目录,但在2006年3月28日,Looksmart关闭了Zeal目录,并希望用一个社区书签程序,Furl,来控制拥堵问题。
Search Engines vs Directories:(搜索引擎vs目录)
大部分的搜索引擎只有有限的编辑检测程序,但主流搜索引擎都用自动搜索算法处理相关性,这些算法会判断网络上链接的能力。事实上,像TrustRank一类的算法,对信任站点的网络图给予更多信任,而不需要搜索引擎做编辑检测。因此,一些更优雅的搜索引擎允许那些链接到其他站点的网页在编辑检测的时候给予关键投票环节。
和高自动化的搜索引擎不同,目录是手工编制分类的网站。目录花费更大也更耗时,因为缺乏规模性而且需要手工加入条目并定期检查所列出网站的质量。
大体上,目录一般用在专业垂直目录,即时新闻网站(比如博客),和社区书签站点(比如del.ici.ous)。此外,我提到的这三种发布格式也帮助提高了主流搜索引擎的相关度,这些都进一步减少了搜索引擎对目录的依赖。
WebCrawler:
华盛顿大学的Brian Prinkerton在1994年4月20日发布了WebCrawler。这是第一个索引整个页面的爬虫。随后它变得非常流行以致在白天都不能使用。最终,美国在线买下了WebCrawler并把它运行在他们的网络上。 到了1997年,Excite买下了WebCrawler,美国在线开始用Excite来维护他们的NetFinder。WebCrawler为随后的很多服务打开了一扇门。一年之内出现了Lycos,Infoseek和OpenText.
Lycos:
Lycos是下一代搜索的主要发展,它是1994年7月在卡内基梅隆大学设计的。Michale Mauldin是这个搜索引擎的主要负责人并仍然是Lycos有限公司的首席科学家。在1994年7月20日,Lycos发布了一个拥有54000个文件的目录。除了提供相关的检索排名, Lycos公司还提供了前缀匹配和词语近似功能。但Lycos的最大区别是他目录的完全大小。到1994年8月,Lycos识别了394000个文件。到1995年1月,这个目录包含了150万文件。到1996年11月,Lycos搜索了超过6千万个文件--比其他搜索引擎都多。在1994年10月,在Netscape搜索单词“surf”的列出的搜索引擎里,Lycos排名第一。
Infoseek:
Infoseek也是从1994年开始的,据称他们是1月成立的。他们并没有带来多少创新,但他们提供了一些附加功能,在1995年12月他们宣称Netscape把他们作为默认搜索,这给了他们很大的曝光度。Infoseek的一个流行功能是运行网络管理员实时为搜索索引提供页面。这是一个搜索垃圾邮件者的天堂。
AltaVista:
AltaVista在网络上的争论开始于同一个月。AltaVista为web场景买下了很多重要特征。他们有几乎无限的带宽(就当时而言),他们是第一个运行自然语言查询的,允许高级搜索技术并且允许用户在24小时之内添加或删除他们自己的URL。他们甚至允许入站链接检查。AltaVista还提供了许多搜索建议和高级搜索特性。
由于不好的管理,人们担心的结果开始出现,与门户相关的现象使得AltaVista在Inktomi和Google的越来越受欢迎中淡出了历史舞台。在2003年2月18日,Overture签署一个协议表示希望以8千万美元股票和6千万美元现金收购AltaVista。在雅虎买下了Overture后,他们把一些AltaVista的技术加入到雅虎搜索中,并偶尔将AltaVista作为测试平台。
Inktomi:
Inktomi公司1996年5月20日成立,他们的搜索引擎是Hotbot。两个Cal伯克利分校的人用他们的研究中得到的技术改进创造了Inktomi。Hotwire列出了这个站点,很快地,这个站点火起来。
在2001年10月,Danny Sullivan写了一篇名为Inktomi Spam Database Left Open To Public的文章,介绍了Inktomi是如何偶然的允许公众访问他们垃圾网站的数据库,当时那个数据库里有100万个URL。
虽然Inktomi开创了付费收录模式,但它离Overture的每次点击支付的拍卖模式的效率还差很多。给他们搜索结果许可的盈利仍然抵消不了他们的大规模开销。他们在创建一个可获利的商业模式的努力失败了,并在2003年12月把它以大约23.5千万美元或每股1.65美元的价格销售给雅虎。
Ask.com (Formerly Ask Jeeves):
在1997年4月,Ask Jeeves以一个自然语言搜索引擎的身份面世了。Ask Jeeves用人工编辑来处理每一个用户查询。Ask用了一段时间DirectHit,DirectHit以结果的流行度排序,但这种技术的核心算法很容易得到垃圾信息。2000年,Teoma搜索引擎问世了,它用Subject Specific Popularity的集群方式来组织站点,这是查找本地网络社区的另一种方式。在2001年,Ask Jeeves买下了Teoma用来代替他们所用的DirectHit搜索技术。
Jon Kleinberg的文章Authoritative sources in a hyperlinked environment [PDF]是一个介绍Teoma是怎么诞生的文章。Mike Grehan的Topic Distillation [PDF]解释了subject specific popularity是怎样工作的。
在2004年3月4日,Ask Jeeves同意以930万股基本股和期权以及15千万美元现金买下Interactive Search Holdings。在2005年3月21i日,Barry diller的IAC agreed to acquire Ask Jeeves文章中,IAC以18.5忆美元买下了很多著名站点,如Match.com, Ticketmaster.com, Citysearch.com. 并主推Ask。在2006年Ask Jeeves改名为Ask,同时他们把Teoma商标取消了。
AllTheWeb
AllTheWeb是一个1999年发布的搜索技术平台,这个平台展示了Fast的搜索技术。他们有一个有高级搜索功能的整洁的用户界面。但2003年2月23日,AllTheWeb被Overture以7千万美元的价格收购了。在雅虎买了Overture之后,他们把AllTheWeb的一些技术应用与了雅虎搜索,并偶尔使用AllTheWeb作为测试平台。
Meta Search Engines
大部分源数据搜索引擎从其他多种搜索引擎的结果里搜索,然后结合并对结果重新排序。这在搜索引擎在网络中搜索并不高效且每个引擎有自己的索引方式的时候是一个很有用的特征。因为搜索改善了元搜索引擎减少的需求。
Hotbot由Wired所有,它有时髦的颜色,快速的结果,和一个很酷的名字,但它在Lycos买下它并且不予重视之后不就就销声匿迹了。之后它重新以一个元搜索引擎的角色出现,不同与大部分的元搜索引擎,Hotbot一次仅在一个搜索引擎的结果上增加条目,但它允许使用者在流行的搜索引擎中选择。目前Infospace拥有的Dogpile,可能是现在市场上最流行的元搜索引擎,但像其他元搜索引擎一样,它的市场占有份额也很小。
元搜索引擎的一个大问题就是大部分元搜索引擎会混合点击付费的广告在他们的搜索结果里,对一些商业查询,70%或更多的结果是付费的结果。我也创造过Myriad Search,他是一个不含广告的免费的元搜索引擎。
Vertical Search
主流搜索引擎正在他们核心算法的搜索产品之外争取垂直搜索的内容和市场份额。例如,雅虎与MSN回答问题的服务,在上面,人们免费解答别人提出来的问题。Google有类似的产品,但要为他们的解答问题的工作付费。
Google,雅虎和MSN还在为谁是网络上默认的视频平台而争夺,这是一个垂直的市场,在这里,YouTube同样有着很重要的位置。
雅虎和微软在书籍搜索的领域联合起来,他们的产品叫Open Conten Alliance(开发内容联盟)。Google,在这个领域里独自奋斗,拥有一个Google Book search。
这三家主流搜索引擎都有新闻搜索的服务。雅虎有一些保费提供商让用户在新闻搜索结果里包含自己的内容。Google与AP及很多其他的新闻源合作将他们的新闻数据库扩展到超过200年以前。一家很有名的新闻服务网站Topic.net买了75%的所有权给三家最大的报业公司。成千的博客每日更新报道新闻,有一些还能与主流媒体竞争。如果没有新闻的足够选择,本地书签网站,例如Del.icio.us还经常更新流行条目。还有meme跟踪服务,例如Techmeme,跟踪在博客上流行的故事,还有类似Digg的站点,允许他们的读者为得到的信息投票增加其曝光度。
Google还有一个Scholar search program用来帮助开展研究工作。
在一些垂直搜索领域,例如购物艘艘,一些第三方的厂商也有重要的市场份额,这来自于他们的线下分发和品牌(比如,黄页公司),或者在各大主流搜索引擎下做比较和仲裁。
2005年11月15日,Google发布了一个叫Google Base的产品,它是一个你能想象到任何东西的数据库。用户可以上传物品和名称,描述,给它们合适的标签。从使用统计数据上,Google可以判断哪些垂直搜索产品他们应该开发和重视。他们相信拥有其他的垂直搜索产品能给他们的主要搜索产品带来市场。他们还认为,有针对性的衡量广告的相关搜索,可应用到其他场合,比如Google bought dMarc就是一个广播广告公司。雅虎同样用收购流行产品的方式来扩大它的触角,比如,买了一个相片分享站点 Flickr,和一个社区书签站点del.icio.us.
Search Engine Marketing(搜索引擎营销)
搜索引擎营销是通过搜索引擎进行的市场营销,通过有机搜索引擎优化,付费搜索引擎广告,付费收录程序来进行。
Paid Inclusion(付费收录)
就像之前提到的,很多网络目录都向商业站点收取一次性费用或年费。很多购物搜索引擎对放入他们数据库的站点按点击率收费。
如同大众搜索引擎一样,Inktomi使得付费收录模式流行起来。它们在2003年12月被雅虎收购。在雅虎放弃Google并开始自己的搜索技术研究之后,他们继续对列出的站点提供付费搜索程序。Yahoo Search Submit是唯一由大众搜索提供商服务的付费收录程序。Search Submit出售方式有按全年平均点击率出售和按每次点击出售两种方式。
Pay Per Click(每次点击付费)
每次点击付费广告允许搜索引擎以基于每次点击为单位的方式将目标买给广告商。典型的每次付费点击广告是以关键字为目标的,但在一些情况下,有些引擎也会以定位于本地,以行为定位,或运行厂商依据人气竞价。
在典型的每次点击付费广告拍卖会中,出价最高的竞价者会得到在关键字中排名第一的位置。一些搜索引擎,例如Google和微软,也会以网站连接速率作为价格的一项指标。这样能使他们的广告被点击的频率更高,而且使得广告更相关。创造有吸引力的广告并获得很高的点击率的商家将被允许少支付每次点击费用而获得流通。
Overture (Formerly GoTo)
Overturn, 付费搜索引擎的先驱,最早是1998年Bill Gross以GoTo为名发布的。他的想法是在流通带宽中套利,并把它们出售。John Battlelle的文章The Search有一个有趣的章节是关于Bill Gross和overture的诞生的。John同时把这个章节发布在了他的博客里。
“我想到它越多,我越觉得因特网的价值在于它的责任。”Gross告诉我,“变现的保证是付钱给媒体的模式。”
Gross知道在过热和贪婪的市场提供几乎无风险的点击,保证了GoTo将腾飞。之所以很容易可以断定GoTo成功了,是因为因特网的泡沫导致像ouroboros的饥荒一样对带宽的需求,这家公司的管理使得萧条来的更慢了,之有一个简单的原因:它是成功的。
虽然Overture疯狂的成功了,但有它两个主要的缺点使得它没有取代Google的市场地位。
目标品牌定位:Google使它自己成长成为搜索的公司。Bill Gross决定不让Overture变成一个搜索公司,因为他害怕这会使他要出让合作伙伴。当美国在线选择Google当它的合作伙伴的时候,尽管Google也在扩大自己的品牌,这也已经几乎是在为首演的搜索广告平台Overture钉在棺材。广告联播网(Ad Network)的效率:Google AdWords 将广告点击率加入到广告价格中,这保证了更高的相关性和广告的有效性。直到2006年9月,Overture平台(这时候已经是雅虎搜索营销)仍然没有改正这个问题。
这两个缺陷意味着Overture严重依赖他的两个分销伙伴--雅虎和微软。Overture买下了AltaVista和AllTheWeb想要赢回一些筹码,但最终他们被在2003年6月14日被雅虎以16.3亿美元收购了。
Google AdWords
Google AdWords是2000年发布的。最早的版本由于使用CPM模式收取广告费用而失败了,有些关键字要价太高而没有人负担得起,而另外一些由于要价太低而损失。在2002年2月,Google用类似Overture的模式和重新发布了AdWords,但仍然加入了广告点击率作为排序的一个根据。
Affiliate 和其他的一些网络娱乐商很快的投入到AdWords的阵营,因为它很好的定位和使得最终客户能够舒服的坐在家里,穿着内衣而网络娱乐商仍能盈利。
随着时间的增长,AdWords越来越流行,主流大众开始纷纷接受它。Google开始关闭AdWords的一些漏洞。比如,为消除噪音并保持广告的相关,他们禁止了一个网站做多重广告。随后,他们开始考虑页面载入质量并建立基于质量的最小要价。这一举措挤压了许多套利者和联盟用户的利润。
Google打算采用AdWords的可跟踪的广告定位并扩展到其他媒体。Google已经在印刷品和报纸广告上做了测试。Google允许广告商从内容网站上买下图像和视频的广告。在2006年1月17日,Gppgle宣布他们买下了dMarc广播公司,这家公司将帮助Google进行广播广告营销。
在2006年9月15日,Google与Intuit结盟,允许小型买卖在QuickBooks上用QuickBooks买AdWords。它的目标是使得更多的小商家使用AdWords,使本地广告更相关。
在2007年3月20日,Google宣布他们已经对创建一个分布式每次动作付费联盟广告联播网进行了beta测试。在2007年4月13日,Google宣布他们花31亿美元买下了DoubleClick
Google AdSense
2003年3月4日,Google发布了他们的内容导向广告网络。在2003年4月,Google买下了Applied Semantics,这家公司有CIRCA技术可以帮助他们大幅度改善广告的针对程度。Google采用了AdSense作为这个新的广告程序的名字。
AdSense允许大小网络发布商在他们的内容上自动加入相关广告。Google最初允许以不同形式加入文本广告,最终允许加入图片广告和视频广告。广告商可以选择他们的目标关键词和广告形式的目标市场。
为了让这个网络成长和更有效率,Google加入了一个链接,允许广告商用自己内容网站的账号注册AdWords,Google还允许广告客户购买广告定位到特定的网站,网页,或统计信息。定位到网站的广告以每千次展示价格为基础(CPM),在广告拍卖会上与关键字定位和网站定位广告竞争。
本文来自:http://www.yeeyan.com/articles/view/41036/12723
原文链接:http://www.searchenginehistory.com/
附录:搜索引擎大事记 (2001-2003年)编辑本段回目录
2004年
2月中,Yahoo正式推出全文搜索引擎。
2003年
2月底,Google开通内容定向广告(Content-Tageted Advertising)。
2月底,Overture宣布将推出内容关联广告(Contextual Advertising)服务。
2月底,Overture宣布收购AltaVista和Fast/AllTheWeb。
2002年
12月中,HotBot推出新版搜索引擎。相关内容>>
12月中,Google推出最新商品购物搜索引擎Froogle(测试版)。
11月20日, Inktomi正式发表了其升级后的搜索引擎产品——Web Search 9。
10月初,Yahoo对其默认搜索作出重大改进,将原默认的目录网站搜索改为网页搜索。
10月初,Yahoo与Google续约,继续采用Google引擎提供网页搜索服务。
9月,雅虎中国与百度签约,加入百度关键词竞价排名阵营。
6月底,雅虎中国(cn.yahoo.com)推出付费增值服务——关键词赞助网站。
6月17日,挪威搜索引擎Fast/AllTheWeb宣布数据库达到21亿,首次超过Google的20.7亿网页库。
5月底,Overture宣布与AltaVista续签一年合约。
5月下旬,新浪推出北京、香港、台湾、北美“两岸四地网站推广服务”。
5月2日,英国广播公司(BBC)推出采用Google技术的搜索引擎“BBCi Search”。
5月1日,Google取代Overture成为AOL的点击付费广告及搜索服务提供商。
4月1日,Teoma正式版推出。
4月1日,著名搜索引擎DirectHit被关闭。
3月12日,著名目录类搜索引擎Looksmart宣布以925万美元等值股票收购全文搜索引擎新秀WiseNut。
2月28日起,百度竞价排名前3位的网站将出现在搜狐缺省搜索结果最前列。
2月,Google推出Google Adwords广告业务。
1月,Ask Jeeves宣布将于今年晚些时候关闭DirectHit引擎。
1月29日,Overture宣布AOL将加入其竞价排名阵营。
1月,搜狐将普通网站登录费调整至300元/年。
1月,Northern Light停止向公众提供搜索服务,部分资产被软件开发商Divine公司收购。
2001年
12月28日,Yahoo再次调整登录收费标准,将原一次性$299元的费用调整为按年支付。
11月30日(美国当地时间),Excite@home(Excite搜索引擎母公司)停止宽带接入服务。
11月20日,百度搜索引擎宣布网易加入其竞价排名阵营。
11月15日至12月15日,举办了国内有史以来最大规模的搜索引擎知识大赛。
11月15日,Yahoo开始在其网站搜索结果页面显示来自Overture的PPC网站
11月,AltaVista增加网站收费登录项目。
10月上旬,焦点搜索推出收费“商业网站推广”服务。
10月8日(美国当地时间),著名“Pay-Per-Click”付费登录搜索引擎GoTo正式更名为Overture。
9月26日,搜狐全面实行收费网站登录。
9月20日,百度推出“竞价排名服务”。
9月5日,Wisenut结束测试,正式推出搜索引擎服务。
9月,百度从后台走向前台,开始提供公共搜索服务。
9月4日,LookSmart宣布与Ask Jeeves达成合作协议,将其Looklistings付费索引网站显示在Ask Jeeves的 Meta搜索结果中。
9月初,Yahoo将其Yahoo!Express收费索引服务项目价格由199美元调整至299美元。
8月中旬,Excite与GoTo达成付费搜索合作协议。
8月1日,LookSmart登录收费项目升级,费用标准上涨50%。
7月,NBCi正式将其自建目录索引关闭,并与GoTo全面合作。
7月,搜狐开始对商业网站登录实行收费。
6月,Teoma推出搜索引擎测试版,加入搜索引擎行业竞争。
4月,因财政原因,NBCi宣布暂停其目录索引登录服务。
搜索引擎营销发展历程(大事记) 编辑本段回目录
?搜索引擎营销的发展历程是随着搜索引擎这一互联网工具的发展而发展的,在搜索引擎营销发展历史中值得关注的一些重要事件包括:分类目录型搜索引擎的诞生;自动提交到搜索引擎的软件;基于网页HTML代码中META标签检索的搜索引擎;搜索引擎算法与网站链接广度;按照点击付费的搜索引擎关键词广告等。
??(1)1994年,Yahoo、Lycos等分类目录型搜索引擎的相继诞生,搜索引擎的网络营销价值逐渐体现出来,搜索引擎营销的思想也就是这时开始出现的。当时搜索引擎营销的任务就是将网站提交到主要的搜索引擎上。
??(2)1995年,自动提交到搜索引擎的软件诞生,网站管理员可以轻松地一次将网站提交到多个搜索引擎,但由于部分网站滥用这种软件,不断提交同一个网站或者同时提交同一网站中大量的网页以求网站总处于最新位置,或者占领搜索引擎收录网页的主要内容,因此这种软件的问题很快被搜索引擎发现,并且开始拒绝这种自动登录软件提交的信息。
??(3)1995-1996年,基于网页HTML代码中META标签检索的搜索引擎技术诞生,这种利用META标签改善在搜索引擎中排名的技术很快成为搜索引擎营销的重要方法。这就是搜索引擎优化方法的萌芽。同时也出现了一些利用META标签欺骗搜索引擎的做法,这种方式曾在一段时间内非常有效并且非常流行,成为当时搜索引擎营销的“核心技术”。这种状况也迫使搜索引擎的检索技术不断改进。
??(4)1997年,搜索引擎优化与排名自动检测软件问世,这使得网站管理员或网络营销人员可以检查网站搜索引擎优化设计的水平,并且了解被搜索引擎收录的情况,据此可以进一步制定针对性的搜索引擎营销策略。
??(5)1998年,“搜索引擎算法”开始关注网站之外的链接,与此同时,网站优化者也开始制造“网站链接广度”(link popularity)
??(6)2000年,出现按点击付费(Pay-per-click)的搜索引擎关键词广告模式。
??(7)2001年,部分分类目录(中文)开始收费登录,每个网站每年要交纳数百元到数千元不等的费用。
??(7)2003年,出现基于内容定位的搜索引擎广告(google AdSense)。
搜索引擎发展史编辑本段回目录
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。
与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。
然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!
随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类(注1),搜狐和新浪用的就是它的技术(注2)。因此从这个意义上说,它们是搜索引擎的搜索引擎。
(注1):百度已于2001年9月开始提供公共搜索服务。
(注1):搜狐二级网页搜索现已改为中搜的引擎,而新浪则已转用Google的搜索结果。
搜索引擎发展历史编辑本段回目录
1990年年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan’s World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。
1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile
1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。
1994年4月,Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。搜索效率明显提高。(Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务)
1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile)
Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务)
Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初第一个登台并不总是很重要。Infoseek友善的用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果)
1995年,一种新的搜索引擎形式出现了――元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
DEC的AltaVista(2001年夏季起部分网友需通过p-roxy访问,无p-roxy可用qbseach单选altavista搜索,只能显示第一页搜索结果)是一个迟到者,1995年12月才登场亮相(AltaVista Public Beta Press Release )。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavista最突出的优势是它的速度(搜索引擎9238:比较搞笑,设计altavista的目的,据说只是为了展示DEC Alpha芯片的强大运算能力)。 而Altavista的另一些新功能,则永远改变了搜索引擎的定义。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索Newsgroups(新闻组)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
然后到来的是HotBot。1995年9月26日,加州伯克利分校CS助教Eric Brewer、博士生Paul Gauthier创立了Inktomi(UC Berkeley Announces Inktomi),1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。(Hotbot曾是随后几年最受欢迎的搜索引擎之一,后被Lycos收购)
Northernlight 公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。(2002年1月16日,Northernlight公共搜索引擎关闭,随后被divine收购,但在Nlresearch,选中"World Wide Web only",仍可使用Northernlight搜索引擎)
1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。
Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。
在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很高,推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。
Teoma 起源于1998年Rutgers大学的一个项目。Apostolos Gerasoulis教授带领华裔Tao Yang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式搜索引擎Ask Jeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出彩的功能:支持类似自动分类的Refine;同时提供专业链接目录的Resources。
Wisenut 由韩裔Yeogirl Yun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。wisenut也有两个出彩的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。
Gigablast 由前Infoseek工程师Matt Wells创立,2002年3月展示pre-beta版,2002年7月21日发布Beta版。Gigablast的数据库目前仍偏小,但也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索(注:这个spammers的肉包子功能暂已关闭)。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,曾经是最好的中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
北大天网 是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务。2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
Baidu 2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎。Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,可能是最大的的中文数据库。Baidu搜索引擎的其它特色包括:网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。