从今天开始将会做一个论文推荐系列,如果大家搜索不到可以给我留邮箱索取。
《Building a Distributed Full-Text Index for the Web》,本文的四位作者Sergey Melnik Sriram Raghavan Beverly Yang Hector Garcia-Molina
推荐理由:
工程价值 5星
学术价值 4星
可读性 5星
文中对搜索引擎架构进行了深入浅出的分析。其中比较精华包括了
(1)在索引的流水线的计算中,loading,processing,flushing三个步骤,N条流水线,的实现方案中,选择流水线Buffer的方法,通俗点说就是一次load多少内容,才能让流水线内部各阶段平衡。并给出了流水线和非流水线的效果差异,非流水线比流水线慢30-40%。
(2)在索引构造上提出了Full list,Single payload和Mixed list三种形式,特别对Mixed list进行了阐述,其中很多基本思想应用在目前的搜索引擎中,例如提到的Zig-zag joins,可以避免全部倒排表求交,其实已经是skipped list,只是因为Mixed索引方法自然地将大词的倒排表进行了切割,以便于形成skip。
(3)索引的分布,全局统计信息的获取,事实上,全局统计信息的获得不不要这么麻烦,如果仅仅从query匹配的角度,在分词的过程中已经知道query中word的大致文档频率,在搜索结果中给出的值,也没有必要那么精确,因此统计信息的精确获得只有学术意义。
这篇论文堪称经典,特别是实验的方法,和实验的结论都非常漂亮,堪称论文写作典范。在《走进搜索引擎》中引用了这篇文章的部分内容和结论。
下载地址:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.6826&rep=rep1&type=pdf
分享到:
相关推荐
搜索引擎开发毕业论文参考,有需要的朋友可以参考进行编写
搜索引擎毕业论文
关于搜索引擎研究优化的相关论文,大部分知网上得来
绝对原创 2007年我为别人写的毕业论文
1、基于Lucene的Web搜索引擎实现 2、基于MapReduce的分布式智能搜索引擎框架研究 3、基于Nutch的垂直搜索引擎的分析与实现
用java,struts,hibernate,spring等知识开发的搜索引擎,这是一个做好可以运行的毕业论文。
java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+数据库).zip java毕业设计——搜索引擎的设计与实现(论文+答辩PPT+源代码+...
这是李彦宏当初发表的关于搜索引擎的论文,论文中初步论证了他的超级链接思想,很值得大家学习
Scrapy-Redis分布式爬虫与搜索网站构建-搜索引擎论文-图书档案学论文.docxScrapy-Redis分布式爬虫与搜索网站构建-搜索引擎论文-图书档案学论文.docxScrapy-Redis分布式爬虫与搜索网站构建-搜索引擎论文-图书档案学...
基于DHT的P2P搜索引擎的研究(硕士论文) 基于DHT的P2P搜索引擎的研究(硕士论文)
作为一种重要的信息资源组织与控制工具,搜索引擎已成为人们上网必不可少的工具,并逐渐改变着人们的生活。 本文简述了搜索引擎定义及搜索引擎的发展史。着重阐述了搜索引擎的工作原理,指出了搜索引擎体系结构的四大...
这是几篇关于中文搜索引擎的中文论文,希望对大家有一定的帮助,其中有两篇硕士论文。
搜索引擎营销价值浅析的演讲稿,2010年刚做好的,答辩的时候还可以,希望帮助大家!
09年全国搜索引擎会议论文集,包括了数据库及索引查询部分的最新研究成果
详细介绍了利用heritrix和luncene两大开源软件搭建垂直搜索引擎平台,是很好的参考文献。
Java搜索引擎源码+论文 C/S 搜索引擎
搜索引擎(答辩PPT) 搜索引擎(答辩PPT) 搜索引擎(答辩PPT)
搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎概述搜索引擎...
整体项目为聚焦搜索引擎的设计,本论文的主要内容是针对聚焦搜索引擎查询系统的设计,即引擎服务器这块。...