当前位置: 网学 > 网学资源大全 > 计算机 > 正文

基于Nutch的搜索引擎实现及中文扩展

来源:Http://myeducs.cn 联系QQ:点击这里给我发消息 作者: admin 发布时间: 13/09/05
【网学提醒】:本文主要为网上学习者提供基于Nutch的搜索引擎实现及中文扩展,希望对需要基于Nutch的搜索引擎实现及中文扩展网友有所帮助,学习一下吧!

资料包括: 论文(41页19374字) 开题报告 
说明:

摘 要:搜索引擎是为满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针,是沟通用户与网络信息的桥梁。然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种搜索需求,尽管Web搜索是漫游Internet的基本要求, 并且现有web搜索引擎的数目却在下降。 这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。于是强有力的搜索工具成为这些网民们的渴盼。作为Apache开源子项目,Nutch 提供完整的搜索引擎框架,在对全文进行索引的时候,索引部分采用了开源工具包Lucene进行全文索引。通过对Nutch的二次开发,我们可以利用它强大的网络资源采集功能对网络资源进行采集,并加工进入本地库,最后让用户直接面对有效的信息。
本文重点讨论搜索引擎原理,基于Nutch的搜索引擎的实现架构,同时网页抓取过程做了深入的研究和分析;最后,对在早期Nutch的版本的基础上如何更好的支持中文,实现中文分词搜索给出问题的解决方案,并对基于Nutch的搜索引擎的应用进行了讨论。

关键词:搜索引擎,抓取器,Nutch,中文分词

Abstract :Search engine is the internet tool meeting demands of people while surfing on the internet and searching the information. It is a Internet Information navigation and bridge between internet user and information. However, with the sharply increase of the net content and the surprisingly change of the Synchronized forms of content, search engine can not satisfy increasingly critical user’s all kinds of search demands, although Web search is the foundation of the internet Roaming ,the existing number of search engine is down.This phenomenon can easily became one company almost monopolized all web search for its commercial gain. Therefore ,a strong and useful and effective search tool rise to the hope focus of internet user.Nutch is such search engine, when Nutch aims to text indexing, it uses the revenue Lucene toolkit for full-text indexing. Through the second Nutch development we can make use of its powerful internet resource Collection Function to collect the resource we need, then put the processed information into local database, finally, user can directly face effective information.
In this paper, we emphasize on the implementation architecture of the Nutch, Search engine principle,webpage crawling process. Excepting the in-depth research and analysis about above, we also give the solution of how to support Chinese and Chinese segmentation on the basis of earlier versions. Finally, a discussion about the application based on Nutch is given.

Key words:Search engine, crawler, Nutch, Chinese segmentation

1绪论
1.1 课题背景
互联网发展的今天,一方面离不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点,联网被普及前,人们查阅资料第一想到的便是拥有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查到 想要的各类信息,这在互联网没有被普及之前,还都仅是一个梦而已,但如今这一切已成为了可能。而帮助你通过整个互联网快速查找到目标信息的就是越来越被重视的搜索引擎。络上已经有很多关于搜索引擎方面的报道。
目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮。
越来越多的公司都希望在搜索引擎这座金矿中挖到金子,其中许多人会选择拥有自己的搜索引擎。国内著名搜索引擎公司百度总裁李彦宏说:搜索引擎不是人人都能做的领域,进入的门槛比较高。现有web搜索引擎的数目在下降. 这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。
Nutch 正是在这种环境中诞生,它是一个刚刚诞生开放源代码(open-source)的web搜索引擎完整框架,作为apache旗下的一个开源项目已经有两年的历史。基于nutch开发者可以建立自己内部网的搜索引擎,也可以针对整个网络建立搜索引擎。相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明,更值得大家信赖.。现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置,除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序。与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果。 Nutch将尽自己最大的努力为用户提供最好的搜索结果。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎.与现有的搜索引擎相比,nutch在索引为了完成这一宏伟的目标, 必须能够做到:每个月取几十亿网页,为这些网页维护一个索引,对索引文件进行每秒上千次的搜索,提供高质量的搜索结果,以最小的成本运作。

目录:
1绪论1
1.1 课题背景 1
1.2 搜索引擎的现状2
1.2.1搜索引擎的发展历史2
1.2.2搜索引擎的分类3
1.2.3当前主流搜索引擎简介4
1.3 论文组织结构5
2搜索引擎基本组成及数据结构6
2.1搜索引擎基本组成及工作流程6
2.1.1基本组成6
2.1.2工作流程6
2.2 存储结构8
2.2.1页面存储库8
2.2.2词典库8
2.2.3 Hits列表9
2.3 索引结构10
2.3.1文档索引库10
2.3.2前向索引表10
2.3.3后向索引表11
3基于Nutch的搜索引擎实现的关键技术11
3.1网页抓取技术研究与设计11
3.1.1抓取技术的协议分析11
3.1.2通信协议12
3.1.3 HTML解析13
3.2 网页抓取方法13
4 基于Nutch实现架构16
4.1 基于Nutch的搜索引擎开发环境和体系结构16
4.1.1 基于Nutch的搜索引擎的开发环境16
4.1.2基于 Nutch的搜索引擎的体系结构16
4.2 基于Nutch的搜索引擎的抓取过程运行20
4.3 搜索结果展示22
5 Nutch中文扩展设计与实现23
5.1中文分词和搜索引擎23
5.2 中文分词算法23
5.2.1 基于字符串匹配的分词算法24
5.2.2基于理解的分词方法25
5.2.3基于统计的分词方法25
5.3 中文分词难点26
5.4 Nutch分析27
5.5 Nutch中文搜索28
5.5.1 Nutch中文分词28
5.5.2 JavaCC分析29
5.5.3利用JavaCC构造中文分析模块31
5.6小结33
结论33
总结33
展望33
致谢34
参考文献34
参考文献:
李志蜀,李果.中文搜索引擎的原理剖析及开发实现技术[J].计算机应用研究,2001,18(11):96-99
印鉴,陈忆群,张钢.搜索引擎技术研究与发展[J].计算机工程,2005,(14)
李伟超,王兰敬,论搜索引擎的工作机制合发展趋势[J].现代情报,2002(12)
陈春阳.如何利用网络搜索引擎检索网络信息资源[J].兰州工业高等专科学校学 报,2003,10(1):44-48
.中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.com.cn CNNIC,2003—07—04
周涛.中文搜索引擎[J].图书馆理论与实践,2000,(3):52-53
赵红.搜索引擎的智能化与网络信息资源的检索研究[J].现代图书情报技术,2003,(5):51-54
中文全文检索网http://www.fullsearcher.com中文搜索引擎史记
Danny Sullivan. Fifth Annual Search Engine Meeting Report.boston,MA,Apr.2000
Jeff Heaton. Programming Spiders, Bots, Aggregators in Java [M] Sybex, 2002
R.Fielding, J.Geetys, J.Mogul, H.Frystyk, L.Masinter, P.Leach,T.Berners-Lee Hypertext Transfer Protocol—HTTP/1.1 Network Working Grou0p(RFC1866),1999
T.Berners-Lee, D.Connolly. Hypertext Markup Language – 2.0, Network Working Group(RFC1866),1995
The Web Robots Pages: http://www.robotstxt.org/;we/robots.html
中文搜索引擎技术揭密:中文分词http://www.fullseacher.com
[15] Luence 1.4.3 API .Apache Software Foundation, 2004
[16] Mehmet S, Aktas. Using Hyperlink Features to Personalize Web Search. Indiana University,2005
[17] Bamshad Mobasher. Automatic Personalization Based on Web Usage Mining. DePaul University, Chicago, 2006
[18] Richard K. Belew. Finding Out About. Cambrige Univ. Press,2000
[19] Raymond Kosals, Hendrik Blockeel. Web Mining Research: A Survey. ACM SIGKDD, July 2000
[20]黄凯.自动分词技术及其在信息检索中应用的研究[J].现代图书情报技术,2001,(3)

作者点评:
本文虽然分析了搜索引擎的基本原理,实现了基于Nutch的搜索引擎,但还存在许多不足,理论研究还缺乏创新。Nutch构建的网络蜘蛛利用队列和多线程机制,具有很高的效率,可以和商业搜索引擎相媲美。在索引部分,Nutch和Luence完全兼容 ,Nutch原本不支持中文分词,经过中文扩展的研究和分析,理论上可以很好的支持了中文的搜索,但是在索引时仍然经常报错,主要是索引部分借用了Luence软件包中的一个HTML解析器,这个解析器只支持HTML的一个子集,总体说来,离中文分词实际应用还有很大的差距。在搜索排序方面也有很大提升的空间。经过本文的撰写,对搜索引擎的基本原理和整体框架有了较为全面的认识。由于搜索引擎是一个非常庞大的系统,它的每个方面都有大量的文献进行论述和研究。本文从框架结构入手,对基于Nutch的搜索引擎的实现进行研究,在论文的撰写过程中对搜索引擎未来的发展方向提出了自己的一点看法以及一些可能实现的构思。
当前的搜索引擎搜索结果过于单一,笼统,对于相同的搜索关键词所有用户将会得到完全相同的搜索结果,并没有对搜索用户进行细分。个性化和智能化是搜索引擎的未来发展方向。
  • 上一篇资讯: 基于.NET的智能客户端研究与实现
  • 下一篇资讯: 桂林人口管理网站
  • 相关资讯

    网学推荐

    免费论文

    原创论文

    文章排行榜

    设为首页 | 加入收藏 | 论文首页 | 论文专题 | 设计下载 | 网学软件 | 论文模板 | 论文资源 | 程序设计 | 关于网学 | 站内搜索 | 网学留言 | 友情链接 | 资料中心
    版权所有 QQ:3710167 邮箱:3710167@qq.com 网学网 [Myeducs.cn] 您电脑的分辨率是 像素
    Copyright 2008-2015 myeducs.Cn www.myeducs.Cn All Rights Reserved 湘ICP备09003080号