比较务实的一本书,也是我2014年推荐的第一本书《这就是搜索引擎:核心技术详解》,这本书陆陆续续看了大半年,受益匪浅。虽说是核心技术详解,实际上这并不是给专业人员看的书,站长朋友看了后会对搜索引擎多了一份理性,少一分谩骂。本书看起来很轻松。
全书通俗易懂,内容广而不深,对搜索引擎的技术做了很全面的介绍,包括搜索引擎整体框架、爬虫、抓取策略、暗网爬取、分布式爬虫等内容。
搜索引擎作为互联网用户的上网入口,对流量的引导与分流至关重要,甚至可以说起了决定性的作用。1991年,Tim Berners-Lee将超文本的概念引入互联网,同时推出了WWW雏形、配套的HTTP传输协议及相应的Web服务器技术。1993年,第一个图形浏览器mosaic诞生,网页浏览客户端趋于成熟,这些技术与产品为互联网的快速普及和发展做好了技术准备,互联网用户开始从最初的军队和高校等科研机构普及到普通的个人用户,为接下来互联网的商业化大规模发展奠定了基础。
互联网信息量在过去15年获得了爆炸性增长,信息过载的问题目前来说非常严重,随着互联网个性化的发展趋势逐步展现,普通用户发布信息的成本越来越低,这个问题将会更加严重。这是搜索引擎相关引用越来越重要的一个基础背景。搜索是目前解决信息过载的相对有效的方式,在没有有效的替代解决方式出来之前,搜索引擎作为互联网网站和应用的入口及处于行业制高点的重要地位只会逐步加强。
搜索引擎发展史:分类目录(网址导航)是史前时代、文本检索是第一代、链接分析是第二代、以用户中心是第三代,
搜索引擎的3个目标:更全、更快、更准。
搜索引擎的3个核心问题:1.用户真正的需求是什么,2.哪些信息是和用户需求是真正相关的,3.哪些信息是用户可以信赖的。
搜索引擎的架构,一张图可以说明情况:
除了上述的子功能模块,“反作弊”模块也日益重要。
互联网页面划分为五个部分:1.已下载网页集合、2.已过期网页集合、3.待下载网页集合、4.可知网页集合、5.不可知网页集合。
网络爬虫分为:批量性爬虫、增量型爬虫、垂直型爬虫。
爬虫抓取的策略:1.宽度优先遍历、2.非完全PageRank、3.OPIC(Online Page Importantance Computation)、4.大站优先。
网页更新策略:1.历史参考策略、2.用户体验策略、3.聚类抽样策略。
写在最后:
结合上面的信息我们就能大致明白了:爬虫分很多种,爬虫来了不一定抓取的原因就是这里。另外爬虫是否抓取(重新抓取)你的网页也有很多种参考因素,我们通常所以的保证网站持续更新就是历史参考策略了。本文我把网页和爬虫的部分都罗列了出来,有兴趣的朋友可以买书来看。
很多时候,你问的答案就在这里,如果你不细读的话!
书名:《这就是搜索引擎:核心技术详解》
作者:张俊林
出版社:电子工业出版社
出版日期: 2012年1月1日
平装: 300页