第二章相关关键技术
第一节聚焦爬虫相关技术
搜索引擎是从互联网中获取有效信息的一种渠道,是互联网中三;大基础应用之一。网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成,搜索引擎主要通过它从互联网上下载网页资源。聚焦爬虫是通过一定的网页分析算法过滤与主题无关的链接,仅保留有用的链接并将其放入等待抓取的URL队列,之后再根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到满足系统的判定条件。
一、通用爬虫
通用网络爬虫是基于整个Web的信息釆集(Scalable Web Crawler),爬行对象从一些种子URL扩展到整个Web。通用网络爬虫的结构大致可以分为以下几个部分:页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合。为提高工作效率,通用网络爬虫会采取一定的爬行策略。通用网络爬虫的爬行范围和采集信息的数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低,同时由于待刷新的页面太多,通常采用并行工作方式,但需要较长时间才能刷新一次页面。通用网络爬虫适用于为搜索引擎搜索广泛的主题,虽然存在一定缺陷,但有较强的应用价值,主要为门户站点搜索引擎和大型Web服务提供商采集数据。
二、聚焦爬虫
聚焦网络爬虫(Focused Crawler),又称主题网络爬虫(Topical Crawler),是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。聚焦网络爬虫只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,还可以很好地满足一些特定人群对特定领域信息的需求。相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:
(1)对抓取目标的描述或定义。(2)对网页或数据的分析与过滤。(3)对URL的搜索策略。对抓取目标的描述和定义是决定网页分析算法与URL搜索策略制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。而评价页面内容和链接的重要性是其爬行策略实现的关键,不同的方法计算出的重要性不同导致链接的访问顺序也不同。Soumen Chakrabarti[2]开发了一个典型的聚焦网络爬虫。该爬虫对主题的定义是一组具有相同主题的网页,包含两大模块:分类器和净化器。分类器用来计算所爬行的页面与主题的相关度,确定是否与主题相关;净化器用来识别通过较少链接连接到大量相关页面的中心页面。从逻辑上来讲,整个互联网可以看作一个有向图G = (V,E)。资源包及网页等的集合相当于图的节点集V,资源包与页面之间、网页与网页之间的超链接相当于有向边集E,起始阶段,爬虫位于某个节点。爬虫在爬行的过程中,相当于有向图的遍历过程。
第二章相关关键技术..............................9
第一节聚焦爬虫相关技术............................9
第二节网页分类............................9
第三节网页关键信息提取............................10
第四节网页抓取策略............................12
第三章基于向量空间模型的算法............................17
第一节向量空间模型............................17
第二节、与算法有关的相关............................19
第三节算法的体系结构............................20
第四节算法的模块化实现............................21
第四章相关算法的实现............................23
第一节实现百度搜索中提取相关URL............................23
第二节聚焦搜索准备............................27
第三节聚焦搜索实现............................28
第四节对抓取结果的统计分析............................33
第五章总结与展望
随着互联网的飞速发展,网络中大量信息的传播使得人们对于各种事件的了解及关注度均明显提升,人们对于各种新闻事件的参与度大幅增加。而民族问题一直影响着国家的稳定闭结,近年来在互联网的快速发展下民族问题逐渐由平面媒体转移至网络媒体,而由于互联网中信息传播自身的特点,对民族问题在互联网中传播的监察等显得至关重要。由于海量的网络资源使得人们越来越依赖于搜索引擎,而搜索引擎在整合网络资源等方面是其他工具所无法比拟的。但由于搜索引擎在搜索结果中并不能完全与用户的需求匹配,且给出的搜索信息量在某些情况下明显不足,因此本文在已有搜索引擎的基础上通过聚焦爬虫对搜索信息提出相应的算法,并结合实际条件,对算法进行简单实现。
本文首先介绍相关关键技术。对通用爬虫和聚焦爬虫进行简要描述,介绍了常见的文本分类算法:支持向量机、NB、KNN。互联网中信息主要以HIML页面形式出现,而HTML具有明显的分类特点。由于商业等因素使得网页源代码中包含着大量的对一般用户来讲无实际意义的广告、导航等信息,因此对网页关、键信息提取需要加强对网页源码中自身特点的研宄。而由于网络的网状结构,抓取时需要考虑网页之间的链接顺序,因此本文介绍了两种常用旳网页抓取策略。基于爬虫自身搜索的片面性,本文在百度搜索引擎基础上进行相关算法的设计。网页代码中大量的信息与搜索信息关联度很低,使得优化网页代码搜索机制显得极其重要,由于搜索的目的性较强,使得搜索的要求,如对特定事件中网页的共同特点,具有明显的结构化,因此选用空间向量对网页代码进行简化,并基于向量空间模型对问题进行算法设计。