1. 引言
项目背景
在互联网络的时代,信息如同大海般没有边际。甚至我们获取信息的方法已经发生改变:从传统的翻书查字典,继而变成通过搜索引擎进行检索。我们从信息匮乏的时代一下子走到了信息极大丰富今天。
在今天,困扰我们的问题不是信息太少,而是太多,多得让你无从分辨,无从选择。因此,提供一个能够自动在互联网上抓取数据,并自动分拣、分析的工具有非常重要的意义。
我们通过传统的搜索引擎所获得的信息,通常是通过网页的形式所展现的,这样的信息人工阅读起来自然亲切,但计算机却很难进行加工和再利用。而且检索到的信息量太大,我们很难在大量的检索结果中抽取出我们最需要的信息。
本方案中所涉及的数据聚合系统正是由此而生。该系统根据一定的规则,在指定的网站中进行信息抓取,并将抓取到的结果分析、整理后保存在结构化数据库中,为数据的再次利用提供准备。
中华英才网是著名的大型招聘类网站。为了对招聘市场的整体容量进行全面、细致了解,帮助中华英才网全面了解其他竞争对手的情况,为市场人员提供潜在的客户信息,我们特提供该解决方案。
任务和目的
杰软公司和中华英才网合作开发数据自动聚合系统,通过该系统从互联网上获取开放的信息资源,并对信息进行分析、处理和再加工,为中华英才网的市场营销部门提供准确的市场信息资源。
2. 方案设计原则
在我们进行系统方案设计时充分考虑到了如下两个原则,并将始终贯穿于设计和开发过程中:
系统的准确性
该系统需要从互联网络这个巨大的信息海洋里获取信息,如何保证其所抓取的信息的准确性、有效性,是评价整个系统价值的关键因素。因此,我们除了需要对抓取的信息进行分拣、分析外,当目标网站的内容、格式发生变化时,能够智能感知,并及时的通报、调整也是确保系统准确性地重要手段。
系统的灵活性
尽管该系统是针对少数用户提供服务的、对固定站点进行监测的内部系统,但仍然需要具备一定的灵活性和较强的可扩展性。
因为目标站点的结构、层次、格式是不断变化的;而且本系统需要抓取的目标站点也在不断的调整;因此该系统必须能够适应这种变化,在抓取的目标发生变化时,系统能够通过简单的设置或调整就能够继续完成数据聚合任务。
