文档库 最新最全的文档下载
当前位置:文档库 › 学习资源爬虫系统设计与实现

学习资源爬虫系统设计与实现

龙源期刊网 https://www.wendangku.net/doc/1016527119.html,

学习资源爬虫系统设计与实现

作者:胡鹏

来源:《软件导刊》2017年第04期

摘要:互联网是信息的载体,随着信息量的迅速增长,给用户检索获取需要的互联网学习资源增加了难度和时间。因此,学习资源爬虫是亟待研究与解决的问题。实现学习资源爬虫系统的关键为:首先界定互联网学习资源的概念、类型、格式形态,然后设计学习资源爬虫结构以及抓取、解析、去重、下载功能,最后根据系统开发环境实现爬虫结果。借助webdriver、Firfox浏览器并结合反网络爬虫策略,解决动态网站脚本与服务器异步交互时的数据丢失问题,进行完整、自动、高效的批量内容下载,优化学习资源获取的准确率与效率,以获取更有价值的学习资源。

关键词:网络爬虫;Web网页;学习资源

中图分类号:TP319

文献标识码:A

文章编号:16727800(2017)004011103

0引言

随着信息技术的发展,互联网信息量呈指数级爆炸性增长[1],信息淹没在浩瀚如海的互

联网数据中。用户要从海量、异构、半异构、动态数据中快速获取有价值的学习资源是非常困难的。网络中学习资源数据量庞大,百度、Google检索也仅收录了页面的1/3,基于汉语自身的复杂性及特点,检索获取有价值的学习资源效率低、花费时间长[2]。为此,设计并实现了

一个学习资源爬虫系统,使学习资源检索能快速、准确地达到预期目标。首先对学习资源的概念、类型、格式作一定阐述与界定。学习资源是指学习、教育被应用、参考,并以数字化信息加载的一切对象;学习资源类型是指试题、试卷、案例、问题解答、媒体素材、网络课程、网络课件;学习资源格式是指HTML、TXT、Word、PPT、PDF、Excel格式的文本或文档。

1系统总体设计

聚焦网络爬虫(Web Crawler)也称为主题网络蜘蛛,是一个自动下载网页的计算机程序。设置初始的URL(Uniform Resource Location)队列序列化开始爬取,解析原URL指向的网页并提取新的URL链接与页面信息,提取过程中对网页信息、文档文本进行过滤,剔除重复、不符合要求的URL及文本文档,下载有关主题信息储入数据库,并且不断遍历整个过程,直至程序报错或达到系统的预定规则而停止[3]。本系统设计学习资源爬虫结构如图1所示,根据系统的爬虫结构,其功能模块主要包括:网页抓取、网页解析、内容去重、内容下载。系统的功能模块其学习资源爬虫流程如图2所示。

相关文档