当前位置：文档库 › 学习资源爬虫系统设计与实现

学习资源爬虫系统设计与实现

龙源期刊网 https://www.wendangku.net/doc/1016527119.html,

学习资源爬虫系统设计与实现

作者：胡鹏

来源：《软件导刊》2017年第04期

摘要：互联网是信息的载体，随着信息量的迅速增长，给用户检索获取需要的互联网学习资源增加了难度和时间。因此，学习资源爬虫是亟待研究与解决的问题。实现学习资源爬虫系统的关键为：首先界定互联网学习资源的概念、类型、格式形态，然后设计学习资源爬虫结构以及抓取、解析、去重、下载功能，最后根据系统开发环境实现爬虫结果。借助webdriver、Firfox浏览器并结合反网络爬虫策略，解决动态网站脚本与服务器异步交互时的数据丢失问题，进行完整、自动、高效的批量内容下载，优化学习资源获取的准确率与效率，以获取更有价值的学习资源。

关键词：网络爬虫；Web网页；学习资源

中图分类号：TP319

文献标识码：A

文章编号：16727800（2017）004011103

0引言

随着信息技术的发展，互联网信息量呈指数级爆炸性增长[1]，信息淹没在浩瀚如海的互

联网数据中。用户要从海量、异构、半异构、动态数据中快速获取有价值的学习资源是非常困难的。网络中学习资源数据量庞大，百度、Google检索也仅收录了页面的1/3，基于汉语自身的复杂性及特点，检索获取有价值的学习资源效率低、花费时间长[2]。为此，设计并实现了

一个学习资源爬虫系统，使学习资源检索能快速、准确地达到预期目标。首先对学习资源的概念、类型、格式作一定阐述与界定。学习资源是指学习、教育被应用、参考，并以数字化信息加载的一切对象；学习资源类型是指试题、试卷、案例、问题解答、媒体素材、网络课程、网络课件；学习资源格式是指HTML、TXT、Word、PPT、PDF、Excel格式的文本或文档。

1系统总体设计

聚焦网络爬虫（Web Crawler）也称为主题网络蜘蛛，是一个自动下载网页的计算机程序。设置初始的URL（Uniform Resource Location）队列序列化开始爬取，解析原URL指向的网页并提取新的URL链接与页面信息，提取过程中对网页信息、文档文本进行过滤，剔除重复、不符合要求的URL及文本文档，下载有关主题信息储入数据库，并且不断遍历整个过程，直至程序报错或达到系统的预定规则而停止[3]。本系统设计学习资源爬虫结构如图1所示，根据系统的爬虫结构，其功能模块主要包括：网页抓取、网页解析、内容去重、内容下载。系统的功能模块其学习资源爬虫流程如图2所示。