基于Java的开源爬虫框架WebCollector的使用

2022-10-23 15:01:16

　　一、WebCollector介绍

　　WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。

　　WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。

　　二、WebCollector使用

　　1.下载地址：http://crawlscript.github.io/WebCollector/下载到CrawlScript-WebCollector-169931a.zip，解压后在webcollector-2.73-alpha-bin.zip下可以得到所有需要的jar包。

　　2.在Eclipse中新建项目并且将jar包导入项目Build Path即可

码农公寓