爬虫框架的安装pyspider和Scrapy

2024-03-05 12:16:06

pyspider是国人binux编写的强大的网络爬虫框架，它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器，同时支持多种数据库后端、多种消息队列，另外还支持JavaScript渲染页面的爬取，使用起来非常方便，

准备工作pyspider是支持JavaScript渲染的，而这个过程是依赖于PhantomJS的，所以还需要安装PhantomJS

pip安装

pip3 install pyspider

验证安装

安装完成之后，可以直接在命令行下启动pyspider：

pyspider all

这时pyspider的Web服务就会在本地5000端口运行。直接在浏览器中打开http//ocalhost：5000/，即可进入pyspider的WebUI管理页面，

报错

pip3 install pycurl

=====================================================================

Scrapy的安装

Scrapy是一个十分强大的爬虫框架，依赖的库比较多，至少需要依赖的库有Twisted 14.0，lxml 3.4和pyOpenSSL 0.14，在不同的平台环境下，它所依赖的库也各不相同，所以在安装之前，最好确保把一些基本库安装好。

在Ubuntu，Debian和Deepin平台下，首先确保一些依赖库已经安装，运行如下命令：

sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

然后利用pip安装Scrapy即可：

pip3 install Scrapy

验证安装

安装之后，在命令行下输入

scrapy