爬虫框架的安装pyspider和Scrapy

pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,另外还支持JavaScript渲染页面的爬取,使用起来非常方便,

准备工作pyspider是支持JavaScript渲染的,而这个过程是依赖于PhantomJS的,所以还需要安装PhantomJS

pip安装

pip3 install pyspider

验证安装

安装完成之后,可以直接在命令行下启动pyspider:

pyspider all

这时pyspider的Web服务就会在本地5000端口运行。直接在浏览器中打开http//ocalhost:5000/,即可进入pyspider的WebUI管理页面,

报错

pip3 install pycurl

=====================================================================

Scrapy的安装

Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted 14.0,lxml 3.4和pyOpenSSL 0.14,在不同的平台环境下,它所依赖的库也各不相同,所以在安装之前,最好确保把一些基本库安装好。

在Ubuntu,Debian和Deepin平台下,首先确保一些依赖库已经安装,运行如下命令:

sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

然后利用pip安装Scrapy即可:

pip3 install Scrapy

验证安装

安装之后,在命令行下输入

scrapy
上一篇:centos没有pip3命令


下一篇:卸载Ubuntu中带的Python3.5.2并重装