Go语言之高级篇Beego框架之爬虫项目实战

一、爬虫项目

 1、爬虫基础

a、网页上面会有相同的数据

Go语言之高级篇Beego框架之爬虫项目实战

b、去重处理

布隆过滤器
哈希存储

c、标签匹配:

正则表达式
beautiful soup或lxml这种标签提取库

d、动态内容

phantomjs

selenium

 

二、

 

上一篇:安装devtoolset-2:因由安装gcc 4.8而引起


下一篇:POJ 3627 Bookshelf