使用Python编写的图片爬虫作业:
#coding=utf-8 import urllib
import re def getPage(url):
#urllib.urlopen(url[, data[, proxies]]) :
#创建一个表示远程url的类文件对象,
#然后像本地文件一样操作这个类文件对象来获取远程数据
page = urllib.urlopen(url)
return page.read() def downloadImg(content):
#匹配任意的jpg文件连接
pattern = r'src="(.+?\.jpg)" pic_ext'
#可以把正则表达式编译成一个正则表达式对象
m = re.compile(pattern)
#可以获取字符串中所有匹配的字符串
urls = re.findall(m, content) #遍历urls数组所有元素
for i, url in enumerate(urls):
#urllib.urlretrieve(url[, filename[, reporthook[, data]]])
#直接将远程数据下载到本地
urllib.urlretrieve(url, "%s.jpg" % (i, )) content = getPage("http://tieba.baidu.com/p/2460150866")
downloadImg(content)