Beautiful Soup知道这些就够了

2023-11-25 23:48:28

简介

在日程爬虫中我们需要使用许多方法来获取HTML或XML标签中的内容，例如正则表达式、xpath语法，除了上述方法，还有一种更加方便、强大的工具叫Beautiful Soup，通过使用它我们同样也可以提取出 HTML 或 XML 标签中的内容。

使用方法

在使用BeautifulSoup时，我们首先创建一个BeautifulSoup对象，将对象进行实例化，实例化的方法有2种，一种是直接将我们通过request请求返回的html进行实例化，另一种是可以用本地存储的 HTML 文件来创建对象。

Beautifulsoup对象的实例化：
    —— BeautifulSoup(fp,'lxml'):用来将本地存储的html文档中的数据进行解析
    —— BeautifulSoup(page_text,'lxml'):用来将互联网请求到的页面源码数据进行解析

soup = BeautifulSoup(open('index.html')) #将本地 index.html 文件打开，用它来创建 soup 对象

实例化BeautifulSoup之后，我们需要掌握BeautiSoup的获取html元素的方法，常用的标签定位方法有以下几种方式：

soup.tagName:只可以定位到第一次出现的tagName标签
soup.find('tagName',attrName='value'):属性定位
soup.findAll:跟find一样用作属性定位，只不过findAll返回的是列表
soup.select('选择器'):选择器定位

元素定位成功后，通过.text()或者.string方法获取文本内容。

实战

下面通过一个实战来具体看一下BeautifulSoup的使用方法，我们以爬取校花网为例，把网页中的图片爬取下来并保存到本地。

代码如下：


import requests
from bs4 import BeautifulSoup
import lxml
import os


dirname = 'F:\\xunlei02'
if not os.path.exists(dirname):
    os.mkdir(dirname)
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }

def get_url():
    url = 'http://www.521609.com/qingchunmeinv/'

    response = requests.get(url,headers = headers).text.encode('iso-8859-1').decode('GBK')
    #print(response)
    soup = BeautifulSoup(response,'lxml')
    #print(soup)
    #print(soup.li)   #定位获取到第一个li标签

    #print(soup.find('img',alt="师大清纯美女"))  #根据标签进行定位和属性值进行定位
    #print(soup.findAll('img',alt="师大清纯美女"))  #和soup.find用法一致，返回形式是list列表

    #获取属性值，这里是获取href
    # context = soup.findAll('a',class_ = 'title')
    # for i in context:
    #     print(i['href'])

    img_list = soup.findAll('img')
    for img in img_list[1:]:
        url_img =  'http://www.521609.com/'+ img['src']
        print(url_img)
        downimage(url_img)



def downimage(url):

    img_name = dirname + '\\' + url.split('/')[-1]
    #print(img_name)
    response = requests.get(url,headers = headers).content
    with open(img_name,'ab') as f:
        f.write(response)


if __name__ == '__main__':
    get_url()

可以看到，通过使用BeautifulSoup方法我们成功获取到了图片链接地址，并将图片成功保存到本地电脑中。

码农公寓

简介

使用方法

实战

相关文章