带你读《Python金融大数据挖掘与分析全流程详解》之三：金融数据挖掘案例实战1

2022-05-29 19:57:44

点击查看第一章
 点击查看第二章

第3章

金融数据挖掘案例实战1

学完正则表达式就可以进行比较高阶的操作了。前面介绍了如何获取百度新闻的网页源代码，本章接着利用正则表达式进行信息提取和文本分析，完成百度新闻的数据挖掘。此外，本章还将进行搜狗新闻、新浪财经的数据挖掘，帮助大家更好地掌握网络数据挖掘的方法。

3.1　提取百度新闻标题、网址、日期及来源

代码文件：3.1 百度新闻数据挖掘.py
2.3节已经实现了百度新闻网页源代码的获取，下面通过正则表达式提取百度新闻标题、网址、日期及来源等信息。

3.1.1　获取网页源代码

首先回顾一下2.3节用于获取在百度新闻中搜索“阿里巴巴”的网页源代码的代码：

import requests
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里巴巴'
res = requests.get(url, headers=headers).text
print(res)

3.1.2　编写正则表达式提取新闻信息

1．提取新闻的来源和日期

import re
p_info = '<p class="c-author">(.*?)</p>'
info = re.findall(p_info, res, re.S)
print(info)

这里再强调一次，网页源代码里存在换行，而无法匹配换行，因此，在使用findall()函数时要给出re.S参数，在查找时才会自动考虑换行，否则会提取不到内容。第3行和第4行代码中的info是一个存储findall()函数查找到的内容的列表，也可以换成其他名字，此处用info是因为它是information（信息）的缩写。
最后输出的内容如下：

可以看到获得的新闻来源和日期是混杂在一起的，而且夹杂着很多标签、空格、换行符n和制表符t等，所以还需要对数据进行二次提炼，这个过程被称为数据清洗，在3.1.3小节会进行详细介绍，这里先接着讲如何提取新闻的网址和标题。
2．提取新闻的网址和标题
提取新闻的网址和标题的方法已经在2.4.3、2.4.4小节讲过了，这里当作复习并补充一些新内容。先来看看如何寻找新闻网址的提取规律，为编写相应的正则表达式做准备。
除了在Python获取到的网页源代码里寻找规律，还可以通过F12键查看网页源代码并寻找规律。如下图所示，新闻网址前面都有，这个title就是“标题”的意思，而且2.2.5小节提过，class表示类别，同类型数据的class相同，所以猜测之后用正则表达式
来定位新闻网址时很有可能就会用到它。

下面来看看具体的代码：

p_href = '<h3 class="c-title">.*?<a href="(.*?)"'
href = re.findall(p_href, res, re.S)

和在2.4.3小节里提到的一样，在用来定位的文本A中，用.*?代替不关心的内容，对于文本B，因为网址后面会接着一个双引号，所以可以用该双引号作为定位条件。
提取标题的正则表达式编写在2.4.3小节也讲过，代码如下：

p_title = '<h3 class="c-title">.*?>(.*?)</a>'
title = re.findall(p_title, res, re.S)

简单复习一下p_title是怎么写出来的。如下图所示，其中到下一个>号之间我们不关心的内容，里面含有新闻的网址和其他内容。第2个>号之后就是新闻的标题，利用来提取该内容。最后用来定位的文本B，选择的是，因为观察网页源代码会发现标题都会以作为收尾。
通过print(href)和print(title)将两个列表打印输出，输出的内容如下：

可以看到提取出的网址基本没有问题，而提取出的标题并不完善，每个标题的首尾含有换行符n和一些空格，标题的中间则含有和等无效字符，此时就需要对数据进行清洗，下一小节将进行详细介绍。

3.1.3　数据清洗并打印输出

本小节的内容比较重要，因为之后很多数据清洗都是基于这里讲到的一些处理手段。上一小节提取到的数据除了新闻的网址基本没有问题外，新闻的标题、日期和来源并不完善。下面依次进行数据清洗，先从相对容易的新闻标题开始。
1．新闻标题清洗
提取到的新闻标题数据存在两个问题：一是每个标题的首尾含有换行符n和一些空格；二是中间含有和等无效字符。首先用strip()函数把不需要的空格和换行符去掉，代码如下：

for i in range(len(title)):
    title[i] = title[i].strip()

接着用2.4.5小节讲过的sub()函数处理和，代码如下：

for i in range(len(title)):
    title[i] = title[i].strip()
    title[i] = re.sub('<.*?>','',title[i])

2．新闻来源和日期清洗
现在对新闻来源和日期进行数据清洗。3.1.2小节中提到过，提取到的info列表的主要问题有：夹杂着很多标签信息；来源和日期连在一起；来源和日期的首尾都有一些空格和换行符等内容。
首先清洗标签信息，代码如下：

info[i] = re.sub('<.*?>', '', info[i])

然后需要分离来源和日期。先观察info列表中的元素，如下图所示。

从上图中可以发现，来源和日期都被如下所示的字符串隔开了：

那么就可以用1.4.3小节讲过的split()函数分割info列表的每一个元素中的新闻来源和日期，代码如下：

需要注意的是，通过split()函数分割得到的是一个列表，之后需要通过在列表中选取元素的方式分别提取具体的来源和日期。
最后，使用strip()函数去除多余的空格和换行符，代码如下：

source[i] = source[i].strip()
date[i] = date[i].strip()

清洗新闻来源和日期的完整代码如下：

source = []  # 先创建两个空列表，分别用于存储分割后的来源和日期
date = []  

for i in range(len(info)):
    info[i] = re.sub('<.*?>', '', info[i])
    source.append(info[i].split('  ')[0])  
    date.append(info[i].split('  ')[1])
    source[i] = source[i].strip()
    date[i] = date[i].strip()

上述代码使用1.2.3小节讲过的append()函数对分割后的来源和日期数据进行整理。具体操作为：先创建两个空列表，为存储清洗结果做准备，然后用append()函数为两个空列表添加新元素（新的来源和日期）。程序运行后，source列表和date列表的打印输出结果如下图所示，可以看到来源和日期都被较好地提炼出来了。

所有代码汇总如下：

import requests
import re
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里
巴巴'
res = requests.get(url, headers=headers).text

# 正则提取
p_href = '<h3 class="c-title">.*?<a href="(.*?)"'
p_title = '<h3 class="c-title">.*?>(.*?)</a>'
p_info = '<p class="c-author">(.*?)</p>'
href = re.findall(p_href, res, re.S)
title = re.findall(p_title, res, re.S)
info = re.findall(p_info, res, re.S)

# 数据清洗及打印输出
source = []
date = []

for i in range(len(title)):
    title[i] = title[i].strip()
    title[i] = re.sub('<.*?>', '', title[i])
    info[i] = re.sub('<.*?>', '', info[i])
    source.append(info[i].split('  ')[0])  
    date.append(info[i].split('  ')[1])
    source[i] = source[i].strip()
    date[i] = date[i].strip()  
    
    print(str(i+1) + '.' + title[i] + '(' + date[i] + '-' + source[i] + ')')  
    print(href[i])

其中，第27行代码需要注意两点：第一，i是数字，所以字符串拼接时要用str()函数进行转换；第二，i是从0开始的，所以要写成str(i+1)。
运行结果如下图所示，所需要的信息基本都提取到了。

3.2　批量获取多家公司的百度新闻并生成数据报告

上一节实现了从百度新闻获取一家公司的新闻标题、网址、来源和日期信息，本节来实现批量获取多家公司的信息，并自动生成数据报告，导出为一个文本文件。

3.2.1　批量爬取多家公司的百度新闻

代码文件：3.2.1 批量爬取多家公司的百度新闻.py
完成阿里巴巴新闻舆情的数据挖掘后，如果要做另一家公司的新闻舆情数据挖掘该怎么办呢？最简单的办法就是复制针对阿里巴巴编写的代码，再修改url。但是如果有几十家公司的新闻舆情需要爬取，采用复制代码后修改url的方法就显得有点低效，此时可以利用自定义函数来完成批量爬取。
首先带大家回顾自定义函数的一些基础知识，代码如下：

def baidu(company):
    url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=' + company 
    print(url)
    
# 批量调用函数
companys = ['华能信托','阿里巴巴','百度集团']
for i in companys: 
    baidu(i)

首先定义了一个名为baidu的函数，这个函数的内容只有2行代码：第1行创建了名为url的变量并赋值，其中company是函数参数；第2行把url打印输出。然后通过for循环语句批量调用定义的baidu()函数。
程序运行结果如下：

https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=华能信托
https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里巴巴
https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=百度集团

这部分就是之后要讲到的批量爬取的核心内容，修改url以实现多家公司数据的批量爬取，代码如下：

# 此处省略的是引用库和设置headers的代码，详见代码文件
def baidu(company):
    url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=' + company 
    res = requests.get(url, headers=headers).text
    # 此处省略的是3.1节中的数据提取、清洗代码，注意缩进，详见代码文件

companys = ['华能信托','阿里巴巴','万科集团','百度集团','腾讯','京东']
for i in companys:
    baidu(i)
    print(i + '百度新闻爬取成功')

3.2.2　自动生成舆情数据报告文本文件

代码文件：3.2.2 自动生成舆情数据报告文本文件.py
现在我们已经能够批量爬取新闻并生成舆情结果，如果想把这些内容保存到一个文件中，
该怎么办呢？最简单的方法就是复制粘贴到文本文件或Word文档中，不过这个方法比较低效。下面介绍如何将爬取到的内容自动导出为文本文件。
先通过一个简单的示例学习如何通过Python生成一个文本文件，代码如下：

file1 = open('E:\\测试.txt', 'a')
file1.write('把内容输入到txt中，就是这么简单')
file1.close()

运行代码，会发现在E盘中多出一个名为“测试.txt”的文件，里面的文本内容为“把内容输入到txt中，就是这么简单”。下面分别解释各行代码的作用。
第1行代码利用open()函数打开一个文件，该函数的使用格式如下：
变量名 = open（'文件路径','打开文件的模式')
文件路径就是文本文件所在的地址，可写成绝对路径或相对路径，文件路径的相关知识见本小节最后的“知识点”。对于新建文本文件而言，打开文件有两种常用的模式，见下表。在这两种模式下，如果文件路径中指定的文本文件不存在，就会自动新建一个文本文件。

这里采用追加模式a，这样就不用担心原来的数据被清除。第2行代码使用write()函数把字符串写入文本文件中。读者可以试着更换括号中的字符串，看看会得到怎样的运行结果。
最后使用close()函数关闭文件。虽然有时不用close()函数也能生成文件，但通过open()函数打开文件后再用close()函数关闭文件有助于释放缓存，是一个良好的编程习惯。
掌握了如何创建文本文件及如何写入内容之后，就可以进行自动生成数据报告的实战了，代码如下：

# 此处省略的是引用库和设置headers的代码，详见代码文件
def baidu(company):
    url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=' + company 
    res = requests.get(url, headers=headers).text
    # 此处省略的是3.1节中的数据提取、清洗代码，注意缩进，详见代码文件    

    file1 = open('E:\\数据挖掘报告.txt', 'a')  # 注意缩进的细节，不要写到上面数据清洗的for循环里去
    file1.write(company + '数据挖掘completed!' + '\n' + '\n')

    for i in range(len(title)):
        file1.write(str(i + 1) + '.' + title[i] + '(' + date[i] + '-' + source[i] + ')' + '\n')
        file1.write(href[i] + '\n')  # '\n'表示换行
    file1.write('———————————————————' + '\n' + '\n')
    file1.close()

companys = ['华能信托','阿里巴巴','万科集团','百度集团','腾讯','京东']
for i in companys:
    baidu(i)
    print(i + '百度新闻爬取成功')

上述代码中多处使用了n，之前讲正则表达式时简单提到过，n表示换行符，这里把它当成字符串，和报告的内容拼接在一起，实现在恰当的地方换行的效果，让报告的版面更美观。现在运行程序，看看E盘是不是多了一个“数据挖掘报告.txt”文件呢？在第13章还会讲解通过Python生成Word文档格式的报告，感兴趣的读者可先行阅读。
知识点
文件路径
书写文件路径时通常写两个反斜杠“\”，这是因为单个反斜杠在Python里有特殊意义，例如，n表示换行符。用两个反斜杠“\”可以取消单个反斜杠的特殊含义。例如，E盘“舆情报告”文件夹下的“数据挖掘报告.txt”文件，其文件路径就要写成“E:\舆情报告\数据挖掘报告.txt”。虽然这里面并没有类似n的特殊内容，也可以直接写成“E:舆情报告数据挖掘报告.txt”，但写文件路径时用两个反斜杠可以避免失误，是一个好的编程习惯。
除了用两个反斜杠来取消单个反斜杠的特殊意义外，在文件路径的字符串前面加一个“r”，也可以取消单个反斜杠的特殊意义，演示代码如下：
file1 = open(r'E:舆情报告数据挖掘报告.txt', 'a')
上面的文件路径形式叫绝对路径，还有一种文件路径形式叫相对路径，即只写一个文件名，如“数据挖掘报告.txt”，生成的文件会存储在代码文件所在的文件夹中。

3.3　异常处理及24小时实时数据挖掘实战

现在我们已经可以获取多家公司的信息。在获取过程中，通常不希望因为偶尔的程序异常导致整个程序停止运行，所以本节就来介绍异常处理的知识。另外，在商业实战中，信息的获取往往是24小时不间断进行的，本节也将讲解如何达到这一目的。
代码文件：3.3 异常处理及24小时实时数据挖掘实战.py

3.3.1　异常处理实战

有时虽然程序已经写得比较完善，但是在实战中总会遇到一些意外，例如，网页结构可能会出现预想不到的情况，网络有可能突发故障导致访问网站失败，等等。为了防止程序因为偶然的异常而终止运行，就要用到1.3.4节所讲的try/except异常处理语句，代码如下：

companys = ['华能信托','阿里巴巴','万科集团','百度','腾讯','京东']
for i in companys:
    try:
        baidu(i)
        print(i + '百度新闻爬取成功')
    except:
        print(i + '百度新闻爬取失败')

如果baidu()函数出现异常，例如，在爬取“万科集团”的信息时出现了一个异常的网页结构，就不会因为程序异常而终止整个程序的运行，而会执行except后的操作，打印输出“万科集团百度新闻爬取失败”。

3.3.2　24小时实时爬取实战

现在已经可以进行批量爬取并通过异常处理来避免程序中断，倘若要24小时不间断地进行实时爬取，就要用1.3.3小节中介绍的while语句构造一个永久循环。
只要添加如下所示的一行while True代码，便可以让程序一直执行：
while True:
具体代码如下：

while True:
    companys = ['华能信托','阿里巴巴','万科集团','百度','腾讯','京东']
    for i in companys:
        try:
            baidu(i)
            print(i + '百度新闻爬取成功')
        except:
            print(i + '百度新闻爬取失败')

这样程序就会24小时不间断地运行下去，而且因为加上了异常处理语句，就算出现异常信息，整个程序的运行也不会中断。
如果不需要不间断地运行，而是每隔一定时间运行一次，可以引用time库，然后使用time.sleep()函数来达到目的，代码如下：

import time
while True:
    companys = ['华能信托','阿里巴巴','万科集团','百度','腾讯','京东']
    for i in companys:
        try:
            baidu(i)
            print(i + '百度新闻爬取成功')
        except:
            print(i + '百度新闻爬取失败')
    time.sleep(10800)

第1行代码中用import语句引用time库。第10行代码中time.sleep()括号里的数字单位是秒，所以time.sleep(10800)的意思就是休息10800秒，也就是休息3小时。这样for循环执行完一遍之后，就会自动休息3小时再执行。注意第10行代码不要写到for循环里去，它要和第4行for语句的缩进量相同，因为是要等for循环执行完了，才执行time.sleep()操作。
完整代码如下所示：

import requests
import re
import time

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

def baidu(company):
    url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=' + company 
    res = requests.get(url, headers=headers).text
    # 此处省略的是3.1节中的数据提取、清洗代码，注意缩进，详见代码文件


while True:
    companys = ['华能信托','阿里巴巴','万科集团','百度','腾讯','京东']
    for i in companys: 
        try:
            baidu(i)
            print(i + '百度新闻爬取成功')
        except:
            print(i + '百度新闻爬取失败')
    time.sleep(10800)

至此便实现了24小时不间断地爬取多家公司的新闻数据。有的读者可能会有这样的疑问：这里只爬取了百度新闻的第一页，会错过其他重要新闻吗？答案是不会的，因为这是24小时不间断爬取，所以只要出现新的新闻就可以捕捉到。有的读者可能又有疑问：这样一直爬取，会不会爬取到很多重复的新闻呢？答案是会的，不间断爬取的确会爬取到重复的内容，而如何进行数据去重，则需要用到数据库的相关知识，将在5.1.1小节进行详细讲解。

3.4　按时间顺序爬取及批量爬取多页内容

这一节介绍如何按照时间顺序爬取百度新闻信息，以及如何一次性批量爬取百度新闻的多页内容。

3.4.1　按时间顺序爬取百度新闻

代码文件：3.4.1 按时间顺序爬取百度新闻.py
之前爬取的百度新闻并不是按照时间排序的，这是因为百度新闻默认以“按焦点排序”的方式显示搜索结果，也就是把热点新闻放在最前面，如下图所示。

如果想按照时间顺序来获取新闻，只需要在上图中圈出的下拉列表框里选择“按时间排序”，效果如下图所示。

单击“确认”按钮，记住该选择，之后打开百度新闻，默认就是按时间排序了。
此时按时间排序的网址为：

https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=阿里巴巴

之前按焦点排序的网址为：

https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=阿里巴巴

可以看到，它们唯一的区别就在于中间的“rtt=”之后的数字，我们可以推断出：“rtt=4”表示按时间排序，“rtt=1”表示按焦点排序。那么如果要写按时间顺序爬取百度新闻的代码就很容易了，只要把之前代码里的url中的“rtt=1”改成“rtt=4”即可。如下所示：

def baidu(company):
    url = 'https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=' + company

3.4.2　一次性批量爬取多页内容

3.3节中实现24小时爬取后，虽然只爬取第一页，但是24小时都在爬取，并不会遗漏信息，其实已经不太需要爬取多页。如果有的读者还是希望能批量爬取多页，可以学习下面的知识。
1．批量爬取一家公司的多页信息
代码文件：3.4.2-1 批量爬取一家公司的多页信息.py
其实批量爬取多页和按时间顺序爬取比较类似，都是在网址上做文章。先来看一下用百度新闻搜索“阿里巴巴”得到的第一页内容的网址：

https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=阿里巴巴

在第一页底部单击链接跳转到第二页，网址如下（其中删除了不影响链接跳转的内容）：

https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=阿里巴巴&pn=10

此时好像还找不出什么规律，让我们再看看第三页，网址如下：

https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=阿里巴巴&pn=20

可以再多翻几页，对比一下网址，就能发现一个规律：从第二页开始，每个网址只有一个内容有变化，即“&pn=××”，其等号后的数字呈现10、20、30……的递增规律，可以推断这个就是爬取多页的关键（猜测pn可能是page number的缩写）。有读者会问：第一页的网址中并没有“&pn=××”的内容呀？其实在网址中，有些内容不是必需的，我们可以删除一些内容来试试看。网址中的参数通常通过&符号连接，所以删除参数也是根据&符号进行。例如，上面的网址如果删去“&bsst=1”或“&cl=2”，仍然能够访问。
回到第一页的网址的问题，按照前面发现的递增规律，猜测第一页的网址参数应该是“&pn=0”，可以构造出第一页的网址如下：

https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=阿里巴巴&pn=0

将这个网址复制、粘贴到浏览器的地址栏中并打开，可以看到的确是第一页的内容，说明上述规律是有效的。下面就可以根据这个规律构造网址，批量爬取多页内容了，代码如下：

def baidu(page):
    num = (page - 1) * 10 
    url = 'https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=阿里巴巴&pn=' + str(num) 
    res = requests.get(url, headers=headers).text
    # 此处省略的是3.1节中的数据提取、清洗代码，注意缩进，详见代码文件
for i in range(10): # i是从0开始的序号，所以下面要写成i+1
    baidu(i+1)
    print('第' + str(i+1) + '页爬取成功')

注意其中的num、i是数字类型的变量，所以在做字符串拼接时要用str()函数进行转换。
2．批量爬取多家公司的多页信息
代码文件：3.4.2-2 批量爬取多家公司的多页信息.py
上面实现的是批量爬取一家公司的多页内容，如果想批量爬取多家公司的多页内容，可以给函数设置两个参数，通过两个for循环批量爬取，代码如下：

def baidu(company, page):
    num = (page - 1) * 10
    url = 'https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=' + company + '&pn=' + str(num)
    res = requests.get(url, headers=headers).text
    # 此处省略的是3.1节中的数据提取、清洗代码，注意缩进，详见代码文件
    
companys = ['华能信托','阿里巴巴','万科集团','百度集团','腾讯','京东']
for company in companys:
    for i in range(20): 
        baidu(company, i+1)
        print(company + '第' + str(i+1) + '页爬取成功')

知识点
访问超时设置—timeout参数的使用
有时访问一个网址，可能等待很久都没有反应，由于无法获得网页源代码，程序就会一直等待，呈现“假死”状态。为避免陷入无限的等待之中，需要设置访问超时，也就是说，如果访问一个网址的等待响应时间超过指定秒数，就报出异常，停止访问。
访问超时的设置方法非常简单，只要在requests.get(url, headers=headers)中再加一个timeout=10（10代表10秒，可以改为自己想设定的秒数），代码如下：
res = requests.get(url, headers=headers, timeout=10).text
这样当访问指定网址10秒还没有响应时，就会停止访问并报出异常。实战中通常会用try/except语句来处理异常，这样报出异常也不会影响整体程序的运行，代码如下：

def baidu(company):
    url = 'https://www.baidu.com/s?tn=news&rtt=1&bsst=1&cl=2&wd=' + company
    res = requests.get(url, headers=headers, timeout=10).text
    # 此处省略的是3.1节中的数据提取、清洗代码，注意缩进，详见代码文件


companys = ['华能信托','阿里巴巴','万科集团','百度集团','腾讯','京东']
for i in companys:

    try:
        baidu(i)
        print(i + '爬取成功')
    except:
        print(i + '爬取失败')

在实战中，其实很少会遇到访问超时的情况，似乎省略timeout参数也没什么问题。但是，对于24小时不间断批量爬取多个网址的情况，一旦中途有某个网址访问超时，程序就会陷入“假死”，不能继续爬取其他网址，导致时间上的浪费。所以实战中最好还是要设定timeout参数。

3.5　搜狗新闻与新浪财经数据挖掘实战

掌握了百度新闻的爬取之后，便可以用同样的方法对其他类似网站进行数据挖掘了，如搜狗新闻、新浪财经、新浪微博、四大证券报、微信公众号文章等。本节以搜狗新闻、新浪财经为例进行详细介绍。

3.5.1　搜狗新闻数据挖掘实战

代码文件：3.5.1 搜狗新闻数据挖掘实战.py
搜狗新闻的网址为https://news.sogou.com/。搜狗新闻和百度新闻的网页结构比较类似，所以爬取思路也类似。如下图所示，以在搜狗新闻中搜索“阿里巴巴”为例，注意搜索类型要选“新闻”，不要选“网页”。网址为：

https://news.sogou.com/news?mode=1&sort=0&fixrank=1&query=%B0%A2%C0%EF%B0%CD%B0%CD&shid=djt1（该网址经过删减处理）。

1．获取网页源代码
首先，用如下代码尝试获取网页源代码：

import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = 'https://news.sogou.com/news?mode=1&sort=0&fixrank=1&query=%B0%A2%C0%EF%B0%CD%B0%CD&shid=djt1'
res = requests.get(url, headers=headers, timeout=10).text
print(res)

运行之后发现获取的网页源代码完整且不存在乱码，那么数据挖掘的第一步就成功了。
网址中的“%B0%A2%C0%EF%B0%CD%B0%CD”是“阿里巴巴”在浏览器中“翻译”后的“语言”，可以直接换成“阿里巴巴”，如下所示：

url = 'https://news.sogou.com/news?mode=1&sort=0&fixrank=1&query=阿里巴巴&shid=djt1'

2．编写正则表达式
下面来提取新闻网址、新闻标题和发布日期，新闻来源的提取留给大家自己练习。
首先提取新闻网址和标题。在浏览器中按F12键，打开开发者工具，然后查看新闻网址和标题的网页源代码，或者按快捷键Ctrl+F，在网页源代码里查找标题，以寻找正则表达式的匹配规则。
第一条新闻的网址对应的网页源代码为：

<a href="http://www.sohu.com/a/284216921_114986" id="uigs_0" target
="_blank">

第二条新闻的网址对应的网页源代码为：

<a href="http://www.sohu.com/a/323388085_643591" id="uigs_1" target
="_blank">

经过对比可以看到，除了我们要获取的href的值外，id的值也在变化，具体来说，是“uigs_”后面的数字在变化，所以可以总结出新闻网址的网页源代码的表达式如下：

<a href="网址" id="uigs_序号" target="_blank">

在编写正则表达式时，只需把想获取的新闻网址换成(.?)，把id里变化的内容换成.?：

p_href = '<a href="(.*?)" id="uigs_.*?" target="_blank">'

import re
p_href = '<a href="(.*?)" id="uigs_.*?" target="_blank">'
href = re.findall(p_href, res)
print(href)
print(len(href)) # 打印输出提取到多少条新闻，检查是否提取完整

用同样的方法观察新闻标题的网页源代码的规律，得到如下表达式：

<a href="网址" id="uigs_序号" target="_blank">标题</a>

在编写正则表达式时把网址和序号换成.?，把标题换成(.?)，代码如下：

p_title = '<a href=".*?" id="uigs_.*?" target="_blank">(.*?)</a>'

发布日期的提取思路和之前百度新闻案例的思路类似，这里因为不提取新闻来源，所以可以直接编写如下所示的代码：

p_date = '<p class="news-from">.*? (.*?)</p>'

所有正则表达式相关的代码汇总如下：

p_title = '<a href=".*?" id="uigs_.*?" target="_blank">(.*?)</a>'
title = re.findall(p_title, res)
p_href = '<a href="(.*?)" id="uigs_.*?" target="_blank">'
href = re.findall(p_href, res)
p_date = '<p class="news-from">.*? (.*?)</p>'
date = re.findall(p_date, res)

可以通过类似print(title)和print(len(title))这样的代码打印输出提取到的列表的内容和长度，检查自己编写的正则表达式提取到的信息是否完整。
3．数据清洗
与百度新闻的数据清洗类似，主要运用sub()函数替换不需要的内容，运用strip()函数清除换行符和空格等内容，最后通过print()函数将清洗结果打印输出。由于这里提取的内容不包含换行符和空格，所以未使用strip()函数，代码如下：

for i in range(len(title)):
    title[i] = re.sub('<.*?>', '', title[i])
    title[i] = re.sub('&.*?;', '', title[i])
    date[i] = re.sub('<.*?>', '', date[i])
    print(str(i+1) + '.' + title[i] + '-' + date[i])
    print(href[i])

第3行代码中的'&.*?;'代表所有形式为'&内容;'的非相关文本，因为新闻标题里有时会出现这种形式的文本，需要将其批量替换掉。
4．定义及调用函数
和3.2.1小节类似，这里首先定义一个名为sogou的函数，并且把爬取的网址中的“阿里巴巴”换成变量company，代码如下：

def sogou(company): 
    url = 'https://news.sogou.com/news?mode=1&sort=0&fixrank=1&query=' + company + '&shid=djt1'

定义完函数后，便可以批量调用函数，实现多家公司信息的爬取了，完整代码如下：

import requests
import re
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

def sogou(company):
    url = 'https://news.sogou.com/news?mode=1&sort=0&fixrank=1&query=' + company + '&shid=djt1'
    res = requests.get(url,headers=headers, timeout=10).text

    # 编写正则表达式提取数据
    p_title = '<a href=".*?" id="uigs_.*?" target="_blank">(.*?)</a>'
    title = re.findall(p_title, res)
    p_href = '<a href="(.*?)" id="uigs_.*?" target="_blank">'
    href = re.findall(p_href, res)
    p_date = '<p class="news-from">.*? (.*?)</p>'
    date = re.findall(p_date, res)


    # 数据清洗及打印输出
    for i in range(len(title)):
        title[i] = re.sub('<.*?>', '', title[i])
        title[i] = re.sub('&.*?;', '', title[i])
        date[i] = re.sub('<.*?>', '', date[i])
        print(str(i+1) + '.' + title[i] + '-' + date[i])
        print(href[i])

companys = ['华能信托', '阿里巴巴', '万科集团', '百度', '腾讯', '京东']
for i in companys:
    try:
        sogou(i)
        print(i + '搜狗新闻爬取成功')
    except:
        print(i + '搜狗新闻爬取失败')

3.5.2　新浪财经数据挖掘实战

代码文件：3.5.2 新浪财经数据挖掘实战.py
新浪财经的网址为https://finance.sina.com.cn/。新浪财经是金融新闻类数据挖掘很重要的一个数据来源，它的新闻质量一般都很高。
还是以在新浪财经中搜索“阿里巴巴”为例，此时浏览器地址栏中的网址为：

https://search.sina.com.cn/?q=%B0%A2%C0%EF%B0%CD%B0%CD&range=all&c=news&sort=time

，如下图所示。

如果将网址中含有百分号的那一串文本直接换成“阿里巴巴”，打开的会是其他网页，这与搜狗新闻的网址不同。该问题对爬取一家公司的信息不会有影响，但是会对之后定义函数及批量爬取多家公司的信息造成不便。所以，如果需要进行批量爬取，最好先对网址是否支持中文进行测试。如果测试结果是不支持中文，可以尝试用下面介绍的办法解决。
这种不能自动转换中文的网址比较少见，其主要原因涉及字符串的编码。因为新浪财经网址的默认编码为gbk中文编码，而通常网址对gbk编码的中文进行识别时会出现错误。关于编码的详细知识见5.2节，这里主要讲解决办法。比较简单的解决办法，是在原来的网址末尾加上“&ie=utf-8”，这样就算前面输入的是中文，对网址也没有影响。添加的“&ie=utf-8”用于声明该网址是基于utf-8编码的，而utf-8编码的中文内容是可以被网址认可的。如下所示，添加完“&ie=utf-8”后就可以直接使用中文“阿里巴巴”了。

url = 'https://search.sina.com.cn/?q=阿里巴巴&range=all&c=news&sort
=time&ie=utf-8'

1．获取网页源代码
首先，用如下代码尝试获取网页源代码：

url = 'https://search.sina.com.cn/?q=阿里巴巴&range=all&c=news&sort
=time&ie=utf-8'
res = requests.get(url, headers=headers, timeout=10).text
print(res)

运行之后获取的网页源代码中没有出现乱码，并且能找到需要的内容，这一步就算成功了。需要注意的是，有时按上面的网址访问新浪财经时，可能会跳转到新浪微博（可能性较小但会发生），获取到的网页源代码中就不会有想要的内容，此时重新运行代码即可。
2．编写正则表达式
使用前面介绍的方法观察新闻网址和标题对应的网页源代码，可以发现如下规律：

<h2><a href="网址" target="_blank">标题</a>

所以提取新闻网址的正则表达式如下：

p_href = '<h2><a href="(.*?)" target="_blank">'

提取新闻标题的正则表达式如下：

p_title = '<h2><a href=".*?" target="_blank">(.*?)</a>'

观察新闻日期对应的网页源代码，可以发现如下规律：

<span class="fgray_time">来源和日期</span>

所以提取新闻日期的正则表达式如下：

p_date = '<span class="fgray_time">(.*?)</span>'

这样提取到的内容会包含来源和日期，在后续进行数据清洗时把它们分割开即可。
整体代码如下所示，此时可以通过print()函数将提取到的内容打印输出，看看效果。

p_title = '<h2><a href=".*?" target="_blank">(.*?)</a>'
p_href = '<h2><a href="(.*?)" target="_blank">'
p_date = '<span class="fgray_time">(.*?)</span>'
title = re.findall(p_title, res)
href = re.findall(p_href, res)
date = re.findall(p_date, res)

3．数据清洗
采用与前面类似的数据清洗方法，通过如下代码处理并打印输出：

for i in range(len(title)):
    title[i] = re.sub('<.*?>', '', title[i])
    date[i] = date[i].split(' ')[1]  # 提取来源和日期中的第二个元素：日期
    print(str(i + 1) + '.' + title[i] + ' - ' + date[i])
    print(href[i])

4．定义及调用函数
和3.2.1小节类似，这里首先定义一个名为xinlang的函数，并且把爬取的网址中的“阿里巴巴”换成变量company，代码如下：

def xinlang(company):
    url = 'https://search.sina.com.cn/?q=' + company + '&range=all
&c=news&sort=time&ie=utf-8'

定义完函数后，便可以批量调用函数，实现多家公司信息的爬取了，完整代码如下：

import requests
import re
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

def xinlang(company):
    url = 'https://search.sina.com.cn/?q=' + company + '&range=all

&c=news&sort=time&ie=utf-8'
    res = requests.get(url, headers=headers, timeout=10).text
    # print(res)

    p_title = '<h2><a href=".*?" target="_blank">(.*?)</a>'
    p_href = '<h2><a href="(.*?)" target="_blank">'
    p_date = '<span class="fgray_time">(.*?)</span>'
    title = re.findall(p_title, res)
    href = re.findall(p_href, res)
    date = re.findall(p_date, res)

    for i in range(len(title)):
        title[i] = re.sub('<.*?>', '', title[i])
        date[i] = date[i].split(' ')[1]
        print(str(i + 1) + '.' + title[i] + ' - ' + date[i])
        print(href[i])

companys = ['华能信托', '阿里巴巴', '万科集团', '百度', '腾讯', '京东']

for i in companys:
    try:
        xinlang(i)
        print(i + '新浪新闻爬取成功')
    except:
        print(i + '新浪新闻爬取失败')

至此，我们已经可以从百度新闻、搜狗新闻、新浪财经爬取新闻舆情数据，对于大部分上市公司来说，足以实现新闻舆情监控与预警。下面简单总结一下网络数据挖掘的思路：
第一步：获取网页源代码；
第二步：通过正则表达式提取想要的内容；
第三步：数据清洗；
第四步：定义函数并通过循环调用函数进行批量爬取。
学习完本章，我们应该能够对大部分网站利用爬虫技术进行数据挖掘，并且能够实现24小时多家公司信息的不间断更新。当然，有些网站的数据挖掘有一定难度，例如，2.1.2小节提到过，如果网站内容是动态渲染出来的，如新浪财经的股票数据，就没有办法通过常规的Requests库进行爬取，相应的处理方法将在第8章进行讲解。

码农公寓

第3章

金融数据挖掘案例实战1

3.1 提取百度新闻标题、网址、日期及来源

3.1.1 获取网页源代码

3.1.2 编写正则表达式提取新闻信息

3.1.3 数据清洗并打印输出

3.2 批量获取多家公司的百度新闻并生成数据报告

3.2.1 批量爬取多家公司的百度新闻

3.2.2 自动生成舆情数据报告文本文件

3.3 异常处理及24小时实时数据挖掘实战

3.3.1 异常处理实战

3.3.2 24小时实时爬取实战

3.4 按时间顺序爬取及批量爬取多页内容

3.4.1 按时间顺序爬取百度新闻

3.4.2 一次性批量爬取多页内容

3.5 搜狗新闻与新浪财经数据挖掘实战

3.5.1 搜狗新闻数据挖掘实战

3.5.2 新浪财经数据挖掘实战

相关文章