python （1）一个简单的爬虫： python 在windows下创建文件夹并写入文件

2023-01-31 11:36:08

1.一个简单的爬虫：爬取豆瓣的热门电影的信息

写在前面：如何创建本来存在的文件夹并写入

 t_path = "d:/py/inn"            #本来不存在inn，先定义路径，然后如果不存在，则创建目录，下面就能用了

 if not os.path.exists(t_path):

     os.makedirs(t_path)

 f = open(r'd:/py/inn/info.txt','a')

技能：获取网页源码，正则表达式，函数调用，全局变量的定义

 #! /usr/bin/env python

 # -*- coding=utf-8 -*-

 import requests

 import json

 import re

 import sys

 reload(sys)

 sys.setdefaultencoding("utf-8")

 classinfo = []

 f = open('info.txt','w')

 num = 0

 def write(htm):

     titl = re.findall('data-tit(.*?)data-enough',htm.text,re.S)

     for each in titl:

         #print each

         info = {}

         #print each

         info['title'] = re.search('le="(.*?)"',each,re.S).group(1)

         info['year'] = re.search('data-release="(.*?)" data',each,re.S).group(1)

         info['Rating']= re.findall('data-rate="(.*?)" data-star',each,re.S)[0]

         info['time'] = re.findall('data-duration="(.*?)" data-re',each,re.S)[0]

         info['reg'] = re.findall('data-region="(.*?)" data-dir',each,re.S)[0]

         info['act'] = re.findall('data-actors="(.*?)" data-in',each,re.S)[0]

         global num #全局的定义

         num = num + 1

         f.writelines('%d\n' %num)

         f.writelines(u'电影名：'+info['title'] + '\n')

         f.writelines(u'主演：'+info['act'] + '\n')

         f.writelines(u'电影地区：' + info['reg']+'\n')

         f.writelines(u'上映年份：' + info['year']+'\n')

         f.writelines(u'电影时长：' + info['time']+'\n')

         f.writelines(u'评分：' + info['Rating']+'\n\n')

 def getremen():

     # html = requests.get('http://movie.douban.com/')

     url = 'http://movie.douban.com/'

     html = requests.get(url)

     html.encoding = 'utf-8'

     # print html.text

     write(html)

 if __name__ == "__main__":

     getremen()

码农公寓

相关文章