Python入门10——python爬虫初体验

2020-08-15

Python 爬虫的基本步骤

step1：获取数据

step2：解析数据

strp3：保存数据

1、爬取数据

方法一：

import urllib.request

response = urllib.request.urlopen("https://www.baidu.com")
print(response.read().decode("utf-8"))  # 对获取到的网页源码 decode 进行 utf-8 解码

结果：在控制台输出网页源码

方法二：

import urllib.request

url = "https://www.baidu.com"
# 模拟浏览器头部信息，向网页服务器发送消息
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/84.0.4147.105 Safari/537.36 "
}	# 用户代理表示告诉网页服务器，我们是什么类型的机器，伪装成浏览器而不是爬虫
req = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(req)
print(response.read().decode("utf-8"))	# 对获取到的网页源码 decode 进行 utf-8 解码

结果：在控制台输出网页源码

2、解析数据

示例代码：

from bs4 import BeautifulSoup

file = open("./baidu.html", "rb")    # 打开文档
html = file.read().decode("utf-8")      # 读取文档
bs = BeautifulSoup(html, "html.parser")   # 解析文档 -  (文件，解析器)

print(bs.title)       # bs.tile 是从指定文件中拿到第一个 title 标签

结果：

一个简单的爬取

# -*- coding = utf-8 -*-
# @Time : 2020/8/18 17:53
# @Author : Gavin
# @File : my_spider.py
# @Software : PyCharm

from bs4 import BeautifulSoup
import urllib.request
import re

# 网页基础地址
BASE_URL = "https://movie.douban.com/top250?start="
FIND_LINK = re.compile(r'<a href="(.*?)">')
FIND_NAME = re.compile(r'<span class="title">(.*)</span>')


def main():
    # 获取数据
    html = ask_url(BASE_URL)
    # 解析数据
    get_data(html)


# 获取数据
def ask_url(base_url):
    head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/84.0.4147.105 Safari/537.36"}
    req = urllib.request.Request(url=base_url, headers=head)
    response = urllib.request.urlopen(req)
    html = response.read().decode("utf-8")
    # print(response.read().decode("utf-8"))

    return html


def get_data(html):
    # print(html)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all("div", class_="item"):
        item = str(item)

        name = re.findall(FIND_NAME, item)[0]
        print("影片名：%s "% name, end="\t")

        link = re.findall(FIND_LINK, item)[0]
        print("链接： %s" % link)


if __name__ == '__main__':
    main()

3、保存数据

import xlwt

# 创建 Excel工作簿
workbook = xlwt.Workbook(encoding="utf-8")
# 创建工作表 sheet1
worksheet = workbook.add_sheet("sheet1")
# 第一个数字表示行，第二个数字表示列，第三个内容
worksheet.write(0, 0, "hello")
# 保存数据表
workbook.save("C:/Users/80495/Desktop/test.xls")

4、拓展：正则表达式

操作符	说明	实例
.	表示任何单个字符
[]	字符集，对单个字符给出取值范围	[abc]表示a、b、c，[a-z]表示a到z单个字符
[^ ]	非字符集，对单个字符给出排除范围	[^abc]表示非a或b或c的单个字符
*	前一个字符0次或无限次扩展	abc*表示ab、abc、abcc、abccc等
+	前一个字符1次或无限次扩展	abc+表示abc、abcc、abccc等
?	前一个字符0次或1次扩展	abc? 表示ab、abc
\|	左右表达式任意一个	abc\|def表示abc、def
{m}	扩展前一个字符m次	ab{2}c表示abbc
{m, n}	扩展前一个字符m至n次（含n）	ab{1,2}c表示abc、abbc
^	匹配字符串开头	^abc表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$表示abc且在一个字符串的结尾
()	分组标记，内部只能使用\|操作符	(abc)表示abc，(abc\|def)表示abc、def
\d	数字，等价于[0-9]
\w	单词字符，等价与[A-Za-z0-9_]

4.1 Python 中的 Re 库

4.1.1 Re 库主要功能函数

函数	说明
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match	从一个字符串的开始位置期匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

4.1.2 Re 库常用修饰符

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

示例代码：

# 正则表达式：字符串模式 （判断字符串是否符合一定的标准）
import re

# 创建模式对象
pat = re.compile("AA")  # 此处的“AA”，是正则表达式，用来去验证其他的字符
m = pat.search("AACBAA")  # search 方法用来比对查找，如果没有找到返回 None，找到返回第一个匹配的位置
print(m)

# 简写
print(re.search("aa", "Baa")) re.search("aa", "Baa")  # re.search("规则"，"被校验对象")

结果：

在正则表达式中，建议在字符串前加上 r ，这样就不用再担心转义字符的问题。例：a = r"abc\def\gh"

5、实践项目：爬取豆瓣Top250

5.1 项目代码

# -*- coding = utf-8 -*-
# @Time : 2020/8/14 17:34
# @Author : Gavin
# @File : spider.py
# @Software : PyCharm

from bs4 import BeautifulSoup  # 网页解析， 获取数据
import re  # 正则表达式，进行文字匹配
import urllib.request   # 定制URL，获取网页数据
import urllib.error
import xlwt  # 进行excel操作

FIND_TITLE = re.compile(r'<span class="title">(.*?)</span>')
FIND_LINK = re.compile(r'<a href="(.*?)">')       # 创建正则表达式对象，表示规则（字符串的模式）
FIND_IMG_SRC = re.compile(r'<img.*src="(.*?)"', re.S)     # re.S 表示忽略路径里的换行符
FIND_RATING = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
FIND_JUDGE = re.compile('<span>(\d*)人评价</span>')
FIND_INQ = re.compile(r'<span class="inq">(.*)</span>')
FIND_BD = re.compile(r'<p class="">(.*?)</p>', re.S)
SAVE_PATH = "C:/Users/80495/Desktop/豆瓣Top250.xls"


def main():
    base_url = "https://movie.douban.com/top250?start="
    # 1. 爬取网页 & 逐一解析
    datalist = get_data(base_url)

    # 2. 保存数据
    # save_path = ".\\豆瓣电影Top250.xls"
    # save_data(save_path)

    save_data(datalist)

    print("爬取完毕！共爬取[%s]条影片信息" % (len(datalist)))


# 爬取网页
def get_data(base_url):
    datalist = []

    for i in range(0, 10):      # 调用获取页面信息的函数 - 10次
        url = base_url + str(25 * i)
        html = askURL(url)      # 保存获取到的网页源码
        #         # print(url)    # 测试爬到的 url

        # 逐一解析数据
        soup = BeautifulSoup(html, "html.parser")
        # 查找符合要求的字符串，形成列表
        for item in soup.find_all("div", class_="item"):
            data = []       # 保存一部电影的所有信息
            item = str(item)

            titles = re.findall(FIND_TITLE, item)  # 片名可能只有一个中文名，没有外国名
            if len(titles) == 2:
                chinese_title = titles[0]
                data.append(chinese_title)
                other_title = titles[1].replace(" / ", "")
                data.append(other_title)
            else:
                data.append(titles[0])
                data.append(" ")

            # 获取影片链接
            link = re.findall(FIND_LINK, item)[0]   # 用 re 库来通过正则表达式查找指定的字符
            data.append(link)

            img_src = re.findall(FIND_IMG_SRC, item)[0]
            data.append(img_src)

            rating = re.findall(FIND_RATING, item)[0]   # 添加评分
            data.append(rating)

            judge = re.findall(FIND_JUDGE, item)[0]     # 添加评价人数
            data.append(judge)

            inq = re.findall(FIND_INQ, item)
            if len(inq) > 0:
                inq = inq[0].replace("。", "")
                data.append(inq)
            else:
                data.append(" ")

            bd = re.findall(FIND_BD, item)[0]
            bd = re.sub("<br(\s+)?/>(\s+)?", " ", bd)   # 替换 <br/>
            bd = re.sub("/", " ", bd)   # 替换 /
            bd = re.sub("\xa0", "", bd)  # 替换 /
            data.append(bd.strip())     # 去除空格

            datalist.append(data)
            print("正在爬取第 %s 条信息" % len(datalist))
    # print(datalist)
    return datalist


# 得到指定一个 URL 的网页内容
def askURL(url):
    # 模拟浏览器头部信息，伪装成浏览器而不是爬虫
    head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                          "Chrome/84.0.4147.105 Safari/537.36"}
    request = urllib.request.Request(url, headers=head)

    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        # print(html)
    except urllib.error.URLError as e:
        print("-----遇到错误------\n %s" % e)

    return html


# 保存数据
def save_data(datalist):

    # 创建 Excel工作簿
    workbook = xlwt.Workbook(encoding="utf-8", style_compression=0)
    # 创建工作表 sheet1
    worksheet = workbook.add_sheet("sheet1", cell_overwrite_ok=True)

    col_name = ("序号", "影片中文名称", "影片别名", "影片链接", "影片图片地址", "影片评分", "影片评价人数", "影片描述", "更多信息",)
    for info in range(0, len(col_name)):
        worksheet.write(0, info, col_name[info])

    for number in range(0, len(datalist)):
        worksheet.write(number + 1, 0, number + 1)

    for line in range(0, len(datalist)):
        for col in range(0, len(datalist[0])):
            # 第一个数字表示行，第二个数字表示列，第三个内容
            worksheet.write(line + 1, col + 1, datalist[line][col])

    # 保存数据表
    workbook.save(SAVE_PATH)


if __name__ == '__main__':
    main()

5.2 运行结果

参考文章

简书【Kkite】：正则表达式的常用操作符