Python+selenium实现对网页的批量截图

本案例将通过 Python + selenium 实现对网页的批量截图，案例即属于Python爬虫应用，也属于Python运维实战，大家可以重点学习思路。

场景描述：

编写一个自动化脚本，对公司旗下的所有商户站点进行监控，当页面发生变化时，可以及时通知。

Selenium 配置

关于软件的安装，你可以翻阅橡皮擦之前的博客，有很多详细的配置教程，本文建立在你的 selenium 已经正常安装并可运行的基础上。

安装Selenium 时，需要注意本地浏览器的版本，便于下载相关驱动，参考博客 Python 自动化领域起点篇，Selenium WebDriver 学习第1篇

实现网页截图的代码如下所示，该代码仅实现单一页面截图。

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
driver = webdriver.Chrome(executable_path='F:/chromedriver_win32/chromedriver.exe', chrome_options=chrome_options)

for i in range(10):
# 打开网页:
driver.get("https://www.pachong.vip/")
time.sleep(1)
# 网页截图
driver.get_screenshot_as_file("D:/screenshot/www.pachong.vip.png")
# 关闭浏览器
driver.quit()

接下来将其改造成从数据库读取商户域名地址即可。

import pymysql
import logging

logging.basicConfig(filename='D:/商户无法访问站点.log', level=logging.DEBUG)


db = pymysql.connect(host='服务器IP',
 user='root',
 password='服务器密码',
 database='数据库名称')
cursor = db.cursor()
e_sql = """SELECT url1,url2…… FROM 目标数据表 """

cursor.execute(e_sql)

results = cursor.fetchall()

urls = [y for x in results for y in x if y != '']

其中链接数据库之后，直接使用 fetchall 读取目标地址即可，在下文使用了如下生成器代码，主要用于提取URL，防止采集到空地址。

urls = [y for x in results for y in x if y != '']

上述代码还导入了 logging 模块，主要用于记录采集异常的数据，后续用于对数据进行分析。

垃圾站

Python+selenium实现对网页的批量截图

Selenium 配置

联系我们