记一次有趣的爬虫经历

前言：一次艰难的图片爬虫经历

1、明确目标

这次我们需要爬取的是一个图片网站，最终目标是获取网站的全部相册集和其中的图片资源

2、难点1：右键不能使用，无法查看元素，无法查看网页源码

具体描述一下这个问题：

无法使用鼠标右键进行网页元素的查看
使用request库，无法获得网页内容，返回数据为空
使用selenium控制谷歌浏览器方法，也无法获得网页内容，返回数据为空

可能因为原来从来没有遇到过这种情况，暂时没有好的处理方法，但是经过我一番摸索后，想出了两种方法：

ctrl + s 保存网页到本地，之后使用文件编辑器查看其中的源码
在网址前面添加view-source查看源码，类似：view-source:https://www.baidu.com/

这两种方法虽然能够手动查看源码，但是仍然无法解决程序无法获取网页源码的问题。不过能看到源码就是好的事情，我们来看一下，这个网站为了反爬，到底做了什么事情。

（1）首先怀疑引入了什么js插件，我们来看一下网页中所有的script标签

果然，发现一个可疑名称的js插件，然后我们去Google一下，果然是一个开源项目，来看一下项目给出的功能，好家伙，我说咋获取不了源码呢。

disable-devtool 可以禁用所有一切可以进入开发者工具的方法，防止通过开发者工具进行的 ‘代码搬运’

该库有以下特性:

支持可配置是否禁用右键菜单

禁用 f12 和 ctrl+shift+i 快捷键

支持识别从浏览器菜单栏打开开发者工具并关闭当前页面

开发者可以绕过禁用 (url参数使用tk配合md5加密)

支持几乎所有浏览器（IE,360,qq浏览器,FireFox,Chrome,Edge…）

高度可配置

使用极简、体积小巧 (仅7kb)

支持npm引用和script标签引用(属性配置)

识别真移动端与浏览器开发者工具设置插件伪造的移动端，为移动端节省性能