1. 准备工作

在爬取网站动漫图片之前,需要做一些准备工作,首先需要准备一个 Python 开发环境,比如使用 Anaconda,安装好后,需要安装一些库,比如 requests 库,BeautifulSoup 库,这些库可以帮助我们爬取网页,解析网页,另外,如果需要使用代理,还需要安装一些相关的库,比如 requesocks 库。

2. 爬取网页

使用 Python 爬取网页动漫图片的方法很多,比如使用 requests 库,可以通过 requests.get() 方法来获取网页的 HTML 内容,如果需要使用代理,可以使用 requests.get() 方法的 proxies 参数来设置代理,代码如下:

123
proxies = {
    "http": "http://xxx.xxx.xxx.xxx:xxxx",
    "https": "http://xxx.xxx.xxx.xxx:xxxx"
}

response = requests.get(url, proxies=proxies)
Python

3. 解析网页

获取网页的 HTML 内容之后,就可以使用 BeautifulSoup 库来解析网页,BeautifulSoup 库提供了一些方法,可以方便地解析网页,比如 find() 方法,可以通过标签名来查找标签,比如可以通过 find('img') 来查找所有 img 标签,然后可以通过 img 标签的 src 属性来获取图片的 URL,代码如下:

1234
soup = BeautifulSoup(response.text, 'lxml')
imgs = soup.find_all('img')
for img in imgs:
    img_url = img['src']
    print(img_url)
Python

4. 下载图片

获取图片的 URL 之后,就可以使用 requests 库的 get() 方法来下载图片,代码如下:

123
img_response = requests.get(img_url)
if img_response.status_code == 200:
    with open('xxx.jpg', 'wb') as f:
        f.write(img_response.content)
Python