一、简介

豆瓣电影排行榜是豆瓣网站提供的电影排行榜,是用户对电影的评分和评论的综合表现,榜单上排名前几的电影一般都是质量比较高的电影。本文将介绍如何使用 Python 爬取豆瓣电影排行信息。

二、准备工作

在爬取豆瓣电影排行信息之前,需要准备一些必要的工具,包括 Python、urllib 库、BeautifulSoup 库等。

Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言,它可以用来编写爬虫程序,获取网页数据。

urllib 库是 Python 的一个内置库,它提供了一系列用于操作 URL 的功能,可以用来发送请求、获取网页数据等。

BeautifulSoup 库是一个解析 HTML 和 XML 文档的 Python 库,可以用来处理网页数据,提取有用的信息。

三、爬取豆瓣电影排行信息

在准备工作完成后,就可以开始爬取豆瓣电影排行信息了。

首先,使用 urllib 库中的 urlopen() 函数发送请求,获取豆瓣电影排行榜页面的 HTML 代码:

import urllib.request
url = 'https://movie.douban.com/chart'
response = urllib.request.urlopen(url)
html = response.read()
Python

然后,使用 BeautifulSoup 库解析 HTML 代码,提取有用的信息:

import bs4
soup = bs4.BeautifulSoup(html, 'html.parser')
movies = soup.find_all('div', class_='pl2')
for movie in movies:
title = movie.find('a')['title']
score = movie.find('span', class_='rating_nums').text
print(title, score)
Python

最后,将爬取的数据保存到本地:

with open('douban_movie.txt', 'w', encoding='utf-8') as f:
for movie in movies:
title = movie.find('a')['title']
score = movie.find('span', class_='rating_nums').text
f.write(title + ' ' + score + '\n')
Python

完成以上步骤后,就可以成功爬取豆瓣电影排行信息了。