当前位置: 主页 > Python语言

python 抓取豆瓣-python 抓取页面

发布时间:2023-03-13 16:05   浏览次数:次   作者:佚名

最近刷抖音,刷到一部抄袭《X战警》电影海报的电影。 连电影海报都需要抄袭,这得是什么烂片!

尝试百度了一下,果然让人哭笑不得,连雷神的麒麟臂都一起抄了。

《女娲日记》绝对刷新你的认识

看了一下它的豆瓣评分,竟然是2分。

python 抓取页面_python 网络爬虫 抓取 图片_python 抓取豆瓣

纵横观影界那么多年,看到的至少也是3分起步的电影,现在居然还有2分的电影

豆瓣评分最低打一星,换算成分数就是2分,因此豆瓣电影理论上的最低分不是0分,而是2分。

看来豆瓣对于某些电影还是挺照顾的。

感兴趣的朋友可以去看下这部电影,感受下吐槽的乐趣。

好了,进入搬砖模式,今天就来爬取下豆瓣评分在3分一下的那些神片,看看有没有你踩过的坑!

1

数 据 爬 取

| 页面分析

由于页面单次并不显示所有的电影信息,加载电影是URL也没有任何变化。 需要进一步研究页面,找出真实需要爬取的URL信息。

python 抓取页面_python 网络爬虫 抓取 图片_python 抓取豆瓣

通过该URL可以发现该页面电影的详细信息:

python 抓取页面_python 网络爬虫 抓取 图片_python 抓取豆瓣

| 数据抓取

通过点击加载更多,可以发现一些规律:

真实URL中参数start会每次增加20,新的URL中呢也会相应的存储对应的20部电影的信息。

掌握这些规律之后,就可以用代码实现抓取了。

 

for i in range(0,481,20): url = "https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1&start={页面}&genres=%E5%89%A7%E6%83%85&countries=%E7%BE%8E%E5%9B%BD".format(页面 = i) data = requests.get(url,headers = headers).text dicts = json.loads(data) df = pd.DataFrame(dicts["data"]) if i == 0: total_df = df else: total_df = pd.concat([total_df,df],axis = 0)

然后将爬取好的电影数据存入文件即可完成。后台回复豆瓣电影即可获取。

2

数 据 概 况

爬取数据时爬取了所有的低分电影,但是电影基本集中在2000年往后,2000年之前的电影基本没有低于3分的电影,可能因为这部分电影在这之前的评分方式不一致。 根据标签爬取的低评分(评分在2-3区间内)电影总量在550部左右。

电影名称,评分情况,电影信息和演职人员等信息截图如下:

python 抓取豆瓣_python 网络爬虫 抓取 图片_python 抓取页面

这里面评分人数最多的是一部国产片《天机·富春山居图》,孙健君导演、刘德华和志玲姐姐的作品,很不幸地看过这部电影,emmm......一言难尽。

python 抓取豆瓣_python 网络爬虫 抓取 图片_python 抓取页面

金扫帚奖-最令人失望的影片也是实至名归,非常好的烂片!

python 抓取页面_python 抓取豆瓣_python 网络爬虫 抓取 图片

3

低 分 电 影 分 析

| 最近十年烂片数量变化

最近十年烂片数量节节攀升(当然电影总量也在上升)python 抓取豆瓣,18年数量比较少,可能是因为爬取得不够全,或者时间关系,部分电影还没有收录。 (19年数据不全,暂时未放进来)

python 抓取豆瓣_python 网络爬虫 抓取 图片_python 抓取页面

如果看这几年的烂片数量占比的话,最近几年的烂片占比在上升,从烂片占比这一个指标来说python 抓取豆瓣,影片质量下降明显。

python 网络爬虫 抓取 图片_python 抓取页面_python 抓取豆瓣

| 不同地区的烂片数量

在获取的500多部低评分电影中,最多的是中国的电影,其次是美国的电影,当然虽然这两个地方的低分电影多,并不能说明我们或者美国的电影质量不好。

python 抓取豆瓣_python 网络爬虫 抓取 图片_python 抓取页面

如果我们去看美国所有电影的评分分布情况,虽然美国的烂片比较多,但是他们的总量电影也非常多,而且不同评分的电影数量分布基本上满足标准的良性正态分布的关系。

python 网络爬虫 抓取 图片_python 抓取豆瓣_python 抓取页面

这一次爬取了足够多的的电影,这里暂时不过多地深入了。 下一次会出个严肃的电影质量分析,敬请期待哈。

| 烂片中不同电影类型分布

在获取到的这些低评分电影中,最多标签就是动作片、剧情和喜剧。

不会拍好作品的尬拍动作片

不知道叫什么标签的取个剧情片肯定错不了

打喜剧标签的主要是那些好声音之为你转身类综艺大电影

一把把镰刀挥向韭菜,疯狂收着智商税。

python 网络爬虫 抓取 图片_python 抓取页面_python 抓取豆瓣

4

电 影 推 荐

评论人数较多的几部烂片如下,看看有没有你踩过的坑,反正我是看过排名第一的《天机·富春山居图》。 (因为这是截止到18年的数据,所以《上海堡垒》侥幸躲过一劫)

python 抓取豆瓣_python 抓取页面_python 网络爬虫 抓取 图片

仔细看了下这几部电影的简介,第二部也是个神片,感兴趣的赶紧搜索看一下。

python 网络爬虫 抓取 图片_python 抓取页面_python 抓取豆瓣

出于好奇搜了一下你们的女神,赵老师的几部电影,果然都很出色。

一瞬间,青春期的那几部电影吸引了眼球,现在回想起来还有点上头。

python 抓取豆瓣_python 网络爬虫 抓取 图片_python 抓取页面

看过富春山居图,知道赵奕欢,看过这个榜单后整个人都不大好了,我简直是烂片收割机本人。

python 抓取页面_python 抓取豆瓣_python 网络爬虫 抓取 图片

好了,我去面壁思过会。加群领取完整项目代码哦:850591259