豆瓣读书网站的数据爬取与分析

这篇具有很好参考价值的文章主要介绍了豆瓣读书网站的数据爬取与分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

Python应用程序设计

豆瓣读书网站的数据爬取与分析

一、 项目背景与需求分析

二、数据抓取与分析

三、数据库设计

四、展示系统

一、 项目背景与需求分析

  1. 选题背景

本设计作品选取了豆瓣读书网站,主要爬取的是豆瓣读书的TOP250,通过爬取的数据进行对信息的进一步的数据分析。豆瓣读书TOP250网址为:https://book.douban.com/top250?start=0。

在这个设计中爬取了豆瓣读书的书名、书籍链接、书籍评分、评分人数、书籍作者、书籍的翻译者、出版社、出版日期、书籍的价格、一句话评价、书籍图片。通过爬取这些数据,可以使我们更加直观看到TOP250的图书整理数据,有效减少手动筛选统计的工作量。

  1. 数据抓取与分析

1.豆瓣图书数据

通过requests向页面发送请求,BeautifulSoup解析豆瓣读书网页数据,将爬取下来的数据利用pandas库存到csv,通过for循环依此爬取网站十页250条数据。由于爬取的内容板块较多,且并不是每一本书都有一句话评价、译者、作者,也并不是每一本书都只有一个价格,所以需要将特殊情况另外拿出分析。

当每一种情况都有时:

if len(info) == 5:

book_author.append(info[0])

book_translater.append(info[1])

book_publisher.append(info[2])

book_pub_year.append(info[3])

book_price.append(str(info[4]))

当没有译者的时候:

elif len(info) == 4:

book_author.append(info[0])

book_translater.append(None)

book_publisher.append(info[1])

book_pub_year.append(info[2])

book_price.append(str(info[3]))

当有两种价格时:

elif len(info) == 6:

book_author.append(info[0])

book_translater.append(info[1])

book_publisher.append(info[2])

book_pub_year.append(info[3])

book_price.append(str(info[4]) + '/' + str(info[5]))

当没有作者时:

elif len(info) == 3:

book_author.append(None)

book_translater.append(None)

book_publisher.append(info[0])

book_pub_year.append(info[1])

book_price.append(str(info[2]))

当没有一句话评价时:

if book.select('.quote span'):

book_comment.append(book.select('.quote span')[0].text)

else:

book_comment.append(None)

爬取数据:

豆瓣读书网站的数据爬取与分析

图1

转换为excl文件:

豆瓣读书网站的数据爬取与分析

图2

数据展示:

豆瓣读书网站的数据爬取与分析

图3

  1. 图标数据和数据库数据

该部分的取数通过运用正则表达式,找到要爬取的书名和评分,再通过控制爬取的网页页数,从而爬出前25本和250本图书的数据。

豆瓣读书网站的数据爬取与分析

图4

  1. 排名前十名评分人物数据

该数据的取值是从“豆瓣图书.csv”中取出的,通过取出我们本来文件中的第一列书名与第九列评分,再控制一到十行,就可方便取出数据。

import pandas as pd

data = pd.read_csv("豆瓣图书.csv",header=None)

data = data.loc[1:10,[1,9]]

print(data)

data.to_csv("排名前十评分人数数据.csv")

豆瓣读书网站的数据爬取与分析

图6

  1. 爬取图片

由于之前已经将爬取的代码保存成了a.txt,那么只要在该文件里找到图片所在位置node1=soup.find_all(“img”,width=”90”),再将图片取出存入文件夹即可。

代码如图:

豆瓣读书网站的数据爬取与分析

图7

爬取结果:

豆瓣读书网站的数据爬取与分析
  1. 数据库设计

豆瓣读书爬虫系统在SQLite的平台上创建了一个名为books的数据库,在库中共创建了1张表。

信息表book,存储图书的信息,其设计如表1所示。

表1 图书表

表名

属性

类型

描述

备注

Book

name

String

书名

主码

pingfen

String

评分

not null

豆瓣读书网站的数据爬取与分析
  1. 展示系统

1.登录页面

豆瓣读书网站的数据爬取与分析

2.可视化部分图表展示

豆瓣读书网站的数据爬取与分析
豆瓣读书网站的数据爬取与分析
豆瓣读书网站的数据爬取与分析
豆瓣读书网站的数据爬取与分析
豆瓣读书网站的数据爬取与分析
  1. 参考

(3条消息) python爬虫获取豆瓣TOP25电影名称和评分_生年不满百,常怀千岁忧的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-486632.html

到了这里,关于豆瓣读书网站的数据爬取与分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于Python的招聘网站信息爬取与数据分析

    文末获取资源,收藏关注不迷路 随着社会经济的快速发展,人们的生活水平得到了显著提高,但随之而来的社会问题也越来越多。其中最为显著的就是就业问题。为此,招聘信息的展示也变得越来越为重要。但是在大量的招聘信息中,人们在提取自己最想要的信息时变得不那

    2024年02月04日
    浏览(48)
  • 大数据毕设分享 招聘网站爬取与大数据分析可视化 - python 分析 可视化 flask

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年02月19日
    浏览(57)
  • 【Python数据分析实战】豆瓣读书分析(含代码和数据集)

    @[TOC]豆瓣 数据集: 链接:douban.csv 提取码:pmls 从数据集中可以发现出版时间的数据格式多样,有1999,2012/12,1923-4,2019年六月,因此需要提取出其年份 结果: False 46173 True 7 Name: 页数, dtype: int64 结果: False 42813 True 2073 Name: 书名, dtype: int64

    2023年04月09日
    浏览(37)
  • python数据采集课设-京东手机评论爬取与分析

    1.手机评论采集,数据信息(评论,评分,用户,评论发布时间) 爬取不同的手机评论,需要设置不同的id  如上图红圈处即为手机vivo S12的id 结果展示: 2.去除停用词以及词云图展示: 本节代码对多款手机的评论进行循环处理 此代码需要使用的stopwords.txt文件以上传至资源

    2024年02月15日
    浏览(37)
  • 分享一个Python Django影片数据爬取与数据分析系统源码

    💕💕 作者:计算机源码社 💕💕 个人简介:本人七年开发经验,擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等,大家有这一块的问题可以一起交流! 💕💕 学习资料、程序开发、技术解答、文档报告 💕💕JavaWeb项目 💕💕微信小程序项目 💕💕Python项目 💕💕

    2024年02月09日
    浏览(45)
  • 基于Python+django影片数据爬取与数据分析设计与实现

    博主介绍 : ✌ 全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精彩专栏 推荐订阅 👇🏻 不然下次找不到哟 2022-2024年

    2024年02月05日
    浏览(52)
  • 【毕业设计】基于大数据的招聘职业爬取与分析可视化

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2023年04月08日
    浏览(67)
  • 大数据毕业设计 二手房数据爬取与分析可视化系统 -python

    # 1 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项

    2024年02月16日
    浏览(49)
  • 毕业设计项目 基于大数据的招聘职业爬取与分析可视化

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年03月23日
    浏览(46)
  • 毕业设计-基于大数据的电影爬取与可视化分析系统-python

    目录 前言 课题背景和意义 实现技术思路 实现效果图样例     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学

    2024年01月21日
    浏览(64)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包