Python实现图书数据挖掘系统（数据仓库）-Toy模板网

这篇具有很好参考价值的文章主要介绍了Python实现图书数据挖掘系统（数据仓库）。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录
摘要 I
Abstract II
第1章绪论 1
1.1选题背景及意义 1
1.2国内外研究现状 1
1.3发展趋势 2
第2章系统需求分析 3
2.1任务描述 3
2.2需求分析 3
2.3 系统目标 4
第3章系统概要设计 5
3.1 系统用户分析 5
3.2 系统功能分析 6
3.3 系统算法分析 9
第4章系统详细设计 12
4.1 数据管理 12
4.2 数据采集的方法 12
4.3 数据预处理的方法 12
4.4 算法描述 12
4.5 个人模块详细设计 14
第5章系统实现 22
5.1 系统界面的实现 22
5.2 系统调试及操作说明 23
5.3 测试与分析 24
总结 26
参考文献 27
第2章系统需求分析
2.1任务描述
对图书图书数据挖掘系统进行调研，采集读者图书资源的数据，运用数据挖掘技术，通过聚类分析和关联规则的使用，对图书归类分布、读者图书推荐、馆藏书籍采购决策等工作行成分析采集，然后进行设计。
主要任务包括：
第一，数据挖掘方法和技术：对数据挖掘方法和技术进行深入研究，并建立有效的处理模型。应用聚类分析，对图书数据进行数据处理和数据转换、数据筛选等操作，删除业务数据库中影响数据挖掘效果的项集。
第二，算法研究：通过改进Apriori算法减少对数据仓库的扫描次数，采用基于关系代数理论算法的良好并行性和可伸缩性，提高扫描率。要有具体的系统算法分析，包括关联规则算法，决策树方法。
第三，系统分析和设计：具体分析图书图书数据挖掘系统的需求，做出系统概要设计和详细设计。概要设计部分要按照数据挖掘的聚类思想规划出主要功能模块，详细说明需要设计的模块，用图示说明。详细设计部分包括数据管理，数据采集的方法，数据预处理的方法，给出个人模块的详细设计步骤。
第四，系统的实现：实现系统的具体界面，包括图书系统主界面，挖掘界面，信息查询界面等。附上系统主界面的运行结果，即测试结果图示。
2.2需求分析
随着科学技术的不断发展，计算机科学日渐成熟，计算机知识的普及使更多用户懂得利用计算机为自己的工作，生活提供方便。计算机其强大的功能已为人们所深刻认识，它己进入人类社会的各个领域并发挥着越来越重要的作用。采用计算机进行信息化管理已成为衡量高校图书管理科学化和现代化的重要标志，而图书馆图书管理的全面自动化、信息化则是其中重要的组成部分。
本系统是以建立一个以通过计算机数据管理图书数据管理为目的，以用户浏览图书信息的网站系统。本系统具有灵活、方便、快捷、界面友好等优点，更加方便的在线了解图书信息，以及图书图书。本系统研究的课题主要意义是通过完成这个图书管理系统，方便管理者的管理以及用户所需要查询的书籍，使大家在尽可能短的时间内完成对所需要图书的图书。大大的方便了用户的需求在很大程度上提升了高校的教学水平。因此，本文所研究的图书图书数据挖掘系统具有一定的使用价值和现实意义。
在图书图书数据挖掘系统中，管理员为每个读者建立一个账户，账户内存储读者个人的详细信息，并依据读者类别的不同给每个读者发放借书卡。读者可以凭借书卡在图书馆进行图书的借、还、续借、查询等操作。图书图书时，由管理员录入借书卡号，显示书号，现存量，会员编号等信息。归还图书时，由管理员录入借书卡号和待归还的图书编号，显示归还书号，现存量，会员编号等。图书管理员不定期地对图书信息进行添加、修改和删除等操作，在图书尚未归还的情况下不能对图书信息进行删除。也可以对读者信息进行添加、修改、删除等操作。
2.3 系统目标
自八十年代中期开始，关系数据库技术被普遍采用，新一轮研究与开发新型强大的数据库喜用悄然兴起，本文转载自http://www.biyezuopin.vip/onews.asp?id=13190并提出了许多先进的数据模型：扩展关系模型、面向对象模型、演绎模型等；以及应用数据库系统：空间数据库、时序数据库、多媒体数据库等；日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息工业中开始扮演重要角色。
在这次图书图书数据挖掘课程设计中，我们要从数据管理、数据采集、数据预处理等方面来完成图书图书课程设计。
总体系统目标要做到以下几点：
采用关联规则中的Apriori算法对图书图书事务集合进行数据挖掘。
挖掘出的结果形如：数据库原理==> SQL Server 支持度2%，置信度 30%，或数据库原理、SQL Server==>Delphi 支持度0.5%，置信度 1%。
结果显示与解释评估。把挖掘出的结果以一种直观的方式显示出来，并对挖掘出的结果进行评价。

# 1.图书总入口
base_url = 'https://book.jd.com/booksort.html'

# 2.爬取的是 每个小分类的 链接
# 2.1 解析大分类的名字 -52个大分类 
    
# 2.2 解析小分类的名字和链接 --882个
    # 获取所有大分类标签 dt 
    dt_list = '//*[@id="booksort"]/div[2]/dl/dt'

    # 遍历52个大分类
    for dt in dt_list:
        category = './a/text()'
        # 根据大分类取小分类
        em_list = './following-siblings::*[1]/em'

        for em in em_list:
            small_category = './a/text()'
            # 注意点: 小分类的链接 需要拼接 
            small_link = 'http:' + './a/@href'

    # 访问爬取 每个小分类的数据--
    # 解析 列表页的书
    # 解析所有的数据 --60
    list_book = '//*[@id="plist"]/ul/li/div'

    # 遍历解析 60本书 个 详细信息
    for book in list_book:
        # 书名
        name = './/div[@class="p-name"]/a/em/text()'
        # 作者
        author = './/span[@class="p-bi-name"]/span/a/text()'
        # 出版社
        store = './/span[@class="p-bi-store"]/a/text()'
        # 价格
        price = './/strong[@class="J_price"]/i/text()'
        # 图片地址
        default_image = './/div[@class="p-img"]/a/img/@src'

# 3.图书列表页的翻页
    # 解析 下一页的网址 
    next_url = '//a[@class="pn-next"]/@href'
    如果没有值 代表当前小分类抓取完毕