大数据毕设分享(含算法) 基于Python实现的新闻搜索引擎(源码+论文)

这篇具有很好参考价值的文章主要介绍了大数据毕设分享(含算法) 基于Python实现的新闻搜索引擎(源码+论文)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

# 0 简介

今天学长向大家介绍适合作为毕设的项目:

毕设分享 基于Python实现的新闻搜索引擎(源码+论文)

项目获取:

https://gitee.com/sinonfin/algorithm-sharing文章来源地址https://www.toymoban.com/news/detail-784871.html

基于Python实现的新闻搜索引擎

一、Scraper - 爬虫

使用的库有:

  • requests

  • BeautifulSoup4

爬虫分为两部分,网络通信部分(scraper.py)与适配器(adapers/*.py)部分。

1.1 网络通信部分

网络部分也分为两部分:

  • 第一部分是初始化部分,使用适配器提供的链接,下载数据后发给适配器(适配器用这些链接捕获哪些链接是下一步需要爬取的)

  • 第二部分是爬取新闻的部分,适配器在前一步里得到了大量的新闻链接,通信部分便用这些链接进行爬取。爬取之后,再将这些数据传入适配器,然后得到返回值(包含新闻的ID、标题、内容、日期、来源)

全部爬完之后,将新闻数据以json格式存入到文件里,其中新闻的内容是html,不是纯文本(保留了原网站的一些排版、外链图片等信息)。

这一部分是多线程(默认是10个线程)的,也就是说适配器必须要是线程安全的。

1.2 适配器部分

适配器部分为通信部分提供链接(url)、报文头(headers)、请求参数(params),需要实现7个函数:

  • hasNextInit():判断是否有下一个初始链接,有的话返回True

  • nextInitParam():返回下一个初始链接的信息,包括op和上述的url、headers、params,其中op是你想加入的额外的信息

  • init(op, text):op表示上一个函数你所加入的额外的信息,text表示上一个函数请求的url所得到的html数据

  • hasNext():判断是否有下一个新闻链接,有的话返回True

  • nextParam():返回下一个新闻链接的信息,包括op和上述的url、headers、params,其中op是你想加入的额外的信息

  • eval(op, text):op表示上一个函数你所加入的额外的信息,text表示上一个函数请求的url所得到的html数据

  • ‘encoding()’:返回所爬取网页用的编码格式(用于网络部分解析html数据)

请一定注意,这些函数都必须要线程安全。

二、Web - 网页

2.1 前端

  • 使用Boostrap 3写的UI

  • 使用JavaScript(大部分是jQuery)进行各种UI更新操作,比如分页、高亮、使用ajax获取各种服务器上的数据,动态更新网页等

  • 包含三种页面:主页(/)、搜索页(/s??wd=中国&bg=2001-01-25&ed=2018-01-25)、新闻详细页(/post?id=people_1

2.2 后端

我使用的数据库是Django默认自带的SQLite,因此我只需要实现几个models就能实现数据的读写了。我一共写了4个models(位于/web/postdb/models.py):

  • WebInfo:存储每个适配器(adapter)的数据信息

    • name:适配器的名字(比如peoplexinhua
    • count:该适配器目前有多少数据从爬虫部分的json文件里导入进了数据库(用于下一次从该json文件里更新数据)
  • PostInfo:存储每篇新闻的数据信息

    • NID(Number ID):每篇新闻的纯数字ID(从1开始),用于减少网络通信时数据传输的大小
    • TID(Text ID):每篇新闻的文本ID,是适配器名字_number这样命名,比如people_1,用于在/post?id=people_1里展示(而不是以纯数字的方式,因为这样难以区分)
    • time:新闻发表的时间,用datetime类型存储
    • category:新闻的分类(中文),比如“社会”、“时政”、“军事”等
    • title:新闻的标题
    • content:新闻的内容(html)
    • plain:新闻的内容(纯文本)
    • url:新闻是从哪里爬取的?就是从该url爬取的
    • sourceLink:新闻的来源链接(每篇新闻都有个来源,不一定就是url)
    • sourceText:新闻的来源文本(比如“新华网”、“人民网”)
  • IndexInfo:存储每个词语对应的新闻(倒排列表索引),同时存储新闻的一些信息

    • key:词语
    • value:该词语所对应的倒排列表(list),这个列表的每一个元素的格式为[在该新闻里的出现次数, 该新闻的NID,该新闻的发表时间], 比如[1234, '3', datetime(2018, 1, 2)]。该列表会转化成json格式的字符串存储在value
  • PostRelation:存储每篇新闻相关联的几篇新闻(默认是3篇),将其作为该新闻的推荐新闻

    • NID:新闻的NID
    • relation:相关联新闻的列表(list),这个列表的每一个元素的格式为{'title': 关联新闻的标题, 'TID': 关联新闻的ITD}。该列表会转化成json格式的字符串存储在relation

2.3 新闻搜索算法

先介绍IndexInfo数据库的建立。

将每篇新闻的纯文本进行分词(使用thulac),同时统计每个词出现的次数。然后根据格式存入IndexInfo里的value

对于每一个搜索的字符串,我们将这个字符串也分词。对于每个词语,我们从IndexInfo里取出倒排列表,将每个新闻的出现次数累加。最后根据每条新闻的累加次数,从大到小排个序,然后返回这些新闻的NID

2.4 推荐新闻算法

用一个最简单的办法:将这篇新闻的标题拿去新闻搜索算法里进行搜索,然后取出前几条新闻即可。这是因为,新闻的标题有高度的概括性(而且是人为的),在一定程度上可以代表整篇文章。

我们用该办法预处理一下每篇新闻,然后存入PostRelation数据库里即可。

三、界面

首页

大数据毕设分享(含算法) 基于Python实现的新闻搜索引擎(源码+论文),python

搜索新闻

推荐展示

四、使用说明

4.1 本机环境

  • Python 3.7.0

  • Django 2.1.1

  • requests 2.19.1

  • BeautifulSoup4 4.6.3

  • thulac

4.2 使用

首先使用scraper文件夹下的爬虫scraper.py对“人民网”、“新华网”的新闻进行爬取:

python scraper.py

之后会将爬取的数据存储到people.jsonxinhua.json中,然后在web文件夹下,运行:

python manage.py makemigrations
python manage.py migrate

初始化数据库,然后再执行:

python manage.py updateDB

将爬取的数据导入到数据库中(这可能会等很长时间),之后再执行:

python manage.py updateRelation

更新文章推荐的数据库,最后:

python manage.py runserver

启动服务器即可,你就可以通过127.0.0.1:8000进行访问网站了。

目前的效率是,17000篇新闻的话,在i5-7200U的机子上查询新闻只要0.1s左右。(反正Django自带的sqlite有多快我这个就有多快)

项目分享

项目获取:

https://gitee.com/sinonfin/algorithm-sharing

到了这里,关于大数据毕设分享(含算法) 基于Python实现的新闻搜索引擎(源码+论文)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 毕设项目 基于Python实现的新闻搜索引擎(源码+论文)

    # 0 简介 今天学长向大家介绍适合作为毕设的项目: 毕设分享 基于Python实现的新闻搜索引擎(源码+论文) 项目获取: https://gitee.com/assistant-a/project-sharing 使用的库有: requests BeautifulSoup4 爬虫分为两部分,网络通信部分(scraper.py)与适配器(adapers/*.py)部分。 网络部分也分为两

    2024年04月10日
    浏览(42)
  • 软件工程毕设分享(含算法) 基于python的搜索引擎设计与实现

    今天学长向大家分享一个毕业设计项目 毕业设计 基于python的搜索引擎设计与实现 项目运行效果: 毕业设计 基于python的搜索引擎 项目获取: https://gitee.com/sinonfin/algorithm-sharing 随着互联网和宽带上网的普及, 搜索引擎在中国异军突起, 并日益渗透到人们的日常生活中, 在互

    2024年01月21日
    浏览(70)
  • 毕设分享 基于python的搜索引擎设计与实现

    今天学长向大家分享一个毕业设计项目 毕业设计 基于python的搜索引擎设计与实现 项目运行效果: 毕业设计 基于python的搜索引擎 项目获取: https://gitee.com/assistant-a/project-sharing 随着互联网和宽带上网的普及, 搜索引擎在中国异军突起, 并日益渗透到人们的日常生活中, 在

    2024年04月09日
    浏览(50)
  • 毕设开题分享 基于python的搜索引擎设计与实现

    今天学长向大家分享一个毕业设计项目 毕业设计 基于python的搜索引擎设计与实现 项目运行效果: 毕业设计 基于python的搜索引擎 项目获取: https://gitee.com/sinonfin/algorithm-sharing 随着互联网和宽带上网的普及, 搜索引擎在中国异军突起, 并日益渗透到人们的日常生活中, 在互

    2024年01月24日
    浏览(47)
  • 基于python的新闻搜索引擎设计与实现

    摘要 : 21世纪的今天互联网信息技术飞速发展,各类信息充斥着互联网,如何有效的进行信息的搜集整理成为了一个非常重要的课题。网络爬虫就是实现自动搜索互联网中的各种信息的程序,本系统通过定向的对新闻网站相关的信息进行采集分析与展示。运用计算机图形学

    2024年02月05日
    浏览(47)
  • 基于Python与spimi的新闻搜索引擎设计与实现_kaic

    摘   要 在互联网还没有被普及的那个年代,人们查阅资料首先会想到去图书馆,而互联网的诞生,极大便利了人们查询信息的方式,搜索引擎打开了最有效的查询方法大门。  利用Python语言以及相关技术,实现了以新闻为主题的搜索引擎,完成这个项目要用到Python爬虫的多

    2024年02月07日
    浏览(45)
  • 大数据毕设分享 基于深度学习的抽烟行为检测算法实现(源码分享)

    今天学长向大家分享一个毕业设计项目 毕业设计 基于深度学习的抽烟行为检测算法实现(源码分享) 项目运行效果: 毕业设计 深度学习的抽烟行为检测算法实现 项目获取: https://gitee.com/sinonfin/algorithm-sharing 通过目前应用比较广泛的 Web 开发平台,将模型训练完成的算法模型

    2024年02月22日
    浏览(52)
  • 算法毕设分享 深度学习图像搜索算法-图像搜索引擎(源码分享)

    今天学长向大家分享一个毕业设计项目 毕业设计 深度学习图像搜索算法-图像搜索引擎(源码分享) 项目运行效果: 毕业设计 深度学习图像搜索算法-图像搜索引擎 项目获取: https://gitee.com/sinonfin/algorithm-sharing 图像检索:是从一堆图片中找到与待匹配的图像相似的图片,就是

    2024年02月04日
    浏览(56)
  • 毕设 基于python的搜索引擎设计与实现

    今天学长向大家分享一个毕业设计项目 毕业设计 基于python的搜索引擎设计与实现 项目运行效果: 毕业设计 基于python的搜索引擎 项目获取: https://gitee.com/sinonfin/algorithm-sharing 随着互联网和宽带上网的普及, 搜索引擎在中国异军突起, 并日益渗透到人们的日常生活中, 在互

    2024年02月03日
    浏览(60)
  • 毕设 深度学习图像搜索算法-图像搜索引擎(源码分享)

    今天学长向大家分享一个毕业设计项目 毕业设计 深度学习图像搜索算法-图像搜索引擎(源码分享) 项目运行效果: 毕业设计 深度学习图像搜索算法-图像搜索引擎 项目获取: https://gitee.com/sinonfin/algorithm-sharing 图像检索:是从一堆图片中找到与待匹配的图像相似的图片,就是

    2024年02月02日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包