基于大数据的高校贴吧舆情数据分析系统

这篇具有很好参考价值的文章主要介绍了基于大数据的高校贴吧舆情数据分析系统。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

完整代码下载:https://download.csdn.net/download/andrew_extra/88614241 

1. 项目简介

        本课题设计的高校舆情分析系统基本内容包括:(1)使用爬虫技术将贴吧中的热门话题爬取出来并存储到mysql数据库中。(2)系统内容包括用数据可视化的样式将高校的热门贴吧的热点帖子展现出来。(3)筛选重点舆情信息,利用python第三方包wordcloud将重点信息以云图的的方式展现出来(4)利用lambda算法实时计算并对网页内容进行内容实时抽取,情感词分析并进行网页舆情结果存储。(5)通过离线计算,系统需要对历史数据进行回溯,结合人工标注等方式优化情感词库,对一些实时计算的结果进行矫正等。

2. 高校舆情数据抓取

        利用 python 的 request + beautifulsoup 等工具包实现对某高校的贴吧进行发帖数据的抓取:

    。。。。。。

    # 采集某贴吧列表数据
    def spider_tieba_list(self, url):
        print(url)
        response = requests.get(url, headers=self.headers)
        try:
            response_txt = str(response.content, 'utf-8')
        except Exception as e:
            response_txt = str(response.content, 'gbk')
        # response_txt = str(response.content,'utf-8')
        bs64_str = re.findall(
            '<code class="pagelet_html" id="pagelet_html_frs-list/pagelet/thread_list" style="display:none;">[.\n\S\s]*?</code>',
            response_txt)

        bs64_str = ''.join(bs64_str).replace(
            '<code class="pagelet_html" id="pagelet_html_frs-list/pagelet/thread_list" style="display:none;"><!--', '')
        bs64_str = bs64_str.replace('--></code>', '')
        html = etree.HTML(bs64_str)
        # 标题列表
        title_list = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a[1]/@title')
        # 链接列表
        link_list = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a[1]/@href')
        # 发帖人
        creator_list = html.xpath('//div[@class="threadlist_author pull_right"]/span[@class="tb_icon_author "]/@title')
        # 发帖时间
        create_time_list = html.xpath('//div[@class="threadlist_author pull_right"]/span[@class="pull-right is_show_create_time"]/text()')

        for i in range(len(title_list)):
            item = dict()
            item['create_time'] = create_time_list[i]
            if item['create_time'] == '广告':
                continue
            item['create_time'] = self.get_time_convert(item['create_time'])
            item['title'] = self.filter_emoji(title_list[i])
            item['link'] = 'https://tieba.xxxx.com' + link_list[i]
            item['creator'] = self.filter_emoji(creator_list[i]).replace('主题作者: ', '')
            item['content'] = self.filter_emoji(item['title'])
            item['school'] = self.tieba_name
            self.tieba_items.append(item)
        # 保存帖子数据
        self.saver.writelines([json.dumps(item, ensure_ascii=False) + '\n' for item in self.tieba_items])
        self.saver.flush()
        self.tieba_items.clear()

        # 如果有下一页继续采集下一页
        nex_page = html.xpath('//a[@class="next pagination-item "]/@href')
        if len(nex_page) > 0:
            next_url = 'https:' + nex_page[0]

            # 抓取 10000 条数据
            if float(next_url.split('=')[-1]) < 2000:
                self.spider_tieba_list(next_url)
    
    。。。。。。

3. 基于大数据的高校舆情数据分析系统

3.1 系统首页与注册登录

基于大数据的高校贴吧舆情数据分析系统

3.2 高校最新贴吧信息展示

3.3 高校贴吧热点词分析

        对学生发帖文本内容进行文本清洗,去除停用词、标点符号等不能表征舆情效果的词汇,通过词频的统计并构建话题词群:

def tiebas_words_analysis(school):
    cate_df = tiebas_df[tiebas_df['school'] == school]

    word_count = {}
    for key_words in cate_df['title_cut']:
        for word in key_words:
            if word in word_count:
                word_count[word] += 1
            else:
                word_count[word] = 1

    wordclout_dict = sorted(word_count.items(), key=lambda d: d[1], reverse=True)
    wordclout_dict = [{"name": k[0], "value": k[1]} for k in wordclout_dict if k[1] > 3]

    # 选取 top10 的词作为话题词群
    top_keywords = [w['name'] for w in wordclout_dict[:10]][::-1]
    top_keyword_counts = [w['value'] for w in wordclout_dict[:10]][::-1]

基于大数据的高校贴吧舆情数据分析系统

3.4 高校贴吧数据时间维度分析 

基于大数据的高校贴吧舆情数据分析系统

基于大数据的高校贴吧舆情数据分析系统

4. 结论

        本项目利用网络爬虫从某高校贴吧抓取某几个大学学生发帖的数据,包括发帖内容、发帖时间、用户名等信息,对数据完成清洗并结构化存储到数据库中,利用 flask 搭建后台系统,对外提供标准化的 restful api 接口,前端利用 bootstrap + html + css + JavaScript + echarts 实现对数据的可视化分析。系统可实现对高校舆情的监视,查看学生发帖的时间分布情况,近期关注的热点词等功能。

 完整代码下载:https://download.csdn.net/download/andrew_extra/88614241 

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码

精彩专栏推荐订阅:

1. Python 毕设精品实战案例
2. 自然语言处理 NLP 精品实战案例
3. 计算机视觉 CV 精品实战案例
文章来源地址https://www.toymoban.com/news/detail-401618.html

到了这里,关于基于大数据的高校贴吧舆情数据分析系统的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【大数据毕设选题】基于大数据的社交平台数据爬虫舆情分析可视化系统

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年02月21日
    浏览(42)
  • 互联网加竞赛 基于大数据的社交平台数据爬虫舆情分析可视化系统

    🔥 优质竞赛项目系列,今天要分享的是 🚩 基于大数据的社交平台数据爬虫舆情分析可视化系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:3分 工作量:3分 创新点:4分 🧿 更多资料, 项目分享: h

    2024年02月02日
    浏览(54)
  • Python基于Flask的高校舆情分析,舆情监控可视化系统

    目录 一、前言 二、使用Python爬取舆情数据 1.安装requests库 2.分析数据 3.爬取数据 三、通过代理IP提高数据爬取效率 1.获取代理IP 2.使用代理IP 四、使用Flask框架实现舆情监控可视化系统 五、使用MongoDB存储数据 六、总结 一、前言 在当今社会,舆情监控越来越被重视。随着互联

    2024年02月07日
    浏览(47)
  • 基于Python的微博大数据舆情分析,舆论情感分析可视化系统,可作为Python毕业设计

    基于Python的微博大数据舆情分析,舆论情感分析可视化系统 微博舆情分析系统,项目后端分爬虫模块、数据分析模块、数据存储模块、业务逻辑模块组成。 先后进行了数据获取和筛选存储,对存储后的数据库数据进行提取分析处理等操作,得到符合需要的结构化数据,将处

    2024年02月12日
    浏览(41)
  • Python基于大数据的微博的舆情分析,微博评论情感分析可视化系统(V2.0),附源码,数据库

    博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅 文末获取源码联系 🍅 👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟 2022-2024年最全的计算机软件毕业设计选

    2024年03月16日
    浏览(54)
  • python高校舆情分析系统+可视化+情感分析 舆情分析+Flask框架(源码+文档)✅

    毕业设计:2023-2024年计算机专业毕业设计选题汇总(建议收藏) 毕业设计:2023-2024年最新最全计算机专业毕设选题推荐汇总 🍅 感兴趣的可以先收藏起来,点赞、关注不迷路,大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助同学们顺利毕业 。

    2024年02月01日
    浏览(43)
  • 【大数据毕设选题】基于大数据的高校校园学生一卡通数据分析

    今天学长向大家介绍一个数据分析项目 基于大数据的高校校园学生一卡通数据分析 基于国内某高校校园一卡通系统一个月的运行数据,使用数据分析和建模的方法,挖掘数据中所蕴含的信息,分析学生在校园内的学习生活行为 1.1.1数据结构总览查看数据集项数,发现数据集

    2024年02月22日
    浏览(46)
  • 【数据挖掘实战】——舆情分析:对微博文本进行情绪分类

    🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+   目录 一、背景介绍 二、比赛任务

    2024年02月08日
    浏览(41)
  • 毕业设计 Python社交平台舆情分析与可视化 - 数据爬虫 大数据

    🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。 为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天

    2024年02月08日
    浏览(48)
  • 【爬虫、数据可视化实战】以“人口”话题为例爬取实时微博数据并进行舆情分析

    近期在weibo上讨论的比较热的话题无非就是“人口”了。TaoTao也看了一些大家发的内容。但是感觉单纯的看文字内容不能很直观的反应出来大家的关切。索性就使用爬虫对数据进行爬取,同时结合着数据可视化的方式让数据自己开口说话。那么接下来就让我们使用技术进行分

    2024年01月23日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包