[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

这篇具有很好参考价值的文章主要介绍了[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

 

DStream窗口操作

DStream输出操作

DStream实例——实现网站热词排序


DStream的概述
Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流

特点

1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每个微批就是一个RDD
2、DStream由一系列连续的RDD组成,每个RDD都包含来自特定间隔的数据
3、DStream本质上就是一系列时间上连续的RDD(DStream = Seq[RDD])

 

DStream窗口操作

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

一、window()

1编写WindowTest.scala

注意红框内容!!!

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

2 运行程序并在master 9999 端口不断输入单词,观察到控制台输出内容

$ nc -lk 9999

1

2

3

4

5

6

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

二、ReduceByKeyAndWindow()

1 编写ReduceByKeyAndWindowTest.scala

注意红框内容!!!

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

2 运行程序并在master 9999 端口不断输入单词,观察到控制台输出内容

$ nc -lk 9999

A

A

B

B

c

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

DStream输出操作

1 编写SaveAsTestFilesTest.scala

注意红框内容!!!

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

2 运行程序

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

3 启动Hadoop集群

$ start-all.sh

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

4 访问192.168.196.101(master):50070 点击【utilities】à【browse the file system】

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

5 点击【data】à【SaveAsTestFiles

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

 dstream window,spark,IDEA,hadoop,spark,hadoop,scala

6 可以看到均是以satf为前缀,txt为后缀

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

DStream实例——实现网站热词排序

1.进入数据库

$ mysql -uroot –p   

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

2.创建spark数据库,使用该数据库

$create database spark;

$ use spark;

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

3.创建表

$ create table searchKeyWord(insert_time date,keyword varchar(30),search_count integer);

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

4.编写HotWordBySort.scala

注意红框内容!!!

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

 dstream window,spark,IDEA,hadoop,spark,hadoop,scala

5.运行程序

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

重新复制一个master窗口,在master 9999端口输入数据

nc lk 9999

Hadoop,111

Spark,222

Hadoop,222

Hive,222

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

可以看到MySQL被写入数据

select * from searchKeyWord;

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

dstream window,spark,IDEA,hadoop,spark,hadoop,scala文章来源地址https://www.toymoban.com/news/detail-788247.html

到了这里,关于[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据平台组件日常运维操作说明(Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat)

    hdfs 生产环境hadoop为30台服务器组成的集群,统一安装配置,版本号为2.7.7 部署路径:/opt/hadoop 启动用户:hadoop 配置文件: /opt/hadoop/config/hdfs-site.xml /opt/hadoop/config/core-site.xml hadoopy运行环境变量配置文件: hadoop-env.sh journalnode.env datanode.env namenode.env hadoop系统服务配置文件: z

    2024年02月03日
    浏览(41)
  • 使用Spark ALS模型 + Faiss向量检索实现用户扩量实例

    1、通过ALS模型实现用户/商品Embedding的效果,获得其向量表示 准备训练数据, M = (U , I, R) 即 用户集U、商品集I、及评分数据R。 (1)商品集I的选择:可以根据业务目标确定商品候选集,比如TopK热度召回、或者流行度不高但在业务用户中区分度比较高的商品集等。个人建议量

    2024年02月13日
    浏览(27)
  • 利用Hadoop处理离线数据:Hive和Spark离线数据处理实现

    作者:禅与计算机程序设计艺术 引言 随着大数据时代的到来,越来越多的数据产生于各种业务系统。这些数据往往需要在离线环境中进行处理,以降低数据处理的时间和成本。Hadoop作为目前最为流行的分布式计算框架,提供了强大的离线数据处理能力。Hive和Spark作为Hadoop生

    2024年02月11日
    浏览(30)
  • 【大数据毕设】基于Hadoop的招聘网站可视化的设计与实现(一)

    博主介绍 : ✌ 全网粉丝6W+,csdn特邀作者、博客专家、大数据领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战 ✌ 🍅 文末获取项目联系 🍅 基于Hadoop的招聘网站可视化的设计与实现 摘要:现在,随着互联网网络的飞

    2024年02月10日
    浏览(37)
  • 网站登录界面制作(three.js 3D特效背景)+ boostrap导航栏实现 + jQuery移动窗口【附加源代码】

    学过Web前端的许多小伙伴都会面对门户网站制作的大作业报告,这里给大家分享一下我的前端大作业。后续还会继续更新,喜欢的小伙伴可以点个赞。 注意上述为动态界面: 下面的是表单的JS源代码: 下面是3D动态例子的源代码: 注意中间的窗口是移动的; 下面是移动窗口

    2024年02月07日
    浏览(43)
  • 尝试用easyx窗口实现鼠标的操作

      (创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 首先就是常规引用头文件 #includestdio.h #includegraphics.h  接着就是设置窗口的大小 initgraph(1000, 640, SHOWCONSOLE);//创建一个窗口 setbkcolor(WHITE);//设置窗口颜色 cleardevice();//刷新一

    2024年02月09日
    浏览(51)
  • Spark操作HBase的数据,实现列值的计算

    本文将介绍如何使用Spark操作HBase的数据,实现列之间的计算,以特征值计算为例。特征值是指从原始数据中提取出来的具有代表性或判别性的数值,可以用于数据分析或机器学习等领域。本文将使用hbase-spark连接器,通过Spark RDD的方式,读取和写入HBase的表,实现对Sentinel-2卫

    2024年02月09日
    浏览(27)
  • Powershell脚本自动化登录网站的简单实例,命令行方式实现Http(s)的GET、POST请求

    自动化登录网站的流程比较简单,如果不懂 Python、JavaScript、C++ 等编程语言,又没有安装这些编程语言环境软件,我们还要新的点子:用Windows系统自带的 Powershell 运行自编的脚本来实现。 PowerShell 是一种功能强大的自动化工具,除了可以使用 DOS 批处理命令之外,还可以进行

    2024年02月10日
    浏览(46)
  • Hadoop(伪分布式)+Spark(local模式)搭建Hadoop和Spark组合环境

    环境 使用 Ubuntu 14.04 64位 作为系统环境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统。 Hadoop版本 : Hadoop 2.7.4 创建hadoop用户 如果你安装 Ubuntu 的时候不是用的 \\\"hadoop\\\" 用户,那么需要增加一个名为 hadoop 的用户。 首先按 ctrl+alt+t 打开终端窗口,输入如下命令创

    2023年04月08日
    浏览(59)
  • Docker下安装Hadoop和Spark集群_docker 中安装hadoop和spark

    先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7 深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前! 因此收集整理了一份《2024年最新软件测试全套学习资料》

    2024年04月27日
    浏览(29)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包