[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

9月前作者：发量不足分类：Toy博客阅读(34) 违法举报

这篇具有很好参考价值的文章主要介绍了[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

目录

DStream窗口操作

DStream输出操作

DStream实例——实现网站热词排序

DStream的概述
Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流

特点

1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每个微批就是一个RDD
2、DStream由一系列连续的RDD组成,每个RDD都包含来自特定间隔的数据
3、DStream本质上就是一系列时间上连续的RDD(DStream = Seq[RDD])

DStream窗口操作

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

一、window（）

1编写WindowTest.scala

注意红框内容！！！

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

2 运行程序并在master 9999 端口不断输入单词，观察到控制台输出内容

$ nc -lk 9999

1

2

3

4

5

6

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

二、ReduceByKeyAndWindow()

1 编写ReduceByKeyAndWindowTest.scala

注意红框内容！！！

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

2 运行程序并在master 9999 端口不断输入单词，观察到控制台输出内容

$ nc -lk 9999

A

A

B

B

c

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

DStream输出操作

1 编写SaveAsTestFilesTest.scala

注意红框内容！！！

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

2 运行程序

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

3 启动Hadoop集群

$ start-all.sh

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

4 访问192.168.196.101（master）:50070 点击【utilities】à【browse the file system】

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

5 点击【data】à【SaveAsTestFiles】

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

6 可以看到均是以satf为前缀，txt为后缀

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

DStream实例——实现网站热词排序

1.进入数据库

$ mysql -uroot –p

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

2.创建spark数据库，使用该数据库

$create database spark;

$ use spark;

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

3.创建表

$ create table searchKeyWord(insert_time date,keyword varchar(30),search_count integer);

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

4.编写HotWordBySort.scala

注意红框内容！！！

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

5.运行程序

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

重新复制一个master窗口，在master 9999端口输入数据

nc –lk 9999

Hadoop,111

Spark,222

Hadoop,222

Hive,222

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

可以看到MySQL被写入数据

select * from searchKeyWord;

dstream window,spark,IDEA,hadoop,spark,hadoop,scala

dstream window,spark,IDEA,hadoop,spark,hadoop,scala 文章来源地址https://www.toymoban.com/news/detail-788247.html

到了这里，关于[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

hdfs 生产环境hadoop为30台服务器组成的集群，统一安装配置，版本号为2.7.7 部署路径：/opt/hadoop 启动用户：hadoop 配置文件： /opt/hadoop/config/hdfs-site.xml /opt/hadoop/config/core-site.xml hadoopy运行环境变量配置文件： hadoop-env.sh journalnode.env datanode.env namenode.env hadoop系统服务配置文件： z

2024年02月03日
浏览(47)
使用Spark ALS模型 + Faiss向量检索实现用户扩量实例

1、通过ALS模型实现用户/商品Embedding的效果，获得其向量表示准备训练数据， M = (U , I, R) 即用户集U、商品集I、及评分数据R。（1）商品集I的选择：可以根据业务目标确定商品候选集，比如TopK热度召回、或者流行度不高但在业务用户中区分度比较高的商品集等。个人建议量

2024年02月13日
浏览(39)
利用Hadoop处理离线数据：Hive和Spark离线数据处理实现

作者：禅与计算机程序设计艺术引言随着大数据时代的到来，越来越多的数据产生于各种业务系统。这些数据往往需要在离线环境中进行处理，以降低数据处理的时间和成本。Hadoop作为目前最为流行的分布式计算框架，提供了强大的离线数据处理能力。Hive和Spark作为Hadoop生

2024年02月11日
浏览(41)
【大数据毕设】基于Hadoop的招聘网站可视化的设计与实现(一)

博主介绍： ✌ 全网粉丝6W+,csdn特邀作者、博客专家、大数据领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战 ✌ 🍅 文末获取项目联系 🍅 基于Hadoop的招聘网站可视化的设计与实现摘要：现在，随着互联网网络的飞

2024年02月10日
浏览(46)
网站登录界面制作（three.js 3D特效背景）+ boostrap导航栏实现 + jQuery移动窗口【附加源代码】

学过Web前端的许多小伙伴都会面对门户网站制作的大作业报告，这里给大家分享一下我的前端大作业。后续还会继续更新，喜欢的小伙伴可以点个赞。注意上述为动态界面：下面的是表单的JS源代码：下面是3D动态例子的源代码：注意中间的窗口是移动的；下面是移动窗口

2024年02月07日
浏览(53)
尝试用easyx窗口实现鼠标的操作

（创作不易，感谢有你，你的支持，就是我前行的最大动力，如果看完对你有帮助，请留下您的足迹）首先就是常规引用头文件 #includestdio.h #includegraphics.h 接着就是设置窗口的大小 initgraph(1000, 640, SHOWCONSOLE);//创建一个窗口 setbkcolor(WHITE);//设置窗口颜色 cleardevice();//刷新一

2024年02月09日
浏览(63)
Spark操作HBase的数据，实现列值的计算

本文将介绍如何使用Spark操作HBase的数据，实现列之间的计算，以特征值计算为例。特征值是指从原始数据中提取出来的具有代表性或判别性的数值，可以用于数据分析或机器学习等领域。本文将使用hbase-spark连接器，通过Spark RDD的方式，读取和写入HBase的表，实现对Sentinel-2卫

2024年02月09日
浏览(35)
Powershell脚本自动化登录网站的简单实例，命令行方式实现Http(s)的GET、POST请求

自动化登录网站的流程比较简单，如果不懂 Python、JavaScript、C++ 等编程语言，又没有安装这些编程语言环境软件，我们还要新的点子：用Windows系统自带的 Powershell 运行自编的脚本来实现。 PowerShell 是一种功能强大的自动化工具，除了可以使用 DOS 批处理命令之外，还可以进行

2024年02月10日
浏览(54)
Hadoop（伪分布式）+Spark（local模式）搭建Hadoop和Spark组合环境

环境使用 Ubuntu 14.04 64位作为系统环境（Ubuntu 12.04，Ubuntu16.04 也行，32位、64位均可），请自行安装系统。 Hadoop版本 : Hadoop 2.7.4 创建hadoop用户如果你安装 Ubuntu 的时候不是用的 \\\"hadoop\\\" 用户，那么需要增加一个名为 hadoop 的用户。首先按 ctrl+alt+t 打开终端窗口，输入如下命令创

2023年04月08日
浏览(70)
Docker下安装Hadoop和Spark集群_docker 中安装hadoop和spark

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7 深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新软件测试全套学习资料》

2024年04月27日
浏览(39)