Flink基础实操-计算单词出现次数

这篇具有很好参考价值的文章主要介绍了Flink基础实操-计算单词出现次数。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

🥇🥇【大数据学习记录篇】-持续更新中~🥇🥇


个人主页:beixi@
本文章收录于专栏(点击传送):【大数据学习】

💓💓持续更新中,感谢各位前辈朋友们支持学习~

上一篇文章写到了Flink环境搭建,这篇文章接着上篇文章延伸Flink的使用-计算单词出现次数,如果Flink境没有搭建的小伙伴们可以参考我上一篇文章:大数据组件-Flink环境搭建
Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

1.环境介绍

本次用到的环境有:
**JDK1.8
Flink 1.13.0
Oracle Linux7.4
**

2.Scala交互统计:

1.启动flink进入 scala 交互模式。

start-scala-shell.sh local

Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维
Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

2.输入脚本,求词频。

val wordcount=benv.readTextFile(“file:///root/experiment/datas/wordcount.txt”).flatMap(_.split("\t")).map((_,1)).groupBy(0).sum(1)

Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

wordcount.print

Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

3.JAVA工程统计

  1. 打开IDEA集成开发工具:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  2. 选择 Create New Project菜单项,创建一个新的项目工程,在新的项目工程中选择窗口左侧的Maven菜单项,如图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  3. 点击Next按钮,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  4. 输入框GroupId中填写experiment, 输入框ArtifactId中填写project,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  5. 点击Next按钮,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  6. 点击Finish按钮,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  7. 点击提示窗口中的close按钮,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  8. 在右下角弹出的对话框中,选择Enable Auto-Import(如未弹出该对话框请忽略此步骤)
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  9. 更改pom.xml文件,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<encoding>UTF-8</encoding>
<scala.binary.version>2.11</scala.binary.version>
<flink.version>1.13.0</flink.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-java</artifactId>
<version>${flink.version}</version>
</dependency>
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-clients_${scala.binary.version}</artifactId>
<version>${flink.version}</version>
</dependency>
</dependencies>
  1. 鼠标点击项目中Java文件夹,单击右键选择New,子菜单中选择Package,如下图所示:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维
  2. 弹出对话框,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维
  3. 窗口输入框中填写创建的包名flink,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维
  4. 点击按钮OK,如下图:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维
  5. 鼠标点击包flink,单击右键选择New,子菜单中选择java Class,如下图所示:
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维
  6. 弹出窗口,如下图:

Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维
16. 弹出窗口中填写类名,如下图:
Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维
17. 创建的WordCountJava类中,输入代码:

package flink;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;
public class WordCountJava {
public static void main(String[] args) throws Exception {
// 创建Flink运行的上下文环境
final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
// 创建DataSet,这里我们的输入是一行一行的文本
DataSet<String> text = env.fromElements(Flink Spark Storm,Flink Flink Flink,Spark Spark Spark,Storm Storm Storm);
// 通过Flink内置的转换函数进行计算
DataSet<Tuple2<String, Integer>> counts =
text.flatMap(new LineSplitter())
.groupBy(0)
.sum(1);
//结果打印
counts.printToErr();
}
public static final class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
// 将文本分割
String[] tokens = value.toLowerCase().split("\\W+");
// 输出内容到控制台
for (String token : tokens) {
if (token.length() > 0) {
out.collect(new Tuple2<String, Integer>(token, 1));
}
}
}
}
}
  1. 代码中点击鼠标右键选择Run运行程序
    Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

  2. 执行结果如下图

Flink基础实操-计算单词出现次数,大数据技术学习,flink,单例模式,大数据,运维

至此,Flink基础实操-计算单词出现次数,如果本篇文章对你有帮助记得点赞收藏+关注~文章来源地址https://www.toymoban.com/news/detail-702190.html

到了这里,关于Flink基础实操-计算单词出现次数的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大数据Flink实时计算技术

    1、架构 2、应用场景 Flink 功能强大,支持开发和运行多种不同种类的应用程序。它的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。在启用高可用选项的情况下,它不存在单点失效问题。事实证明,Flink 已经可以扩展到数千核

    2024年02月10日
    浏览(54)
  • 如何统计DataFrame中各列数据分类的各个不同数据出现的次数

    可以使用 value_counts 函数来统计每个不同数据在数据列中出现的次数。 例如,假设有一个名为 df 的 DataFrame,其中包含一列名为 \\\'col\\\' 。 要统计 \\\'col\\\' 列中各个不同数据的出现次数,可以使用以下代码: 此代码将返回一个由各个数据和它们在 \\\'col\\\' 列中出现的次数组成的 Series。

    2024年02月05日
    浏览(77)
  • 输入单词需要的最少按键次数 I

    输入单词需要的最少按键次数 I 1 = word.length = 26 word 仅由小写英文字母组成 word 中的所有字母互不相同 因为word 中的所有字母互不相同,可以以任意8个字符为一组,第一组每个字符需要按键一次,第二组需要按键两次,以此类推…根据字符串长度将每组字符的按键次数累加起

    2024年01月24日
    浏览(42)
  • 处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

    2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库 这oracle比sql安全,强大多了,所以你需要学

    2024年02月08日
    浏览(61)
  • 海量遥感数据处理与GEE云计算技术应用【基础、进阶】

    目前,GEE以其强大的功能受到了国外越来越多的科技工作者的重视和应用,然而在国内应用还十分有限。应广大科学工作者的要求,本学习将结合具体范例,重点介绍利用GEE进行数据处理的常用方法,并通过土地遥感信息提取进行进阶训练,掌握实际操作能力。  海 量 遥 感

    2024年01月21日
    浏览(54)
  • 现代IT基础设施与运维技术全览-云计算与数据中心技术栈

    类别 技术/工具 Web服务器 Apache, Tomcat, Nginx, Httpd 监控 Nagios, Ganglia, Cacti, Zabbix, Prometheus, Grafana 自动部署 Ansible, SSHPT, Salt 配置管理 Puppet, CFEngine 负载均衡 LVS, HAProxy, Nginx 传输工具 Scribe, Flume 备份工具 Rsync, Wget 数据库 MySQL, Oracle, SQL Server 国产数据库 OceanBase, TiDB, Doris, 达梦, 人大金

    2024年03月21日
    浏览(56)
  • 数据库工程师基础学习13,14,15----云计算,数据库主流应用技术,专利

    1,云计算与大数据处理 这里的是:按需访问,资源池模型.可用来申请服务器,网络等.无限扩展的存储. 这里公有云与私有云对应,一个面向大众,一个面向私人. 社区云,如学校网,只提供给特定组织使用. 这里主要是:云计算开发商提供的东西不同. 1)主要是基础设施提供 2)主要

    2024年02月05日
    浏览(45)
  • 基础数据与技术指标:保证金计算及其在量化投资中的应用

    在量化投资中,基础数据和技术指标是构建交易策略和进行风险管理的重要依据。其中,保证金计算是一项关键任务,它帮助投资者确定合适的头寸规模,以确保风险控制和资金管理的有效性。本文将介绍保证金计算的基本原理,并通过源代码实现一个简单的保证金计算工具

    2024年02月07日
    浏览(37)
  • 统计字符串字符出现的次数

    输入一个字符串,输出字符及相应字符出现的次数。 【学习的细节是欢悦的历程】 Python 官网 :https://www.python.org/ Free :大咖免费“ 圣经 ”教程《 python 完全自学教程 》,不仅仅是基础那么简单…… 地址:https://lqpybook.readthedocs.io/   自学并不是什么神秘的东西 ,一个人一

    2024年02月07日
    浏览(78)
  • 数组中出现次数超过一半的数字

    数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。 假设数组非空,并且一定存在满足条件的数字。 思考题 : 假设要求只能使用 O(n) 的时间和额外 O(1) 的空间,该怎么做呢? 数据范围 数组长度 [1,1000] 。 样例  代码:

    2024年02月13日
    浏览(43)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包