Python大数据之PySpark(七)SparkCore案例

这篇具有很好参考价值的文章主要介绍了Python大数据之PySpark(七)SparkCore案例。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

SparkCore案例

PySpark实现SouGou统计分析

  • jieba分词:

  • pip install jieba 从哪里下载pypi

  • Python大数据之PySpark(七)SparkCore案例,# PySpark,python,大数据,开发语言,原力计划

  • 三种分词模式

  • 精确模式,试图将句子最精确地切开,适合文本分析;默认的方式

  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;

  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  • Python大数据之PySpark(七)SparkCore案例,# PySpark,python,大数据,开发语言,原力计划

# -*- coding: utf-8 -*-
# Program function:测试结巴分词
import jieba
import re

# jieba.cut
# 方法接受四个输入参数:
# 需要分词的字符串;
# cut_all 参数用来控制是否采用全模式;
# HMM 参数用来控制是否使用 HMM 模型;
# use_paddle 参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码;
str = "我来到北京清华大学"
print(list(jieba.cut(str)))  # ['我', '来到', '北京', '清华大学'],默认的是精确模式
print(list(jieba.cut(str, cut_all=True)))  # ['我', '来到', '北京', '清华', '清华大学', '华大', '大学'] 完全模式

# 准备的测试数据
str1 = "00:00:00	2982199073774412	[360安全卫士]	8 3	download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html"
print(re.split("\s+", str1)[2])  # [360安全卫士]
print(re.sub("\[|\]", "", re.split("\s+", str1)[2])) #360安全卫士
print(list(jieba.cut(re.sub("\[|\]", "", re.split("\s+", str1)[2]))))  # [360安全卫士] --->['360', '安全卫士']
  • Python大数据之PySpark(七)SparkCore案例,# PySpark,python,大数据,开发语言,原力计划
  • 数据认知:数据集来自于搜狗实验室,日志数据

  • 日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求用户点击情况的网页查询日志数据集合。

  • Python大数据之PySpark(七)SparkCore案例,# PySpark,python,大数据,开发语言,原力计划
  • Python大数据之PySpark(七)SparkCore案例,# PySpark,python,大数据,开发语言,原力计划
  • 需求

  • 1-首先需要将数据读取处理,形成结构化字段进行相关的分析

  • 2-如何对搜索词进行分词,使用jieba或hanlp

  • jieba是中文分词最好用的工具

  • Python大数据之PySpark(七)SparkCore案例,# PySpark,python,大数据,开发语言,原力计划
  • 步骤

  • 1-读取数据

  • 2-完成需求1:搜狗关键词统计

  • 3-完成需求2:用户搜索点击统计

  • 4-完成需求3:搜索时间段统计

  • 5-停止sparkcontext

  • 代码

# -*- coding: utf-8 -*-

# Program function:搜狗分词之后的统计

'''

* 1-读取数据
* 2-完成需求1:搜狗关键词统计
* 3-完成需求2:用户搜索点击统计
* 4-完成需求3:搜索时间段统计
* 5-停止sparkcontext
 '''
 from pyspark import SparkConf, SparkContext
 import re
 import jieba

if __name__ == '__main__':

# 准备环境变量

conf = SparkConf().setAppName("sougou").setMaster("local[*]")
sc = SparkContext.getOrCreate(conf=conf)
sc.setLogLevel("WARN")

# TODO*1 - 读取数据

sougouFileRDD = sc.textFile("/export/data/pyspark_workspace/PySpark-SparkCore_3.1.2/data/sougou/SogouQ.reduced")

# print("sougou count is:", sougouFileRDD.count())#sougou count is: 1724264

# 00:00:00 2982199073774412   [360安全卫士]  8 3    download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html

resultRDD=sougouFileRDD \
.filter(lambda line:(len(line.strip())>0) and (len(re.split("\s+",line.strip()))==6))\
.map(lambda line:(
  re.split("\s+", line)[0],
  re.split("\s+", line)[1],
  re.sub("\[|\]", "", re.split("\s+", line)[2]),
  re.split("\s+", line)[3],
  re.split("\s+", line)[4],
  re.split("\s+", line)[5]
))

# print(resultRDD.take(2))

#('00:00:00', '2982199073774412', '360安全卫士', '8', '3', 'download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html')
#('00:00:00', '07594220010824798', '哄抢救灾物资', '1', '1', 'news.21cn.com/social/daqian/2008/05/29/4777194_1.shtml')

# TODO*2 - 完成需求1:搜狗关键词统计

print("=============完成需求1:搜狗关键词统计==================")
recordRDD = resultRDD.flatMap(lambda record: jieba.cut(record[2]))

# print(recordRDD.take(5))

sougouResult1=recordRDD\
  .map(lambda word:(word,1))\
  .reduceByKey(lambda x,y:x+y)\
  .sortBy(lambda x:x[1],False)

# print(sougouResult1.take(5))

# TODO*3 - 完成需求2:用户搜索点击统计

print("=============完成需求2:用户搜索点击统计==================")

# 根据用户id和搜索的内容作为分组字段进行统计

sougouClick = resultRDD.map(lambda record: (record[1], record[2]))
sougouResult2=sougouClick\
  .map(lambda tuple:(tuple,1))\
  .reduceByKey(lambda x,y:x+y) #key,value

# 打印一下最大的次数和最小的次数和平均次数

print("max count is:",sougouResult2.map(lambda x: x[1]).max())
print("min count is:",sougouResult2.map(lambda x: x[1]).min())
print("mean count is:",sougouResult2.map(lambda x: x[1]).mean())

# 如果对所有的结果排序

# print(sougouResult2.sortBy(lambda x: x[1], False).take(5))

# TODO*4 - 完成需求3:搜索时间段统计

print("=============完成需求3:搜索时间段-小时-统计==================")
#00:00:00
hourRDD = resultRDD.map(lambda x: str(x[0])[0:2])
sougouResult3=hourRDD\
  .map(lambda word:(word,1))\
  .reduceByKey(lambda x,y:x+y)\
  .sortBy(lambda x:x[1],False)
print("搜索时间段-小时-统计",sougouResult3.take(5))

# TODO*5 - 停止sparkcontext

sc.stop()

总结

  • 重点关注在如何对数据进行清洗,如何按照需求进行统计
  • 1-rdd的创建的两种方法,必须练习
  • 2-rdd的练习将基础的案例先掌握。map。flatMap。reduceByKey
  • 3-sougou的案例需要联系2-3遍
  • 练习流程:
  • 首先先要将代码跑起来
  • 然后在理解代码,这一段代码做什么用的
  • 在敲代码,需要写注释之后敲代码

AI副业实战手册:http://www.yibencezi.com/notes/253200?affiliate_id=1317(目前40+工具及实战案例,持续更新,实战类小册排名第一,做三个月挣不到钱找我退款,交个朋友的产品)

后记

📢博客主页:https://manor.blog.csdn.net

📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
📢本文由 Maynor 原创,首发于 CSDN博客🙉
📢感觉这辈子,最深情绵长的注视,都给了手机⭐
📢专栏持续更新,欢迎订阅:https://blog.csdn.net/xianyu120/category_12453356.html文章来源地址https://www.toymoban.com/news/detail-713135.html

到了这里,关于Python大数据之PySpark(七)SparkCore案例的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Python学习之PySpark案例实战

    Spark是什么 Apache Spark是用于 大规模数据(large-scala data)处理的统一 (unified) 分析引擎 。 简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据。 Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发 而Python语

    2024年02月05日
    浏览(43)
  • Python大数据之PySpark(二)PySpark安装

    1-明确PyPi库,Python Package Index 所有的Python包都从这里下载,包括pyspark 2-为什么PySpark逐渐成为主流? http://spark.apache.org/releases/spark-release-3-0-0.html Python is now the most widely used language on Spark. PySpark has more than 5 million monthly downloads on PyPI, the Python Package Index. 记住如果安装特定的版本

    2024年02月04日
    浏览(42)
  • 【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )

    执行 Windows + R , 运行 cmd 命令行提示符 , 在命令行提示符终端中 , 执行 命令 , 安装 PySpark , 安装过程中 , 需要下载 310 M 的安装包 , 耐心等待 ; 安装完毕 : 命令行输出 : 如果使用 官方的源 下载安装 PySpark 的速度太慢 , 可以使用 国内的 镜像网站 https://pypi.tuna.tsinghua.edu.cn/simple

    2024年02月06日
    浏览(43)
  • Python大数据之PySpark

    Apache Spark是一种用于大规模数据处理的多语言分布式引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习 Spark官网:https://spark.apache.org/ 按照官网描述,Spark关键特征包括: 批/流处理 Spark支持您使用喜欢的语言:Python、SQL、Scala、Java或R,统一批量和实时流处

    2024年02月08日
    浏览(44)
  • Python大数据之PySpark(一)SparkBase

    Spark学习方法: 不断重复,28原则(使用80%时间完成20%重要内容) Spark风雨十年s 2012年Hadoop1.x出现,里程碑意义 2013年Hadoop2.x出现,改进HDFS,Yarn,基于Hadoop1.x框架提出基于内存迭代式计算框架Spark 1-Spark全家桶,实现离线,实时,机器学习,图计算 2-spark版本从2.x到3.x很多优化

    2024年02月08日
    浏览(47)
  • Python数据攻略-Hadoop集群中PySpark数据处理

    Hadoop是一个开源的分布式存储和计算框架。它让我们可以在多台机器上存储大量的数据,并且进行高效的数据处理。简而言之,Hadoop就像一个巨大的仓库,可以存放海量的数据,并且有高效的工具来处理这些数据。

    2024年02月07日
    浏览(46)
  • Python大数据处理利器之Pyspark详解

    在现代信息时代,数据是最宝贵的财富之一,如何处理和分析这些数据成为了关键。Python在数据处理方面表现得尤为突出。而 pyspark 作为一个强大的分布式计算框架,为大数据处理提供了一种高效的解决方案。本文将详细介绍pyspark的基本概念和使用方法,并给出实际案例。

    2024年02月10日
    浏览(48)
  • Python大数据之PySpark(五)RDD详解

    为什么需要RDD? 首先Spark的提出为了解决MR的计算问题,诸如说迭代式计算,比如:机器学习或图计算 希望能够提出一套基于内存的迭代式数据结构,引入RDD弹性分布式数据集,如下图 为什么RDD是可以容错? RDD依靠于依赖关系dependency relationship reduceByKeyRDD-----mapRDD-----flatMapRD

    2024年02月06日
    浏览(45)
  • Spark重温笔记(二):快如闪电的大数据计算框架——你真的了解SparkCore的 RDD 吗?(包含企业级搜狗案例和网站点击案例)

    前言:今天是温习 Spark 的第 2 天啦!主要梳理了 Spark 核心数据结构:RDD(弹性分布式数据集),其中包括基于内存计算的 SparkCore 各类技术知识点希望对大家有帮助! Tips:\\\"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起

    2024年03月25日
    浏览(40)
  • Python 与 PySpark数据分析实战指南:解锁数据洞见

    💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】 🤟 基于Web端打造的:👉轻量化工具创作平台 💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 数据分析是当今信息时代中至关重要的技能之一。Python和PySpark作为强大的工具,提供了丰富的库和功能,

    2024年02月03日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包