hadoop实战(综合实验)

这篇具有很好参考价值的文章主要介绍了hadoop实战(综合实验)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

配置环境

本地数据集上传数据仓库

导入数据集

数据预处理

  1. 删第一行hadoop实战(综合实验)

导入脚本
hadoop实战(综合实验)

2.字段预处理

但是报错hadoop实战(综合实验)

awk: line 4: runaway string constant " …

sh文件有误

#!/bin/bash
#下面设置输入文件,把用户执行pre_deal.sh命令时提供的第一个参数作为输入文件名称
infile=$1
#下面设置输出文件,把用户执行pre_deal.sh命令时提供的第二个参数作为输出文件名称
outfile=$2
#注意,最后的$infile> $outfile必须跟在}’这两个字符的后面
awk -F "," 'BEGIN{
srand();
        id=0;
        Province[0]="山东";Province[1]="山西";Province[2]="河南";Province[3]="河北";Province[4]="陕西";Province[5]="内蒙古";Province[6]="上海市";
        Province[7]="北京市";Province[8]="重庆市";Province[9]="天津市";Province[10]="福建";Province[11]="广东";Province[12]="广西";Province[13]="云南"; 
        Province[14]="浙江";Province[15]="贵州";Province[16]="新疆";Province[17]="西藏";Province[18]="江西";Province[19]="湖南";Province[20]="湖北";
        Province[21]="黑龙江";Province[22]="吉林";Province[23]="辽宁"; Province[24]="江苏";Province[25]="甘肃";Province[26]="青海";Province[27]="四川";
        Province[28]="安徽"; Province[29]="宁夏";Province[30]="海南";Province[31]="香港";Province[32]="澳门";Province[33]="台湾";
    }
    {
        id=id+1;
        value=int(rand()*34);       
        print id"\t"$1"\t"$2"\t"$3"\t"$5"\t"substr($6,1,10)"\t"Province[value]
    }' $infile> $outfile

处理结果
hadoop实战(综合实验)

导入数据库

  1. 启动hadoop

hadoop实战(综合实验)

  1. txt上传hdfs中
./bin/hdfs dfs -mkdir -p /bigdatacase/dateset
./bin/hdfs dfs -put /usr/local/bigdatacase/dateset/user_table.txt /bigdatacase/dateset
./bin/hdfs dfs -cat /bigdatacase/dateset/user_table.txt | head -10

hadoop实战(综合实验)
3. 在hive上创建数据集
启动hive

创建数据库

service mysql start
cd /usr/local/hive
./bin/hiv

hadoop实战(综合实验)

  1. 创建外部表
CREATE EXTERNAL TABLE dblab.bigdata_user(id INT,uid STRING,item_id STRING,behavior_type INT,item_category STRING,visit_date DATE,province STRING) COMMENT 'Welcome to xmudblab!' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE LOCATION '/bigdatacase/dateset';

hadoop实战(综合实验)
hadoop实战(综合实验)
查询相关数据
hadoop实战(综合实验)

hive数据分析

简单查询分析

第一次尝试,只有ok没输出数据
原因:create表时没有真正导入数据,
location的位置错误。
hadoop实战(综合实验)
hadoop实战(综合实验)
设置别名,简化操作
hadoop实战(综合实验)

查询条数统计分析

hadoop实战(综合实验)

select count(*) from (select uid,item_id,behavior_type,item_category,visit_date,province from bigdata_user group by uid,item_id,behavior_type,item_category,visit_date,province having count(*)=1)a;

hadoop实战(综合实验)

关键字查询

  1. 关键字区间查询
    hadoop实战(综合实验)
    每个月第n天卖出去的商品
    hadoop实战(综合实验)
  2. 以定值关键字为条件

hadoop实战(综合实验)

根据用户行为分析

select count(*) from bigdata_user where visit_date='2014-12-11'and behavior_type='4';#查询有多少用户在2014-12-11购买了商品

select count(*) from bigdata_user where visit_date ='2014-12-11';#查询有多少用户在2014-12-11点击了该店

select count(*) from bigdata_user where uid=10001082 and visit_date='2014-12-12';#查询用户10001082在2014-12-12点击网站的次数

select count(*) from bigdata_user where visit_date='2014-12-12';#查询所有用户在这一天点击该网站的次数

select uid from bigdata_user where behavior_type='4' and visit_date='2014-12-12' group by uid having count(behavior_type='4')>5;#查询某一天在该网站购买商品超过5次的用户id

用户实时查询分析

create table scan(province STRING,scan INT) COMMENT 'This is the search of bigdataday' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;#创建新的数据表进行存储
insert overwrite table scan select province,count(behavior_type) from bigdata_user where behavior_type='1' group by province;#导入数据
select * from scan;#显示结果

hadoop实战(综合实验)

hive,mysql,hbase数据互导

hive预处理

 create table dblab.user_action(id STRING,uid STRING, item_id STRING, behavior_type STRING, item_category STRING, visit_date DATE, province STRING) COMMENT 'Welcome to XMU dblab! ' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;

hadoop实战(综合实验)
bigdata_user的数据插入user_action

 INSERT OVERWRITE TABLE dblab.user_action select * from dblab.bigdata_user;

hadoop实战(综合实验)

使用java api将数据从hive 导入mysql

  1. 登录mysql hadoop实战(综合实验)
  2. 创建表
mysql> CREATE TABLE `dblab`.`user_action` (`id` varchar(50),`uid` varchar(50),`item_id` varchar(50),`behavior_type` varchar(10),`item_category` varchar(50), `visit_date` DATE,`province` varchar(20)) ENGINE=InnoDB DEFAULT CHARSET=utf8;
  1. 通过jdbc链接hive和mysql,即开启hiveserver2

hadoop实战(综合实验)

启动hiveserver2,设置端口10000
出现session id后等很久…
hadoop实战(综合实验)
hadoop实战(综合实验)
4. 编写java程序

修改mysql密码

service mysql stop
service mysql start 
/usr/sbin/mysqld --skip-grant-tables
sudo mysql -uroot -p

mysql>

use mysql;
update user set authentication_string=password("5g") where user="root";
flush privileges;

hadoop实战(综合实验)
注意:
";英文符号!
password不行就换成authentication_string

完事,重启mysql

service mysql restart

然后运行程序
依然报错

Exception in thread “main” java.sql.SQLException: Access denied for user ‘root’@‘localhost’

程序运行结果
hadoop实战(综合实验)
hadoop实战(综合实验)

使用hbase java api把数据导入hbase

  1. 打开hadoop集群,启动hbase

hadoop实战(综合实验)
2. 数据准备
hadoop实战(综合实验)

user_action前十行hadoop实战(综合实验)

  1. 编写数据导入程序
    打开eclipse
    hadoop实战(综合实验)

新建项目
运行程序

hadoop实战(综合实验)
查看数据hadoop实战(综合实验)

R语言可视化分析

hadoop实战(综合实验)
R链接mysql
hadoop实战(综合实验)
3.分析消费者行为
hadoop实战(综合实验)
4.分析销量最大月份
hadoop实战(综合实验)
被购买总量前十的商品和被购买总量
hadoop实战(综合实验)
购买商品的量最多的月份
hadoop实战(综合实验)分析国内最有购买欲望消费者所在省

hadoop实战(综合实验)
hadoop实战(综合实验)文章来源地址https://www.toymoban.com/news/detail-485469.html

到了这里,关于hadoop实战(综合实验)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Hadoop】大数据开发环境配置

    进入ifcfg-ens33文件 先修改 BOOTPROTO 参数,将之前的dhcp改为static; IPADDR 中192.168.152是取自虚拟机中虚拟网络编辑器中子网地址的值,最后的100是自定义的,这个值可以取3~254之间的任意一个数值; GATEWAY 和 DNS1 设置为网关IP; 先设置临时主机名 设置永久主机名并生效 验证主机

    2024年02月12日
    浏览(45)
  • 【Hadoop综合实践】手机卖场大数据综合项目分析

    🚀 本文章实现了基于MapReduce的手机浏览日志分析 🚀 文章简介:主要包含了数据生成部分,数据处理部分,数据存储部分与数据可视化部分 🚀 【本文仅供参考!!非唯一答案】其中需求实现的方式有多种,提供的代码并非唯一写法,选择适合的方式即可。 手机日志分析需

    2024年02月08日
    浏览(44)
  • 大数据平台运维(hadoop入门(保姆篇))----概述及基本环境配置(HA-1)

    2022.12.4  大数据运维基础篇 本章主要是基础坏境配置 目录 前言  一、hadoop是什么? 1.1 Hadoop 是什么 1.2 Hadoop 优势 1.3 Hadoop 组成  二、大数据技术体系                   2.1 HDFS 架构概述Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。 2.2 YARN 架构概述 2.3 MapRed

    2024年02月08日
    浏览(51)
  • 构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置

    在当今的数据驱动时代,构建一个强大的大数据环境对于企业和组织来说至关重要。本文将介绍如何安装和配置Hadoop、MySQL、Hive、Scala和Spark,以搭建一个完整的大数据环境。 安装Hadoop 首先,从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版,下

    2024年02月11日
    浏览(53)
  • 【大数据之Hadoop】二十三、Yarn命令行操作及生产环境下的配置

    Yarn状态查询可以在hadoop103:8088页面查看,也可以通过命令查看。 先运行案例再查看运行情况。 (1)yarn application 查看任务 (2)yarn logs 查看日志 (3) yarn application attempt 查看尝试运行的任务(即正在运行的任务状态) (4) yarn container查看容器 只有任务在执行过程中才能看

    2024年02月16日
    浏览(44)
  • 大数据Hadoop教程-学习笔记06【Hadoop生态综合案例:陌陌聊天数据分析】

    视频教程:哔哩哔哩网站:黑马大数据Hadoop入门视频教程,总时长:14:22:04 教程资源:https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g,提取码:6666 【P001-P017】大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】【17p】 【P018-P037】大数据Hadoop教程-学习笔记02【Apache Hadoop、HDFS】【20p】

    2024年02月02日
    浏览(48)
  • 网络系统集成综合实验(六)| 访问控制列表ACL配置

    目录 一、前言 二、实验目的 三、实验需求 四、实验步骤与现象 (一)基本ACL实验 Step1:构建拓扑图如下: Step2:PC的IP地址分别配置如下: Step3:路由器的IP地址配置如下 Step4:配置缺省路由使得各路由器可以通信 通信效果验证: Step5:ACL配置 效果验证: (二)高级ACL实

    2023年04月10日
    浏览(41)
  • 【大数据与云计算】实验三:云计算环境下Web集群搭建与反向代理配置

    使用命令查看所有的镜像  启动docker的用法 启动nginx的命令 首先是拉取nginx 然后进行端口映射 命令如下 保证你的镜像没有nginx,一开始 删除所有镜像和容器的而命令如下   3、拉去mariadb镜像 docker pull mariadb 4、启动mariadb容巉 docker run -itd --name dbmysql   启动mariadb使用 命令查看

    2024年02月02日
    浏览(40)
  • 【Hadoop实战】Windows环境下编译Hadoop2(2.10.2-R0)

    前提 根据Hadoop源码包解压之后编译帮助文件 BUILDING.txt 中关于windows的要求来准备环境 本机环境 JDK1.8 Windows 10 64位专业版 maven 3.9.2 git 2.41.0 ProtocolBuffer 2.5.0 这个要求要满足不然有报错(Github地址) cmake 2.36.4 Visual Studio 2022 Professional cygwin 安装包 IDEA 2022.2.5 编译方式 使用VS2022的

    2024年02月11日
    浏览(57)
  • 利用华为ENSP模拟器分析和配置中小型企业网络的综合实验(上)

    增强分析和配置中小型企业网络的综合能力 本实验模拟了一个企业网络场景,其中R1为公司总部的路由器,交换机S1,S2,S3,S4,服务器,终端等设备组成了公司总部的园区网,R2,R3,R4为公司分部的路由器。 公司总部的园区网划分了不同的VLAN。为了防止二层环路及提高交换

    2024年02月06日
    浏览(56)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包