Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供SQL查询功能。在工作中大部分场景都会用到,下面列出几个 hive 使用中常见的问题及解决方法。
1)Hive 默认的输入格式处理是CombineHiveInputFormat,会对小文件进行合并
hive (default)> set hive.input.format;
hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
可以采用HiveInputFormat就会根据分区数据输出相应的文件。
hive (default)> set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
2)不能执行MapReduce程序
可能是Hadoop的Yarn没开启。
3)启动MySQL服务时,报MySQL server PID file could not be found!异常。
在/var/lock/subsys/mysql 路径下创建 hadoop102.pid(我的练习集群主机名是hadoop102,hadoop103,hadoop104),并在文件中添加内容:4396
4)报 service mysql status MySQL is not running,but lock file (/var/lock/subsys/mysql[失败])异常。
解决方案:在/var/lib/mysql 目录下创建:hadoop102.pid 文件,并修改权限为777。
5)JVM 堆内存溢出(Hive 集群运行模式)
描述:java.lang.OutOfMemoryError:Java heap space
解决:在 yarn-site.xml 中加入如下代码。
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.1</value>
</property>
<property>
<name>mapred.child.java.opts</name>
<value>-Xmx1024m</value>
</property>
6)JVM堆内存溢出(Hive本地运行模式)
描述:在启用 Hive 本地模式后,hive.log 报错 java.lang.OutOfMemoryError:Java heap space
解决方案1(临时):
在 Hive 客户端临时设置 io.sort.mb 和 mapreduce.task.io.sort.mb 两个参数的值为10。
0: jdbc:hive2://hadoop102:10000> set io.sort.mb;
+-----------------+
| set |
+-----------------+
| io.sort.mb=100 |
+-----------------+
1 row selected (0.008 seconds)
0: jdbc:hive2://hadoop102:10000> set mapreduce.task.io.sort.mb;
+--------------------------------+
| set |
+--------------------------------+
| mapreduce.task.io.sort.mb=100 |
+--------------------------------+
1 row selected (0.008 seconds)
0: jdbc:hive2://hadoop102:10000> set io.sort.mb = 10;
No rows affected (0.005 seconds)
0: jdbc:hive2://hadoop102:10000> set mapreduce.task.io.sort.mb = 10;
No rows affected (0.004 seconds)
解决方案(永久生效):
在 $HIVE_HOME/conf 下添加hive-env.sh。
[xiaowu@hadoop102 conf]$ pwd
/opt/module/hive/conf
[xiaowu@hadoop102 conf]$ cp hive-env.sh.template hive-env.sh
然后将其中的参数 export HADOOP_HEAPSIZE=1024 的注释放开,然后重启Hive。
7)虚拟内存限制
在 yarn-site.xml 中添加如下配置:
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>文章来源:https://www.toymoban.com/news/detail-498481.html
</property>文章来源地址https://www.toymoban.com/news/detail-498481.html
到了这里,关于Hive使用中常见的问题及解决方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!