未加星标

【Problems】Cloudera Manager错误集锦

字体大小 | |
[数据库(综合) 所属分类 数据库(综合) | 发布者 店小二04 | 时间 2016 | 作者 红领巾 ] 0人收藏点击收藏

本博客文章如无特别说明,均为原创!转载请注明出处:Big data enthusiast( http://www.lubinsu.com/ )

本文链接地址: 【Problems】Cloudera Manager错误集锦 ( http://www.lubinsu.com/cloudera-manager-errors/ )

问题描述:

文件系统检查点已有 1 天,14 小时,36 分钟。占配置检查点期限 1 小时的 3,860.33%。 临界阈值:400.00%。 自上个文件系统检查点以来已发生 14,632 个事务。

解决方法:

2个可能
1、namenode的Cluster ID 与 secondnamenode的Cluster ID 不一致,对比/dfs/nn/current/VERSION 和/dfs/snn/current/VERSION中的Cluster ID 来确认,如果不一致改成一致后重启应该可以解决。

2、修改之后还出现这个状况,查看secondnamenode 日志,报

ERROR: Exception in doCheckpoint java.io.IOException: Inconsistent checkpoint field

这个错误,直接删除 /dfs/snn/current/下所有文件,重启snn节点

问题描述:

已成功启用 High Availability

完成本向导后必须手动执行下列步骤:

对于每个 Hive 服务Hive,停止 Hive 服务,将 Hive Metastore 数据库备份到永久性存储中,运行服务命令”更新 Hive Metastore NameNodes”,然后重启 Hive 服务。

问题描述:

namenode standby的目录文件被我不小心删除了,无法进行格式化,也无法重启。

解决方法:

将活动的namenode数据目录下的所有文件拷贝一份过来重启即可。

问题描述:

Kettle中无法连接内网的Hadoop集群

解决方法:

这个问题还是因为我们集群的独立网段连接问题,首先需要在插件目录下,将hadoop集群的相关配置文件拷贝过来,否则后续会出现各种无法连接或者数据节点无法写入数据文件的问题:$KETTLE_HOME/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54

问题描述:

大数据平台服务器均为万兆双口网卡+千兆双口网卡,万兆网卡连接独立的光交换机以进行数据交换。千兆网卡连接外部其他的运营网段,以对外提供数据服务接口或者抽取数据。而目前大数据集群独立网段内连接可以正常进行数据交换和连接,但是在其他运营网段服务器中访问集群出现无法访问的问题。

解决方法:

修改文件:hdfs-site.xml,添加RPC配置:

<property>

<name>dfs.namenode.rpc-bind-host</name>

<value>0.0.0.0</value>

<description>

TheactualaddresstheRPCserverwillbindto.Ifthisoptionaladdressis

set,itoverridesonlythehostnameportionofdfs.namenode.rpc-address.

ItcanalsobespecifiedpernamenodeornameserviceforHA/Federation.

Thisisusefulformakingthenamenodelistenonallinterfacesby

settingitto0.0.0.0.

</description>

</property>

<property>

<name>dfs.namenode.servicerpc-bind-host</name>

<value>0.0.0.0</value>

<description>

TheactualaddresstheserviceRPCserverwillbindto.Ifthisoptionaladdressis

set,itoverridesonlythehostnameportionofdfs.namenode.servicerpc-address.

ItcanalsobespecifiedpernamenodeornameserviceforHA/Federation.

Thisisusefulformakingthenamenodelistenonallinterfacesby

settingitto0.0.0.0.

</description>

</property>

<property>

<name>dfs.namenode.http-bind-host</name>

<value>0.0.0.0</value>

<description>

TheactualadresstheHTTPserverwillbindto.Ifthisoptionaladdress

isset,itoverridesonlythehostnameportionofdfs.namenode.http-address.

ItcanalsobespecifiedpernamenodeornameserviceforHA/Federation.

ThisisusefulformakingthenamenodeHTTPserverlistenonall

interfacesbysettingitto0.0.0.0.

</description>

</property>

<property>

<name>dfs.namenode.https-bind-host</name>

<value>0.0.0.0</value>

<description>

TheactualadresstheHTTPSserverwillbindto.Ifthisoptionaladdress

isset,itoverridesonlythehostnameportionofdfs.namenode.https-address.

ItcanalsobespecifiedpernamenodeornameserviceforHA/Federation.

ThisisusefulformakingthenamenodeHTTPSserverlistenonall

interfacesbysettingitto0.0.0.0.

</description>

</property>

<property>

<name>dfs.client.use.datanode.hostname</name>

<value>true</value>

<description>Whetherclientsshouldusedatanodehostnameswhen

connectingtodatanodes.

</description>

</property>

<property>

<name>dfs.datanode.use.datanode.hostname</name>

<value>true</value>

<description>Whetherdatanodesshouldusedatanodehostnameswhen

connectingtootherdatanodesfordatatransfer.

</description>

</property>

参考连接: http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.html

添加以上配置之后已经可以正常和namenode进行交互,但是写入数据时却无法和datanode交互,按理说只要配置了dfs.client.use.datanode.hostname=true就可以实现和datanode之间通信,查看错误,内部对应的IP实际上是正确

的。在Cloudera Manager中我们发现很多地方默认配置的都是主机名+端口号,比如:dfs.datanode.address默认设置为:0.0.0.0:50010,但是CDH中修改为了 host:50010 导致数据节点之无法监听到另外一个网卡IP过来的数据。

这里只要将值修改为:0.0.0.0:50010即可。

问题描述:

重启某个角色的时候,突然无法启动了,报错:

Command aborted because of exception: Command timed-out after 150 seconds.

解决方法:

1.再重启一次居然好了

2.另外一次是datanode无法启动,将yarn的nodemanager重启后,再重启hdfs datanode,发现可以了。

3.终极大法,重启agent

service cloudera-scm-agent next_stop_hard

service cloudera-scm-agent restart

Cloudera Manager Agent uses a python library called supervisord to manage

the processes it launches on each host. When you do hard_restart, it

restarts CM agent, supervisord and all processes that supervisord launched.

Likely you had something in bad state and hard_restart fixed it.

问题描述:

H

本文数据库(综合)相关术语:系统安全软件

分页:12
转载请注明
本文标题:【Problems】Cloudera Manager错误集锦
本站链接:http://www.codesec.net/view/482884.html
分享请点击:


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 数据库(综合) | 评论(0) | 阅读(71)