`
Taoo
  • 浏览: 290798 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

namenode无法启动,解决

 
阅读更多
hadoop集群关闭后,重新开启
Namenode无法启动。
现象:
执行start-all.sh后,
在master机器是哪个,jps里虽然显示有NameNode进程,
但是web查看hdfs无法进行,也无法执行hadoop fs相关命令。

查看logs/hadoop-hadoop-namenode-xxx.log
发现在启动过程的读edits文件花了3000+s,
读完这个文件之后,接下来的环节就会报出错误信息如下:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = baby6/10.1.1.26
STARTUP_MSG:   args = []
STARTUP_MSG:   version = 0.20.2+737
STARTUP_MSG:   build = git://ubuntu64-build01.sf.cloudera.com/ on branch  -r 98c55c28258aa6f42250569bd7fa431ac657bdbd; compiled by 'root' on Tue Dec 14 11:50:19 PST 2010
************************************************************/
2011-10-13 11:58:10,053 INFO org.apache.hadoop.metrics.jvm.JvmMetrics: Initializing JVM Metrics with processName=NameNode, sessionId=null
2011-10-13 11:58:10,058 INFO org.apache.hadoop.hdfs.server.namenode.metrics.NameNodeMetrics: Initializing NameNodeMeterics using context object:org.apache.hadoop.metrics.spi.NullContext
2011-10-13 11:58:10,117 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: fsOwner=hadoop
2011-10-13 11:58:10,117 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: supergroup=supergroup
2011-10-13 11:58:10,117 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: isPermissionEnabled=true
2011-10-13 11:58:10,126 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s)
2011-10-13 11:58:11,048 INFO org.apache.hadoop.hdfs.server.namenode.metrics.FSNamesystemMetrics: Initializing FSNamesystemMetrics using context object:org.apache.hadoop.metrics.spi.NullContext
2011-10-13 11:58:11,050 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Registered FSNamesystemStatusMBean
2011-10-13 11:58:11,100 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files = 2145244
2011-10-13 11:59:50,339 INFO org.apache.hadoop.hdfs.server.common.Storage: Number of files under construction = 14
2011-10-13 11:59:50,344 INFO org.apache.hadoop.hdfs.server.common.Storage: Image file of size 313452606 loaded in 99 seconds.
2011-10-13 13:04:11,893 INFO org.apache.hadoop.hdfs.server.common.Storage: Edits file /home/hadoop/hdfs/NameNode/current/edits of size 71738186 edits # 430017 loaded in 3861 seconds.
2011-10-13 13:19:42,254 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.lang.OutOfMemoryError: GC overhead limit exceeded
        at java.util.regex.Pattern.compile(Pattern.java:1451)
        at java.util.regex.Pattern.<init>(Pattern.java:1133)
        at java.util.regex.Pattern.compile(Pattern.java:823)
        at java.lang.String.split(String.java:2292)
        at java.lang.String.split(String.java:2334)


主要是因为读edits.new文件时,内存不够。





解决:
删了NameNode/current/edits.new。
这样操作会丢失所有在edits.new里面记录的对hdfs的操作。
(网上有的说可以删除edites文件的末尾不完整的记录。)

之后重新启动hadoop,虽然可以起来,但是依然挂了部分机器。
查看日至,依旧是报错内存不够。


然后修改bin/hadoop脚本
将:JAVA_HEAP_MAX=-Xmx1000m
改为:JAVA_HEAP_MAX=-Xmx2046m

然后重启hadoop,ok。


之后,用hadoop fsck检测损坏的文件,
该部分具体方法见:http://blog.csdn.net/liangliyin/article/details/5872172


这样基本上差不多了。









分享到:
评论

相关推荐

    namenode启动失败参考

    未知原因导致namenode 的fsimage等文件丢失,namenode重启失败的参考解决

    Hadoop集群的搭建.docx

    错误:启动完后,namenode的主机上没有出现namenode进程。 原因:没有进行namenode初始化。只初始化一次,以后不要初始化了。 错误:启动完后,datanode的主机上没有出现datanode进程。或者出现了多个datanode进行...

    [hadoop] ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation. Starting datanodes

    在启动hadoop后,查看jps时看不到应该启动起来的东西 其中一个问题是报but there is no HDFS_NAMENODE_USER defined. Aborting operation. Starting datanodes 直接解决 在Hadoop安装目录下找到sbin文件夹 在里面...

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    3.1.1 NameNode启动加载元数据情景分析 3.1.2 元数据更新及日志写入情景分析 3.1.3 Checkpoint过程情景分析 3.1.4 元数据可靠性机制 3.1.5 元数据一致性机制 3.2 使用说明 第4章 Hadoop的Backup Node方案 4.1 Backup...

    hadoop2.4.1三台机器分布式安装

    weekend01 192.168.1.201 jdk、hadoop NameNode、DFSZKFailoverController(zkfc) weekend02 192.168.1.202 jdk、hadoop NameNode、DFSZKFailoverController(zkfc) weekend03 192.168.1.203 jdk、hadoop ...

    hadoop (1).docx

    hadoop 简介 以及总复习的流程 常见的启动错误 错误:启动完后,datanode的主机上没有出现datanode进程。...解决办法: 删除namenode、datanode的临时文件目录(hdptmp) 再次初始化namenode 重新开启start-dfs.sh

    hadoop常见问题总结.txt

    Hadoop高可用整套配置与详细问题解决 core-site hdfs.site yarn-site 如:namenode启动失败 DFSZK启动失败 防火墙开关等

    网络前沿技术 Hadoop

    Step9: 解决jps命令没有namenode或datanode 22 1.4【实验结果】 24 1.5【实验总结】 26 实验2:HDFS实验 28 2.1【实验目的】 28 2.2【实验环境】 28 2.3【实验过程】 28 Step1: 启动Hadoop. 28 Step2: 学习HDFS基本...

    hadoop安装过程中的问题

    Slave启动不起来解决过程如下: 1.环境变了,hadoop没变: Hadoop/etc/hadoop/slaves 的IP地址要变。 5个重要的配置文件逐个检查,IP地址需要变 2.配置文件确认无错误,看日志: 从logs日志中寻找slave的namenode为...

    Hadoop平台搭建 1.搭建 步骤文档 2.搭建时要用到的组件安装包

    启动Hadoop集群:启动Hadoop集群的各个节点,包括NameNode、SecondaryNameNode、DataNode等。 用途: 数据存储和处理:Hadoop可以存储海量数据,并使用MapReduce等编程模型进行数据处理和分析。 数据挖掘和机器学习...

    hadoop节点问题.docx

    启动hadoop时,出现某个节点未出来,例namenode未出来,去日志logs中看一下namenode和datanode的id是否一样, 解决方法 法一:如果不一样,到指定路径下把tmp文件删除,然后重新格式化hadoop,然后重启 法二: 修改...

    HDFS的优化实现ADFS.zip

    ADFS(Ali Distributed File System)是基于hadoop开源分布式系统HDFS的一种优化...这样做能够同时解决namenode内存瓶颈问题,meta信息持久化问题和单点故障问题,以及启动时间过长等困扰用户的地方。 标签:ADFS

    Hadoop从入门到上手企业开发

    056 使用Eclipse运行MyWordCount程序并解决PriviledgedActionException问题 057 MyWordCount 处理过程详解 058 MapReduce提交作业源码跟踪讲解 059 MR作业运行流程整体分析 060 MapReduce执行流程之Shuffle和排序...

    hadoop运行wordcount实例

    包含配置hadoop过程中遇到的一些问题的解决办法和成功运行wordcount实例的步骤

    fourinone-3.04.25

    3、一次性启动多工人进程支持,可以通过程序api一次性启动和管理“ParkServer/工头/工人”多个进程,并附带良好的日志输出功能,用于代替写批处理脚本方式,方便部署和运行。 4、增加了相应指南和demo。 本软件...

    Hadoop入门实战手册

    4.5.2 .................................................................................................15 启动Hadoop 4.5.3 ................................................................................

Global site tag (gtag.js) - Google Analytics