未加星标

云计算 Twitter 语料分析 7 探索 HBase

字体大小 | |
[大数据技术 所属分类 大数据技术 | 发布者 店小二03 | 时间 2016 | 作者 红领巾 ] 0人收藏点击收藏

  优化 HBase 性能的时候遇到了诸多问题,主要原因在于对于 HBase 细节的不理解,所以要对着官方文档,仔细过一次,希望能以此找到症结所在。

  HBase是一个分布式,版本化,面向列的数据库,构建在 Apache Hadoop 和Apache ZooKeeper 之上。

  就我的理解来说,Hadoop 负责做 MapReduce,ZooKeeper 负责管理整个过程。因为 Amazon EMR 只提供 0.94.18 版本的 HBase,所以这里看老一些的文档(和当前最新的有一定出入)。官方文档中写在最前面的话很好,这里引用一下:

  若这是你第一次踏入分布式计算的精彩世界,你会感到这是一个有趣的年代。分布式计算是很难的,做一个分布式系统需要很多软硬件和网络的技能。你的集群可以会因为各式各样的错误发生故障。比如HBase本身的Bug,错误的配置(包括操作系统),硬件的故障(网卡和磁盘甚至内存) 如果你一直在写单机程序的话,你需要重新开始学习。

  就抱着『新参者』的心态,来重新开始这次的旅程吧。

  先装好 linux(我用的是 Ubuntu 14.04,虚拟机),我习惯装下面这个插件,可以直接在右键菜单中在当前文件夹打开终端,还是比较方便的,具体安装只需:

sudo apt-get install nautilus-open-terminal
nautilus -q

  然后我们就来安装 HBase 吧!没有 0.94.18 版本下载,所以在官网上选择了最接近的 hbase-0.94.27 版本,下载完成之后解压,我就把解压后的文件夹放到 ~/ 下了。

  然后需要改动 conf/hbase-site.xml ,添加一个 hbase.rootdir 属性。默认 hbase.rootdir 是指向 /tmp/hbase-${user.name} ,也就说你会在重启后丢失数据(重启的时候操作系统会清理 /tmp 目录),这里我们改一下,放到根目录下名为 db 的文件夹下, conf/hbase-site.xml 大概像这样:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>hbase.rootdir</name>
<value>file:///home/parallels/db</value>
</property>
</configuration>

运行 HBase 需要 Java,我们需要安装并配置JAVA_HOME,先sudo apt-get install default-jdk,然后修改/etc/environment,添加下面两行:

JAVA_HOME=/usr/lib/jvm/default-jdk
export JAVA_HOME

最后输入. /etc/environment载入环境变量,我们就可以以单机模式启动了,命令如下:

./bin/start-hbase.sh

执行结果为:

parallels@ubuntu:~/hbase-0.94.27$ ./bin/start-hbase.sh
starting master, logging to /home/parallels/hbase-0.94.27/bin/../logs/hbase-parallels-master-ubuntu.out

  所有的服务都运行在一个JVM上,包括HBase和Zookeeper。HBase的日志放在logs目录,当你启动出问题的时候,可以检查这个日志。

  这之后就可以用我们属性的 hbase shell 来连接了,因为没有把当前文件夹加到路径中,所以需要完整路径,如果不想这样的话,仍然是打开 /etc/environment,把 /home/parallels/hbase-0.94.27/bin 添加到 PATH 中,这样执行的时候就会搜索这个文件夹(仍然需要 . /etc/environment 载入环境变量)。具体如下:

parallels@ubuntu:~/hbase-0.94.27$ hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Type "exit<RETURN>" to leave the HBase Shell
Version 0.94.27, rfb434617716493eac82b55180b0bbd653beb90bf, Thu Mar 19 06:17:55 UTC 2015
hbase(main):001:0>

输入help可以查看帮助信息,这里不赘述


云计算 Twitter 语料分析 7 探索 HBase
tags: hbase,gt,lt,HBase,parallels,etc,bin,xml,environment,文件夹,rootdir,name,ubuntu
分页:12
转载请注明
本文标题:云计算 Twitter 语料分析 7 探索 HBase
本站链接:https://www.codesec.net/view/411734.html


1.凡CodeSecTeam转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
登录后可拥有收藏文章、关注作者等权限...
技术大类 技术大类 | 大数据技术 | 评论(0) | 阅读(385)