Apache HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
1.安装Java,并设置JAVA_HOME
1 2 3 4 5 |
$sudo apt-get install openjdk-7-jre $sudo apt-get install openjdk-7-jdk $export JAVA_HOME=$(readlink -f `which java` | xargs dirname | xargs dirname | xargs dirname) |
建议在系统的环境变量中增加"JAVA_HOME
"环境变量,也可以写在~/bashrc
里面。
1 |
$sudo vim /etc/profile |
文件尾部增加
1 |
export JAVA_HOME=$(readlink -f `which java` | xargs dirname | xargs dirname | xargs dirname) |
然后,重启机器。
2.下载并配置Apache HBase
1 2 3 4 5 |
$wget http://apache.opencas.org/hbase/1.1.3/hbase-1.1.3-bin.tar.gz $sudo tar -zxvf hbase-1.1.3-bin.tar.gz -C /var/opt $sudo ln -s /var/opt/hbase-1.1.3/ /var/opt/apache-hbase |
在系统的环境变量中增加"HBASE_HOME
"环境变量,也可以写在~/bashrc
里面。
1 |
$sudo vim /etc/profile |
文件尾部增加
1 |
export HBASE_HOME=/var/opt/apache-hbase |
然后,重启机器。
3.编辑conf/hbase-site.xml
配置数据存储目录
添加如下内容。其实这里也可以不做修改,如果不做修改,就会把数据存放到tmp临时目录中,重启就没有数据。如果做简单的测试就不用麻烦去配置文件。
1 |
$sudo vim $HBASE_HOME/conf/hbase-site.xml |
在其中的configuration
中增加对于存储数据目录的配置:
1 2 3 4 5 6 7 8 9 10 |
<configuration> <property> <name>hbase.rootdir</name> <value>file:///home/hduser/HBASE/hbase</value> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/home/hduser/HBASE/zookeeper</value> </property> </configuration> |
4.启动以及关闭Apache HBase
启动
1 |
sudo -E $HBASE_HOME/bin/start-hbase.sh |
关闭
1 |
sudo -E $HBASE_HOME/bin/stop-hbase.sh |
注意,如果执行sudo
的话,一定要加-E
参数,否则会导致提示找不到JAVA_HOME.
原因是,sudo
出于安全原因,默认禁止环境变量输出到子进程中。
5.参考链接
Installing Apache HBase on Ubuntu for Standalone Mode
安装nutch2+Hbase+Slor4