HiverServer2セットアップしJDBC経由でHiveQLを実行する

HiveコマンドをHadoopクライアントを利用せずに実行するには、HiveServer2をセットアップしHiveServer2を経由してHiveHadoopクラスター上でMapReduceジョブを実行します。
HiveServer2は名前の通りHiveServerのバージョン2でApache Hive 0.11から導入されました。

HiveServer2のクライアントは、以下のようにCLIのBeelineの他に専用のJDBCやODBCドライバを利用するアプリケーションになります。

HiveServer2Diagram
HiveServer2は、HiveQLを受け取るとMapReduceに変換してHadoopクラスターに実行を要求します。
この図は、ClouderaのブログHow HiveServer2 Brings Security and Concurrency to Apache Hiveを参考にしています。
BeelineはJDBCのアプリなので厳密には構成がちょっと違いますが、HiveServer2の利用イメージはこんな感じです。

以下、Hive CLIがHadoopクラスタに対して実行可能な環境に、HiveServer2を追加し、JDBCを利用するBeeline CLIとPythonのドライバを利用したサンプルの実行確認まで手順をまとめて行きます。
OSはUbuntu 12.04、ディストリビューションはCDH5を利用しています。
“HiverServer2セットアップしJDBC経由でHiveQLを実行する” の続きを読む

HiveやPigコマンドをHadoopクラスターで実行するには

Hive CLIでHiveQLを実行したりPigLatinをリモートのHadoopクラスターで実行する場合に必要なクライアント側のHadoop設定についてまとめてみました。
Hadoopは2系、動作の確認はCDH5を利用してしています。

Hive CLIやPigコマンドは、生成したたMapReduceジョブを同じマシンのHadoopクライアントを通してリモートのHadoopクラスタ上に送り実行します。

CoonectHadoopClusterFromHivePigCommand
“HiveやPigコマンドをHadoopクラスターで実行するには” の続きを読む

Apache PigチュートリアルをビルドしてHadoopクラスタで動かす

Apache PigはHadoop関連プロジェクトの一つでMapReduceをスクリプト(DSL)で手軽に記述できるようにするフレームワークです。

Pig Latinという独自のスクリプト言語でパイプラインを1ステップ毎記述していきます。

ここではApache Pigをセットアップし、公式チュートリアルのサンプルをローカル実行して基本的な動作を確認、Hadoopクラスタ上で実行させるまでを体験してみます。

Hadoopクラスタは、手軽にためすならAWS Elastic MapReduceを利用するのが簡単です。
ここでは、Apache Hadoop 2.5.0で構築したクラスターを利用します。

OSはUbuntu 14.04、各パッケージのバージョンは、このブログ記事を書いている時点のものを記載しています。

“Apache PigチュートリアルをビルドしてHadoopクラスタで動かす” の続きを読む

Apache Hadoop 2.5.0 セットアップ手順 その2 – クラスター構築手順

前回の記事「Apache Hadoop 2.5.0 セットアップ手順 その1 – ローカル実行からシングルノードクラスター起動まで」で、Apache Hadoop 2.xのセットアップを公式ドキュメントに沿って確認したので、今回は複数ノードに分散させたクラスターを組んでみます。

環境は、Ubuntu 14.04です。

各ノードにHadoopをインストール

前回の記事の「Hadoopのインストール」までの手順を各ノードで行います。

各ノードからホスト名でアクセスできるように設定

クラスターに参加する全ノードの/etc/hostsに各ノードを指定します。
[text title=”/etc/hosts”]
192.168.33.11 master
192.168.33.12 slave01
[/text]
“Apache Hadoop 2.5.0 セットアップ手順 その2 – クラスター構築手順” の続きを読む

Apache Hadoop 2.5.0 セットアップ手順 その1 – ローカル実行からシングルノードクラスター起動まで

Apache PigなどHadoopも含めて関連技術を勉強中なので、MapReduceモードでPigを動作させるためにHadoopをセットアップしてみました。

通常、オンプレにHadoop環境を構築する際は、Apache Hadoopではなく、ClouderaHortonworksなどのディストリビューションを利用した方が良いですが、まずはApache Hadoopをインストールして実行を確認してみます。

今回は、Ubuntu 14.04上にHadoop 2.5.0をシングルノードクラスター(疑似分散モード)としてセットアップしてMapReduceのサンプルを実行するまでの手順を試した際のメモになります。
ほぼ、公式ドキュメントApache Hadoop 2.5.0 – Hadoop MapReduce Next Generation 2.5.0 – Setting up a Single Node Cluster.の手順に沿ったものです。

必要なソフトウェアのセットアップ

Javaをインストール

Javaは、OracleでもOpenJDKでも良いようなので、Ubuntu 14.04のデフォルトのJDKをインストールします。
HadoopJavaVersions – Hadoop Wiki

$ sudo apt-get update
$ sudo apt-get install -y default-jdk
$ java -version
java version "1.7.0_65"
OpenJDK Runtime Environment (IcedTea 2.5.1) (7u65-2.5.1-4ubuntu1~0.14.04.2)
OpenJDK 64-Bit Server VM (build 24.65-b04, mixed mode)

“Apache Hadoop 2.5.0 セットアップ手順 その1 – ローカル実行からシングルノードクラスター起動まで” の続きを読む