HDFSコンポーネントの使い方

HdfsGetとHdfsPutコンポーネントは、HadoopのHDFSファイルシステムに対して、「WebHDFS REST API」を利用してファイルを取得、追加するコンポーネントです。

HDFS接続情報の設定

HDFSコンポーネントはHTTPコネクションを使います。新しいHTTPコネクションを作成して、接続情報を入力してください。

hdfs1.png

「WebHDFS REST API」の認証情報はコンポーネントのプロパティで設定しますので、このHTTPコネクションの「ユーザー名」と「パスワード」は入力しません。

HdfsGetコンポーネントでファイルを取得

次のような簡単なフローを作ってください。

hdfs2.png

プロパティのところに先ほど設定したHTTPコネクションを選択します。「ユーザー名」に認証用のユーザー名を入力します。「HDFSパス」は取得したいファイルのHDFSパスです。「保存先ファイルパス」にファイルのローカルパスを指定します。

このフローを実行すると、指定したファイルがダウンロードされます。

既存のコネクション情報を使わない場合は、「コネクションを使用」を「いいえ」に設定し、接続情報を入力してください。

hdfs3.png

HdfsPutコンポーネントでファイルを追加

hdfs4.png

プロパティの設定方法はHdfsGetと大体同じです。注意すべきプロパティは「上書きする」です。デフォルトの「はい」ではHDFSの既存ファイルを上書きしますが、「いいえ」の場合は同名ファイルが存在するとエラーが発生します。

これでHDFSへのファイルの追加、取得方法はお分かりになったでしょうか。簡単ですよね。

次回のブログもご期待ください。

この記事は役に立ちましたか?
0人中0人がこの記事が役に立ったと言っています

他のキーワードで検索する