HdfsGetとHdfsPutコンポーネントは、HadoopのHDFSファイルシステムに対して、「WebHDFS REST API」を利用してファイルを取得、追加するコンポーネントです。
HDFS接続情報の設定
HDFSコンポーネントはHTTPコネクションを使います。新しいHTTPコネクションを作成して、接続情報を入力してください。
「WebHDFS REST API」の認証情報はコンポーネントのプロパティで設定しますので、このHTTPコネクションの「ユーザー名」と「パスワード」は入力しません。
HdfsGetコンポーネントでファイルを取得
次のような簡単なフローを作ってください。
プロパティのところに先ほど設定したHTTPコネクションを選択します。「ユーザー名」に認証用のユーザー名を入力します。「HDFSパス」は取得したいファイルのHDFSパスです。「保存先ファイルパス」にファイルのローカルパスを指定します。
このフローを実行すると、指定したファイルがダウンロードされます。
既存のコネクション情報を使わない場合は、「コネクションを使用」を「いいえ」に設定し、接続情報を入力してください。
HdfsPutコンポーネントでファイルを追加
プロパティの設定方法はHdfsGetと大体同じです。注意すべきプロパティは「上書きする」です。デフォルトの「はい」ではHDFSの既存ファイルを上書きしますが、「いいえ」の場合は同名ファイルが存在するとエラーが発生します。
これでHDFSへのファイルの追加、取得方法はお分かりになったでしょうか。簡単ですよね。
次回のブログもご期待ください。