WARP4.9では、RecordAggregateコンポーネントに「キー項目」というプロパティが追加されました。このプロパティを指定すると、同じ値を持つレコードごとに集計することができます。それでは、具体的な使用例を紹介させていただきます。
テレビ番組などではよく各都道府県のさまざまなデータを集計し、都道府県別の面白いランキングを作って楽しんでいますね。今回はフローを使ってそれと同じように、地域別のランキングを作ってみましょう。例えば、世帯当たりのうどん消費量の一番多い地域は、やはり香川県のある四国でしょうか?
WARP4.8のRecordAggregateコンポーネントを利用してこのようなランキングを作ることも可能ですがかなり複雑なフローになります。WARP4.9の「キー項目」を活用すれば、データを集計して地域別のランキングをつくることも簡単です。
まずは、集計用のCSVファイルを用意しましょう。次のような感じです。
北海道,北海道,12507,2727
東北,青森県,14047,585
東北,岩手県,17273,515
東北,宮城県,16470,950
東北,秋田県,19306,425
...
各列の左から、地域、都道府県、世帯あたりのうどん消費量(単位:グラム)[1]、一般世帯数(単位:1000)[2]となります。
サンプルのCSVファイルを添付しました。
そして、次のようなフローを作りましょう。
①のRecordGetコンポーネントで上記の各都道府県のデータを読み込みます。②のマッパーで各都道府県のうどん総消費量を計算します(世帯あたりのうどん消費量×一般世帯数)。RecordAggregateコンポーネントで地域別のうどん総消費量と総世帯数を集計します。そして③のマッパーで地域別の世帯あたりのうどん消費量を計算します(うどん総消費量÷総世帯数)。最後に④のRecordSortコンポーネントでソートします。
①②③④の設定については添付したプロジェクトファイルを参照してください。ここではRecordAggregateコンポーネントの設定を説明します。
RecordAggregateコンポーネントの基本設定はデフォルトのままにします。「キー項目」のところに、今回は地域ごとに集計するので、地域のフィールド(ここでは「region」)を指定してください。「集計項目」のところに、うどん総消費量と総世帯数を集計するので、集計フィールドをうどん消費量と世帯数(ここでは「udon」と「family」)を指定し、集計方法を両方とも「合計」にしてください。
このように設定すれば、各地域のうどん総消費量と総世帯数を集計できます。とても簡単ですね。
最後に、このフローを実行してみましょう。
結果は予想通りですね。(^^)
これでRecordAggregateコンポーネントの「キー項目」を理解いただけたでしょうか。
それでは、また。
[1] 出典:総務省統計局ホームページ(http://www.stat.go.jp/data/kakei/)
[2] 出典:総務省ホームページ(http://www.soumu.go.jp/menu_news/s-news/01gyosei02_02000062.html)