データクレンジングツール「Alteryx」のメリットとデメリット


データ分析業務の中で一番時間を取られる作業が、データの正規化です。

例えば複数あるテーブルデータのリレーションを構築したり、データのフォーマットを整えたり、重複データを削除したり、不要なデータを消去したりと、地味な作業なのですが結構大変ですよね。

このデータを整合していく一連の作業をデータクレンジングと言ったりするのですが、これまではExcelやAccessといったOfficeツールを使って進める人が多かったのではないでしょうか?

私もPower BIを使って現場改善をしている身の上、データクレンジングには苦しめられていて、先日Udemyでデータクレンジング関連のスキルがないか動画サーフィンぐをしていたところ、Alteryxというツールを発見。

実際に使ってみるとかなり便利でしたので、その内容を一部共有させて下さい。

データ分析業務に関わる人なら、知っておいて後悔しないと思います。

 

Alteryxとは?

複数のデータを繋げたり、データの整合を取ったり等のデータ加工作業を直感的に行うことができる分析プラットフォームです。

下図がAlteryx Designersの画面の構成なのですが、メニュー部に表示されている「自動化モジュール」から実行したいことを探して選択し、その下の白紙のワークフロー部にドラッグ&ドロップし、データ分析のプロセスを描いていきます。

例えば、「Excelデータを読み込み→フィルターをかける→CSVにエクスポート」という作業を行いたい場合は、Inputモジュール→Filterモジュール→Outputモジュールを選択し、下記のようにワークフローを書いて進めます。

製品は2006年に初版がリリースされていたようですが、その後のバージョンアップグレードにより機能を改善し、先日発表されたGartner社のMachine Learning Platformレポートではリーダーポジションを獲得しています。

 

Alteryxの費用感

Alteryxは基本的には有料のサービスで、詳しくはAlteryxのホームページに記載がありますが、Alteryx Designerツールでも年間$7,495/1ユーザー~となっています。

その隣に「Location Insights」と表記がありますが、更に機能を追加していきたい場合は、追加費用で機能を拡充できます。

ただAlteryxのDesignerツールは、14日間無料で試すことが可能なので一度どんなものか使ってみるのはいいかと思います。

 

Alteryxのメリット

現時点で感じたメリットです。

1.ワークフローの再現性

既存のオフィスツール(AccessやExcel)でデータの加工を進めていると、ツール間を行き来する手間が結構発生します。

例えば複数データの結合はAccessやSQLでクエリを組むが、集計はExcelのピボットを使ったりといった感じです。

Alteryxではこのようなデータ加工に必要とされる機能が、ソフトの中で全て使えるので、ツール間の移動が少なく、データ加工時間を削減できます。

また一度書いたワークフローは、「Run(実行)」ボタンを押すことで、再現が可能なので、日次や月次レポートの集計なんかでデータ加工作業を繰り返す必要がなく、集計業務の時間を大きく削減できます。

 

2.ワークフローの可視化

Alteryxは上図でも見た通り、ワークフローをキャンバス上に描いてデータ分析作業フローを定義していきます。

こうして分析の流れが一枚の図として見えるので、データ分析担当者がどのデータを使って、どのように加工していて、どこに保存しているのかといった情報を、全く関係ない(例えば新入社員)人でもカンタンに読み解くことが可能です。

つまり、作業フローを見える化することで、複雑なデータ分析処理のブラックボックス化を防ぎ、組織の属人化を防止する効果も見込めると感じました。

自分が転職する立場だとして、転職先企業がAlteryxを使っていたら、ワークフローを逆エンジニアリングすれば大体組織のデータ構造は理解できると思います。

 

3.豊富な機能で、実現できることの幅が広い

Alteryxは実行したい機能を上のツールバー(モジュール)から選択し、ドラッグ&ドロップしてフローを書いていきます。

例えば「ファイルのインポートやエクスポート」、「データの結合」、「フィルタリング」、「正規表現」等色々あるのですが、その機能の種類は現時点で約260以上です

ですので、複雑なデータ分析もフローとして実現しやすく、また自分が知らなかったデータ加工方法も発見できたりと、データ分析のスキルアップ効果も見込めるツールです。

 

4.データ連携機能

Alteryxはデータ分析プラットフォームなので、基本的には元データやファイルをAlteryxに「インポート」し、Alteryx上で分析を進めていきます。

ですので、まずはデータをインポートする必要があるのですが、Alteryxにインポートできるデータバリエーションは豊富で、csvやexcelはもちろんのこと、JSONファイルやGIS系のファイルも取り込めます。

また、データベースソフトとの接続も幅広く、下記のようにMySQLやAmazon Redshitなど色々対応しています。

社内にバラバラに散らばっている様々な形式のデータをAlteryx内で一元管理できるメリットがあります。

 

Alteryxのデメリット

基本的にはメリットの方が多いですが、今後改善されたらいいと感じるポイントです。

1.レポーティング機能は弱い

Alteryxのレポーティング機能を使うと、Alteryx上で簡易なグラフやチャートを表現することも可能です。

ただレポーティングの部分では、データ可視化に特化しているPower BIといったツールに比べると表現方法の幅(というか、ツールの種類)が少ないです。

一方Power BIはデータ加工面での機能はAlteryxよりも弱いので、データ加工=Alteryx、データの可視化はPower BIといったように使い分けるのがいいかと感じます。

 

2.ソフトの日本語未対応

またAlteryxのWebサイトは日本語版サイトがありますが、ソフトそのものの言語は英語で出来ています。

インターフェースが比較的分かりやすい作りになっているので、正直困ることはあまりないかなという印象ですが、例えば社外のベンダーさんにAlteryxを使ってもらいたい時なんかで、英語が出来ない方だと最初は困惑されます。

Power BIやTableauなんかは日本語対応していますし、日本語対応できると普及率も向上していくと思います。

 

総じて、個人的にAlteryxは2020年最も衝撃を受けたツールです。

2006年に初版をリリースしていますので、なんでもっと早く気付かなかったのだろうかと感じています。

まだ会社での導入は決まってませんが、データ分析担当としてこのツールは今後はガンガン押していこうと考えています。

 

もし興味があれば、英語ですが、私が今回受講したUdemyのオンライン動画 も参考にしてみて下さい。

ほんの4時間程度の動画なので、1日あれば大体は理解できると思います。