Alteryxでデータクレンジングしてみた感想 メリットとデメリット


データ分析業務の中で最も時間を食うとされているのが、「データを正規化/加工」するプロセスです。

例えばデータのフォーマットを整えたり、重複データを削除したり、不要なデータを消去したりと、地味な作業なのですが結構大変ですよね。

このデータを整合していく一連の作業をデータクレンジングと言うのですが、これまではExcelやAccessといったOfficeツールを使って進める人が多かったのではないでしょうか?

私もPower BIを使って現場改善をしている身の上、データクレンジングには苦しめられていて、先日Udemyでデータクレンジング関連のスキルがないか動画サーフィンぐをしていたところ、Alteryxというツールを発見。

実際に使ってみるとかなり便利でしたので、その内容を一部共有させて下さい。

データ分析業務に関わる人なら、知っておいて後悔しないと思います。

 

Alteryxとは?

複数のデータを繋げたり、データの整合を取ったり等のデータ加工作業を直感的に行うことができる分析プラットフォームです。

下図がAlteryx Designersの画面の構成なのですが、メニュー部に表示されている「自動化モジュール」から実行したいプロセスを選択し、その下のワークフロー部にドラッグ&ドロップし、データ分析のプロセスを描いていきます。

例えば、「Excelデータを読み込み→フィルターをかける→CSVにエクスポート」という作業を行いたい場合は、モジュールから「Input」→「Filter」→「Output」を選択し、作業手順を書いて進めます。

そして、作業手順が完成したら、実行ボタンを押すことで作成したデータ加工プロセスが走り始めます。

作業手順をワークフローとして保存しておけるので、面倒くさいデータ加工業務を自動化できたり、VBAといったプログラミング言語の知識が無くても自動化プログラムを書ける点がメリットです。

 

GartnerのMagic Quadrantではリーダー

製品は2006年に初版がリリースされていたようですが、その後のバージョンアップグレードにより機能を改善し、先日発表されたGartner社のData science and Machine Learning Platformレポートではリーダーポジションを獲得しています。

 

Alteryxの費用感

Alteryxは基本的には有料のサービスで、詳しくはAlteryxのホームページに記載がありますが、Alteryx Designerツールでも年間$7,495/1ユーザー~となっています。

その隣に「Location Insights」と表記がありますが、更に機能を追加していきたい場合は、追加費用で機能を拡充できます。

ただAlteryxのDesignerツールは、14日間無料で試すことが可能なので一度どんなものか使ってみるのはいいかと思います。

 

Alteryxのメリット

現時点で感じたメリットです。

1.ワークフローの再現性

既存のオフィスツール(AccessやExcel)でデータの加工を進めていると、ツール間を行き来する手間が結構発生します。

例えば複数データの結合はAccessやSQLでクエリを組むが、集計はExcelのピボットを使ったりといった感じです。

Alteryxではこのようなデータ加工に必要とされる機能が、ソフトの中で全て使えるので、ツール間の移動が少なく、データ加工時間を削減できます。

また一度書いたワークフローは、「Run(実行)」ボタンを押すことで、再現が可能なので、日次や月次レポートの集計なんかでデータ加工作業を繰り返す必要がなく、集計業務の時間を大きく削減できます。

 

2.ワークフローの可視化

Alteryxは上図でも見た通り、ワークフローをキャンバス上に描いてデータ分析作業フローを定義していきます。

こうして分析の流れが一枚の図として見えるので、データ分析担当者がどのデータを使って、どのように加工していて、どこに保存しているのかといった情報を、全く関係ない(例えば新入社員)人でもカンタンに読み解くことが可能です。

つまり、作業フローを見える化することで、複雑なデータ分析処理のブラックボックス化を防ぎ、組織の属人化を防止する効果も見込めると感じました。

自分が転職する立場だとして、転職先企業がAlteryxを使っていたら、ワークフローを逆エンジニアリングすれば大体組織のデータ構造は理解できると思います。

 

3.豊富な機能で、実現できることの幅が広い

Alteryxは実行したい機能を上のツールバー(モジュール)から選択し、ドラッグ&ドロップしてフローを書いていきます。

例えば「ファイルのインポートやエクスポート」、「データの結合」、「フィルタリング」、「正規表現」等色々あるのですが、その機能の種類は現時点で約260以上です

ですので、複雑なデータ分析もフローとして実現しやすく、また自分が知らなかったデータ加工方法も発見できたりと、データ分析のスキルアップ効果も見込めるツールです。

 

4.データ連携機能

Alteryxはデータ分析プラットフォームなので、基本的には元データやファイルをAlteryxに「インポート」し、Alteryx上で分析を進めていきます。

ですので、まずはデータをインポートする必要があるのですが、Alteryxにインポートできるデータバリエーションは豊富で、csvやexcelはもちろんのこと、JSONファイルやGIS系のファイルも取り込めます。

また、データベースソフトとの接続も幅広く、下記のようにMySQLやAmazon Redshitなど色々対応しています。

社内にバラバラに散らばっている様々な形式のデータをAlteryx内で一元管理できるメリットがあります。

 

Alteryxのデメリット

基本的にはメリットの方が多いですが、今後改善されたらいいと感じるポイントです。

1.レポーティング機能は弱い

Alteryxのレポーティング機能を使うと、Alteryx上で簡易なグラフやチャートを表現することも可能です。

ただレポーティングの部分では、データ可視化に特化しているPower BIといったツールに比べると表現方法の幅(というか、ツールの種類)が少ないです。

一方Power BIはデータ加工面での機能はAlteryxよりも弱いので、データ加工=Alteryx、データの可視化はPower BIといったように使い分けるのがいいかと感じます。

 

2.ソフトの日本語未対応

またAlteryxのWebサイトは日本語版サイトがありますが、ソフトそのものの言語は英語で出来ています。

インターフェースが比較的分かりやすい作りになっているので、正直困ることはあまりないかなという印象ですが、例えば社外のベンダーさんにAlteryxを使ってもらいたい時なんかで、英語が出来ない方だと最初は困惑されます。

Power BIやTableauなんかは日本語対応していますし、日本語対応できると普及率も向上していくと思います。

 

Alteryxのトレンド

下記はAlteryxのGoogleでの検索推移(トレンド)の時系列推移です。

【全世界】

【日本】

特にアメリカを中心に2015年あたりから注目を集めて続けています。日本でも少しずつ注目され始めていることが分かります。

 

Alteryxは2020年最も衝撃を受けたツールですし、これから時代が来ると思いますので、新しい技術を先取りしておきましょう。

現時点では英語版のみですが、Alteryxの学習動画がUdemyのオンライン動画 にありましたので参考にしてみて下さい。

私も受講しましたが、ほんの4時間程度の動画なので、1日あれば大体は理解できると思います。

では!!またどこかで