最近話題の「Octoparse」でWebスクレイピングしてみての感想 メリットとデメリット


「Octoparse」ってご存知ですか?

自分の場合、元々Webスクレイピング技術には興味があり、PythonのBeautiful Soupなんかを使って株価情報や画像情報なんかをスクレイピングすることはありましたが、もっと手軽に且つ、情報を動的に引っ張ってこれるソフトないかなと思って調べていたら「Octoparse」に当たりました。

下記はGoogleトレンドでの検索結果ですが、2017年頃からちょっとずつ注目を集めている感じですかね。

Octoparseの人気度の推移(5年間)

実際に使ってみると思っていた上に便利だったので、簡単に共有します。

Octoparseとは

Webサイトの情報を抽出する技術のことを「Webスクレイピング」と言います。

例えば、AmazonのWebサイトから商品名や価格といった情報を抜き出したり、食べログやぐるなびからお店の情報や住所を抽出し、CSVやExcelに保存したりできる技術のことです。

Octoparseは、このWebスクレイピングを、コーディングなしで抽出できるノンコーディングソフトです。

Octoparseを使わずに情報を転記したりする場合、「コピペ」を使って一個ずつ転記していく人が多いと思うのですが、単純作業で退屈です。

Octoparseを使えば、こうした繰り返し処理をプログラムで進められるので効率的です。

Octoparseのメリット

Octoparseを実際に使って感じたメリットです。

1.無料

一番大きいメリットはここです。もう少し具体的には、大きく「Free」、「Standard」、「Professional」とプランが分かれているのですが、一回の抽出量が10,000レコード以内であれば無料です。

試しにアパレル企業のH&MのHPから2019年のニュースリリースをダウンロードしてみたのですが、問題なく全ての記事をダウンロードできましたし、個人利用であれば問題なく利用できると感じました。

仮に10,000以上超えてしまう場合でも、例えば抽出情報を年度毎で区切って、複数回のタスクで進めれば、若干手間は増えますが十分に使えます。

 

2.設定がシンプル

実際には、下記の左側の画面にある「ワークフロー」を作ってスクレイピングの処理手順を定義し、自動化プログラムを作っていくのですが、これが直感的に作っていけるので分かりやすいんですよね。

理解しやすいというか、やって欲しいことを矢印で繋げていくだけなので、誰でも出来ます。

さらに具体的なことを言うと、スクレイピングしたい情報を1つ選択するだけで、下記のように他の情報を自動で認識してくれるんですね。

これはWebサイトがタグと呼ばれるコードで構造的に作られていることから実現できるのですが、以前はPython等のプログラミング言語で指定したりと面倒でした。

これならコードを調べたり学んだりする手間が省けますし、直感的に操作しながらスクレイピングロボットを作っていけるので、無断なく目的を達成することができると思います。

 

3.動的サイトにも対応

TwitterやFacebookが代表的ですが、サイトを下にスクロールしていくと、コンテンツがどんどんロードされて表示される仕組みのサイトって結構ありますよね。

或いは、Webサイトの一番下まで行くと「もっと読み込む」や「Read More」といったボタンがあって、そのボタンを押下するとさらにページがロードされて出てくるなんてサイトもありますよね。

このようにスクロールが必要なサイトや、「もっと読み込むボタン」を押す必要がある動的なサイトにも、Octoparseは対応しています。

UiPathのスクレイピングだと確かできないですよね。

自分はこの機能があるので、Octoparseを使っています。

 

Octoparseのデメリット

Octoparseを使うことのデメリットについても考えてみました。基本的にはメリットの方が多いので、参考までに。

1.上位プランは有料

Octoparseは抽出レコード数の上限があり、個人利用であれば全く問題ないのですが、10,000レコードをはるかに超える大規模なスクレイピングを行いたい場合は有料プランの購入が必要です。

参考までに「Standardプラン」の値段は月額$75です。

WebやIT企業勤務の方で、競合他社の価格情報のチェックなんかに使うことを想定しているのかなと思いますが、有料であるという点は留意しておきましょう。

 

2.たまに表現が分かりずらい

Octoparseは日本版もありますし、日本語対応の公式ホームページもあり、チュートリアルもあります。

ただ、元々は海外で開発されたソフトなので、日本語版の表現はたまにわかりずらいという印象です。一部機械的に翻訳している部分もあったりする関係ですかね。

例えば、英語訳では「Advanced Tool」と表記されているものが、日本語版だと「高級なタスク」と表記されています。

何となくニュアンスはわかるのですが、「高級な」というのはちょっと分かりずらいような気がします。

 

3.セキュリティ上使えない可能性がある

Octoparseは、ソフトをパスコンにダウンロードし、ソフトを起動して利用します。

そして企業によっては、セキュリティの観点から外部機関が提供しているツールをインストールできないケースが多いです。

自分の会社がそうなのですが、IT部門への申請が必要だったりしますよね。

Octoparseは誰でも知っているような汎用的なソフトではないので、利用承認を得るためのハードルが高いと感じました。

難しければ、個人利用であれば個人PCを使う等の対応が必要です。

 

4.PDFのダウンロード、スクレイピング不可

抽出したい情報がPDFファイルというケースありませんか?

現時点ではOctoparseを使ってPDFから情報を抽出することは出来ないようです。公式サイトにもその旨掲載されております。

ただPDFのリンクを抽出してPDFをテキスト化することは可能とのことです。

高まるWebスクレイピング人気

下記はWebスクレイピングのGoogleの検索結果数の推移ですが、ここ数年でWebスクレイピング技術の注目度は国内外で急増していることが分かります。

【Googleトレンドの結果(日本)】 

【Googleトレンドの結果(世界)】

最近は「スクレイピングエンジニア」と呼ばれる新たな職種が出て来たりとスクレイピングを深めることでエンジニアとしての活躍の場も広げられます。

実際僕がEC企業で働いていた時も社内にスクレイピング専門の部隊があり、競合他社の価格情報を調査したり等、重要な役割を担っていました。

Webスクレイピングの教育給付対象講座はあるか?

経産省と厚生省が推進する社会人の学び直しプログラム(Reスキル)の一環で、教育給付金(補助金)が出る学習講座が増えてきています。

一定の条件を満たせば、下記の通り最大で講座料金の70%が国から補助されるという制度です。

Webスクレイピングの対象講座を調べてみたのですが、現時点では「スクレイピング」に特化した給付金対象講座はありませんでした。

ただスクレイピングで抽出したデータを加工する時にプログラミングを使う機会はあったりするので、給付金の対象となっているDMM WEBCAMP COMMITなんかは自己啓発の一環として検討してみてはいかがでしょうか。