Google Web ScraperでWebスクレイピングしてみての感想 メリットとデメリット


企業の分析目的で、企業のホームページから会社情報を抽出してたいなと想い、Webスクレイピングのツールを探していたところ「Google Web Scraper」というアプリを使っている人がいたので、試しに使ってみました。

スクレイピングというと、PythonのBeautiful Soupモジュールを使うのがメジャーだと思っていて、実際にこれまではPythonでスクレイピングしていましたが、Google Web Scraperも全然ありです。

 

Google Web Scraperとは?

Webページ上の情報をcsvファイルとして抽出できるWebスクレイピングツールです。

スクレイピングはプログラミングツールでも可能なのですが、この場合どうしてもコーディングの知識が必要となります。Google Web Scraperを使えばコーディングなしでカンタンにスクレイピングができてしましまいます。

Google ScraperはGoogle Chromeの拡張子なので、アプリはChromeウェブストアからカンタンにダウンロードしてこれます。

 

●Google Chromeの拡張子として追加される

 

●F12をクリックしてデベロッパーモードを起動すると、一番右に「Web Scraper」のアイコンが表示される

 

Web Scraperのメリット

1.ブラウザの拡張機能なので、手軽にスクレイピングができる

スクレイピング自体は他アプリでも可能な技術です。ただ、その場合パソコンに追加でソフトをインストールする必要があり、セットアップ等の手間がかかります。

Web Scraperは、追加のソフトをインストールする必要がなく、Google Chromeの追加機能として使える手軽さが最大のメリットだと考えます。

 

2.完全無料。余計なアップセルもなし

Webスクレイピングツールとして、もう一つ「Octoparse」というソフトがあります。
※Octoparseを使ってみての感想は「こちら」もあるので、興味があれば是非ご覧ください。

こちらも無料なのですが、スクレイピングできる文字数やクローラーの数で制限があり、制限なく利用したい場合は有料プランに申し込む必要があります。

所謂フリーミアムモデルのソフトなのですが、個人的にはこの形態の商売は好きでないです。使うだけ使わせて、ソフトから離れられなくさせ、料金を吊り上げるという戦略を取られるのは正直悔しいです。

その点、Google Web Scraperは無料のツールであるという安心感があります。

 

3.スクレイピング速度も満足

正直Pythonのスクレイピング速度には劣りますが、その他のスクレイピングツールやRPAツールと比べても大差なかったです。

H&Mのニュースリリース約30サイト分のスクレイピングで、所要時間約2分程度でした。

「サイトマップ」と言われるスクレイピングの作業定義を設定し、タスクを実行させてしまえば、後は自動でロボットが情報を抽出しれくれますので、ちょっとトイレとコーヒー休憩にでも行って一息していれば作業は完了します。

●抽出したい情報を自動で認識する

 

Web Scraperのデメリット

1.サポート体制

こちらはGoogle Chromeの拡張機能なので、基本的にトラブルシューティングはGoogleで検索する等自分で解決していかなければなりません。

Quora等のコミュニティサイトや、You Tubeに解決策があることが多いですが、英語ですので、英語への耐性が弱い人にはストレスになると思います。

日本ではあまりメジャーなツールではないので、日本語でのナレッジもあまり多くないのが現実です。

実際にダウンロードして使っている途中に挫折してしまう可能性もあり得ます。

 

2.出力ファイルフォーマットが限定される

Google Web Scraperで抽出した情報をダウンロードする際、他ソフトだとExcelといったエクスポートファイルのフォーマットを選択できるのですが、Web Scraperだとcsvに限定されます。

大きな問題ではないのですが、エクスポートの機能面では若干他に比べて劣後している点は認識しておくべきだと思います。

 

3.作りが簡素

Web Scraperの作りは、かなりシンプルで、余計なものはほぼないです。余計なところに目が行かないので、操作自体はカンタンにできるのですが、UIの面では若干全体的に分かりずらいです。

チュートリアル動画があるので問題ないですが、チュートリアル動画がないと正直操作方法は理解に苦しみます。

その点、「Octoparse」のようなソフト型のツールは、Web Scraperに比べるとソフト内の説明が分かりやすいと感じました。日本語に対応したチュートリアルがない点も、敷居が上がるんですよね。

 

高まるWebスクレイピング人気

下記はWebスクレイピングのGoogleの検索結果数の推移ですが、ここ数年でWebスクレイピング技術の注目度は国内外で急増していることが分かります。

【Googleトレンドの結果(日本)】 

【Googleトレンドの結果(世界)】

最近は「スクレイピングエンジニア」と呼ばれる職業が出て来たりとスクレイピングを深めることでエンジニアとしての活躍の場も広げられます。

実際僕がEC企業で働いていた時も社内にスクレイピング専門の部隊があり、競合他社の価格情報を調査したり等、重要な役割を担っていました。

 

Webスクレイピングエンジニアを目指そう!

Webスクレイピングは実際にやってみるとわかりますが、Webサイトの構造を理解した上で適切なデータクレンジング技術が必要な高度な技です。

Octoparseの使い方から視点を広げて「Webスクレイピング」を目指すなら、Webスクレイピングに関する幅広い知識が必要です。

下記参考までにWebスクレイピング技術の学習動画を紹介させて頂きますので興味があれば学んでみましょう。

 

PythonによるWebスクレイピング〜入門編〜

Seleniumを用いて、自動ログイン、テキストの抽出、画像データの収集までを学習できる講座です。

ランキング形式のサイトからまとめて情報を収集することができるようになったりと、Pillowを用いてPythonで画像を扱うことができるようになったりと内容が濃く、おすすめです。

 

 

PythonによるWebスクレイピング 〜Webアプリケーション編〜

BeautifulSoupを用いたデータの収集のみならず、データの可視化に特化したPythonライブラリであるDash、便利なPaaSであるHerokuといったプログラミングが学べる講座です。

Web上に公開するところまでをスコープとしていて、内容が実用的なのが特徴です。

 

Python で通販サイトの最低価格を比較するアプリを作る

Python で Web スクレイピング をして、楽天とyahoo!ショッピングの最低価格を比較するアプリを作る講座です。

知識0の初心者を対象としていて、また最終的に得られるスキルも明確(価格を比較する)なので、無駄なく学習が進むと思います。