Google Web ScraperでWebスクレイピングしてみての感想 メリットとデメリット


企業の分析目的で、企業のホームページから会社情報を抽出してたいなと想い、Webスクレイピングのツールを探していたところ「Google Web Scraper」というアプリを使っている人がいたので、試しに使ってみました。

スクレイピングというと、PythonのBeautiful Soupモジュールを使うのがメジャーだと思っていて、実際にこれまではPythonでスクレイピングしていましたが、Google Web Scraperも全然ありです。

 

Google Web Scraperとは?

Webページ上の情報をcsvファイルとして抽出できるWebスクレイピングツールです。

スクレイピングはプログラミングツールでも可能なのですが、この場合どうしてもコーディングの知識が必要となります。Google Web Scraperを使えばコーディングなしでカンタンにスクレイピングができてしましまいます。

Google ScraperはGoogle Chromeの拡張子なので、アプリはChromeウェブストアからカンタンにダウンロードしてこれます。

 

●Google Chromeの拡張子として追加される

 

●F12をクリックしてデベロッパーモードを起動すると、一番右に「Web Scraper」のアイコンが表示される

 

Web Scraperのメリット

1.ブラウザの拡張機能なので、手軽にスクレイピングができる

スクレイピング自体は他アプリでも可能な技術です。ただ、その場合パソコンに追加でソフトをインストールする必要があり、セットアップ等の手間がかかります。

Web Scraperは、追加のソフトをインストールする必要がなく、Google Chromeの追加機能として使える手軽さが最大のメリットだと考えます。

 

2.完全無料

Webスクレイピングツールも世の中には色々あります。

Webスクレイピングを専門とするソフトウェアもありますし、RPAツールに含まれる一機能としてスクレイピング機能が付いている場合もあります。

中にはアップセルを狙ったりするソフトウェアもあるのですが、その点Google Web Scraperは完全に無料のツールなので経済面は安心して使うことが可能です。

 

3.スクレイピング速度も満足

正直Pythonのスクレイピング速度には劣りますが、その他のスクレイピングツールやRPAツールと比べても大差なかったです。

H&Mのニュースリリース約30サイト分のスクレイピングで、所要時間約2分程度でした。

「サイトマップ」と言われるスクレイピングの作業定義を設定し、タスクを実行させてしまえば、後は自動でロボットが情報を抽出しれくれますので、ちょっとトイレとコーヒー休憩にでも行って一息していれば作業は完了します。

●抽出したい情報を自動で認識する

 

Web Scraperのデメリット

1.サポート体制

こちらはGoogle Chromeの拡張機能なので、基本的にトラブルシューティングはGoogleで検索する等自分で解決していかなければなりません。

Quora等のコミュニティサイトや、You Tubeに解決策があることが多いですが、英語ですので、英語への耐性が弱い人にはストレスになると思います。

日本ではあまりメジャーなツールではないので、日本語でのナレッジもあまり多くないのが現実です。

実際にダウンロードして使っている途中に挫折してしまう可能性もあり得ます。

 

2.出力ファイルフォーマットが限定される

Google Web Scraperで抽出した情報をダウンロードする際、他ソフトだとExcelといったエクスポートファイルのフォーマットを選択できるのですが、Web Scraperだとcsvに限定されます。

大きな問題ではないのですが、エクスポートの機能面では若干他に比べて劣後している点は認識しておくべきだと思います。

 

3.作りが簡素

Web Scraperの作りは、かなりシンプルで、余計なものはほぼないです。余計なところに目が行かないので、操作自体はカンタンにできるのですが、UIの面では若干全体的に分かりずらいです。

チュートリアル動画があるので問題ないですが、チュートリアル動画がないと正直操作方法は理解に苦しみます。

その点、「Octoparse」のようなソフト型のツールは、Web Scraperに比べるとソフト内の説明が分かりやすいと感じました。日本語に対応したチュートリアルがない点も、敷居が上がるんですよね。

 

高まるWebスクレイピング人気

下記はWebスクレイピングのGoogleの検索結果数の推移ですが、ここ数年でWebスクレイピング技術の注目度は国内外で急増していることが分かります。

【Googleトレンドの結果(日本)】 

【Googleトレンドの結果(世界)】

最近は「スクレイピングエンジニア」と呼ばれる職業が出て来たりとスクレイピングを深めることでエンジニアとしての活躍の場も広げられます。

実際僕がEC企業で働いていた時も社内にスクレイピング専門の部隊があり、競合他社の価格情報を調査したり等、重要な役割を担っていました。

 

データサイエンティストを目指す

Webスクレイピングはデータを収集する技術です。

実際のビジネスシーンでは収集したデータを加工したり可視化したり、プログラミングツールや統計知識を活用して分析して事業改善に繋げることが求められます。

こうしたスキルを手に入れるためには時間とお金もかかりますが、経産省が主導する『第四次産業革命スキル習得講座認定制度』等の補助金制度を活用すれば、マンツーマンの手厚いサポートが付いた講座を割安で受講できます。

下記幾つか対象講座となりますので、検討してみて下さい。

 

1.Tech Academy

Tech Academyはプログラミングやアプリ開発が学べるオンラインスクールです。

オンラインスクールですが、パーソナルメンターが付くという手厚いサービスです。

プランとしても、4週間、8週間、12週間、16週間と色々あり、予算や自身の学び方に合わせて選択できるので柔軟です。

プログラミングはエラー対応が解決できずに挫折するパターンが多いので、対人サポートがあるのは時間の有効活用の面でも有益です。

 

2.キカガク

キカガクは人口知能や機械学習領域の教育事業を手掛けている会社です。

研修事業もやっていて、メルカリ、Microsoft、みずほ、ヤマとといった大企業への実績もあり安心できます。

分からない部分は講師に質問し放題と、正直運営が回っているのか心配になるほどの手厚いサポート体制が特徴です。

 

3.データミックス

データミックスはデータサイエンスに特化した専門スクールです。

未経験からでも数か月で企業でエントリー職以上で仕事に就けるスキルを引き上げることを目標にしています。

統計学、機械学習、人工知能、データベース、プログラミングといった広範囲な分野を効率的かつ体系的に身につけられるように工夫されたカリキュラムになっています。

以上。