ご相談・お問い合わせ
2 分で読むことができます

Octoparse実用編【スクレイピングツール】

執筆者 BI LAB編集室 更新日時 2020年7月29日

スクレイピングツールoctoparseの実際の設定手順になります。

📌効率的なデータ収集「スクレイピング」とは?やり方と注意点

 

こんにちは。
今回はスクレイピングツールの実際の使い方について説明します。
以前にブログで紹介した保育園の空き情報を例にしてWEBサイトからデータを取得しCSVまたはEXCELファイルなどにする方法となります。

 

1回目の記事はこちら👇
Octoparseインストール編【スクレイピングツール】

OctoparseでWebサイトからデータを取得する方法

順を追って解説します。

 

1.前回の続きよりデスクトップに作成されたOctoparseのアイコンをクリックするとログイン画面が表示されます。登録したユーザ名とパスワードを入力してログインしてください。

0

 

2.今回はカスタマイズモードで実行しますので、オレンジ枠の部分をクリックしてください。

1-4

3.指定したURLをコピーして貼り付けます。今回は新潟市北区の保育園情報になります。
http://www.city.niigata.lg.jp/smph/kita/shisetsu/kosodate/hoikunyuuen.html

2-4

 

4.URLを保存すると、以下の画面に遷移し画面下部にWEBサイトが表示されます。

3-4

 

5.表の左上(公・私)を選択すると、以下の画面の表示のようになります。

4-4

 

6.操作のヒント画面のオレンジ枠の部分をクリックします。

5-4

 

7.画面のすべてのサブ要素を選択するをクリックします。

6-4

 

8.すべて選択 をクリックします。

7-4

 

9.選択したデータを抽出する をクリックします。

8-3

 

10.画面の左側に取得するデータの一覧(項目)が表示されます。問題なければ、右下のOKボタンを押してください。

9-3

 

11.抽出開始ボタンを押して、実際に抽出してみます。

10-1

 

12.画面のローカル抽出をクリックします。

11-1

 

13.出力する準備ができましたら、エクスポートボタンを押してください。

12-2

 

14.データフォーマットを選択して、エクスポートボタンを押してください。

13-1

 

15.問題なければ、完成ボタンをおして出力先に指定したフォルダのファイルを確認します。

14-1

 

16.以下のようにファイル出力ができたら、完成です。

15-1

 

このように、操作を覚えると簡単にデータ出力が可能となります。タスク保存をすることでWEBサイトの情報が更新された場合には、抽出開始を押すだけで出力が可能となります。このデータをTableauなどのデータ分析や可視化ツール等で取り込むことで様々なデータをより分かりやすく見ることが可能となります。

 

1回目の記事はこちら👇

Octoparseインストール編【スクレイピングツール】

BI LAB編集室

執筆者 BI LAB編集室

BI LAB(データ活用研究所)編集室です。 BI、AI、DWHなどデータ活用に関するトレンドやニュースやコラムをほぼ毎日配信しています。押さえておきたい基本知識から、最新ニュース、事例インタビューやお役立ち情報・セミナーレポートまで、データ活用の専門家ならではの視点と情報量でお届けします。

 

こちらの記事もおすすめです

3 分で読むことができます。

【DBpedia探索2】新潟県にある新幹線の駅を調べてみる

2 分で読むことができます。

Twitterアカウントロック! ~解除までの道のり~

2 分で読むことができます。

プロ野球を支えるAIとは?WBCで活用された技術についてもご紹介