お問い合わせ
2 分で読むことができます

Octoparse実用編

執筆者 Dragon 更新日時 2020年7月29日

 

 

 こんにちは。Dragonです。今回はスクレイピングツールの実際の使い方について説明します。
以前にブログで紹介した保育園の空き情報を例にしてWEBサイトからデータを取得しCSVまたはEXCELファイルなどにする方法となります。

 

1.前回の続きよりデスクトップに作成されたOctoparseのアイコンをクリックするとログイン画面が表示されます。登録したユーザ名とパスワードを入力してログインしてください。

0

 

2.今回はカスタマイズモードで実行しますので、オレンジ枠の部分をクリックしてください。

1-4

3.指定したURLをコピーして貼り付けます。今回は新潟市北区の保育園情報になります。
http://www.city.niigata.lg.jp/smph/kita/shisetsu/kosodate/hoikunyuuen.html

2-4

 

4.URLを保存すると、以下の画面に遷移し画面下部にWEBサイトが表示されます。

3-4

 

5.表の左上(公・私)を選択すると、以下の画面の表示のようになります。

4-4

 

6.操作のヒント画面のオレンジ枠の部分をクリックします。

5-4

 

7.画面のすべてのサブ要素を選択するをクリックします。

6-4

 

8.すべて選択 をクリックします。

7-4

 

9.選択したデータを抽出する をクリックします。

8-3

 

10.画面の左側に取得するデータの一覧(項目)が表示されます。問題なければ、右下のOKボタンを押してください。

9-3

 

11.抽出開始ボタンを押して、実際に抽出してみます。

10-1

 

12.画面のローカル抽出をクリックします。

11-1

 

13.出力する準備ができましたら、エクスポートボタンを押してください。

12-2

 

14.データフォーマットを選択して、エクスポートボタンを押してください。

13-1

 

15.問題なければ、完成ボタンをおして出力先に指定したフォルダのファイルを確認します。

14-1

 

16.以下のようにファイル出力ができたら、完成です。

15-1

 

このように、操作を覚えると簡単にデータ出力が可能となります。タスク保存をすることでWEBサイトの情報が更新された場合には、抽出開始を押すだけで出力が可能となります。このデータをTableauなどのデータ分析や可視化ツール等で取り込むことで様々なデータをより分かりやすく見ることが可能となります。

 

 

Dragon

執筆者 Dragon

沖縄県宜野座生まれ、新潟競馬場で馬に関わる仕事を携わり、当時トレンドのIT業界へ参入。中国、ベトナムのオフショア開発を経て、INSIGHT LABを一時退職し、JICA青年海外協力隊でラオスへ渡航。2020年3月に帰国し、新潟研究開発センターへ合流。社会課題をテクノロジーを使って解決したい。世界的に話者の少ないラオ語を話せる。趣味はランニング。

 

こちらの記事もおすすめです

2 分で読むことができます。

物体検出の開発経過 その1

2 分で読むことができます。

☆祝☆ 新潟研究開発センター開設!

2 分で読むことができます。

物体検出の開発経過 その2