静岡県立中央図書館が株式会社Geolocation TechnologyとPDFを自動収集するクローリングシステムを共同開発

VOIX編集部VOIX編集部 注目のリリース
静岡県立中央図書館が株式会社Geolocation TechnologyとPDFを自動収集するクローリングシステムを共同開発

【全国初】静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを地元企業と共同開発

静岡県立中央図書館(静岡県静岡市)は後世に引き継ぐ地域資料収集の一環として、静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを株式会社Geolocation Technology(静岡県三島市)と共同開発しました。
このシステムにより、これまで人手で収集していたPDFを自動で収集することが可能になりました。
公共図書館におけるクローリングシステムの開発は、全国初の取り組みです。
なお、この取り組みは、2021年度から静岡県立中央図書館が行っている「図書館DX実証実験」の一部です。

システム概要

  • クローリング対象
    静岡県内の自治体Webサイトのドメイン内に格納されているPDF。
  • 収集範囲
    ドメイン以下5階層目まで。
    ※5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば,収集範囲の対象階層外であっても収集する。一方、外部ドメインへのリンクは収集しない。
  • 保存方法
    収集したPDFは、Googleドライブで収集した日付ごと、収集元のドメインと同じディレクトリ構造で保存される。また世代管理も行っている。
  • 管理方法
    1.収集範囲内にあるすべてのPDFを機械的に管理
    2.収集したPDFをリネームし管理

成果

  • 収集できたPDFの数 
    455,133件
    ※初回は収集対象すべてのPDFを収集しています。2回目以降は、前回との差分(含む更新)を収集します。

今後の展望

今回の実証実験で、これまで収集が困難だった、自治体WebサイトにアップロードされたPDFを自動で収集する仕組みを構築できた。今後は、収集したPDFをもととしたサービスの可能性を検証していく。

参考

開発元:株式会社Geolocation Technology

図書館DX実証実験について

第1弾

第2弾及び第3弾

静岡県立中央図書館Webサイト




広報・PRご担当者様へ

記事選定/ライター
VOIX編集部

VOIX編集部

2020年代をリードするビジネス情報を中心にニュースを発信します。取材やリリースを中心に、価値のある情報をお届けします。
リリースをご希望の方
ページトップへ