静岡県立中央図書館が株式会社Geolocation TechnologyとPDFを自動収集するクローリングシステムを共同開発


この記事の目次
【全国初】静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを地元企業と共同開発
静岡県立中央図書館(静岡県静岡市)は後世に引き継ぐ地域資料収集の一環として、静岡県内の自治体WebサイトにアップロードされたPDFを自動収集するクローリングシステムを株式会社Geolocation Technology(静岡県三島市)と共同開発しました。
このシステムにより、これまで人手で収集していたPDFを自動で収集することが可能になりました。
公共図書館におけるクローリングシステムの開発は、全国初の取り組みです。
なお、この取り組みは、2021年度から静岡県立中央図書館が行っている「図書館DX実証実験」の一部です。
このシステムにより、これまで人手で収集していたPDFを自動で収集することが可能になりました。
公共図書館におけるクローリングシステムの開発は、全国初の取り組みです。
なお、この取り組みは、2021年度から静岡県立中央図書館が行っている「図書館DX実証実験」の一部です。
システム概要
- クローリング対象
静岡県内の自治体Webサイトのドメイン内に格納されているPDF。
- 収集範囲
ドメイン以下5階層目まで。
※5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば,収集範囲の対象階層外であっても収集する。一方、外部ドメインへのリンクは収集しない。
- 保存方法
収集したPDFは、Googleドライブで収集した日付ごと、収集元のドメインと同じディレクトリ構造で保存される。また世代管理も行っている。
- 管理方法
1.収集範囲内にあるすべてのPDFを機械的に管理
2.収集したPDFをリネームし管理
成果
- 収集できたPDFの数
455,133件
※初回は収集対象すべてのPDFを収集しています。2回目以降は、前回との差分(含む更新)を収集します。
今後の展望
今回の実証実験で、これまで収集が困難だった、自治体WebサイトにアップロードされたPDFを自動で収集する仕組みを構築できた。今後は、収集したPDFをもととしたサービスの可能性を検証していく。
参考
開発元:株式会社Geolocation Technology
図書館DX実証実験について
第1弾
第2弾及び第3弾
静岡県立中央図書館Webサイト
【VOIX 人気の記事】
● フォーブストラベルガイド 2022 日本の5つ星・4つ星・おすすめ ホテルの格付けを発表
● プレスリリースが無料で配信できる、おすすめ32選
● SDGs取り組み、SDGs宣言のため、SDGsとは簡単に意味や目標を知ろう
● 進研ゼミ 中学講座の料金・値段を分析。年間費用はいくら?
● コンビニ用 おすすめのクレジットカード ポイント還元10倍お得!
● 早い、安い、法人口座 開設 おすすめ ネット銀行 はこれだ!
● ナンバーレスカード おすすめ 特集
● ナンバーレスカード デメリット とは?
● メリットしかない、法人カード おすすめ 特集
● 学資保険 おすすめ10選 - 返戻率ランキング 特集
● すぐ使えるクレジットカード アプリを即時発行できるデジタルカード
● イオンシネマが1,000円!映画が割引になる方法を解説(同伴者も割引)
● 「ディズニープラス無料」JCB キャンペーン
● フォーブストラベルガイド 2022 日本の5つ星・4つ星・おすすめ ホテルの格付けを発表
● プレスリリースが無料で配信できる、おすすめ32選
● SDGs取り組み、SDGs宣言のため、SDGsとは簡単に意味や目標を知ろう
● 進研ゼミ 中学講座の料金・値段を分析。年間費用はいくら?
● コンビニ用 おすすめのクレジットカード ポイント還元10倍お得!
● 早い、安い、法人口座 開設 おすすめ ネット銀行 はこれだ!
● ナンバーレスカード おすすめ 特集
● ナンバーレスカード デメリット とは?
● メリットしかない、法人カード おすすめ 特集
● 学資保険 おすすめ10選 - 返戻率ランキング 特集
● すぐ使えるクレジットカード アプリを即時発行できるデジタルカード
● イオンシネマが1,000円!映画が割引になる方法を解説(同伴者も割引)
● 「ディズニープラス無料」JCB キャンペーン
広報・PRご担当者様へ
記事選定/ライター
