OpenData¶
こういうのシェル芸でシュッて解析とか整理とができる気がする
Splunkを使ったセキュリティトインシデント調査レーニング
https://qiita.com/odorusatoshi/items/7faff2dc13a40f111905
厚生労働省CSVオープンデータ開始!CSVをグラフ化する高校プログラミング向け補助教材
https://fukuno.jig.jp/2903
無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能 全国の町丁目レベル18万9540件の住所データを記録
https://internet.watch.impress.co.jp/docs/news/1271298.html
Wikipediaを用いた日本語の固有表現抽出データセットの公開
https://tech.stockmark.co.jp/blog/202012_ner_dataset/?title=Wikipedia%E3%82%92%E7%94%A8%E3%81%84%E3%81%9F%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%AE%E5%9B%BA%E6%9C%89%E8%A1%A8%E7%8F%BE%E6%8A%BD%E5%87%BA%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88%E3%81%AE%E5%85%AC%E9%96%8B
クラウド(AWS/Azure/GCP/IBM)で手軽に使えるオープンデータセット
https://www.atmarkit.co.jp/ait/articles/2102/08/news023.html
NHKが持っているデータをオープンに 1人のエンジニアの熱がオールドメディアを根幹から変えるかもしれないよ
https://note.com/nhk_syuzai/n/n93a64c3dc90e
Apple 移動傾向レポート
https://covid19.apple.com/mobility
Stats NZ - CSV files for download
https://www.stats.govt.nz/large-datasets/csv-files-for-download
NASAのサンプルWebログデータ
$ wget ftp://ita.ee.lbl.gov/traces/NASA_access_log_Jul95.gz
ZOZO、10年分のファッションデータをオープンソース化 流行に左右されないAI研究に期待
https://www.itmedia.co.jp/news/articles/2109/03/news083.html https://github.com/st-tech/zozo-shift15m
Phishing URL dataset from JPCERT/CC
https://github.com/JPCERTCC/phishurl-list/
メルカリデータセット
https://www.nii.ac.jp/dsc/idr/mercari/
商品データ,コメントデータはCSV形式で,サイズはそれぞれ約100GB,約40GBです。画像データはサムネイル画像で約2TB,オリジナル画像で約1TBです。
デジタル庁レジストリカタログ
https://catalog.registries.digital.go.jp/rc/dataset/
自由に使える医療データセットまとめ
https://medtech-today.com/2020/10/22/post-576/
公共交通オープンデータセンター
https://www.odpt.org/
Tools/Service¶
【まとめ】OpenRefineの使い方をまとめていく
https://qiita.com/keita69sawada/items/5f47d1a8ff078e67ee3f
nityanandagohain/flog
https://github.com/nityanandagohain/flog
複数のログフォーマットに対応したダミーログジェネレータ(golang実装)
オープンソース住所正規化エンジンを地番住所に対応したメジャーバージョンをリリースしました!
https://blog.geolonia.com/2024/10/10/geolonia-address-normalization-engine-update.html