はまやんはまやんはまやん

hamayanhamayan's blog

KaggleのDatasetsとは

Datasets関連を調べたので、残しておく。

  • KaggleのDatasetsとは
    • ユーザーがデータセットを置いて、公開できる場所
    • テストデータをOSSのように公開するためのプラットフォーム
  • Datasetsには何がアップロードされているか
    • その名の通り、学習に使えるデータセット
    • 学習済みモデル
    • pythonライブラリ
      • 例えばSimple Transformersはプレインストールされてない
      • datasetsを探すと、whl形式で突っ込まれてるものが見つかる
      • (No Internetのコンペでも使えるんだけど、それってルール的にいいの?よくわからん)
  • Datasetsの制約
    • Product Launch: Increased Dataset Resources | Kaggle
      • ここにサイズ制限などが書かれている
    • private/public
      • private datasetsだと自分だけ見れるし、使える
      • データ制限は、private datasets全体で20GB上限 ここ
    • なんか基本的にはなんでも置けそう
    • Google ColabからKaggle Kernelへのデータ輸送はDatasetsでやるのがいい?
  • Kaggle API for datasets
    • ダウンロード kaggle datasets download zillow/zecon
    • 新規作成
      • kaggle datasets init -p /path/to/datasetメタデータを作成
      • kaggle datasets create -p /path/to/datasetで作成
    • バージョンアップする
      • kaggle datasets metadata -p /path/to/dataset username/datasetnameメタデータを作る
      • kaggle datasets version -p /path/to/dataset -m "Your message here"でバージョンアップ