らんだむな記憶

blogというものを体験してみようか!的なー

ImageNet のサブセット (1)

ImageNet の訓練にどれくらい時間がかかるか? - らんだむな記憶 の続き。

ImageNet を見ると、

The data is available for free to researchers for non-commercial use.

Mar 11 2021. ImageNet website update.

ってなっているが一時期停止してなかったっけ?Download の先を見ると、

Download ImageNet Data

The most highly-used subset of ImageNet is the ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012-2017 image classification and localization dataset. This dataset spans 1000 object classes and contains 1,281,167 training images, 50,000 validation images and 100,000 test images. This subset is available on Kaggle.

For access to the full ImageNet dataset and other commonly used subsets, please login or request access. In doing so, you will need to agree to our terms of access.

とあるが、流石に 166 GB 級は厳しいのでもっと小さなサブセットを使ってみたい・・・。と言うか、ImageNet(ILSVRC2012)を公式サイトから直接ダウンロードする方法 によると、そのでかいいつもの ImageNet 自体が既にサブセットのようだ・・・。

GitHub - leemengtaiwan/tiny-imagenet: Build image classifiers using Tiny ImageNet and PytorchGitHub - DennisHanyuanXu/Tiny-ImageNet: Image classification on Tiny ImageNetシェルスクリプトでダウンロードできそうな Tiny ImageNet も良さそう・・・。Tiny ImageNet Challenge が関係している?

imagenet2012_subset  |  TensorFlow Datasets もいいのかな?でもこれ、一旦フルのやつを落としてからサブセットするように見える・・・。

ImageNet データセットのダウンロード、前処理、アップロード  |  Cloud TPU  |  Google Cloud

: Imagenet データセットを Compute Engine VM にダウンロードするには、ローカルマシンにダウンロードする場合よりも大幅に時間がかかります(約 7 時間に対して 40 時間)。

おいおいおい・・・。