【画像認識】YouTube-8Mをとりあえずダウンロードする方法
はじめに
以前私のTwitterでも紹介させていただきましたが、
Googleの研究チームが、4800件のナレッジグラフのエンティティでタグ付けされた800万本ものYouTube動画のデータセット「YouTube-8M」を公開しました。
これつかって何かやりたい
— Qstairs (@QstairsWork) 2016年9月29日
史上最大規模の動画データセット「YouTube-8M」公開 https://t.co/trJJJtrSAD #スマートニュース
今回は、このデータセットをローカルにコピーする方法を紹介します。
#実行環境はWindows 10です。
bashインストール
まずは、Windows 10でUbuntuのbashが動くようにします。
以下のサイトを参考にさせていただきました。
bashのルートフォルダ変更(必要であれば)
デフォルトのルートフォルダはCドライブのユーザフォルダです。
私の環境の場合、「YouTube-8M」に必要な容量1.5TBはEドライブでしか確保できないので、
下のサイトを参考にbashのルートフォルダを変更しました。
ダウンロード
ダウンロード方法は以下の公式サイトに乗っています。
構築したbashを使えばそのまま実行するだけでダウンロードできます。
YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research
最後に
このデータはTensorflowで使用することを前提に作成されているようです。
私はChainerで使用したいと考えているので、多少データの解析や変換が必要かもしれません。
これから勉強します...