Qstairs

現役AIベンチャーCTOの知見、画像認識(人工知能、Deep Learning)を中心とした技術ノウハウをアップしていきます

広告

【画像認識】YouTube-8Mをとりあえずダウンロードする方法

f:id:qstairs:20160601221047j:plain

はじめに

以前私のTwitterでも紹介させていただきましたが、
Googleの研究チームが、4800件のナレッジグラフのエンティティでタグ付けされた800万本ものYouTube動画のデータセットYouTube-8M」を公開しました。


今回は、このデータセットをローカルにコピーする方法を紹介します。
#実行環境はWindows 10です。

流れ

  1. bashインストール
  2. bashのルートフォルダ変更(必要であれば)
  3. ダウンロード

bashインストール

まずは、Windows 10Ubuntubashが動くようにします。
以下のサイトを参考にさせていただきました。

Tech TIPS:Windows 10のLinux/Ubuntu互換環境でbashを使う - @IT

bashのルートフォルダ変更(必要であれば)

デフォルトのルートフォルダはCドライブのユーザフォルダです。
私の環境の場合、「YouTube-8M」に必要な容量1.5TBはEドライブでしか確保できないので、
下のサイトを参考にbashのルートフォルダを変更しました。

Bash on Windowsのホームディレクトリ変更 - TadaoYamaokaの日記

ダウンロード

ダウンロード方法は以下の公式サイトに乗っています。
構築したbashを使えばそのまま実行するだけでダウンロードできます。

YouTube-8M: A Large and Diverse Labeled Video Dataset for Video Understanding Research

最後に

このデータはTensorflowで使用することを前提に作成されているようです。
私はChainerで使用したいと考えているので、多少データの解析や変換が必要かもしれません。
これから勉強します...



関連記事
qstairs.hatenablog.com

広告