機械学習記7日目つづき ~ 機械学習用データ

▶手書き数字のデータセット

 図4の学習用データは、「digits」という手書き数字の画像データと、各画像に付けられたラベルデータです。

 オリジナルのデータは、「MNIST」という名前で、下のサイトから入手できますが、scikit-learnに付属しているdigitsデータセットは、MNISTの簡易版です。digitsのデータセットについては、scikit-learnのサイトにある「The Digit Dataset」に説明があります。

 では、digitsデータセットをロードしてみます。

 

yann.lecun.com

 

f:id:hackU0001:20190227112312p:plain

 

 

scikit-learn.org

 

f:id:hackU0001:20190227113122p:plain

図1.degits簡易版データセット

scikit-learn.org

 

 

f:id:hackU0001:20190227113640p:plain

図2.digitsのデータセットの説明

 

 データと、その数を表示してみます。

f:id:hackU0001:20190227114141p:plain

f:id:hackU0001:20190227114326p:plain

 

 データ1件あたり8×8=64個の値がNumPyの配列になっていて、データ件数は1797件であることがわかります。1797件分の正解ラベル(0~9)は、targetに入っています。

f:id:hackU0001:20190227120503p:plain

  

  大体、digitsがどのようなデータセットかわかりました。

 「The Digit Dataset」のページを見ていると、digits.imagesに8×8のピクセルデータがあるようなので、matplotlibの勉強もかねて、imshow関数で画像を描画してみます。()

f:id:hackU0001:20190227121547p:plain

 

 下に表示されているのは、digits.imagesの最初の画像データである。

f:id:hackU0001:20190227121812p:plain

図4.最初のデータ画像を表示