機械学習記7日目つづき ~ 機械学習用データ
▶手書き数字のデータセット
図4の学習用データは、「digits」という手書き数字の画像データと、各画像に付けられたラベルデータです。
オリジナルのデータは、「MNIST」という名前で、下のサイトから入手できますが、scikit-learnに付属しているdigitsデータセットは、MNISTの簡易版です。digitsのデータセットについては、scikit-learnのサイトにある「The Digit Dataset」に説明があります。
では、digitsデータセットをロードしてみます。
データと、その数を表示してみます。
データ1件あたり8×8=64個の値がNumPyの配列になっていて、データ件数は1797件であることがわかります。1797件分の正解ラベル(0~9)は、targetに入っています。
大体、digitsがどのようなデータセットかわかりました。
「The Digit Dataset」のページを見ていると、digits.imagesに8×8のピクセルデータがあるようなので、matplotlibの勉強もかねて、imshow関数で画像を描画してみます。()
下に表示されているのは、digits.imagesの最初の画像データである。