機械学習記4日目 ~ Pandas

 Pandasは、Pythonでデータの分析、解析を支援するライブラリです。機械学習では、データをPandasの「Dara Frame」に変換して、操作したり表示したりすることが多いようなので、ここではDataFrameを少し調べておきたいと思います。

 DataFrameは、RDB(関係データベース)のテーブルやCSVExcelのテーブルのような形式のデータ構造のようです。いわゆる「表」のようなイメージです。

 

▶DataFrameを作る

では、DataFrameを作ってみます。最初に、NumPyとPandasをインポートします。

f:id:hackU0001:20190223083844p:plain

 

とりあえず、DataFrameのコントラクタにリストを渡して、DataFrameオブジェクトを作ります。リストは、名前、国籍、年齢、誕生日の順に並んでいますが、表にしたときに見やすいように転置しています。

f:id:hackU0001:20190223090746p:plain

 

これで、DataFrameの原型ができました。さらに、表の列名をcolumns関数で付けます。

f:id:hackU0001:20190223091348p:plain

 

もし、表に行名が必要ならindex属性にリストをセットします。

f:id:hackU0001:20190223091742p:plain

 

作成したDataFrameを表示すると、表形式になっていることが分かります。

f:id:hackU0001:20190223092038p:plain

 ▶DataFrameをCSVファイルにする

 PandasのDataFrameは、CSVファイルにエクスポートしたり、CSVファイルをインポートしたりできます。先ほどのDataFrameオブジェクトを、CSVファイルにエクスポートしてみましょう。

 CSVファイルへエクスポートするには、to_csv関数を使います。

f:id:hackU0001:20190223105138p:plain

●引数とその説明

f:id:hackU0001:20190223110615p:plain

 

"temp.csv"というファイル名で保存してみます。

 

<コードを実行前>

f:id:hackU0001:20190223111959p:plain

 

<コード実行後>

f:id:hackU0001:20190223112733p:plain

 実行すると、temp.csvというファイルができます。

 開くと、CSVファイルになっています。

 

CSVファイルを読み込む

逆に、CSVファイルから、DataFrameを作ることもできます。Excelで次のようなCSVファイルを作ってみます。

f:id:hackU0001:20190223111424p:plain

 

csvファイルからの読み込みは、read_csv関数を使います。

f:id:hackU0001:20190223160753p:plain

 

エラーにならなければ、読み込めています。表示してみましょう。

f:id:hackU0001:20190223161008p:plain

勉強のスピードが遅い気がします...

本来なら、1週間くらいでscikit-learnの勉強に入りたかったのですが、機械学習アルゴリズムの勉強は2週目以降になりそうです。明日からもう少しピッチを上げていかないと!