機械学習記4日目　～　Pandas - SATO＠技術ブログ

　Pandasは、Pythonでデータの分析、解析を支援するライブラリです。機械学習では、データをPandasの「Dara Frame」に変換して、操作したり表示したりすることが多いようなので、ここではDataFrameを少し調べておきたいと思います。

　DataFrameは、RDB(関係データベース)のテーブルやCSV、Excelのテーブルのような形式のデータ構造のようです。いわゆる「表」のようなイメージです。

▶DataFrameを作る

では、DataFrameを作ってみます。最初に、NumPyとPandasをインポートします。

f:id:hackU0001:20190223083844p:plain

とりあえず、DataFrameのコントラクタにリストを渡して、DataFrameオブジェクトを作ります。リストは、名前、国籍、年齢、誕生日の順に並んでいますが、表にしたときに見やすいように転置しています。

f:id:hackU0001:20190223090746p:plain

これで、DataFrameの原型ができました。さらに、表の列名をcolumns関数で付けます。

f:id:hackU0001:20190223091348p:plain

もし、表に行名が必要ならindex属性にリストをセットします。

f:id:hackU0001:20190223091742p:plain

作成したDataFrameを表示すると、表形式になっていることが分かります。

f:id:hackU0001:20190223092038p:plain

▶DataFrameをCSVファイルにする

　PandasのDataFrameは、CSVファイルにエクスポートしたり、CSVファイルをインポートしたりできます。先ほどのDataFrameオブジェクトを、CSVファイルにエクスポートしてみましょう。

　CSVファイルへエクスポートするには、to_csv関数を使います。

f:id:hackU0001:20190223105138p:plain

●引数とその説明

f:id:hackU0001:20190223110615p:plain

"temp.csv"というファイル名で保存してみます。

<コードを実行前>

f:id:hackU0001:20190223111959p:plain

<コード実行後>

f:id:hackU0001:20190223112733p:plain

　実行すると、temp.csvというファイルができます。

　開くと、CSVファイルになっています。

▶CSVファイルを読み込む

逆に、CSVファイルから、DataFrameを作ることもできます。Excelで次のようなCSVファイルを作ってみます。

f:id:hackU0001:20190223111424p:plain

csvファイルからの読み込みは、read_csv関数を使います。

f:id:hackU0001:20190223160753p:plain

エラーにならなければ、読み込めています。表示してみましょう。

f:id:hackU0001:20190223161008p:plain

勉強のスピードが遅い気がします...

本来なら、1週間くらいでscikit-learnの勉強に入りたかったのですが、機械学習アルゴリズムの勉強は2週目以降になりそうです。明日からもう少しピッチを上げていかないと！