機械学習記4日目 ~ Pandas
Pandasは、Pythonでデータの分析、解析を支援するライブラリです。機械学習では、データをPandasの「Dara Frame」に変換して、操作したり表示したりすることが多いようなので、ここではDataFrameを少し調べておきたいと思います。
DataFrameは、RDB(関係データベース)のテーブルやCSV、Excelのテーブルのような形式のデータ構造のようです。いわゆる「表」のようなイメージです。
▶DataFrameを作る
では、DataFrameを作ってみます。最初に、NumPyとPandasをインポートします。
とりあえず、DataFrameのコントラクタにリストを渡して、DataFrameオブジェクトを作ります。リストは、名前、国籍、年齢、誕生日の順に並んでいますが、表にしたときに見やすいように転置しています。
これで、DataFrameの原型ができました。さらに、表の列名をcolumns関数で付けます。
もし、表に行名が必要ならindex属性にリストをセットします。
作成したDataFrameを表示すると、表形式になっていることが分かります。
▶DataFrameをCSVファイルにする
PandasのDataFrameは、CSVファイルにエクスポートしたり、CSVファイルをインポートしたりできます。先ほどのDataFrameオブジェクトを、CSVファイルにエクスポートしてみましょう。
CSVファイルへエクスポートするには、to_csv関数を使います。
●引数とその説明
"temp.csv"というファイル名で保存してみます。
<コードを実行前>
<コード実行後>
実行すると、temp.csvというファイルができます。
開くと、CSVファイルになっています。
▶CSVファイルを読み込む
逆に、CSVファイルから、DataFrameを作ることもできます。Excelで次のようなCSVファイルを作ってみます。
csvファイルからの読み込みは、read_csv関数を使います。
エラーにならなければ、読み込めています。表示してみましょう。
勉強のスピードが遅い気がします...
本来なら、1週間くらいでscikit-learnの勉強に入りたかったのですが、機械学習アルゴリズムの勉強は2週目以降になりそうです。明日からもう少しピッチを上げていかないと!