書籍紹介:Pythonによるデータ分析入門
Pythonの基礎をマスターしたら読むべき本
新しいことを始めるときに順番が非常に大切と思います。 特に新しい言語を学ぶときなど、取り込むべき知識の順番を間違えると遠回りすることになります。 以前、Pytonに関する本をどれぐらい買ったかを書いたと思いますが、その量が示すように僕のPython学習は結構遠回りだったかも知れません。 今になって思うと、Pythonの基礎を1冊の本で学んだ後に読むべき本の筆頭が、この本であると思います。
Pythonによるデータ分析入門 -Numpy、pandasを使ったデータ処理
出版社:オライリージャパン
なんだ~、機械学習の本に習得すべき知識の順番が書いてあった。
今の僕は、Pythonを使って機械学習ができるまでの知識を身に着けている。 そこで機械学習を勉強した時の本を見てみると、機械学習を始める前に身に着けるべき知識の順番が書いてあった。 すなわち、
・Pythonに関する基礎の基礎知識:これは基本構文などの関する知識ね。
・Pythonを動かすうえで必要なツール:これは開発環境のことね。
僕は、jupyter notebookを使用
・Pythonにおけるデータファイルの読み込みと書き出し:データ分析だもんね。
・Pythonにおける必修ライブラリ:これに該当するのが以下のライブラリ
Numpy:科学技術計算やデータ分析のためのパッケージで、
配列とベクトル演算を扱うためのものです。
pandas:高度なデータ構造を持ち、
データ分析を素早く簡単に行うためのツールです。
matplotlib:分析結果のプロットと可視化のためのツールです。
他にもあるだろ、という声も聞こえてきますが、必須、といえるものは上の3つではないかと思います。 なにせPythonには非常に沢山のライブラリがあり、これもいるあれもいるとあげていくときりがない、ということになります。 他のものは、要件に応じて逐次習得、で良いと思っています。 が、上の3つに関しては、徹底的に勉強してしっかりと身につけないと機械学習を始めた途端にピタッと進まなくなる可能性があります。
NumpyとPandasをマスターすればデータ分析ができる。
Numpyとpandasを親切丁寧に解説している本が本書になります。 僕は最初、この本に気づきませんでした。 アメリカで一緒に働いていた出向メンバの一人が本書を持っていて僕に勧めてくれました。 即買って見てみると、感激もので、手に入れたのちは常時机の上に置いて、困った時にいつでも見れるようにしていました。 この本も450ページとぶ厚い本ですが、Pythonをしっかりと身につけるためには絶対に購入すべき1冊です。 ということで、また蔵書が増えていくことになります。
あっ、それとmatplotlibもなかなかのものです。 グラフ化、可視化を甘く考えてはいけません。 僕は、ある部品の劣化を追いかけるプログラムを作りましたが、劣化の具合を目に見える形にすることで、プログラムの出来具合を判断するということも行ってきました。 なにせPythonが扱うデータは膨大なので個々の数値やデータだけでは何のことか全く判らず、判りやすい姿へのデータの変形が必須となります。 こんかいぐらい可視化の恩恵を強く感じたことはありません。 matplotlibは地味なライブラリうが、マスター必須なライブラリです。
さて、ここまでの学習で機械学習を開始するためのプログラミング的な準備が整いました。 次回は、機械学習のための書籍の紹介をする予定です。