データサイエンティスト(仮)

元素粒子論博士。今はデータサイエンティスト(仮)。

Pythonでデータ分析:導入

背景

最近、業務でPythonを使っているのですが、不慣れな部分もありRレベルで自在に使いこなせていないと感じています*1。そのため、基本的な部分からおさらいをしていこうと考えました。

目標

試してみたいデータがあった場合に、簡単な分析に関してはとっさに手が動くレベルをまず目指します。そのために、データ加工ではnumpyとpandas(あとseries)、モデル構築ではscikit-learn、可視化ではmatplotlibとseabornを交えて紹介していくことで、この目標を実現していこうと考えています*2

進め方

データ分析をやる上でもっとも基本的と思われる回帰分析から始めていこうと思います。基本的なことがらではありますが

  • 様々な拡張的手法のベースになっている
  • ビジネスの世界では解釈のしやすさなどの理由で回帰分析がまだまだ大事

といった理由から、このアウトプットは無駄にはならないと期待しています。

線形回帰のあとは、回帰問題だけではなく、機械学習の手法を幾つか取り上げてまとめていきます。また、単なるライブラリの使用だけでなく、可能な範囲で実装もできたらよいなと考えています。

参考文献

以下の本では、ライブラリの使い方だけでなく、実装も交えて機械学習の手法が紹介されているので、こちらを参考にしていこうと考えています*3
book.impress.co.jp

*1:定期的にPythonは勉強しているのですが、業務ではRを使用する率が圧倒的に高かったり、携わるのが上流工程で、実分析は別担当者が…(涙)といった案件もたびたびあり、いざPythonを使おうとなったときに結構忘れてたりします。

*2:あえてブログでアウトプットすることで、記憶の定着度の向上も狙いです

*3:あくまでトレーニングが目的なので、単なる写経になってしまう可能性もありますが、ご了承ください。