blog.mtb-production.info

僕のやったこと、考えたこと、興味のあることについて書いています。

最近発売されたJupyter本を読んだ話

書いました。

PythonユーザのためのJupyter[実践]入門

PythonユーザのためのJupyter[実践]入門

実は、PyConJPで書いました。中をチラッと見たら、データの可視化の話だったので、ちょうど悩んでた部分だわ〜と思って買いました。というわけで、ざっと見ながら、気になる部分について、感想を書いていこうと思います。

「Bokeh」ってなに?

まず、これが一番最初に気になりました。 全体をざっとみた感じ、matplotlibよりインタラクティブにデータを可視化できるライブラリのようですね。

「Jupyter Notebookは、インストールしてすぐに使い始められる手軽なツール」

すぐに使い始められる手軽なツールとして、Jupyterが紹介されているのをみて、なるほど、そう言うものなのか、と思いました。 僕が、初めて、numpyとかmatplotlibを触った時は、結構敷居の高いツールだったんですが、ここ数年でだいぶ下がったんだなあと思います。

「日本語フォントのインストール」

matplotlibの日本語フォントのインストール方法について、書いてくれているのはありがたかったです。 よく文字化けするんですよねえ。

本の紙質が良い

なんて言うか。技術書としてはかなりいい紙を使っている印象でした。 後、グラフをたくさん書いているからと言うのもあってか、かなりカラフルだし、色の出方がいいですね。

チェックポイントは便利そう

jupyterのチェックポイントが紹介されていて、あーそんな機能あったんだあ。と思いました。 万が一の時は使いたいですね。 便利かもしれない。

Jupyter notebookには数式が書ける

これは知らなかったんですが、jupyterを人に共有する機会が増えてくると便利かもしれないと思いました。 数式が書けると言うことを知れたのは大きい。

nbviewerが便利そう

jupyterで書いたページをhtmlに出力するソフトウェア。いつかお世話になるかも知れないなあと言う印象を受けました。

pandasのread_csvとキーワード引数parse_dates

read_csvで、キーワード引数を指定すると、読み込む際に、データ型を指定できるようですね。 これも、知っておくと便利な気がしました。

seriesの複数要素選択

pandasのSeriesで、複数要素を選んで抽出できると言うのは知らなかったので、これも覚えておくと、痒い所に手が届くかも知れない。と思いました。ありがたい。

pandasのread_csvはいろんなファイルを読み込める

pandasのread_csvは、ExcelファイルとかSQLを読み込めるんだ、と言うのを知れました。 これも、へぇ感がありました。

pandasのwhereメソッド

pandasにwhereと言うメソッドがあると言うことを知れました。なるほど。 そのうち使う場面が来たら、使いたい。

pandas.DataFrameやSeriesの統計量

pandasの統計量を出せると言うことは知っていたんですが、 どんな統計量が出せるのかまで確認していませんでした。 と言うか、もしかしたら一つ一つを自分で計算していたかも知れない。

pandasの機能を使うと、統計的な分析が捗りそうですね。

pandasのクロス集計

pandasのクロス集計は、本を読んでもよくわからなかったのですが、とりあえず噂で便利だと言う話を聞いています。 クロス集計については、もう少し勉強して、さっと使えるようになりたいなあと思いました。

あと、ピボットテーブルも。

pandasの時系列データの扱い

pandasって、こんなに時系列データを扱うメソッドが揃ってるんだあ、と思って、ちょっと感動しました。 僕も前に時系列データの分析をしていたんですが、pandasで簡単に出力できるようなデータを頑張って作ったのを思い出しました。

また、時系列データの分析したいなあ。

グラフが綺麗だ

全体を通して思ったことなんですが、グラフが綺麗なのが印象的でした。 matplotlibってこんなにグラフが綺麗になるんだ。と思いました。

書式辞書の作成とかあるの興味深い

そして、matplotlibのグラフの書式設定について、記載されていたので、これは、色々使いたいと思いました。 分析している時に、グラフの書式が綺麗だとテンション上がるんですよね。

show()について

showの挙動について、解説している章がありました。まだあんまり詳しく読んでいませんが、個人的には、興味があるので、面白そうな章だと思いました。

Google Cloud Platformでデータ分析する話

本の最後の方で、GCPを使ってデータ分析する話が出て来ます。 僕は、GCPを使ったことがありませんが、こう言う話をちらっとでも見ることができるのは、色々興味深いので、ありがたいなあと思いました。

RubyやRの話がある

あと、なんか最後の方に、RubyとRの話がありました。 個人的に、これはいらないかなと思いました。

初版の日がおかしい

最後ですが、初版の日付が、2017/9/22になっていて、なんかおかしい感じになっていました。

まとめ

いやー、色々ためになる情報が書いてある本でした。 難しいことを書いていると言うより、調べるのがめんどくさそうなことを調べてまとめてくれているのがすごくありがたい。

本当に助かりました。

ただ、本の中を見て思ったことなんですが、この本のタイトルはなんかしっくりこない感じがしますね。

データ分析のための環境を作る話がほとんどだったし、「Pythonユーザのための」と言ってますが、読者の想定が、本当にPythonユーザなんだろうか、と思うような記載があって、どちらかと言うと「データ分析初学者のための」みたいなイメージで書いているような気がしました。いや、それでもすごくためになる本だったのでありがたい本なんですけどね。