ソラノテ

プログラミングと日常

「Python データ分析 100 本ノック」を読んだ感想

どんな本?

Python でデータ分析を行なう方法が説明されており,100 本の問題が載っています.
データの前処理から,機械学習,最適化,画像処理,自然言語処理まで幅広く学ぶことができます.

どんな人におすすめ?

データ分析の初心者におすすめです!
ただ,Python はなんとなく使える必要があると思います.
(全く分からない人は,Progate のPython コースがおすすめ)
特に,Kaggle や SIGNATE に登録してみたが,何をやったらいいか分からないという方に強くおすすめします!

何ができるようになった?

データ分析の方法がわかるようになります.
この本を読むまで Kaggle や SIGNATE などのデータコンテストに参加しても何をしたら良いかわからない状態でした.
しかし,与えられたデータをどのように分析していけば良いのかこの本を読むことでわかるようになり,私は,SIGNATE の中級になることができました.

どうやって読み進めたの?

週に3回くらいで1回10本進めることを目標に進めました.
しかし,思うように進まないこともあり1ヶ月半ぐらいかかりました.

何処で手に入れた?

Amazon などで買うのがおすすめです.
学生は学校などの図書館で借りるのがおすすめです.
もし,図書館にないときは,リクエストを出しましょう.

詳細

第一部:データの前処理

第1部(基礎編)では、ビジネスの現場で実際に得られるデータ分析するために必要なデータ加工のノウハウを学びます。比較的きれいなウェブからの商品の注文に関するデータと、データの読み込みにすら苦戦する「汚い」データの多い小売店のデータを例に、データ加工の実践を行います。

つまづいた点は特になかったです.
python の Pandas や Matplotlib を使うので,環境構築の必要があるのですが,初めてでよくわからないという方は google corabolatory を使えばいいと思います.
私は環境構築はしてありますが,後述の個人的な理由で google corabolatory を使って学習を進めました.

第二部

第2部(実践編1)では、機械学習の技術を活用して顧客の分析などを行うために必要なノウハウを学び、実際のデータを使っての課題発見・解決を実践していきます。

実際にとあるジムの顧客のテーブルデータを元に分析を行なっていきます.
ある期間のデータから,未来の退会人数の予測をしたりと面白かったです.
レベルはある程度上がりますが,つまづく点はあまりないと思います.

第三部

第3部(実践編2)では、最適化技術を導入するためのノウハウを学び、経営状況の改善を実践していきます。

物流の最適ルートをコンサルティングします.
まずは,物流ネットワークを可視化する事を体験します.
そして,そのネットワークの最適化を行います.
次に,SNS の繋がりデータを元に消費者の行動を予測したりと,やっていることはコードの写経なのですが,実践的な雰囲気を味わいながら行う事ができます.
この辺りからコードの意味が掴みづらくなってきます...

第四部

第4部(発展編)では、画像認識技術や自然言語処理技術などの「AI」とも呼ばれる技術を駆使して、データ化されていない情報をも利用して、顧客の潜在的な需要の把握など、ビジネスの現場で期待されているノウハウを学び、実践していきます。

つまづいた点は多々あります.
つまづいた点は,「計算時間」「ライブラリー」の2点です.
まず,画像認識技術には計算時間がとてもかかります.
PC 環境にもよりますが,今までのノックは計算時間がとても短かったのに対し,突然長くなります.
google corabolatory で GPU を利用する事で,計算負荷を軽くしようと試みましたが,あまり上手くいきませんでした.
素直に長時間回しました.
次の問題は「ライブラリー」です.
画像認識では opencv などある程度見慣れたライブラリーが使用されていたのですが,自然言語処理では全くみた事のないライブラリーが使われており,少しインストールにつまづきました.
というのも,あまりいたづらに自分の PC に一度しか使わないライブラリーを入れるのはやりたくないため,全て google corabolatory で行なったためつまづいてしまいました.
最終的には全て実行し,学習する事ができました.

python データ分析 100 本ノック,おすすめです!