読書メモ「データサイエンティストの仮説思考」
自分用読書メモ
第3章 データを説明する力を身につける
- Apple to Appleの比較:同じ性質のもの同士を比べること
- Apple to Orangeの比較:異なる性質のものを比べること
- 比較の視点
- ある時点:基準となる時点からの変化
- 計画値:計画値に対する達成度合い
- 他者:同じ性質のもの同士の差異
- 全体: 全体の中での構成比
- 分解の視点
- 掛け算:売上=客数×単価
- 足し算:客数=新規+既存
- グラフを見る視点
- 特異な値はある?
- 繰り返してる傾向ある?
- 他と比べて違う箇所ある?
- データ同士の関連性?
第4章 データを分類する力を身につける
- 特徴の似たデータでグループをつくる
- 目的に応じてデータを分類する
- 分類目的の確認:学校クラスの生徒分類など
- 機械的に分類する(k-means)
- k-means
- いくつのグループに分けるか決める
- ランダムに初期値設定
- 初期値からの距離で、グループ分け
- 新たなグループの重心を計算、近いデータを同じグループに
- 重心の位置が変化しなくなったら終了
- 初期値の選び方で結果が変わることがあるので注意
- k-means
第5章 データから法則を見つける力を身につける
- 判別問題(二値判別問題)
- 推測結果
- 真陽性:正しく陽性判断
- 偽陽性:本当は陰性だが、陽性と判断
- 偽陰性:本当は陽性だが、陰性と判断
- 真陰性:正しく陰性判断
- 制度評価指標
- 正解率:全体のうち、正しく正解した割合
- 適合l率:陽性あるいは陰性と判定した中で、正解した割合
- 再現率:実際に陽性あるいは陰性だったものに対して正解した割合
- 推測結果
- 決定木モデル
第6章 データから予測する力を身につける
- 内挿:データの内側に向かって予測する
- 外挿:データの外側に向かって予測する
- データの関係性
- データの偏りがないか注意
- データが極端に少なすぎないか
- 偏ったデータから見つけた関係性は適用範囲が限定される
- 時系列データ
- トレンド
- 周期性
第7章 仕事でデータリテラシーを活用する
- データを説明する力
- 可視化するとき:読み手に誤解を与えるグラフにならないように
- 比較するとき:Apple to Appleの比較になるように比較対象を設定
- 課題を見つけるとき:特異点、傾向性、相違性、関連性に着目
- データを分類する力
- 大量のデータ→グループにまとめて把握、比較
- 分類するときは、分類の目的を最初に明確に
- k-meansは初期値によって結果が変わる
- データから法則を見つける力
- 決定木→データが多く必要
- 判別問題の精度→適合率と再現率はトレードオフの関係