読書メモ「データサイエンティストの仮説思考」

自分用読書メモ

第3章 データを説明する力を身につける

  • Apple to Appleの比較:同じ性質のもの同士を比べること
  • Apple to Orangeの比較:異なる性質のものを比べること
  • 比較の視点
    • ある時点:基準となる時点からの変化
    • 計画値:計画値に対する達成度合い
    • 他者:同じ性質のもの同士の差異
    • 全体: 全体の中での構成比
  • 分解の視点
    • 掛け算:売上=客数×単価
    • 足し算:客数=新規+既存
  • グラフを見る視点
    • 特異な値はある?
    • 繰り返してる傾向ある?
    • 他と比べて違う箇所ある?
    • データ同士の関連性?

第4章 データを分類する力を身につける

  • 特徴の似たデータでグループをつくる
  • 目的に応じてデータを分類する
    • 分類目的の確認:学校クラスの生徒分類など
  • 機械的に分類する(k-means)
    • k-means
      • いくつのグループに分けるか決める
      • ランダムに初期値設定
      • 初期値からの距離で、グループ分け
      • 新たなグループの重心を計算、近いデータを同じグループに
      • 重心の位置が変化しなくなったら終了
    • 初期値の選び方で結果が変わることがあるので注意

第5章 データから法則を見つける力を身につける

  • 判別問題(二値判別問題)
    • 推測結果 
      • 真陽性:正しく陽性判断
      • 偽陽性:本当は陰性だが、陽性と判断
      • 偽陰性:本当は陽性だが、陰性と判断
      • 真陰性:正しく陰性判断
    • 制度評価指標
      • 正解率:全体のうち、正しく正解した割合
      • 適合l率:陽性あるいは陰性と判定した中で、正解した割合
      • 再現率:実際に陽性あるいは陰性だったものに対して正解した割合
  • 決定木モデル

第6章 データから予測する力を身につける

  • 内挿:データの内側に向かって予測する
  • 外挿:データの外側に向かって予測する
  • データの関係性
    • データの偏りがないか注意
    • データが極端に少なすぎないか
    • 偏ったデータから見つけた関係性は適用範囲が限定される
  • 時系列データ
    • トレンド
    • 周期性

第7章 仕事でデータリテラシーを活用する

  • データを説明する力
    • 可視化するとき:読み手に誤解を与えるグラフにならないように
    • 比較するとき:Apple to Appleの比較になるように比較対象を設定
    • 課題を見つけるとき:特異点、傾向性、相違性、関連性に着目
  • データを分類する力
    • 大量のデータ→グループにまとめて把握、比較
    • 分類するときは、分類の目的を最初に明確に
    • k-meansは初期値によって結果が変わる
  • データから法則を見つける力
    • 決定木→データが多く必要
    • 判別問題の精度→適合率と再現率はトレードオフの関係