Bye Bye Moore

PoCソルジャーな零細事業主が作業メモを残すブログ

【読書メモ】前処理大全  データ分析のためのSQL/R/Python実践テクニック

何事も段取りが大切といわれますが、それは所謂機械学習でも変わりません。
本書「前処理大全」は機械学習やデータ成形の段取り第一段階である、データの前い処理についてのノウハウが詰まった本です。

前書きにも言及がある通り、やる事が多岐にわたるため現場ベースの秘伝のタレ化する傾向がある技術領域です。
複雑なモデルで膨大なデータに取り組むというのは、黄金の剣ではありません。
ときには、よく考え抜かれたシンプルなモデルと絞り込んだデータが素晴らしい結果を出す事もあります。

少データ群からの過学習を防ぐため、あえて枠を統合してしまう「カテゴリ値の集約」の部分は以前読んだ「データ匿名化手法」の年齢や土地情報の抽象化による匿名化強化にも通じる要素のように感じました。

私もいい歳ですし、経営に頭を割いた方がいい感覚もありますから、技術に関わるとしたらこういう勘所を外さないか点検する係が妥当なのかもしれませんね。
……と書いていて、大昔にMOT(技術経営)でこんな事をやった事を思い出しました。