下町データサイエンティストの日常

下町データサイエンティストの成果物

評価指標入門 読書感想文

はじめに

お久しぶりです。nino_piraです。
ブログは更新していませんでしたが、元気です。 某タカヤナギ氏に「献本欲しいならブログを書いてくれ」とのことで献本を頂いたので、ブログのリハビリも兼ねて感想文を書きます。
本の内容については既に色々な方がブログにまとめてくださっているので、個人の感想文を書きます

gihyo.jp

ビジネスとデータサイエンス / 機械学習

一般的な企業に属する我々は利益貢献することを求められています。そして我々は、データサイエンスや機械学習といったツールを通し利益貢献を生業とする仕事をしている。
本書の1章では利益貢献としての定量的指標であるKPIとデータサイエンスアプローチの関係の一般論や事例を交えた罠について記載されている。

個人的には、評価とは?を考える際に「何と比較して評価するかのか」について改めて意識を強くしようという気づきがあった。
例えば「良い」「悪い」といった単語を使う際には、何に対しどれくらい良くなったかを明示することの重要性を再確認しました。
もちろん普段から意識は持っているものの、忘れがちになるので注意ですね。

次に、いわゆる目的関数の最適化とビジネスの評価指標・KPIとの関係について。
ビジネスにデータサイエンス・機械学習を真に活かすと言う意味では目的関数の改善と評価指標・KPIの改善が正の相関係数を持つように案件を設計すべきというお約束は、もはや広く知れ渡っていると認識しています。
本書籍では「データサイエンスとビジネスKPIの関係に齟齬がないとうにしよう」という事例としてクーポン発行の意思決定に関する問題を事例に罠について紹介されています。"施策デザインのための機械学習入門"にも記載のあった課題設定と同じですね。

gihyo.jp

2章以降では回帰や分類の評価指標について、実例・コードともに書いてある。正直、さらっと読み飛ばしました。

で、この本は誰向けなのか?

個人的には面白いなぁと思って読むことができたが、正直「目から鱗」と思える内容はあまりなかったです。
いわゆるビジネスとデータサイエンス / 機械学習の関係の「あるある」を上手いこと言語化した書籍だと思います。言語化していること自体は流石です。

では、誰に何を感じ取って欲しい本なのか?
私のようなデータサイエンス / 機械学習のプロとして働く人にとっては上記のように「あるある」と思える内容である。
一方、数式やコードがある程度書かれているため、ビジネス寄りの人には、ちょっと内容として難しいのかなぁとは思います。
この手の本の企画が非常に難しそうだなぁと勝手ながら思ってしまった。

その他

個人的には、オフラインテスト / オンラインテストのズレについても書いてほしかったなぁと思いました。
データサイエンス / 機械学習 のあるあるだと思うのですが、オフラインテストとオンラインテストのズレで苦しんでいる方は多いのではないかと思います。例えば既存レコメンド枠の置き換えのタスクを考えると、レコメンドアルゴリズムが変わったのでUXが変わってしまい、結果的にオフラインテストとオンラインテストで変わってしまうという事例が考えられます。
この事例はまさにビジネス評価指標に対する事前見積もりの(数値的にも認識的にも)ズレが起きている事例だと思います。「事前にこれくらい儲かると思っていたのに、現実は違った」ということでお悩みの方は多いのではないでしょうか? ということで、オフラインテスト / オンラインテストのズレについて書いて欲しかったなぁという感想です。 対策としては ユーザビリティテストをすることやスモールなABテストをしてみるということでしょうかね。ABテストの設計もデータサイエンティストの腕の見せ所ですね。

また、本書はところどころに作者のタカヤナギ=サン節が効いており、つい「クスっ」と笑ってしまう記載が散りばめられていて、楽しく本を読み進めることができました。

最後に

目から鱗というほどではないが、改めて普段の仕事の意識を高める本としては良い本だと思います。
ぜひ皆様もご一読ください。