GINGI99 Blog

データ分析や日常に関するブログ

ベストセラーコードを読んだ

ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム

ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム

ざっくり概要

機械が書籍のベストセラーを予測できるかという問いに対して、著者らが取り組んだ内容や分析について書かれています。 本の文書から、特徴を抽出して、機械学習によりベストセラーになる書籍を予測する問題に取り組んでいます。 予測した結果の精度は高い(80%)ことはもちろん、ベストセラーになる書籍の特徴を独自に分析。とくにフィフティ・シェイズ・オブ・グレイの例を用いて、本の中の感情の流れやベストセラーじゃない書籍との特徴を比較した分析が面白いです。

具体的なデータは、ニューヨーク・タイムズで紹介されたベストセラーリストをもとに500冊ほどのベストセラーの書籍とそれ以外の書籍数千冊の文書から、 形態素解析等のテキストマイニングにより2万以上の特徴を設計し、機械学習の分類モデル(SVMやk近傍法)を用いて、評価しています。

感想

問題設定が大きく、特徴抽出と機械学習の問題にして解くという好きなタイプの話でした(どこかに研究論文はあるのだろうか)。

また、モデルが出した答えは専門家から見れば当然なことも、機械がその答えを導き出せたことが、研究的にも大きな貢献。 専門家のカンみたいなのを定量的かつ言語化し、非専門家も納得できる客観情報にまで落とし込むのは、著者らの強い思いがあったのではないかと。 このプロジェクトはたしかどこかに4年かかったと書いていたと思いますが、問題の大きい研究をするというのは、こういうスケール感で達成されるものなのかな。