KDD2018 : Customized Regression Model for Airbnb Dynamic Pricing を読んだ

論文はこちら：KDD 2018 | Customized Regression Model for Airbnb Dynamic Pricing

Airbnb の Applied Data Science Track Paper。読んでみてAirbnb特有の問題でもあるのかと思いきや、価格付けをサービス事業者側から提案するアプローチは、C to Cサービス等を提供する企業などで導入できる考えがあり、勉強になりました。

概要

商品の最適な値段付け（ユーザがぎりぎり買うまで高く値段付けしたい or 買わなかった商品を買ってくれるぎりぎりまで低く値段づけしたい）は難しいが、独自のメトリクスを定義して、値段付けが悪くならない方向に最適化を行う方法を提案。結果はAirbnbのデータで良好な結果を得ており、すでに1年以上デプロイしてるモデル。

Introduction

ホスト（部屋を貸す人たち）は自由に各日の宿泊費を設定できるが、Airbnbから適正な費用提案（Price Suggestion）をしたい。市場動向を考慮しながら日々動的に適正な価格付けをする方法を提案する。

動的な価格付けをするための困難なところが、需要の見積もり変化（時間変化とリスティング変化）と部分的な価格適用（ホストの値段設定の考えもいれるところ）。

リスティングってのは部屋という意味でいいのかな。リスティング変化とは、ホテルは部屋が同じ作りであるものが多いが、一般に家の部屋の作りはすべて異なるため、部屋の評価レビューを考慮しながら部屋ごとに値段設定する難しさがある。高すぎると予約されなくなることも考えながら。

価格 $P$ と時刻 $t$ とリスティング $id$ により、需要曲線 $F(P,t,id)$ が決まる。

適切な価格付けを行うPricing Modelsは3段階の構成にわかれている。

1つ目に、今から部屋が予約される夜までの間に部屋が予約される確率を分類モデルを構築する。

2つ目に、予約確率を特徴に入れ、値段付けモデルを構築する。

3つ目に、値段付けモデルは、ホストの値段設定の考えを適用して、最適化する。

これらの結果、研究としては、価格付けの効果を評価するメトリクスと悪い価格提案が起こらないようなモデルを導入できたことが貢献。

Pricing System Overview

f:id:gingi99:20180825110725p:plain

Booking Probability Modelはある部屋の未来のある日が予約されるかどうかを予測する。一般的な2値分類モデル。学習に使う特徴として、部屋に関わる特徴・時系列特徴・需要と供給の特徴（近隣の予約できる部屋の数など）を使う。

Gradient Boosting Model（GBM）を使う。学習は、市場の大きさで3段階に分けるなど、エリアごとに学習モデルを作ったほうがGlobal AUCの精度があがったみたい。ここで、場所ごとにサンプリングレートを変えるなどのテクニックもある。

推定されたモデルの予約確率(y軸）と値段（x軸）を見てみると、真のデータよりも、端にいくほど外れている事がわかる。

f:id:gingi99:20180825111837p:plain

この問題の難しいところとして、データのスパースネス（基準となる値段から離れたところをあてるのは難しい＝price extrapolation）、ユニークネス（部屋は一つ一つがユニークなものが多く、一般化するのは難しい）、値段に依存した特徴（値段が高すぎると、利用率の特徴量が小さくなるなどがあり、値段との相関が悪さをする）などが考えられる。

そこで、収益最大化のアプローチもやったと書いてるが、最適な値段というデータがない（データにあるのが最適な値段といえないので）ので、うまくいかなかった。最終的に、最適な値段付けのための正しい評価メトリクスを作ったほうがいいねとなった（そう考えるのか！）

Evaluation Price Suggestion

一般的な回帰の教師あり学習と違って、最適な値段というデータがないので、私達の値段付けの性質を使った評価メトリクスを導入する。

アイデアとしては、正しい値段を考えるのではなくて、何が悪い値段づけなのかという方向から考える。

実際の部屋の値段を $P$ 、提示する部屋の値段を $P_{sug}$ 、最適な値段（存在すれば）を $P_{o}$ とする。

悪い値段付けとは、「値段 $P$ で予約された部屋を $P_{sug}$ < $P$ で値段付けしてしまうこと」ゆえに、この場合は $P_{o} \geq P$ 。逆もしかりで、「値段 $P$ で予約されなかった部屋を $P_{sug} \geq P$ で値段付けしてしまうこと」なので、この場合は $P_{o}$ < $P$ 。