GINGI99 Blog

データ分析や日常に関するブログ

WSDM2018に参加しました

2018/2/5-9のロサンゼルスで開催されるWSDM2018に参加しました。この週はニューオリンズAAAI2018に参加・発表をしていたので、途中からこっちに向かうというスケジュールでした。

www.wsdm-conference.org

WSDMはWeb Search and Data Miningの名のとおり、Web検索とデータマイニングに関するトップカンファレンスです。514の投稿数のうち、84件がアクセプトされ採択率は16%のとても厳しい学会です。そのうち選ばれた数十件のみがシングルセッションで24分の口頭発表があり、残りはポスターセッションです。初めての参加でしたが、シングルセッションのためすべての発表を網羅的に聴講できたので、とても満足でした。また、コミュニティの温かさも感じることができ、大変有意義でした。

2/5

ニューオリンズを17時台に出発し、アメリカン航空で20時代に着きました。そこからタクシーで20分ほどのマリナ・デル・レイに向かいます。 マリナ・デル・レイはヨットの街で有名で、リゾート地として休暇を楽しむ人が訪れる街のようです。そのため、ロサンゼルスのダウンタウンからは離れた場所にあります。

f:id:gingi99:20180218153110p:plain

到着後、すでに先に到着していた同僚と近くのカフェ・レストランで食事をしました。

この日はVC・Industry Dayでのトークチュートリアルのセッションがあったようです。

2/6

From Search to Research: Direct answers, Perspectives and Dialog

WSDMの開始は、MicrosoftのHarry Shum氏からの講演でした。講演の内容はすぐにLinkedinの記事に上がっていました。

https://www.linkedin.com/pulse/from-search-research-harry-shum/

Microsoft検索エンジンBingについての講演でした。ユーザの検索意図を汲み取るための検索エンジンの進化を3つの例を用いて、説明していました。

f:id:gingi99:20180207024729j:plain

Direct Answersとは、検索ワードから意味を理解して答えを返す仕組み。Perspectivesとは、質問文の検索に対しての多様な答えを返す仕組み。Dialogとは、まさに対話型検索で、検索ワードから対話的に答えを返す仕組み。それぞれのケースを例を用いてBingの機能やアルゴリズムを説明していました。わかりやすい例も多くて、見てて面白かったです。

Search and Questions Answering

ここから本セッションが開始。興味深かった発表をいくつか紹介します。

Why People Search for Images using Web Search Engines

Tsinghua Universityの発表。ユーザのIntent別に画像検索の仕方がどう変わるかを分析した研究。最後にユーザの検索行動からIntentを予測できるかも最後評価していました。

Position Bias Estimation for Unbiased Learning to Rank in Personal Search

Googleの発表。去年のWSDM2017のベストペーパーから続いてのUnbiased Learning to Rankについての研究。ユーザがクリックするのは、ランキングによって決まる位置のバイアスがあるという点に焦点をあてているのがポイント。 つまり、クリックされるドキュメントは、ユーザがほしい情報と関連があるってことは想定できるが、逆はいつもTrueじゃない。なぜなら、Position Bias のせいで下のほうにあるドキュメントはいつもクリックされないかもしれないからである。よって、click dataはこのバイアスが入ってしまうので、そのようなバイアスを除くために、もっと単純な式にしてバイアスをノイズとして減らす定式化をする。

モデルパラメータの推定には、ランダマイゼーションで決める方法とEM使ってもうちょっとかしこくする方法を提案。Dataは述べていないが、GmailGoogle Driveで実験してるみたいでした。

Lunch

会期中はランチも提供してくれて、個人的にはこのランチがすごく美味しかった。さすが、リッツ・カールトンなのか。。

Conversations, Machine Learning and Privacy: LinkedIn's Path towards Transforming Interaction with its Members

LinkedinのChief Data OfficerのIgor Perisic氏からの講演。KDD2016のEmail Volume Optimization at LinkedInの話が中心で、Linkedinにおけるデータ分析の話。この話でこの論文知りました。Multi-Objective Optimization (MOO) problem とユーザの満足度を定義するUtility Functionの設定がポイントだと思う(細かいところがよくわからなかった)。

内容と関係ないが、Likedinのミッション「Create economic opportunity for every member of the global workforce」は個人的には好きです。

Poster セッション

いくつか興味のあるポスターの発表者と話した。全体的に、アルゴリズムが新しい話はDeep系のモデルで定式化してるのが特徴で、問題設定がユニークなのものはシンプルなアプローチなんだけど、実験しっかりしてるという印象を持ちました。

Learning to Rank Personal Photos for Public Sharing

GoogleのパーソナルフォトからSNS等で公開に適した写真を自動で選ぶ研究。手法は既存技術が中心で、シンプルに問題を解いてるところが好きでした。

この日は、そのままPosterセッションで出た軽食で満足して就寝。

2/7

Scalable Algorithms in the Age of Big Data and Network Sciences: Characterization, Primitives, and Techniques

この日最初のトークは、 USCのShang-Hua Teng先生のデータ探索の高速化の話。専門ではないので、途中から分からなくなってしまった…。

Crowdsourcing and Learning from Users

クラウドソーシングの研究はこれまであまり聴講したことなかったですが、全体的に面白くて興味を持ちました。

Ballpark Crowdsourcing: The Wisdom of Rough Group Comparisons

Bagとあいまいなラベルから学習させる。ECML PKDD 2016は2クラス分類問題のみだったが、それの回帰問題への拡張が今回の貢献部分。重みwとラベルyを同時に解く凸最適化問題に落とし込んで解く。 制約条件の上限と下限をクラウドソーシングで決める実験とか興味深い。議論としては、あいまいなラベルを制約条件のパラメータを今回みたいにある程度ノイズがあっても大丈夫なところ。本当に精度がそれで落ち着くのかが不思議だなーと感じました。

Orienteering Algorithms for Generating Travel Itineraries

Googleの研究で、旅程を自動で生成する方法。グラフで旅程を表現(ノードは訪問時間、エッジは移動時間)。Googleの発表は何ができるかをすごく丁寧に話してどうやっては論文見ろっていうのが多いんだなーと思った。評価はUtility関数とヒューマン評価で、自動生成したほうが満足度高かったという結果。

Matrix Factorization and Recommender Systems

Micro Behaviors: A New Perspective in E-commerce Recommender Systems

University of Minnesota & Data Science Lab, JD.comからの発表。ユーザのMicroな振る舞い(ユーザがモノを選ぶまでに見た行動履歴)の情報も使ってGRUでモデル化してる。この手の研究はデータの強さが一番だから、なんとも言えない…。

この日の夜はFantaSea One Yachtでのクルーズしながら、Conference Banquet。円卓で隣に座ったとある会社のエンジニアと話して年収の話や各国の教育の話で面白かったです。

f:id:gingi99:20180208140725j:plain

f:id:gingi99:20180208131636j:plain

2/8

Ads, Finance and More Matrix Factorization

Predicting Audio Advertisement Quality

Georgia Institute of Technologyからの発表。音広告の品質の予測で、Long Click Rateなどの特徴量からどれだけ予測できるかなどのUser Study。CNNがスコアは高いが計算時間が超高く、それを考えるとロジスステッィク回帰すげー優秀な成績だなと感じた。ストーリーがわかりやすくて、論文の構成が参考になりました。

Putting Data in the Driver’s Seat: Optimizing Earnings for On-Demand Ride-Hailing

Boston Universityからの発表。NYC Taxi Datasetを使って、タクシードライバーの収益を最大化しましょうっていう研究でした。

Business Lunch

この日だけLunch Boxを提供してくれてなぜかと思ったら、Business Lunchという名称で、学会の参加者数などの統計情報の発表や来年のWSDMに向けてオープンマイクで議論する時間が設けられた。

写真を撮り忘れたが、参加者数は500名ほどで、過去に比べてそこまで多いわけではなかった。また、発表されたトピックも概ね予想どおりでした。 f:id:gingi99:20180209061711j:plain

WSDM2019はメルボルンのようです。行ってみたい。

この日の午後から別件でサンフランシスコに向かったため、これでWSDMは終了しました。

おわりに

コミュニティがそこまで大きくなく全体的に温かい雰囲気のある学会でした。興味深い実データとそれに対する深いデータ解析を行う必要がありますが、何かしらの機会でもう一度行ければなーと感じました。