OKIYUKI99 Blog

データ分析や日常に関するブログ

ベストセラーコードを読んだ

ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム

ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム

ざっくり概要

機械が書籍のベストセラーを予測できるかという問いに対して、著者らが取り組んだ内容や分析について書かれています。 本の文書から、特徴を抽出して、機械学習によりベストセラーになる書籍を予測する問題に取り組んでいます。 予測した結果の精度は高い(80%)ことはもちろん、ベストセラーになる書籍の特徴を独自に分析。とくにフィフティ・シェイズ・オブ・グレイの例を用いて、本の中の感情の流れやベストセラーじゃない書籍との特徴を比較した分析が面白いです。

具体的なデータは、ニューヨーク・タイムズで紹介されたベストセラーリストをもとに500冊ほどのベストセラーの書籍とそれ以外の書籍数千冊の文書から、 形態素解析等のテキストマイニングにより2万以上の特徴を設計し、機械学習の分類モデル(SVMやk近傍法)を用いて、評価しています。

感想

問題設定が大きく、特徴抽出と機械学習の問題にして解くという好きなタイプの話でした(どこかに研究論文はあるのだろうか)。

また、モデルが出した答えは専門家から見れば当然なことも、機械がその答えを導き出せたことが、研究的にも大きな貢献。 専門家のカンみたいなのを定量的かつ言語化し、非専門家も納得できる客観情報にまで落とし込むのは、著者らの強い思いがあったのではないかと。 このプロジェクトはたしかどこかに4年かかったと書いていたと思いますが、問題の大きい研究をするというのは、こういうスケール感で達成されるものなのかな。

WSDM2018に参加しました

2018/2/5-9のロサンゼルスで開催されるWSDM2018に参加しました。この週はニューオリンズAAAI2018に参加・発表をしていたので、途中からこっちに向かうというスケジュールでした。

www.wsdm-conference.org

WSDMはWeb Search and Data Miningの名のとおり、Web検索とデータマイニングに関するトップカンファレンスです。514の投稿数のうち、84件がアクセプトされ採択率は16%のとても厳しい学会です。そのうち選ばれた数十件のみがシングルセッションで24分の口頭発表があり、残りはポスターセッションです。初めての参加でしたが、シングルセッションのためすべての発表を網羅的に聴講できたので、とても満足でした。また、コミュニティの温かさも感じることができ、大変有意義でした。

2/5

ニューオリンズを17時台に出発し、アメリカン航空で20時代に着きました。そこからタクシーで20分ほどのマリナ・デル・レイに向かいます。 マリナ・デル・レイはヨットの街で有名で、リゾート地として休暇を楽しむ人が訪れる街のようです。そのため、ロサンゼルスのダウンタウンからは離れた場所にあります。

f:id:gingi99:20180218153110p:plain

到着後、すでに先に到着していた同僚と近くのカフェ・レストランで食事をしました。

この日はVC・Industry Dayでのトークチュートリアルのセッションがあったようです。

2/6

From Search to Research: Direct answers, Perspectives and Dialog

WSDMの開始は、MicrosoftのHarry Shum氏からの講演でした。講演の内容はすぐにLinkedinの記事に上がっていました。

https://www.linkedin.com/pulse/from-search-research-harry-shum/

Microsoft検索エンジンBingについての講演でした。ユーザの検索意図を汲み取るための検索エンジンの進化を3つの例を用いて、説明していました。

f:id:gingi99:20180207024729j:plain

Direct Answersとは、検索ワードから意味を理解して答えを返す仕組み。Perspectivesとは、質問文の検索に対しての多様な答えを返す仕組み。Dialogとは、まさに対話型検索で、検索ワードから対話的に答えを返す仕組み。それぞれのケースを例を用いてBingの機能やアルゴリズムを説明していました。わかりやすい例も多くて、見てて面白かったです。

Search and Questions Answering

ここから本セッションが開始。興味深かった発表をいくつか紹介します。

Why People Search for Images using Web Search Engines

Tsinghua Universityの発表。ユーザのIntent別に画像検索の仕方がどう変わるかを分析した研究。最後にユーザの検索行動からIntentを予測できるかも最後評価していました。

Position Bias Estimation for Unbiased Learning to Rank in Personal Search

Googleの発表。去年のWSDM2017のベストペーパーから続いてのUnbiased Learning to Rankについての研究。ユーザがクリックするのは、ランキングによって決まる位置のバイアスがあるという点に焦点をあてているのがポイント。 つまり、クリックされるドキュメントは、ユーザがほしい情報と関連があるってことは想定できるが、逆はいつもTrueじゃない。なぜなら、Position Bias のせいで下のほうにあるドキュメントはいつもクリックされないかもしれないからである。よって、click dataはこのバイアスが入ってしまうので、そのようなバイアスを除くために、もっと単純な式にしてバイアスをノイズとして減らす定式化をする。

モデルパラメータの推定には、ランダマイゼーションで決める方法とEM使ってもうちょっとかしこくする方法を提案。Dataは述べていないが、GmailGoogle Driveで実験してるみたいでした。

Lunch

会期中はランチも提供してくれて、個人的にはこのランチがすごく美味しかった。さすが、リッツ・カールトンなのか。。

Conversations, Machine Learning and Privacy: LinkedIn's Path towards Transforming Interaction with its Members

LinkedinのChief Data OfficerのIgor Perisic氏からの講演。KDD2016のEmail Volume Optimization at LinkedInの話が中心で、Linkedinにおけるデータ分析の話。この話でこの論文知りました。Multi-Objective Optimization (MOO) problem とユーザの満足度を定義するUtility Functionの設定がポイントだと思う(細かいところがよくわからなかった)。

内容と関係ないが、Likedinのミッション「Create economic opportunity for every member of the global workforce」は個人的には好きです。

Poster セッション

いくつか興味のあるポスターの発表者と話した。全体的に、アルゴリズムが新しい話はDeep系のモデルで定式化してるのが特徴で、問題設定がユニークなのものはシンプルなアプローチなんだけど、実験しっかりしてるという印象を持ちました。

Learning to Rank Personal Photos for Public Sharing

GoogleのパーソナルフォトからSNS等で公開に適した写真を自動で選ぶ研究。手法は既存技術が中心で、シンプルに問題を解いてるところが好きでした。

この日は、そのままPosterセッションで出た軽食で満足して就寝。

2/7

Scalable Algorithms in the Age of Big Data and Network Sciences: Characterization, Primitives, and Techniques

この日最初のトークは、 USCのShang-Hua Teng先生のデータ探索の高速化の話。専門ではないので、途中から分からなくなってしまった…。

Crowdsourcing and Learning from Users

クラウドソーシングの研究はこれまであまり聴講したことなかったですが、全体的に面白くて興味を持ちました。

Ballpark Crowdsourcing: The Wisdom of Rough Group Comparisons

Bagとあいまいなラベルから学習させる。ECML PKDD 2016は2クラス分類問題のみだったが、それの回帰問題への拡張が今回の貢献部分。重みwとラベルyを同時に解く凸最適化問題に落とし込んで解く。 制約条件の上限と下限をクラウドソーシングで決める実験とか興味深い。議論としては、あいまいなラベルを制約条件のパラメータを今回みたいにある程度ノイズがあっても大丈夫なところ。本当に精度がそれで落ち着くのかが不思議だなーと感じました。

Orienteering Algorithms for Generating Travel Itineraries

Googleの研究で、旅程を自動で生成する方法。グラフで旅程を表現(ノードは訪問時間、エッジは移動時間)。Googleの発表は何ができるかをすごく丁寧に話してどうやっては論文見ろっていうのが多いんだなーと思った。評価はUtility関数とヒューマン評価で、自動生成したほうが満足度高かったという結果。

Matrix Factorization and Recommender Systems

Micro Behaviors: A New Perspective in E-commerce Recommender Systems

University of Minnesota & Data Science Lab, JD.comからの発表。ユーザのMicroな振る舞い(ユーザがモノを選ぶまでに見た行動履歴)の情報も使ってGRUでモデル化してる。この手の研究はデータの強さが一番だから、なんとも言えない…。

この日の夜はFantaSea One Yachtでのクルーズしながら、Conference Banquet。円卓で隣に座ったとある会社のエンジニアと話して年収の話や各国の教育の話で面白かったです。

f:id:gingi99:20180208140725j:plain

f:id:gingi99:20180208131636j:plain

2/8

Ads, Finance and More Matrix Factorization

Predicting Audio Advertisement Quality

Georgia Institute of Technologyからの発表。音広告の品質の予測で、Long Click Rateなどの特徴量からどれだけ予測できるかなどのUser Study。CNNがスコアは高いが計算時間が超高く、それを考えるとロジスステッィク回帰すげー優秀な成績だなと感じた。ストーリーがわかりやすくて、論文の構成が参考になりました。

Putting Data in the Driver’s Seat: Optimizing Earnings for On-Demand Ride-Hailing

Boston Universityからの発表。NYC Taxi Datasetを使って、タクシードライバーの収益を最大化しましょうっていう研究でした。

Business Lunch

この日だけLunch Boxを提供してくれてなぜかと思ったら、Business Lunchという名称で、学会の参加者数などの統計情報の発表や来年のWSDMに向けてオープンマイクで議論する時間が設けられた。

写真を撮り忘れたが、参加者数は500名ほどで、過去に比べてそこまで多いわけではなかった。また、発表されたトピックも概ね予想どおりでした。 f:id:gingi99:20180209061711j:plain

WSDM2019はメルボルンのようです。行ってみたい。

この日の午後から別件でサンフランシスコに向かったため、これでWSDMは終了しました。

おわりに

コミュニティがそこまで大きくなく全体的に温かい雰囲気のある学会でした。興味深い実データとそれに対する深いデータ解析を行う必要がありますが、何かしらの機会でもう一度行ければなーと感じました。

AAAI2018に参加・発表しました

2018/2/2-7でニューオリンズで開催されたAAAIに参加・発表したときの旅程も含めたメモです。 私自身は、2月5日の午前中に発表がありました。ロサンゼルスで開かれるWSDM2018に参加する予定もあったため、2/5の午後で抜けることになりました。

aaai.org

2/2

成田空港を17時代に出発しました。ヒューストン(IAH)経由で、ニューオリンズ(MSY)に17時に到着しました。空港から会場ホテル(ヒルトン)までは、タクシーで30ドルくらいの定額で、30分くらいだったと思います。 この時期はマルディグラのイベントがあったため、大きな道を渡ることすらちょっと難しい感じでした。

2/3

この日はEAAI、チュートリアル、ワークショップがありました。

私は発表準備で出席できなかったですが、別の参加者がFakeNewsのチュートリアルに出席しており、これまでのアプローチやデータセットなどのまとめ資料がとても良かったようです。

Computational Solutions against Fake News: AI vs. DB Approaches

夜はOpening Receptionがありました。すでにかなりの人数が参加していました。あまりがっつりご飯は食べずに近くの(といっても、徒歩20分くらい。。)スーパーに食材や水を調達しにいきました。マルディグラがあったため、道は少し遠回りになりました。。

2/4

AAAI / IAAI Welcome

開会の挨拶的なものから学会の統計情報等が発表されました。

参加者数は前回より、36%増加の2200名ほどだったみたいです。さすがのAIブームを感じました。 f:id:gingi99:20180204233630j:plain

投稿数は、47%増加の3800件と、参加者数以上に大幅に増えていました。 f:id:gingi99:20180204233647j:plain

国別のAccept数を見ると、アメリカについで、中国、続いて他の国が続くようです。 f:id:gingi99:20180204233724j:plain

論文の傾向ランキング、Machine Learning Method、Vision、NLPという順番です。個人的には、去年がどうだったかわからないですが、案外Application系の論文も多いなと感じました。 f:id:gingi99:20180204233744j:plain

発表の最後で、Baconという単語がある論文のAcceptance Rateが48%だったという報告で会場中の笑いを取っていました。逆にどんな論文にBaconが入っていたのだろうか…。

Challenges of Human-Aware AI Systems (AAAI-18 Invited Talk)

最初にアリゾナ州立大学のSubbarao Kambhampati先生から人間を意識したAIシステムに関するいくつかの問題点を紹介する話がありました。

人間がAIが定めたルールから意思決定をしていく場合に、AIが定めたルールを人間は選択しないことのほうが多い話が印象的でした。全体的に、AIを人間が適切に使うことがまだまだ難しいということがメッセージだったと思います。

IAAI-18: Focus on and Support of the Customer

Hi, how can I help you?: Automating enterprise IT support help desks

IBM Reseachの発表。QAシステムの話で、顧客が満足する回答を返す方法についての話。

CRM SALES PREDICTION USING CONTINUOUS TIME-EVOLVING CLASSIFICATION

CRMシステムの話で、時間の進化で顧客の嗜好も変わるからその分を考慮した(時刻を条件付きにして、特徴量を修正するような変換)アプローチの紹介。

VoC-DL: Revisiting Voice Of Customer Using Deep Learning

Adobe Researchの発表。顧客からの声が何のトピックか分類する問題。CNNとRNNを使って特徴をうまく作ってるような話。

IAAI-18: The Business of Time and Money

Secure and Automated Enterprise Revenue Forecasting

Microsoftの発表。収益予測が結構自動でうまく当てれる話。どの辺が効くのかの詳細を論文をあとで追う。

Investigating the Role of Ensemble Learning in High-Value Wine Identification

ワインの価格予測。アンサンブル学習(バギング、スタッキング)の方法を実験していた。

Poster

夜はポスターセッションがありました。軽食で出たハンバーガーが意外と美味しかったです。

Deep Learningの論文の図を解析し、自動でコード化する発表をしていたポスターが面白かったです。

2/5

IAAI-18: Analyzing Software and Network

Classification of Malware by using Structural Entropy on Convolutional Neural Networks

CNNを用いてマルウェアの分類精度をあげた話。

Mobile Network Failure Event Detection and Forecasting with Multiple User Activity Data Sets

ユーザ行動(ソーシャル上での行動、またはサービスに対するWebアクセスや検索)からサービス故障を検知・予測できるかという話を発表しました。予測はどうしてできるかのという点で質問をいただきました。

DarkEmbed: Exploit Prediction with Neural Language Models

Exploitをとらえるために、スパースなデータのEmbeddingをどうやるかについての研究。

ニューオリンズについて

アメリカ南部ははじめて行きました。会期中がたまたまマルディグラの時期で、1日中パレードがやっていたみたいです。なんとなく暗い道が多く、全体的に治安を心配するところもありました。

ミシシッピ川が会場ホテルのすぐそばで、RiverWalkがありました。あまりキレイな色ではなかったですが…笑。

f:id:gingi99:20180204135141j:plain

会場近くのGrand Isle Restaurantにいきました。ニューオリンズはアメリカの中で美食の街としても有名みたいで、海鮮が美味しいようです。ザリガニ料理などを食べました。たしかに美味しかったです。

f:id:gingi99:20180217231246p:plain

Amazon Echo が届いたので、生活を便利にできるか試してみた

Amazon Echo Dot がついに家に届きました。リクエストを発売日初日に出していたつもりでしたが、Amazon Echoの注文を見逃したからか、招待がキューの後ろに回されたように感じました。

Amazon Echo Dot (Newモデル)、ブラック

Amazon Echo Dot (Newモデル)、ブラック

EchoからIFTTTを使ってTO DOをTrelloに追加

私はTo Do リストとして、Trelloを利用しています。

食器の洗い物をしているときに「あれしなきゃな」と思ったことをTrelloに書き込みたい。だけど、手が使えないときに、To Doに忘れないうちに追加しておきたいと思うことがありました。

それを可能にするため、Amazon EchoからIFTTTを使って、Trelloに追加する設定を行いました。

IFにあたる部分は、Alexaの item added to your To Do List を選択します。

THENにあたる部分は、Trelloの create card を選択します。

これで設定完了すると、「Alexa 野菜ジュースを買ってくるってTODOリストに入れて」からTrelloのTO DOリストに追加が一言で済むのでとても便利です。

EchoからIFTTTを使って育児記録をLINEに通知

子供のおむつやトイレがいつしたかを妻が記録していますが、声だけでできないかなと思ってました。調べると、すでにDashボタンを利用して管理しているのを見つけました。

qiita.com

これを参考にとりあえず、IFTTTでできることを設定します。

IFにあたる部分は、Alexaの Say a specific phrase を選択して、ここでは「うんち」を入力。

THENにあたる部分は、事前に妻とLine Notifyのグループを作っておいて、そこに通知がくるように LINEの send message を選択。

これで設定完了すると、「Alexa うんちをトリガー」と言えば、LINEのグループに通知が来るようになりました。

少しハマったのは、「Alexa トリガー ◯◯」はダメで、「Alexa ◯◯ トリガー 」だと言うこと。 また、オムツだと反応してくれなかったりするのが、何が原因かわからなかったり。。

これだけだと、夜中でも声を出さなきゃだめな点がやはりネックなので全部の記録はできないですが、昼間はこれを利用しても良いかもと思いました。

ピカチュウトーク

最初にスキルをONにしたのがこれです。

息子がこれにどう反応するかがこれから楽しみです。

まとめてトピックを話してくれる

「Alexa 何かある?」でを話してくれるのは毎日使いたくなる感じがしますね。

英単語を流してくれる

キクタンのスキルをONにしました。英単語をリズミカルに流してくれるのは、口ずさみたくなる感じで良いですね。

まとめ

声で操作できるっていうのは、手で操作するよりやっぱり速いので、ワンフレーズで何かイベントを発生させるのは楽しいと思いました。

また、「Alexa ◯◯を教えて」はスマホで調べるより、まず最初にためそうかなと思います。

個人的にはTO DO 追加が一番便利になったかな…。

2017年導入してよかったこと

新年あけました。みなさんの2017年買ったよかったものなどを見てると、自分もまとめておこうかなと思いました。

習慣

Google Keep と Trelloと Evernoteのまとめ方が確立できた

Keepにメモを残す。その後、タスクはTrelloで管理する(To Do -> Doing -> Done -> アーカイブ)。作業内容・調べたこと・参考サイト・Tips・思ったこと等はEvernoteでまとめる。これでだいぶ落ち着きました。

ジムに通ったこと

日頃の運動不足を少しでも解消したいということで、2月から9月まで自転車でいけるジムに週1程度通いました。がっつり筋トレというより、日曜のオープンとともに、ランニングマシンでテレビをみながら5km走ったあと、その後ひととおり筋トレをして、お風呂入って帰るのみでした。時間にして、1時間〜1時間30分程度ですが、それだけで体調がなんとなくよかったのと、汗をかくことでリフレッシュできていることを実感しました。過去にも何度かジムに通ったことがありましたが、半年以上習慣かできたのははじめてです。10月からは子供が産まれたのと引越しして新しい場所に住み始めたので現在は停止中。

みてねをはじめた

mitene.us

子供が産まれたと同時に噂で聞いてたみてねを始めた。 どんなもんかなと思ってやってみたが、想像以上に圧倒的によかったです。

  • シンプルで見やすいレイアウト
  • お互いの親族が遠方にいるので、すごく喜んでくれている
  • 毎月フォトブックを自動的につくってくれて、簡単に注文できる。これでスマホが見れない親族にも送れる。

とくに、親族は毎日楽しみにしているらしく、妻は毎日写真をUPせねばとはりきるほどです。産まれたときの記録が時系列で残るってすごく良いですね。

論文を印刷して見ないようにした

重要な論文はもちろん印刷してリファーするのですが、全ての論文を印刷してるとかなりかさ張ります。PDF上でMacのプレビューでカラーラインをつけてポイントを押さえて見るようにするだけで十分な論文も多いので、そういう風に習慣化できたのは良かったです。

モノ

MTG 骨盤サポートチェア Body Make Seat Style

ついに導入。現在は意識的にこの上に座ってる。姿勢は昔は悪かったけど、これのおかげというより、姿勢をよくしようとという意識がついたのが大きかった。座りごこちも良いです。

BRUNO コンパクトホットプレート レッド

2,3人で使えるサイズのホットプレートを探していて、購入。見た目もよく、楽しくご飯が食べれます。長く使えるようにキレイにメンテナンスして使っています。

ビアカップ 能作 錫100%

誕生日プレゼントに頂きました(上記の夏限定バージョン)。冷蔵庫に一瞬で冷える(5分くらい)のと、ビールの泡がきめ細かくなる効果があります。お気に入りです。

Fire TV Stick

Fire TV Stick

Fire TV Stick

  • 発売日: 2017/04/06
  • メディア: エレクトロニクス

Amazonのセールのときに買いました。Prime Music と ビデオがテレビで見るために買いました。Prime会員は必須ではと思うほど、かなり便利です。

パナソニック 10.0kg ドラム式洗濯乾燥機(NA-VX7700L-W)

新作が出て少ししてから、上記の1つ古いバージョンを購入しました。家電量販店に期待せずに行ったところ、たまたま最後の在庫を見つけて購入しました。そのときの価格ドットコム最安値よりも安く買えたので良かったです。洗濯物を干す作業が減り、大満足です。ただ、毎日ホコリを掃除するメンテナンスが必要なのは知りませんでしたが…。

ダイニングテーブル

もともとローテーブルしかなかったので、ついに購入。生活もさらに快適になりました。

【 極厚 20mm 】 やさしいジョイントマット 大判

[asin:B01M18YASS:detail]

子供の遊びスペースに買ったら、思いのほか横になるのも気持ちよく、ヨガマット代わりにも使えそうです。自由にレイアウトも決めれますし、不要になれば片付けるのも楽です。これは重宝しそうです。

2018年の導入予定

Amazon Echo でのスマートな生活

招待待ちなので、はやく試してみたいです。

iPad で論文読む

論文を大量に効率よく読む方法を模索中です。 色々見てると、まずはiPadでやってみようかなと思っています。

子供用の便利グッズ

子供のためのグッズ購入が増えそうな年になりそうです。

To Do ツール快適生活

新たな方法がないか思考錯誤は変わらずやっていきます。

何かで運動

ジム以外で家で運動する方法を模索中…

仕事ではじめる機械学習を読んだ(1章)

今年もおつかれさまでした。読みたかった本を少しずつ読んでます。

この本を読んだ動機

www.oreilly.co.jp

現在、機械学習システム(と真に呼べるものか分からないが)の運用や構築をちょくちょくしていて、ベストプラクティスを再確認したいなというのがありました。この本を手に取りました。以下は、読書メモです1

機械学習プロジェクトの流れ

  1. 問題を定式化する
  2. 機械学習をしないで良い方法を考える
  3. システム設計を考える
  4. アルゴリズムを選定する
  5. 特徴量、教師データとログの設計をする
  6. 前処理をする
  7. 学習・パラメータチューニング
  8. システムに組み込む
  • 1と2:問題設定
  • 3から6:道具選びと前処理
  • 7:モデルの作成
  • 8:サービスへの組み込み

という4STEPの流れ。この中でデータをEDA(Exploratory Data Analysis)して可視化したりする部分は1と2に当たる部分なのかなと。つまり、自分が関わった多くのプロジェクトは3に行く前に終わったなーというのが多い…笑

おもしろいのは、明示的に 2.機械学習をしないで良い方法を考える を流れに含んでいる点。その原因はモデルのメンテナンスコストが大きいこと。以下、6つの例をあげている。

  1. 確率的な処理があるため自動テストがしにくい
  2. 長期運用しているとトレンドの変化などで入力の傾向が変化する
  3. 処理のパイプラインが複雑になる
  4. データの依存関係が複雑になる
  5. 実験コードやパラメータが残りやすい
  6. 開発と本番の言語 / フレームワークがバラバラになりやすい

機械学習システムを維持するためのメンテナンスコストが多くある点と時間とともに変わるデータのトレンドの変化から100%正しい結果を常に出すとは限らないので、誤りを運用でカバーする仕組みが必須 というところは理解してもらわないといけない。

そういうところをちゃんと理解した上で、さらに導入をする前に、MVP(Minimum Viable Product)を作る点。これにより、本当にもっと高度な方法が必要かが明らかになる。いきなり難しいことをするのではなく、まず一番簡単なモデル(たとえば、平均値を返すモデル)でシステムの性能をチェックし、そのモデルに満足しない場合、エンジニアリング技術(次節で必須になる)とともに、改善していくのが正しい道と読めました。

実システムにおける機械学習の問題点への対処方法

その大きなメンテナンスコストに対して、著者らは以下のポイントを述べています。

  • 人手でゴールドスタンダードを用意して、予測性能のモニタリングをする

  • 予測モデルをモジュール化をしてアルゴリズムのA/Bテストができるようにする

  • モデルのバージョン管理をして、いつでも切り戻し可能にする

  • データ処理のパイプラインごと保存する

  • 開発/本番環境の言語/フレームワークは揃える

とくに、機械学習システムは一度作って終わることはないので、高度なアルゴリズムを作れる人だけではなくて、エンジニアリング技術が必須になってくる というのがこのポイントからも明らか。

機械学習システムは本来アップデートが激しいところが多いはずなので、パイプライン作りとバージョン管理 も間違いなく必要になります。

さらなるベストプラクティスについてはRules of Machine Learning Best Practices for ML Engineeringを参考にあげていた。また時間あるときに読みたい。

機械学習を含めたシステムを成功させるには

重要なプレイヤーとして、4人のプレイヤーをあげている

  1. プロダクトに関するドメイン知識を持った人
  2. 統計や機械学習に明るい人
  3. データ分析基盤を作れるエンジニアリング能力のある人
  4. 失敗しても構わないとリスクを取ってくれる責任者

とくに、現場・分析者・エンジニアの3人+責任者1人 の存在が必要。構築や運用ではこのとおりなんですが、その機械学習システムを作って見せる人(利用者)もプレイヤーとして出てきます。その利用者からの無茶振りも色々ある。なので、その利用者も機械学習プロジェクトの流れを理解して、長く付き合ってくれるか もありますね。その辺の説明(説得?)方法での良い資料が欲しいですね。

まとめ

読んだのは1章だけですが、道筋を明確に記述して読みやすかったです。1章だけでも、チーム全員必読してもらって、議論して理解を深めたいなと思いました。


  1. しかし、すでに多くの方がレビューしているみたいなので、内容が被りそうですが、あまりその辺は気にしていません。

Rstudio 0.99 がリリースされました

RStudio v0.99 Preview: Data Viewer Improvements | RStudio Blog

 

大きく変わったのがデータのView機能。

フィルタリングやソーティングがGUIで実行できるように。

エクセルで開く必要もなくなるかも。