港区で苦しむデータサイエンティストのメモ帳

統計・機械学習とマーケティング

【KDD2018】論文『Customized Regression Model for Airbnb Dynamic Pricing』を読んでまとめた

はじめに 2018年8月19日から23日にかけてロンドンで行われたKDD2018(データマイニングの世界的なカンファレンス)に採択されていた『Customized Regression Model for Airbnb Dynamic Pricing』なる論文を読みました。 Airbnbで実装されている価格推薦モデ…

分析用のデータが「汚れ」てしまう7つの原因

分析用のデータが「汚れ」てしまう データサイエンティスト(コンサルタント、マーケターなども然り)として日々データに向き合っていると、世の中には「汚れ」ているデータばかりだと気付くだろう。 欠損値だらけの歯抜けのデータだったり、特定の領域に偏…

【Excel】ピボットテーブルをDe-Pivotしてリストに戻す

テーブル型のデータをリストに変換する Excelを使っているとテーブル型のデータによく遭遇します。マトリクスとも呼ばれますし、場合によってはクロス集計表とも呼ばれます。ピボットテーブルを一度でも使ったことがある方にとっては見慣れたものでしょうか…

『計量経済学』のざっくりとした定義とワークフローのまとめ

データサイエンティストと計量経済学 データサイエンティストと一口で言っても、機械学習(machine learning)に軸足を置いた「機械学習エンジニア」に近い人材もいれば、計量経済学(econometrics)に軸足を置いた「データアナリスト」に近い人材もいます。…

Google Apps Scriptでシート全体を自動で翻訳する

Excelを英語に翻訳する 海外とのやりとりがある企業に勤めていると、Excelシートの情報などを英語に翻訳しなければいけないことがあります。 もちろん英語に自信のある方は特にリファレンスなしでサクっと翻訳できてしまうのかもしれませんが、私のようにWeb…

HackerRankのアルゴリズム厳選20問でコーディング面接をハックする

HackerRankのCracking the Coding Interview https://www.hackerrank.com/domains/tutorials/cracking-the-coding-interviewwww.hackerrank.com HackerRankという、世界中のハッカー(=ソフトウェアエンジニア・機械学習エンジニアなど)が、プログラミング…

機械学習の基礎知識を5分で復習するノート

学習の種類 分類と回帰 特徴抽出と特徴ベクトル 決定境界と決定領域 汎化 generalization 識別器の例 最近傍法 nearest neighbor method k近傍法 k-nearest neighbor method アルゴリズム メリットとデメリット 教師あり学習の評価方法 ROCとAUC TPRとFPR RO…