【R】テレビCMの逓減効果(Diminishing Returns)を重回帰分析を使って推定する

テレビCMの逓減効果とは マスメディア広告の中でも最も代表的であるテレビCMは、納得感のある定量的な分析の難易度が高いことが知られています。 テレビCMは顧客認知の形成や企業のブランディングなどを目的として使われることが多いため、認知率などのやや…

【R】ランダムウォークの『見せかけの回帰』を実験で確かめてみる

見せかけの回帰とは 定常性とは 具体例 定常性がある:ホワイトノイズ 定常性がない:ランダムウォーク 1. ランダムウォーク 2. ドリフト付きランダムウォーク cf. 単位根過程 見せかけの回帰を確かめる 使用したコード 見せかけの回帰とは 見せかけの回帰(…

【英語】純ジャパがTOEFLiBT103点を取るのに効果的だった対策

日本人にとってTOEFLのハードルは高い TOEFLを主催している組織であるETSが発表している資料によると、日本人のTOEFLの平均点はおよそ70点ほどです。平均点が90点以上がざらであるヨーロッパの国々と比べると「そりゃそうだろ」という感じですが、実は中国、…

【Excel】キーワードを含むかどうかでカテゴリ分けを行う

データのカテゴリ分けをしたい 「商品名の一覧」のようなデータを与えられたとき、それぞれの商品名がキーワードを含むかどうかでカテゴリ分けをする方法をご紹介します。 下図のように「商品名-カテゴリ」の対応表を作ることが目標になります‍♂️ キーワード…

【R】5つの基礎的なグラフ描画関数(stripchart, hist, box, plot, qqnorm)

Rで使う基礎的なグラフ関数 箱ひげ図、ヒストグラムなどはRでデータを可視化する際に頻繁に使うのですが、 脳内であまり整理されていなかったため、基礎的な5つのグラフ関数としてまとめてみました。 データセットにはRに組み込まれているFisherのirisデー…

【Excel】AND/OR関数を使って複数条件に合うものを抽出する

AND/ORを使って集計をしたい Excelを使って集計を行う際、単純な条件ではなく複数条件を論理式で繋いで集計したい場合があります。 このような場合はAND/OR関数を使って集計するのがよいでしょう。以下に具体例を示します。 AND/OR関数を使う A君~F君の6人…

【KDD2018】論文『Customized Regression Model for Airbnb Dynamic Pricing』を読んでまとめた

はじめに 2018年8月19日から23日にかけてロンドンで行われたKDD2018(データマイニングの世界的なカンファレンス)に採択されていた『Customized Regression Model for Airbnb Dynamic Pricing』なる論文を読みました。 Airbnbで実装されている価格推薦モデ…

分析用のデータが「汚れ」てしまう7つの原因

分析用のデータが「汚れ」てしまう データサイエンティスト(コンサルタント、マーケターなども然り)として日々データに向き合っていると、世の中には「汚れ」ているデータばかりだと気付くだろう。 欠損値だらけの歯抜けのデータだったり、特定の領域に偏…

【因数分解】ビジネスシーンで頻繁に使われる理系用語10選

ビジネスシーンで使われる理系用語 理系の人がビジネスの世界に飛び込むと「課題を因数分解すると・・・」「最大公約数的な意見にはなるが・・・」など、高校までのカリキュラムに登場する数学・理系用語が日常会話の中にふつうに登場しているのに驚くのでは…

【Excel】ピボットテーブルやクロス集計をリスト型の整然データにする(De-Pivot)

テーブル型のデータをリストに変換する Excelを使っているとテーブル型のデータによく遭遇します。マトリクスとも呼ばれますし、場合によってはクロス集計表とも呼ばれます。ピボットテーブルを一度でも使ったことがある方にとっては見慣れたものでしょうか…

データサイエンティストが使う『計量経済学』の定義とワークフローのまとめ

データサイエンティストと計量経済学 データサイエンティストと一口で言っても、機械学習(machine learning)に軸足を置いた「機械学習エンジニア」に近い人材もいれば、計量経済学(econometrics)に軸足を置いた「データアナリスト」に近い人材もいます。…

【R】重回帰分析で見ておくべき3つの指標(R^2, VIF, DW)

重回帰分析で見ておきたい指標 何らかのデータで重回帰分析を行ったら、まずは以下の3つの指標を見ておきたい。 自由度調整済み決定係数 VIF DW検定 特に時系列データで重回帰分析を行うときは、見せかけの回帰や自己相関の問題などが多発するため上記の指…

Google Apps Scriptを使って、日本語のExcelシートをまとめて英訳する

Excelを英語に翻訳する 海外とのやりとりがある企業に勤めていると、Excelシートの情報などを英語に翻訳しなければいけないことがあります。 もちろん英語に自信のある方は特にリファレンスなしでサクっと翻訳できてしまうのかもしれませんが、私のようにWeb…

HackerRankのアルゴリズム厳選20問を解いて世界で闘うプログラミング力を鍛える

HackerRankのCracking the Coding Interview https://www.hackerrank.com/domains/tutorials/cracking-the-coding-interviewwww.hackerrank.com HackerRankという、世界中のハッカー(=ソフトウェアエンジニア・機械学習エンジニアなど)が、プログラミング…

機械学習の基礎知識を5分で復習するノート

学習の種類 分類と回帰 特徴抽出と特徴ベクトル 決定境界と決定領域 汎化 generalization 識別器の例 最近傍法 nearest neighbor method k近傍法 k-nearest neighbor method アルゴリズム メリットとデメリット 教師あり学習の評価方法 ROCとAUC TPRとFPR RO…

グラフィックレコーディングにおける「アイコン化」「構造化」とその引き出しの増やし方を考える

Graphic Recorder ―議論を可視化するグラフィックレコーディングの教科書作者: 清水淳子出版社/メーカー: ビー・エヌ・エヌ新社発売日: 2017/01/27メディア: 単行本この商品を含むブログ (2件) を見る グラフィックレコーディングとは グラフィックレコーデ…

マーケティングのためのデータ分析とは「デートに3回行った人は恋人ができやすい」を知ること?

マーケティングの強い味方、マジックナンバー マジックナンバーに因果関係があるとは限らない Facebook流、マジックナンバーの分析のフロー 1. Defining the success metric 2. Exploring the data 3. Running the regression 重回帰分析についてはこちら 4.…

外資系データサイエンティストなら知っておきたい海外のPodcast5選

英語×データサイエンス 「二兎を追うもの一兎をも得ず」ということわざがありますね。 あれもこれも・・・と欲張っていると、どれもが中途半端になってしまう、という教えです。 やはり、何が1番大事かを考え抜いた上で優先順位をつけて、 「本当にやりたい…

テレビCMの残存効果をAd Stock(アドストック)で計算してみる【R & Pythonコード付き】

テレビCMの効果測定 例:テレビCMの効果測定 広告の残存効果(アドストック) 定式化 具体例でみる 忘却率をどうやって決めるか 1. 忘却率ごとに相関を出して最適化する(定量的) 2. 商材・メディア・クリエイティブなどに合わせて決める(定性的) 半減期 …

「動物は何を報酬として行動しているのか」が逆強化学習で明らかになる

www.kyoto-u.ac.jp 一般に強化学習というと、 どの状況でどれくらい報酬を得られるのかはあらかじめ決められており、試⾏錯誤によって得られる報酬を最⼤化する⾏動戦略を⾒つけ出す 機械学習のモデルであるが、逆強化学習は 動物はすでに最適な⾏動戦略を獲…

【初心者向け】Excelの重回帰分析でタイタニック号の生存予測をやってみよう

はじめに データサイエンスに興味がある Excelなら使える ピボットテーブルなら聞いたことあるぞ! という方々向けに、Excelの基本的な機能と関数のみを使って、データ分析(重回帰分析)を行う流れを説明していきたいと思います。 みなさまが本格的なデータ…

『UXデザイン入門』に学ぶ、デザイン調査のパターンとポイントまとめ

UXデザイン入門作者: 川西裕幸,潮田浩,栗山進出版社/メーカー: 日経BP社発売日: 2012/01/26メディア: 単行本購入: 5人 クリック: 246回この商品を含むブログ (4件) を見る デザイン調査 モチベーション ターゲット ユーザーが特定の領域に限られる場合 ユー…

『UXデザイン入門』に学ぶ、行動変数に基づくユーザーモデリング

UXデザイン入門作者: 川西裕幸,潮田浩,栗山進出版社/メーカー: 日経BP社発売日: 2012/01/26メディア: 単行本購入: 5人 クリック: 246回この商品を含むブログ (4件) を見る ユーザーモデルとは ペルソナ/シナリオ手法 フロー 行動変数の抽出 行動変数とは KJ…

『問題発見プロフェッショナル』に学ぶ、課題抽出と問題発見における4つの視点

新版 問題解決プロフェッショナル―思考と技術作者: 齋藤嘉則出版社/メーカー: ダイヤモンド社発売日: 2010/04/16メディア: 単行本購入: 10人 クリック: 42回この商品を含むブログ (18件) を見る 問題発見プロフェッショナル―「構想力と分析力」作者: 齋藤嘉…

べき分布になりやすいビジネスデータは「等質化」してから分析しよう

データサイエンティスト養成読本 機械学習入門編 (Software Design plus)作者: 比戸将平,馬場雪乃,里洋平,戸嶋龍哉,得居誠也,福島真太朗,加藤公一,関喜史,阿部厳,熊崎宏樹出版社/メーカー: 技術評論社発売日: 2015/09/10メディア: 大型本この商品を含むブロ…