「相関行列」から一部抜粋
…身長と体重の相関では、一方を説明変量に他方を目的変量として、相関係数を算出しました。このような2変量の相関では、身長と体重の関連が全てで、身長と体重がどの程度関連しあっているかを数値的指標である相関係数で把握したのでした。
しかし、現実の世界では変量が2つしかないことは希であり、大抵は3つ以上の多変量になります。その理由は簡単です。1つの説明変量だけで目的変量を制御・予測することができないからです。身長と体重のような簡単な相関であれば実用の範囲ですが、気象、経済等々のような現実の世界では沢山の因子が絡み合って1つの結果を出します。加えて、どの因子が関連しあっているのかも混沌として分からないのが現実です。だからといって、1つ1つの組み合わせの相関を検討していては…
「3変量の重回帰式」から一部抜粋
…簡単に重回帰式による近似のイメージを説明します。まず、2変量の単回帰式は直線でしたが、3変量の重回帰式は平面を構成します。重回帰式が描く平面が、「面積×人数×売上」の3次元の相関図を通る時、全てのプロットした点からの距離(誤差)の自乗の総和が一番小さくなっています。綺麗に表示できなくて残念ですが、無理にテキスト文字でそのイメージを表現すると以下のようになります。
|
| * <--- 実測値
| :
| : *
| +--:----:----+
|/ : : /
/ : /<-- 重回帰式が構成する平面
/| /
/ +----------/------- x (面積)
/ / /
/ / : /
+------------+
/ : <--- 誤差
/ :
/ *
y (人数)
"*"が実測値で重回帰式が構成する平面との距離(誤差)が":"になります。この誤差の自乗の総和が最も少なくなるように平面を構成する式がa)の重回帰式…
「3変量を超える重回帰式」から一部抜粋
…この問題を解くには重回帰式が必要ですが、実際に説明変量が2変量を越える回帰式が描くイメージはどのようになるのでしょうか。説明変量が1変量の回帰式のイメージは2次元の平面を通る直線で、説明変量が2変量の時は3次元の空間を通る平面でした。しかし、説明変量が3つになると4次元を通る立体面になるため、もはや図示は不可能です。説明変量が4つ、5つ、9つ…となると、イメージで想像することもできません。一般に説明変量が2変量以上のものを多変量と言いますが、そもそも想像もままならない多変量の重回帰式など存在するのでしょうか。
実は、説明変量が3変量以上の重回帰式も最小自乗法という考え方で問題なく導出されます。しかし、回帰式を導く処理過程は難解至極で、行列計算が必要なとても大変な計算です。どんなに高機能な電卓を使っても長時間の計算になりますし、現実的に数値計算のプログラミングなしには解けません。そこで、rpnを利用するのですが、難しい理論や証明は後回しにして利用方法だけを考えましょう。rpn式のみを示します…
「重回帰式の評価」から一部抜粋
…再度、表にしてまとめてみます。
| 元データ 自由度調整 乱数追加 自由度調整
---------------+-------------------------------------------------
説明変量の個数 | 3 3 4 4
決定係数 | 0.970753 0.855902 0.981197 0.813734
自由度調整すると決定係数の数値が下がることは間違いありませんが、興味深いのはでたらめな変量を加える前の自由度調整済決定係数と加えた後の自由度調整済決定係数を比べても、きちんと反映された値になって…
「重回帰式の検定」から一部抜粋
…まず、帰無仮説は「回帰式は役に立たない」に、対立仮説は「回帰式は役に立つ」になります。次に相関行列(無相関の検定含む)、自由度調整済決定係数、重回帰式を示します。なお、ファイルは"data0120.txt"を使います。
========================================== ====================
気温 湿度 雪日数 雷日数 日照 0.999674
気温 1
湿度 0.853* 1
雪 -0.993* -0.784 1
雷 0.945* 0.806 -0.945* 1
日照 -0.845* -0.969* 0.786 -0.878* 1
重回帰式
=================================================
y=178.266x1-72.4945x2-5.00012x3-19.7338x4+5454.69
ファイルの"data0420.txt"に実測値と重回帰式から得られる予測値を格納してあるので、分散分析表を作って…
「回帰係数の影響度」から一部抜粋
…xの回帰係数が46.3003から153.059に変わりました。影響度の割合は以下のとおりですが、面積の影響度が9%弱増えて人数の影響度が9%弱減りました。
---------+---------------------
面積(坪) | 153.1 13.0%
人数(人) | 1026.1 87.0%
このように同じ価値のある数値でも単位を変えると回帰係数が変動します。円をドルに、トンをキログラムに、日数を時間数に…、単位変換は頻繁に起こります。単位の違いに惑わされないで、回帰式への影響度を的確に表現できる数値指標はないものでしょうか。
ビジネス統計(基礎編)で説明したデータの標準化がその答えを出してくれます。実は先にデータを標準化しておくことで、重回帰式に与える影響を平等に計ることができるのです。早速、データを標準化して…
「説明変量の選び方」から一部抜粋
…今まで、重回帰式を導出する際にどの説明変量を選ぶべきかについては述べていませんでした。従って、データとして用意された全ての変量を使い切って重回帰式を導出していたのが実際です。しかし、導出した重回帰式の回帰係数が目的変量に対して異なった影響力を持つことは、前回までの説明で分かっています。最も影響がある説明変量だけを選べば、より少ない変量で制御・予測できるようになりそうですし、その方が良質な重回帰式です。
では、説明変量として何を選べばよいのでしょうか。これが意外に難しい問題です。一番、簡単なのは選択したい説明変量の全ての組み合わせを求めて、それぞれの重回帰式における自由度調整済決定係数を計算します。計算結果のうち一番大きな自由度調整済決定係数となった組み合わせの説明変量を…
「定性データの重回帰分析」から一部抜粋
…定性データにも重回帰分析を応用できないかと考えるのも至極、当然の流れです。この問題に対する解決策を提示したのが数量化理論です。数量化理論にはⅠ類からⅣ類まで4種類ありますが、定性データを使った重回帰分析が数量化理論Ⅰ類になります。
早速、数量化理論の話を進めていきますが、数量化理論Ⅰ類では今までの重回帰分析と使う用語が異なります。以下に用語の対比を示します。
========== ==========
外的基準 目的変量
アイテム 説明変量
カテゴリ ダミー変数(0/1)
「トレンドデータの重回帰分析」から一部抜粋
…重回帰式の1月から12月までのカテゴリスコアを月と併せて、手作業でファイルに格納してみます。ファイルは"data0903.txt"とします。
|
| *
-
|
|
- * *
| * *
| * *
|
- * *
|
| * x
|o 12
+--|--|--*---|--|--|---|--|--|---|--|-->
導出した重回帰式から読み取れる情報で要因分析をしてみましょう。意図して、重回帰分析の前に3月を除いたわけではないのですが、アイテムの"月"を見ると、3月を基準として全てがプラスの値です。つまり、3月が年間を通して一番売上が落ち込む月ということになります。対して、4月から増加傾向にある売上が12月にピークを迎えることが分かります。実際に、3月の売上高は0.0+2377.5で2377.5万円ですが、12月は2014.0+2377.5で4391.5万円になっています。12月は3月の売上高の約2倍売り上げて…
「重回帰予測アラカルト」から一部抜粋
①購買商品のバスケット分析
以下はあるスーパーに来店した33人の商品分類別販売履歴データです(キャンペーンは特売品)。購買食品の組み合わせで相関が高いものがあるかを調べてみます。
類 類 類 類 海藻 ペーン 類 類 類 類 海藻 ペーン
0 1 0 0 0 1 0 0 2 3 0 4
0 3 0 3 1 0 0 0 0 0 0 5
:
…正解は33人中で26人なので、正解率78.8%です。まあまあの値ではないでしょうか。
②顧客管理におけるRFM分析
以下は1年間の販売データを顧客別にまとめたものです。データの項目ですが、"間隔"は最近購買した日からの経過した週数を、"回数"は年間で購買した回数を、"売上"は顧客が購買した総額を、"粗利"は顧客が購買した商品の総粗利額を、"在庫"は顧客が購買した商品全部の平均在庫滞留期間(週)を、"ランク"は顧客のランクでA,B,Cの区分けを表しています。
隔 数 上 利 庫 ク 隔 数 上 利 庫 ク
37 2 19600 7800 5 C 5 12 191600 84600 15 A
27 2 19600 11800 1 A 3 16 169400 35000 16 A
:
…在庫管理のABC分析を応用してみました。顧客を在庫管理と同様に扱ってよいものかは検討の余地が残りますが、顧客を全て同じ扱いにしたり、勘で管理するよりは優れた方法です。また、重回帰式は顧客ランクを重視した年間売上の増減に気を揉むよりは、購買回数の増減に注力すべきことを示唆していますね。つまり、購買回数を増やすことによって、結果的に顧客ランクのアップに繋がっていくと考えた方がよさそうです。
③電気代の予測(トレンド解析手法と比較)
以下はある家庭の過去18ヶ月の電気代のデータです。今年の7月電気代を予測してみます。ビジネス統計(トレンド編)で提示した問題ですが、数量化理論Ⅰ類で重回帰分析した場合と比較してみましょう。
=========== ===========
1月 5582 1月 20547
2月 9912 2月 18024
:
…予測手法の最後の行が今回の重回帰式による予測値です。直線回帰のとてもよい精度(予測誤差0.2%)は、データの時系列推移をよく吟味して各種仮説を立てて予測したトレンド解析の賜物と言うべき結果なので別扱いとすると、数量化理論Ⅰ類による重回帰式はトレンド解析の各手法と互角の予測手法であることが分かります。
ビジネス統計講座を受講するには、別途rpn標準版を購入する必要があります。詳しくは本ウェブサイトのプロダクトを参照ください。
本講座の記事やプログラムの正確性については最大限の注意を払っていますが、これらを利用することにより生じたいかなる損害についても、一切の責任を負えませんので、あらかじめご了承ください。
本講座は公式の証明、理論的背景の説明には注力せず、統計的な手法を利用することに重点をおいて解説しています。そのため、学術的な表現が厳密ではない部分があります。また、出典明記のないデータは現実に似せて人工的に作成したものなので、現状に即していない可能性があります。