はじめに
ビジネス統計(単回帰編)では、2変量間の相関という考え方でデータの解析を行ないました。身長と体重、売場面積と売上高、営業担当者数と売上高等の相関関係から回帰式を導出することで制御や予測を可能としました。このように目的変量に対して説明変量が1つしかない2変量の場合には、十分な効果を上げられます。統計解析にあるような母集団の推定や検定による現状把握を超えて、2変量間の関係をダイナミックに捉えることで現在や未来をコントロールできるわけです。
現実世界の解析は困難を極める
この単回帰分析で、現実の問題をどんどん解析できそうに思えますが、残念ながら現実はより複雑です。複数の条件が複雑に影響して、様々な事象が発生しています。例えば、売上高は売場面積だけから影響を受けるのではなく、店員の数、立地条件、品揃え、価格、キャンペーン、天候、接客スキルやモラルといった数値化できないものまで含めて、沢山の条件(コーザルデータ)が組み合わさって売上高が構成されます。決して、売場面積の増減が売上高の増減に直結する短絡的構図にはなっていないのです。
相関の話になると、宣伝広告費と売上高の相関が決まって取り上げられます。この2変量間には高い相関関係があるように言われています。しかし、それは一種のトリックです。売上が上がると宣伝広告をやりたがるから相関があるように見えるだけです。精々、説明変量を売上高に目的変量を広告費にすることが妥当な利用方法でしょう。決して、広告費から売上高を予測してはいけません。売上高を予測するために広告費を説明変量にしたいのなら他の変量と共に分析すべきです。広告費の影響度が思ったより低いことに驚くだろうと思います。
大本命の重回帰分析が登場
そこで、2変量以上の説明変量と目的変量との関連を分析できる方法が必要になるのですが、それが「多変量解析」の中の「重回帰分析」と呼ばれる領域です。説明変量が2変量以上なのですから、目的変量と加えると3つの変量間の相関を考えることで回帰式を導出します。ちなみに、3つ以上の変量を回帰分析することを重回帰分析と言います。
重回帰分析は、上記にあるような複雑に関連しあった条件から結果が導かれる事象に対して、相関関係を捉えることで1つの重回帰式にまとめ上げます。重回帰式さえ手に入れば、説明変量の値を設定することで、目的変量をたちどころに計算(予測)することができるのです。
また、アンケートの項目や分類のように数値化されていないデータも数量化理論Ⅰ類で定量化することにより重回帰分析が可能です。単回帰分析やトレンド解析で予測不能な複雑な周期性を持つ未来を、ある程度の期間に渡って予測することも可能になるのです。
トレンド解析と単・重回帰でビジネス統計の集大成
本講座では、2変量を越える関係がどのように表現され、どのように重回帰式として利用されるのかを学んでいきます。単回帰に加えて、重回帰を扱えるようになれば、データ活用のエキスパートになれます。ただし、例の如く同時に計算量は膨大に計算手順も複雑になりますので、rpnという電卓ソフトを使って説明していきます。これにより、予測的手法をどうやって使うかということだけに注力して、計算作業なしに結果を得ることができます。
予測は難しいものです。予測誤差を5%に納めるのにはセンスと経験が必要になりますが、まずは基本を忘れずに予測することが大切です。相関の有無や程度、決定係数、回帰式の検定といった手順に従って、単回帰分析やトレンド解析、重回帰分析を行なうことで実践的な予測が可能になります。
本講座を学び終わる頃には単・重回帰分析やトレンド解析が互いに補完しあうことで、データを総合的に予測できるようになることが分かると思います。
ビジネス統計講座を受講するには、別途rpn標準版を購入する必要があります。詳しくは本ウェブサイトのプロダクトを参照ください。
本講座の記事やプログラムの正確性については最大限の注意を払っていますが、これらを利用することにより生じたいかなる損害についても、一切の責任を負えませんので、あらかじめご了承ください。
本講座は公式の証明、理論的背景の説明には注力せず、統計的な手法を利用することに重点をおいて解説しています。そのため、学術的な表現が厳密ではない部分があります。また、出典明記のないデータは現実に似せて人工的に作成したものなので、現状に即していない可能性があります。