はじめに
ビジネス統計(基礎編/推定編/検定編)でデータの特徴や傾向を把握できるようになりました。データさえ揃えれば、大抵のことは指標化できますし、比較もできます。平均、分散、比率を基準に、母集団の推定、検定、二組データの差の検定など、どんなデータも統計処理することでたちどころに本質を掴むことができそうです。
事実、ビジネス統計(基礎編、推定編、検定編)をマスターすれば、今まで不明瞭かつ大雑把に捉えていたデータを明瞭かつ正確に分析できます。「ある地区で30人にアンケートを取ったら20人が好意的だった。地区内に好意的な人が過半数いると判断してよいか?」という問いに統計的にしっかりと答えられます(好意的な人の割合が50%より大きい確率は96.7%である)。
関連性を知るためのドアを開けるには
しかし、「身長と体重にはどのような関係があるのだろうか」といった疑問にはどう答えることができるのでしょうか。多分、身長が高ければ体重も重いという関係はありそうですが、今までの統計技術を使ってどこまで分析できるのでしょうか。身長と体重のそれぞれの平均や分散は求まりますし、分布形状もデータが揃えば度数分布で分かります。しかし、身長と体重の関係は分かりません。それぞれの平均や分散を求めたいわけでも、母集団の推定を行ないたいわけでもありません。ましてや身長と体重の二組データの母平均や分散の差の検定を行なっても意味がありません。
唯一、独立性の検定は使えそうです。身長と体重のデータを階級毎に度数を取ってクロス表にして検定すれば身長と体重が関連しているかどうかは分かります。しかし、どの程度関係しているかは全く分かりませんし(検定統計量の大きさによって全く分からないわけではないけれど)、ましてや身長が○○cmだった時に体重は○○kgになるだろうという"予測"は全くできません。
このように、ビジネス統計(基礎編/推定編/検定編)で学んだ統計技術は母集団や標本データの現状を推定したり検定することは得意でも、二組のデータにどのような関係があるのかを知ることはできません。実は、上記の問題に答えるには相関と回帰という重要な概念が必要になるのです。
相関と回帰がドアのカギ
相関や回帰の世界では、変化するデータのことを変量と言います。例えば、身長と体重の二組のデータを2変量と表現します。その2変量間に何らかの関連が考えられる場合に相関関係があると言います。また、2変量間の関連度合いは相関係数で数値化することができます。回帰式はその相関関係を数式で表したものですが、未来を予測することにも役立てることができます。つまり、1変量が変化した時に他方の変量がどのように変化するかを回帰式が教えてくれるのです。
また、興味深いことに回帰式で未来を予測することは過去を推測することと同じです。最近10年の売上高を調査して、10年後を予測することは20年前を振り返ることと同じなのです。
相関と回帰を発見したのはゴルトン(1822~1911)です。身長の高い親から生まれる子供の身長は親よりも低くなる割合が多いという現象を研究している際に考えついたのが、相関であり回帰という概念でした。例えば、親の身長と子の身長をそれぞれx軸とy軸として、交差する点をプロットすると、2変量(親と子の身長)の関係が相関図で表されます。そして、そのプロット点はある直線に従って並んでおり、よく観察すると身長の高い親から身長の高い子が必ず生まれるわけではなく、どちらかと言えば今までの平均身長に回帰しているように見えるのです。その直線が回帰線であり、数式で表されたものが回帰式です。相関や回帰はその後、2変量を越える重相関に概念を拡張したエッジワース(1845~1926)や相関の概念を一般化したピアソン(1857~1936)によって、現在の回帰分析に至っています。ちなみに、相関は英語でregressと表現されますが、ゴルトンは最初に退行を意味するreversionを使ったそうです。
現状の把握から未来の予測へ
本講座では、2変量の関係がどの程度の強さ(相関係数)で存在するのか、どのように数式(回帰式)として表現されるのかを学んでいきます。相関と回帰を扱えるようになることは、データ活用のレベルが大幅にステップアップすることになりますが、同時に計算量も増えて計算手順も複雑になります。そこで、rpnという電卓ソフトを使って説明していきます。これにより、予測的手法をどうやって使うかということだけに注力して、計算作業なしに結果を得ることができます。
相関関係は因果関係よりも広範囲に適用できる強力な概念で、科学からビジネスに至るまでその応用範囲は無限大です。また、相関関係を数式で表した回帰式は相関を元にした2変量の因果関係を扱うことができます。
本講座を学び終わる頃には、母集団を推定・検定するといった現状を把握することを越えて、関係を把握して未来を予測するという科学的なアプローチができるようになっていることでしょう。
ビジネス統計講座を受講するには、別途rpn標準版を購入する必要があります。詳しくは本ウェブサイトのプロダクトを参照ください。
本講座の記事やプログラムの正確性については最大限の注意を払っていますが、これらを利用することにより生じたいかなる損害についても、一切の責任を負えませんので、あらかじめご了承ください。
本講座は公式の証明、理論的背景の説明には注力せず、統計的な手法を利用することに重点をおいて解説しています。そのため、学術的な表現が厳密ではない部分があります。また、出典明記のないデータは現実に似せて人工的に作成したものなので、現状に即していない可能性があります。