ダイジェスト | ビジネス統計(単回帰編) [講座] | 逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓rpnの実践ウェブ   
rpn hacks! アールピーエヌ・ハックスサイトマップ

rpn | 講座 | ビジネス統計 | ビジネスの実戦で役立つ統計手法をしっかりと学習。

HOME > 講座 > ビジネス統計 > 単回帰編 > ダイジェスト hatena yahoo buzzurl livedoor del.icio.us nifty newsing twitter facebook rss ソーシャルブックマーク

ビジネス統計(単回帰編)のダイジェスト

ビジネス統計(単回帰編)の”ダイジェスト”です。rpnを使ったビジネス統計の概要がわかるように適当な部分をピックアップしてあります。

はじめにLinkIconも一読された上で、ビジネス統計講座を受講するかどうかの判断にお使いください。また、ページ右下に試し読みLinkIconも用意してあります。納得された上での受講、お待ちしております。

「相関係数」から一部抜粋

…x軸を身長の軸として150cmから200cmに設定し、y軸を体重の軸として50kgから100kgに設定します。それぞれのデータを打点(プロット)したグラフが以下になります。

  ^y 100                    *
  |                                     *
  |
  |               *    *
  |                  *
  |
  -
  |                        *
  |           **
  |             *
  |                                 順相関
  |
  |                                      x
  150             *                    200
  -50----|-------|-------|-------|------->


何か右肩上がりに規則性を感じることができませんか。このようにx軸の値が増えるとy軸の値も増える関係を…

「相関の色々」から一部抜粋

…2変量のデータさえ準備できれば、すぐにでも相関係数を計算することができます。関連のありそうな変量があれば相関係数でたちどころにその関連の程度まで数値化できるのですから、便利な指標であることに間違いはありません。

 しかし、相関係数だけを盲目的に信じていると大きな失敗を犯します。例えば、"外れ値"の問題です。本来、相関関係はないのに測定ミス、その他の理由により、外れ値が紛れ込んだ場合に相関関係ありとなってしまうケースがあるのです。前回に書籍の頁数と価格の相関図と相関係数を…

「無相関の検定」から一部抜粋

…例えば、相関係数で-0.2≦r≦0.2の範囲にあるとほぼ無相関であるとしました。しかし、そもそも10個のデータから計算した相関係数と100個のデータから計算した相関係数の信憑性に違いがないのもおかしな話です。また、相関係数の評価において、0.3だったら相関関係をどう判断するのかという問題が残ったままです(無相関なのか若干でも順相関ありとみるのか)。

 そこで、統計的に相関があるかどうかを検定する方法が必要になります。公式や数式の詳しい証明や理論的背景などは省略して、統計的手法の利用を優先して…

「一次直線の回帰式」から一部抜粋

…この「y=7.87374x+60.9529」が求めていた単回帰式です。この数式のxに15を代入して、答えを求めると先の質問に答えることができます。179.059ですね。つまり、15名の営業担当がいる場合、1億7千9百万円の売上が予測されることになります。また、この数式をよく見るとx値が1つ増えると、つまり営業担当が1人増えると787万円の売上が増加することが分かります。このように、a')の単回帰式は簡単で強力な予測ツールなのです。

先ほどの15人の売上予測ですが、得られた回帰式を参照しながら電卓で計算するのも方法なのですが、これも面倒なので、a')のrpn式は数値の代入にも対応しています。以下を参照ください。一発で予測値が…

        *


…先ほどの相関図と合成して描画してみますね(xypの機能を使って手作業で合成)。

  ^y 200
  |                           *          +
  |                           *    +  +
  |                           +  +
  |                      +  +
  |              *  + +     *
  -            + +    *  *
  | *       +
  |    * +
  + +  *
  |
  |
  |                                      x
  |o                                    15
  +------------|------------|------------>


"*"が実測値で、"+"が回帰式から求めた予測値です。誤差は当然ありますが、全ての実測値と予測値のそれぞれのy値(売上)の違いを自乗して総和した値が最も小さいところを回帰式で描いた直線が右斜め上に走っている…

「二次曲線の回帰式」から一部抜粋

…回帰式はプロットされたデータを近似する"直線"の数式です。従って、直線を思わせる分布になっている場合にはよく近似しますが、プロットした点の集まりが曲線になっているような場合には、直線の回帰式では実測値と予測値の残差が多くなり芳しくありません。いっそ、曲線の回帰式でもあればうまく近似しそうです。

実際、世の中には曲線で近似した方がよい例が意外に多くあるのです。特に自然界にはその傾向が強く、例えば、物が落下する時の時間と落下距離の関係は時間の自乗に比例して落下距離が増えていきますし、音の強さと距離は音源から離れると音源からの距離の自乗に反比例して音の強さが弱まっていきます。何故か、自然界には自乗(2乗)に比例あるいは反比例する事象が…

「指数曲線の回帰式」から一部抜粋

…二次曲線はx値が4を越えて増えていくと、y値もどんどん増加していってしまいます。それに対し指数曲線はx値が4を過ぎてからも、y値が0に限りなく近づいていきます(以下の表を確認してください)。

     予測値   予測値
  年 二次曲線 指数曲線
  0  22.2571  18.934
  1  11.7714  11.1695
  2  5.14278  6.58907
  3  2.37133  3.88701
  4  3.45702  2.29301
  5  8.39985  1.35269
  6  17.1998  0.797972


確かに内挿の近似では二次曲線の方が優勢ですが、外挿まで含めたモデルとして採用するならば指数曲線になります。10年、20年先まで適合するモデルではありませんが、x値が4を越えるとy値が現実的でなくなる二次曲線のモデルよりは…

「ロジスティック曲線の回帰式」から一部抜粋

…成長曲線は名前が示すとおり、生物の生長を研究する過程で生まれた曲線ですが、応用範囲が広く商品の普及度にも応用できます。例えば、新しい商品を市場に投入した場合、徐々に商品が市場に出始め(成長を始め)、そのうちに商品が認知されて普及期に入ります(急激に成長)。しかし、市場が飽和すると成長は鈍っていきます(これ以上の成長は望めない段階)。

このように成長曲線は将来の予測や制御にとても便利な曲線なのです。S字カーブを描く成長曲線には沢山の曲線があるのですが、ここでは基本的な成長曲線であるロジスティック曲線を…

「単回帰式の評価」から一部抜粋

…二次曲線はデータの98.2%を、指数曲線はデータの64.5%を説明していることになります。これで、残差平方和で実感が湧かなかったあてはまりの度合いが比率ではっきりと分かります。表にしてまとめておきます(*2)。

  統計年   実測値   一次直線  二次曲線  指数曲線
  ==============================================
     0        23     18.4     22.2571   18.934
     1        10     13.7     11.7714   11.1695
     2         6     9        5.14286   6.58907
     3         3     4.3      2.37143   3.88701
     4         3     -0.4     3.45714   2.29301
  ==============================================
  残差平方和         57.1     5.02852   19.5337
  決定係数           0.795    0.982     0.645


 決定係数を計算することで、導出した回帰式の精度がよいのか、よくないのかがはっきりします。もちろん、相関関係があるという検定を通過して、回帰式を導いた後の話なのですが、そもそも、二次・指数・ロジスティックなどの曲線近似の場合の相関係数は信頼できませんし、相関係数を利用する無相関の検定も使えません。しかし、決定係数であれば、実測値と予測値から精度評価するため、回帰式自体の正当性を評価できます。以下の問題で直線回帰、曲線回帰に決定係数が機能することを…

「単回帰式の検定」から一部抜粋

…導出した回帰式は果たして安心して使用できるのか(*1)。分散分析を行なうことで、その問いに答えることができます。先に分散分析表を示します。

*1 統計学では「回帰式は役に立つ」という言い方をします。

  分散分析表
  +--------+------+------+--------+-----+
  |変    動|平方和|自由度|平均平方| F値 |
  +--------+------+------+--------+-----+
  |回帰変動|  Sr  |  p   |   Vr   |     |
  +--------+------+------+--------+ Fo  |
  |残差変動|  Se  |n-p-1 |   Ve   |     |
  +--------+------+------+--------+-----+


何やら複雑な数式が潜んでいそうですが、重要なのは最後のF値です。このF値を検定統計量として、F分布表と照らし合わせて検定します。検定の結果、帰無仮説が棄却されれば回帰式は役に立っている(使える)と…

「単回帰予測アラカルト」から一部抜粋

①駐車スペースと売上高の予測

 以下は10店のスーパーにおける駐車台数と売上のデータです。一般的に駐車可能台数と売上高には関連があると考えられています。適切な回帰式を導出して、100台の駐車スペースのあるスーパーを新設する場合の売上高を予測します(売上高は月額、単位は十万円)。

    台数   売上高    台数   売上高
     28     219      44     350
     34     265      47     330
                 :


…さて、決定係数も回帰式検定も問題なくパスしたので、安心して回帰式を使った予測ができます。今回は100台の駐車スペースがあるスーパーの売上高予測ですので、xに100を代入して回帰式を計算すれば答えが出てきます。

②家計支出の予測

 以下は1980年から2001年までの家計支出データです。年々、支出額は伸びてきているようです。適切な回帰式を導出して、2002年の支出額を予測します(支出は月額、単位は千円)。また、1970年当時の支出額も予測してみます。

  年    支出    年     支出    年     支出
  1980   170    1990    244    2000    283
  1981   173    1991    251    2001    288
                    :


…予測値が293.708で予測誤差は0.0477691で4.8%です。少し精度が改善されていますが、実際に2001年時点で直線による回帰か曲線による回帰かを支出と年の相関図だけで判定するのは難しいでしょう。

③ダイアルアップ接続契約数の予測

 以下はインターネットプロバイダへのダイアルアップ接続契約数の推移データです。適切な回帰式を導出して、2004年3月の契約数(単位は万)を予測します。

  統計年  契約数     統計年  契約数     統計年  契約数
     0      1995       12      2080       24      1903
     1      2007       13      2063       25      1899
                           :


…CATVやADSL等の常時接続の社会インフラができてきたからです。しかし、全てが常時接続になるというシナリオには強引さが残ります。ある一定数のダイアルアップ接続を残して常時接続の契約になると考えるのが無難です。その意味では途中から指数曲線に切り替えて予測することは妥当な選択ではないでしょうか。

④携帯電話の世帯普及率の予測

 以下は携帯電話契約の世帯普及率の推移データです。適切な回帰式を導出して、2004年の普及率(単位は%)を予測します。

  統計年  普及率   統計年  普及率
     0      3.2       6     64.2
     1      5.8       7     75.4
                 :


…ちなみに、実測値では1999年で60%を越えて成熟期に入っていることが分かりますが、ロジスティック曲線で60%の点を見つけるには試行錯誤が必要です。ここでは、簡単に50%を過ぎる点を出してみます。50%のx値はロジスティック回帰式のα/βなので、3.14236を.620328で割った5.06564です。1993年が基準年ですから、1998.065641が変曲点であることが分かります。実測値の50%超過年と大体あっていますね。

警告ビジネス統計講座を受講するには、別途rpn標準版を購入する必要があります。詳しくは本ウェブサイトのプロダクトを参照ください。

警告本講座の記事やプログラムの正確性については最大限の注意を払っていますが、これらを利用することにより生じたいかなる損害についても、一切の責任を負えませんので、あらかじめご了承ください。

警告本講座は公式の証明、理論的背景の説明には注力せず、統計的な手法を利用することに重点をおいて解説しています。そのため、学術的な表現が厳密ではない部分があります。また、出典明記のないデータは現実に似せて人工的に作成したものなので、現状に即していない可能性があります。

統計処理パッケージ

基礎編

推定編

検定編

発展編

ビジネス統計(発展編)

  • 0) はじめに/ダイジェスト
  • 1) 残差分析
  • 2) レートシェア分析
  • 3) クラスター分析
  • 4) デンドログラム
  • 5) コレスポンデンス
  • 6) 主成分分析
  • 7) マトリクス分析アラカルト
  • 8) クラスター分析アラカルト
  • 9) コレスポンデンスアラカルト
  • 10) 主成分分析アラカルト

※本講座のトップへ

  ※0) はじめに/ダイジェストは
     無料公開されています。

試し読み版  

警告文字で作られた図表や式が崩れることがあります(IEブラウザ)。崩れた場合は図表や式をメモ帳にコピーして閲覧ください。なお、Firefoxブラウザは問題ありません。

情報PDF版は図表や式が崩れることはありませんが、ページ区切りで改行されることがあります。連続ページの閲覧にて御了承ください。

警告rpn標準版(2kリビジョン)はダブルクォートで囲ってください。

rpn 1 2 + ⇒ rpn "1 2 +"
rpn 1 -c foo ⇒ rpn "1" -c "foo"

ダブルクォートは省略できることが多いのですが、慣れない間は囲んだほうが無難です。なお、本ウェブサイトの記事ではrpn標準版(98リビジョン)を使用しているため囲っていません。詳しくは技術サポートの「rpn TIPS」を参照ください。

注意rpnの障害情報と対策はこちら