ダイジェスト | ビジネス統計(基礎編) [講座] | 逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓rpnの実践ウェブ   
rpn hacks! アールピーエヌ・ハックスサイトマップ

rpn | 講座 | ビジネス統計 | ビジネスの実戦で役立つ統計手法をしっかりと学習。

HOME > 講座 > ビジネス統計 > 基礎編 > ダイジェスト hatena yahoo buzzurl livedoor del.icio.us nifty newsing twitter facebook rss ソーシャルブックマーク

ビジネス統計(基礎編)のダイジェスト

ビジネス統計(基礎編)の”ダイジェスト”です。rpnを使ったビジネス統計の概要がわかるように適当な部分をピックアップしてあります。

はじめにLinkIconも一読された上で、ビジネス統計講座を受講するかどうかの判断にお使いください。また、ページ右下に試し読みLinkIconも用意してあります。納得された上での受講、お待ちしております。

「平均値」から一部抜粋

…しかし、厳密に真ん中になるかというとそうとも言えず、以下の例を見てみると、

  1が1個と9が4個あると、  1 9 9 9 9          ⇒ 7.4

  1が1個と9が9個あると、  1 9 9 9 9 ... 9    ⇒ 8.2


になるのでいずれも1と9の真ん中の5からは離れています。しかも、真ん中の5から掛け離れた数値があればあるほど5から遠ざかっていくようです。このように真ん中の値から平均して左右にばらついていた時以外は、平均が真ん中あたりの数を意味すると言うのは間違い…

「最小値と最大値」から一部抜粋

…これらを表にまとめると以下のとおりです。

                    平均値  最小値  最大値  レンジ
  a)の300個データ      500       1    1000     999
  b)の300個データ      500     450     549      99


平均値に違いがないのに、レンジには実に10倍の差があります。上のデータ数は300個なので、まだ見た目に違いが何となく分かります。しかし、データの数がもし、10倍の30,000個だったら…ほとんど把握することはできませんね。最小値と最大値の差であるレンジによる把握は単純な方法ですが…

「中央値と最頻値」から一部抜粋

…高度な統計処理を行なう際には、中央値を利用することもあるのですが、ビジネスの世界では(日常でも)データの代表値として、中央値が使われることはあまりなく、馴染みの薄い代表値です。それに対して、最頻値は平均値ほどではありませんが、使われることがあります。

例えば、サラリーマンの給与額や世帯の総貯蓄額は、それぞれ平均を取ると大多数の人のそれを大きく超えています。これは極端に大きな数値(高所得)があるとそちらの方に引っ張られるという平均(算術平均)の特徴から出てきます。つまり、多数を占める人の懐具合とは掛け離れたところに数値があるわけです。それに対し、最頻値の場合は…

「母集団の分散と偏差」から一部抜粋

…具体的に分散値を計算してみましょう。以下のデータd)とe)を用意します。

  1 2 3 4 5 6 7 8 9                                 ...... d)
  3 4 4 5 5 5 6 6 7                                 ...... e)


見た目にe)よりd)の方がばらついているように思えます。例えば、平均値は共に5ですが、レンジがd)は8なのに対して、e)は4です。また、最頻値がe)は5が3度出現していますし、4や6も繰り返し出現しています。このように代表値の関連具合で捉えると、e)はまとまっていて、d)はばらついているようにも思えます。このようなばらつき具合を1つの数値指標である分散で表すと…

「標本の分散と偏差」から一部抜粋

…統計を学んでいくと、標本(sample)という考えが出てきます。標本とは計測されるべきデータの全部(母集団)を使って統計処理をするのではなく、それより(かなり)少ないデータを使って統計処理するものです。実際問題、母集団全てのデータ計測はコストが掛かって現実的でないとか、母集団自体がどれだけあるのか分からないといった時には、標本で統計処理するしか…

「度数分布」から一部抜粋

…これも手作業で度数を数えてグラフ化します。

           0    10   20   30   40   50   60   70   80   90   100
           |    |    |    |    |    |    |    |    |    |    |
  0~10    *****
  10~20   ***************
  20~30   ***********************
  30~40   **************************
  40~50   ****************************
  50~60   **************************
  60~70   *****************
  70~80   ********
  80~90   *****
  90~100  **


このように度数分布にすることでデータの特徴と傾向が視覚化できました。a)のデータが0~100まで均等に存在しているのに対し、b)のデータは真ん中あたりに度数が多く、両端は少ない…

「データの標準化」から一部抜粋

…実際、第一営業部は国内営業であり、第二営業部は海外営業であるとすると、そもそも土俵の違う営業部なのに、一律に成績65点の部員を同じ評価にするのは無理があります。少なくとも営業部内での成績分布に応じて評価されるべきです。つまり、第一営業部の65点と第二営業部の65点は重みが違うというわけです。

 そこで、第一営業部と第二営業部共に平等な評価基準が必要になってきます。そのためには、データの標準化というステップを踏みます。以下の式を適用することで、全てのデータを標準化する…

「ガウス分布」から一部抜粋

…このガウス分布の面白いところは中心が平均値で、そこから標準偏差分だけ離れた範囲内に存在するデータの数が全体の68.26%だということです。つまり、平均値±標準偏差の中に68.26%のデータが含まれるわけです。同様に標準偏差の2倍の分だけ離れた範囲内に存在するデータは95.44%になり、3倍は99.73%になるのです。分かりやすく書くと以下のようになります(平均をμ、標準偏差をσとする)。

  μ±σに68.26%   μ±2σに95.44%    μ±3σに99.73%  


また、面白いことに平均から標準偏差だけ離れたところは釣鐘状の曲線の変曲点に…

「連続型確率分布」から一部抜粋

…そこで、xを-3から3まで0.1刻みで変化させた時のyの値をプロットしてみましょう。rpnとxypを使って描画します。

                     y^0.5
                      |
                     **
                   ** |**
                  *   |  *  <- 凸型
                **    |   **
                *     |    *
              **      |     ** <- 変曲点
              *       |     |*  
            **        |     | **
           **         |     |  ** <- 凹型
          *   面積=1  |     |    *
        **            |     |     **     x
  -3****              |o    v       *****3
  ------|------|------+-----|------|----->
                  μ(平均)  σ(標準偏差)


文字で描画したのでいびつになっていますが、これがガウス分布(標準正規分布)のグラフになります。例の釣鐘状ですね。x軸の両端は-3から3にしたのですが、実際は両端が無限に広がっています。この釣鐘は…

「離散型確率分布」から一部抜粋

…最後に、ポアソン(1781~1840)分布です。めったに起こらないことが起こった時の事象を説明するのに適した分布で、交通事故やハードウェアの故障などが適合します。一定の時間間隔においてある事象が起こる回数だけを考慮した分布であり、二項分布や超幾何分布のように試行回数があるわけではありません。数式は以下のように定義されますが、ポアソン分布の平均はm、分散もm…

警告ビジネス統計講座を受講するには、別途rpn標準版を購入する必要があります。詳しくは本ウェブサイトのプロダクトを参照ください。

警告本講座の記事やプログラムの正確性については最大限の注意を払っていますが、これらを利用することにより生じたいかなる損害についても、一切の責任を負えませんので、あらかじめご了承ください。

警告本講座は公式の証明、理論的背景の説明には注力せず、統計的な手法を利用することに重点をおいて解説しています。そのため、学術的な表現が厳密ではない部分があります。また、出典明記のないデータは現実に似せて人工的に作成したものなので、現状に即していない可能性があります。

統計処理パッケージ

基礎編

推定編

検定編

発展編

ビジネス統計(発展編)

  • 0) はじめに/ダイジェスト
  • 1) 残差分析
  • 2) レートシェア分析
  • 3) クラスター分析
  • 4) デンドログラム
  • 5) コレスポンデンス
  • 6) 主成分分析
  • 7) マトリクス分析アラカルト
  • 8) クラスター分析アラカルト
  • 9) コレスポンデンスアラカルト
  • 10) 主成分分析アラカルト

※本講座のトップへ

  ※0) はじめに/ダイジェストは
     無料公開されています。

試し読み版  

警告文字で作られた図表や式が崩れることがあります(IEブラウザ)。崩れた場合は図表や式をメモ帳にコピーして閲覧ください。なお、Firefoxブラウザは問題ありません。

情報PDF版は図表や式が崩れることはありませんが、ページ区切りで改行されることがあります。連続ページの閲覧にて御了承ください。

警告rpn標準版(2kリビジョン)はダブルクォートで囲ってください。

rpn 1 2 + ⇒ rpn "1 2 +"
rpn 1 -c foo ⇒ rpn "1" -c "foo"

ダブルクォートは省略できることが多いのですが、慣れない間は囲んだほうが無難です。なお、本ウェブサイトの記事ではrpn標準版(98リビジョン)を使用しているため囲っていません。詳しくは技術サポートの「rpn TIPS」を参照ください。

注意rpnの障害情報と対策はこちら