ダイジェスト | かんたんデータ分析 [講座] | 逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓の実践ウェブ rpn hacks!

逆ポーランド電卓rpnの実践ウェブ   
rpn hacks! アールピーエヌ・ハックスサイトマップ

rpn | 講座 | かんたん分析 | 誰でもエキスパートになれるデータ分析のレシピを学習。

HOME > 講座 > かんたん分析 > ダイジェスト hatena yahoo buzzurl livedoor del.icio.us nifty newsing twitter facebook rss ソーシャルブックマーク

かんたんデータ分析のダイジェスト

かんたんデータ分析の”ダイジェスト”です。rpnを使ったデータ分析の概要がわかるように適当な部分をピックアップしてあります。

はじめにLinkIconも一読された上で、かんたんデータ分析講座を受講するかどうかの判断にお使いください。また、ページ右に試し読みLinkIconも用意してあります。納得された上での受講、お待ちしております。

「ソート分析」から一部抜粋

…ビジネスにおけるデータ分析の基本を押さえましょう。まず、分析で使う数字は”実数”と”比率”です。実数には売上高や在庫数などがあります。一方、比率は利益率や商品の占有率といったものです。この2つがデータ分析する際の単位になります。

次に意識することはデータ分析の対象です。ビジネスでは、必ず仕入先と販売先が存在します。自分をAとして仕入先をB、販売先をCとすると、以下の簡単な図式に…

        *


…次はもっと実践的なデータにしてみましょう。使用するデータは以下のとおりです。ファイル "data.txt"に格納されているとします。

  13926 42704 45379 34685 32205 33245
  19128 41910 41570 34521 28953 33958
                   :
  19675 34916 24795 21378 30242 28279
  25235 41117 26743 24777 32714 28244


12×6=72個の行列データです。このデータは、ある商品の営業担当6人分の月別売上だとしましょう。横軸が担当で、縦軸が1月から12月になります。単位が100円とすると、2番目の担当者の10月の売上は、272万3200円ですね。

このデータを分析してみましょう。営業担当ごとに年間の売上高を算出します。算出したデータをソートしてみると何が見えてくる…

「ディフ分析(ディブ分析)」から一部抜粋

…競争が良いか悪いかの議論は別にして、好むと好まざるに関わらずそういう社会に生きています。

企業でも、自社と他社の売上比較、昨年実績と今年の比較、予算との比較、商品ごとの売上比較、利益率の比較、人件費の比較に各種財務諸表の比較…など、比較する項目でいっぱいです。

そこで、次のデータ分析レシピはディフ分析です。ディフは違いという意味で、実数や比率を比較する分析のことをいいます。とてもよく使う比較のパターンを以下に示しますが、この4つの比較形式でディフ分析のほとんどをカバーでき…

        *


…データが12×2=24個ありますが、ビジネスデータによくある行列データですね。商品1を"*"、商品2を"+"として年間売り上げの推移をグラフにしてみましょう。

  ^y 15000
  |                            *
  |
  |                               *
  |     *                                *
  |                         *            +
  |
  |        *            *   +  +     +
  |  +  +  +   +  +  +  +         +  *
  |  *
  |               *  *
  |
  |
  |                                      x
  |o                                    12
  +--|--|--|---|--|--|---|--|--|---|--|-->


見た目で商品1は商品2に比べて売上も変動も大きいようですね。ここで、商品1と商品2を比較するディフ分析をしてみましょう…

「シェア分析」から一部抜粋

…現在のビジネスでは、それが商品の陣取り合戦、顧客の陣取り合戦、売上の陣取り合戦となっているに過ぎません。この陣取りの陣とはすなわちシェアであり、占有率のことです。シェアを取ることこそが勝利への道というわけです。

つまるところ、ビジネスの目標は利益を上げることと同等にシェアを取ることです。まれに採算度外視のビジネスが行われるのは、このシェアを目標としているからです。それほどにシェアという見方は重要なのです。実際、シェアさえ取ってしまえば売上は後から付いてくることもあります。例えば、日本の高度成長期はシェアを取ることへの執着があったからこそ…

        *


…ちなみにパレート図では構成比も一緒に図に表すことがあります。一度に見えて分かりやすいからでしょう。寄り道して作ってみましょう(npdで修飾)。それぞれのrpnの式などについては説明を省きますが、構成比と構成累積の2つのグラフをxypで別々に作って、npdを使って重ね合わせています。

  ^y 0.5                        ・ *      * ^1
  |                             ・          |
  -・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ |80%
  |                         *   ・          |
  |                             ・          |
  -     +            *  <------- 累積      |
  |                             ・          |
  |            *          構成比・          |
  -                         |   ・          |
  |            +            v   ・          |
  |     *            +      +   ・ +        |
  -                             ・          |
  |                             ・          |
  |                             ・        + |
  |o                            ・        6 |
  +-----|------|-----|------|------|----->


"*"が構成比の累積曲線です(軸は右)。"+"は降順の構成比になります(軸は左)。文字でのグラフなので見づらさについては了承願います。雰囲気が分かってもらえればOKです…

「トレンド分析」から一部抜粋

…売上や仕入、在庫、経費、顧客数…。これらの成長や後退の度合いを時系列に推移として把握しておくことは未来を見通すための前提条件です。多くの場合、前年や前月と比べて、どの程度上がったか下がったかをパーセンテージで表すことで、成長や後退の度合いを把握します。

より細かく前週や前日とのパーセンテージが必要なケースもあるかもしれませんが、細かければ精度の高い未来見通しが得られるかといえば必ずしもそうでもありません。かんばん方式のようにぎりぎりの管理をする必要がないならば、せいぜいでも週次くらいの感覚で十分…

        *


…グラフでは最後の6ヶ月分がデータ欠損していますが、最初の6ヶ月は平均を計算できないので前に詰めて表示されているだけです。先のグラフと重ね合わせてみましょう。

  ^y 25000
  |                    *
  -
  |                     *         *
  |
  -                       *         *
  |             *         + ++ +*++ +    *
  |                      +  *         +*
  -  *            *  * +     * *
  |            *    ++               *
  |   *      * ++ +*
  -*    *
  |       **
  |                                      x
  |o                                    24
  +--------|---------|---------|--------->


"*"が実際の売上データで、"+"が6ヶ月移動平均です。変動が相殺されて均されているのが分かりますね…

        *


…全部で18行ですね。すると18-6=12なので、13行目から18行目までをグラフ化すればいいわけです。末尾6行分を抜き出して、ファイルの"tmp"にいったん保存してから、グラフ化してみます。

  ^y 200000
  |
  |                  -
  -        -   -  -
  |  -  -
  |
  |
  -                  +
  |               +
  |            +
  |        +
  -
  |     +
  |  +  *  *   *                         x
  |o              *  *                  12
  +--|--|--|---|--|--|---|--|--|---|--|-->


期首から6ヶ月時点でのZチャートが描かれましたね。売上が5,6月と低調になっていますが、月次累計を見るとまあまあ直線です。年次累計も上昇傾向にあるので順調に…

「リグレス分析」から一部抜粋

…統計的な知識なしにリグレス分析を行うことはあまり好ましいこととは思えませんが、このリグレス分析を知っていること、扱えることはデータ分析を行う上で大きなアドバンテージとなるので、まったく触れないで通過するのも惜しい感じがします。

そこで、リグレス分析にどんな利用法があるのかを簡単に示したいと思います。厳密な検証は行っていませんが、ビジネスで利用する価値があるのかどうか十分に判断できる内容だと…

        *


…それでは、7期目の売上がどのくらいになるのか予測してみましょう。先のグラフを再掲します。

  ^y 500000
  |
  -
  |            *                                ?
  |                  *            +      +    予測値
  -            +     +      +     *
  |     +
  |
  -     *
  |
  |
  -
  |
  |                                      x
  |o                                     6  ... 7
  +-----|------|-----|------|------|----->    -->


このグラフの7期目"?"の場所を予測するわけです。どうやって予測するのか難しそうに見えますが、実は…

        *


…商品同士の相関関係を応用すれば、相関のない商品を組み合わせることで、全体として月別売上の変動を抑えることができます。変動が少なければ予実管理もしやすく、ビジネスの見通しも立てやすくなります。

これは資産運用の話でもあるのですが、現代ポートフォリオ理論では異なるリスク(変動性)を持つ商品同士を同時に保有することで、リスクを低減することができるというものです。昔から言われている資産の分散運用の考え方ですね。ただし、相関係数が低いもの同士の組み合わせである必要があります。

実際に、相関係数の低いもの同士の商品を組み合わせることで、変動が低くなるか試して…

「データ分析の展望」から一部抜粋

…データマイニングでは大量のデータには必ず宝物が埋もれていると言われます。「ビールとオムツが一緒に買われることが多い」「正月明けにはカレーがよく売れる」。データマイニングでは今まで気づきもしなかったルールや法則がコンピュータの解析で次々浮かび上がってくる様子が描かれます。

でも、これって何かおかしいと思いませんか。それは後付理論かもしれません。大量の過去データから都合のよい組み合わせを見つけたに過ぎず…

        *


…グラフにするのはきれいで楽しいものです。実際にグラフで分析して、あることに気付いたとしましょう。しかし、その気付きが全て目視であることがつらい点です。目視である以上、人によって解釈の違いが出てきます。

例えば、異常値の検出を考えてみましょう。データ自体をじっと観察しても何が異常値で何がそうでないかは人によって解釈がまちまちです。グラフ化しても同じことで人によって解釈が違います…

        *


…異常データを計算過程で見つけ出したり、範囲を逸脱した成長率の検出など(半)自動でチェックできます。

  +----------+      +-------+      +--------+
  | データベース | ---> |  rpn  | ---> | 表計算 |   ※データベースは表計算の
  +----------+      +-------+      +--------+     シートでも可。
       :                :              :
       :                :              :
    データの         データの      計算結果の
     蓄積              計算           表現
                        :
                        :
                  異常データの監視  --+
                   相関関係の確認     |
                 データの推定・検証   | <--- (半)自動化
                    データの予測      |
                 トレンド周期の抽出   |
                        :           --+


毎日の売上・仕入の入力データから異常値を見つけ出すことも、目視確認だけに拠らず自動化が…

「ビジネス統計への誘い」から一部抜粋

…あなたが自社商品の直近四半期におけるA地区とB地区の売上に違いがあるか検討する必要があったとしましょう。A地区とB地区の歩行者に商品を購入したかどうか調査した結果、A地区よりB地区の方が5%売上が多いと集計されました。そこで、B地区の方が売上が多いと結論付けたいところなのですが、そう簡単に決めていいのでしょうか。

A地区とB地区の違い、それは偶然かもしれません。つまり、B地区の方が5%売上が多かったのは事実なので間違いありませんが、だからといってB地区の方が売上が多いと結論付ける解釈は間違っているかもしれないのです。二度目、三度目の調査をすると違う結果になるかもしれませんし…

        *


…大企業ではもうちょっとレベルが上だろうと思われますが、実際は従業員が数万の大企業でもレベル3まで理解できている人は少ないのです。もちろん、研究職の人などは知っていて当然でしょうが、いわゆる営業職や事務職、管理職においても良くてレベル2なのが現実です。下手をすると技術職でもレベル3に達していない場合もあります。ましてや企業の規模が小さくなればなるほど基本的に統計知識のレベルは落ちていきます。

従って、レベル3,4,5,6,7とビジネス統計の階段を上がるにつれて、急速にライバルは少なくなっていきます。データ分析といったら「あなた」に白羽の矢が…

警告かんたんデータ分析講座を受講するには、別途rpn標準版を購入する必要があります。詳しくは本ウェブサイトのプロダクトを参照ください。

警告本講座の記事やプログラムの正確性については最大限の注意を払っていますが、これらを利用することにより生じたいかなる損害についても、一切の責任を負えませんので、あらかじめご了承ください。

カンタン分析パッケージ

警告文字で作られた図表や式が崩れることがあります(IEブラウザ)。崩れた場合は図表や式をメモ帳にコピーして閲覧ください。なお、Firefoxブラウザは問題ありません。

情報PDF版は図表や式が崩れることはありませんが、ページ区切りで改行されることがあります。連続ページの閲覧にて御了承ください。

警告rpn標準版(2kリビジョン)はダブルクォートで囲ってください。

rpn 1 2 + ⇒ rpn "1 2 +"
rpn 1 -c foo ⇒ rpn "1" -c "foo"

ダブルクォートは省略できることが多いのですが、慣れない間は囲んだほうが無難です。なお、本ウェブサイトの記事ではrpn標準版(98リビジョン)を使用しているため囲っていません。詳しくは技術サポートの「rpn TIPS」を参照ください。

注意rpnの障害情報と対策はこちら