2011/05/30

統計学予想


◆記事中盤に以前行っていたナンバーズミニの予想方法も記載。
ここにグラフ化された5個のdata(赤点)があります。
(くじの結果もこういう感じで上下して一直線上はない!)
この間にある直線を引いた先にあるのが未来の値という考え
統計学では直線回帰分析と言いいます。

★ある直線はどうやって求めたらいいのでしょうか?
その直線の性質はその線からdataまでの値(d)を集計すると
0になる性質があります。(線の上下で±で分けるからです。)
dを統計学では残差と言い、予想値と実値のズレを意味します。
つまり各dataの残差を集計したら0にできる直線を求めます。
ミニロト予想
直線から各dataまでの値(d)はすべて異なる値になります。
赤い垂線dは点の値をyiとすればyを引いた物です。
d=yi-y=yi-(axi+b)=yi-axi-b
この残差dを二乗してから集計します。
Σ(シグマ)とはすべてのdataを集計するという意味です。
(初期値~あるdata Nの範囲まで)

次に求めたい直線の比例定数aと切片bで上の式を微分します。
その値を0とするのが最小二乗法でこれで直線のa,bを求めます。
高校課程の数学の知識が必要ですが、卒業されて時間が
経過されてるみなさんはお忘れだと思います。
ここはあくまでそんな物程度でご覧ください。

途中の式は数学の講義になるので省略しますが結果は

★これで直線y=ax+bのa,bが求められたので式が完成!
ただ微分ができないとまったく手が出せません。
普通ならここで"駄目だ!"になる方が多いと思います。
ですがエクセル予想記事で1.4.7.10.13.16.19の次に
何がくるか?でわかる様に実は裏側でそういう面倒な
計算はエクセルがしてくれるのです。

ただごまかしてると思われのが嫌なのでしてる事の
証明として、計算過程まで詳しく記事にしました。

★★★★★統計的予想例題★★★★★★★★★★★★
さっそく統計学を利用した予想方法を3個紹介します。

ある喫茶店の最高気温とアイスコーヒーの販売数
の関係dataです。(暑ければアイスコーヒがよく売れる)
これのdata相互は相関値Jが0.9もあり非常に
予想する上で好都合です。
相関値とは互いの関係においての影響度を示す値。(0≦J<1)
(後半に相関の求め方も説明しています。)

ミニロト予想
最高気温と販売数の散布グラフを書く、直線回帰分析で
関係式を作成する。(エクセルでもちろん行う)
ものの3分もかからない作業で完成です。
後は当日朝の天気予報の最高気温予想をXに入力するだけ
仕入れ材料の高い食品でこうした気温の影響の受ける物
でしたらできるだけ余分な量を買わないで済みます。
ですが計算値通りにピッタリにはまずなりません。
多少はばらつきという物が存在します。

結論を言えばその計算で出した値を中心に数個標準偏差の
範囲でばらつくのです。
相関が完璧な1の関係ならばらつきは発生しません。
けれど0.9でもかなり信頼性は高いdataです。
何も考えずに商売をしてる人より効率的な商売ができます。
小さなお店ではされてませんが、大きな外食チェーンなら
この位、いえもっと高度な分析をされてると思う!

皆さんの多くがズバリの結果をロトでは求めておられますが
一歩進んでこの予想値と実際の結果の差(残差)も定量的値と
して意識する事で予想精度は上がり、これが統計の世界です。
予想はズバリ100%を追求すると無理がきます
★90%とかならば極めて科学的★な扱いが可能となります。

-------------------------------------------------------------
ナンバーズミニ予想方法
以前、私はナンバーズの予想siteも運営していたのはご存知ですね
特にミニは年末から開始しましたが、統計予想により調子が良くて
連続して3回当選したり自分的にもよく当選していました。
この方法が統計学の利に適う理想的なナンバーズミニの予想法です。
ただ更新が毎日の事になり、労力的に継続が困難のため今後は
再開する予定はありません...そこであえて手法のみ無料公開しました。
たぶんこれを応用する事でロトにも利用できる日が来るかもしれません?
★ぜひロトファンの方も参考にされてください!

ナンバーズとロトの大きな違いは、前者は列のレンジが0~9と
きちんと決まっている
事なんです。
これはナンバーズミニの出目と前日との差(偏差)です。
見てもらうと相関が0.88で凄く出目と偏差に関連性が
あり
、ナンバーズは統計予想に向いてる証拠です。

他と同じ方法でまずは直線回帰式を作成してください。
ただ前述のアイスコーヒーの場合なら予想気温をTVで教えてくれます
がこの場合は未来に係る一部情報は一切ありません!
そこで日々の偏差を折れ線グラフにして推理します。
UPした6はそれまでの変化から推理すると偏差は0未満濃厚です。
偏差は0~-5として過程して、回帰式中のXに入れて計算させるだけ!
(微分計算はエクセルがするので、中学生でも慣れたらできると思う)


四捨五入すれば2.3.4がこの列では有力候補です。
ミニですともう1列ありますが仮にそこで7.8.9が有力
と出たとします。
すると以下の様な表が考えられここから9個のミニ予想数字
が生まれてきます。

あれずばり1個の予想値じゃないのか?
そうです。極めて可能性の高い候補数字を複数買います。
ミニは総数が100個しかありませんからばらつきの影響を
これでかなり減らす事ができるのです。
相関が1でない以上はズバリ1点というのはできないのです。
ですが非常に確率高い予想が可能となります。

その他こうした事もミニではわかっています。
・ミニはALL奇偶数、同一合計値などのフィルターは関係ありません
・出現合計値のみ統計学の正規分布になるのは昔から言われており
ミニは合計値6~12に全当選数の7割が集中します(中心極限定理)

★ロト6の場合の最大問題点は第一数字でも理論的には最大で
38という値がとれるほど、各列のレンジが大きいのです。
実際に大きな変化が発生した場合どうすれば?
(それにより相関値が大きく下がるのです。)
それが解決できればいっきに効果的な予想が可能です。
適当な区間のdataを常に扱いますから、一旦それが起きると
サンプリング期間にその値がある間は誤差が増えたままなんです。
今だ私も研究中ですからあなたも協力してくだされば幸いです。

------------------------------------------------------
重回帰分析

これまでは入力1・出力1の関係です。
場合によってはロト分析したい入力が複数で1個の出力(出目)との
関係を調べたい事もあると思います。
こういう複数の入力と1個の出力の関係を式化する方法を
重回帰分析(三次元分析とも言う)と言います。

これは前述した回帰分析より難しく一般の方では紙と鉛筆で
計算・分析するのは非常に困難です。
分析ツールの回帰分析を選択実行してください。
1入力では入力範囲指定は1列ですが、複数入力では入力列が複数
になるので単純に全列を入力指定されるだけです。

下の場合は入力X1~X3、出力Yの実績10個dataです。
これを重回帰分析で処理する事で以下の式を得る事ができます。
Y=3.458X1+1.053X2+0.043X3-213.699
逆にこの式にX1~X3の値を入れて予測値(Z)を算出しました。
実値(出力)と予測値の差が残差(K)です。
このdataは実は産業別dataと持ち家の数の集計結果ですが
相関も非常に高く、算出式も的確に傾向を反映しています。
何かの関連を見つけても最終的に式化できないと攻略法として
扱えません!
ミニロト予想
------------------------------------------------------
相関値を説明するとこれはエクセルの分析ツールの機能の一つ
この分析ツールはおそらく9割の方は使用された事がないと思います。
一般の生活では扱う事がないので標準状態ではこの様にメニューに
すら表示されません。
まずはアドイン機能で分析ツールをインストールしてください。
そうするとメニューに出てくる様になります。
(エクセルのインストールCDを準備してください。)

これをクリックするとdata分析に関する多種な分析ツールが
出てきますが今回は相関というのを選択します。
後は指示に従い、分析したい範囲を選ぶ実行するだけです。
これで2数の互いの影響度はあるか・ないか?確実に
勘でなく知る事ができ、関係ない事は以後無視しましょう!
ミニロト予想
相関値は一般的に0.2以下ですと無関係と言われますが相関が
0.65ですと表からある程度の関連性があると言えます。
(NHK放送大学教材資料から引用)◆⇒ロト6相関値チェック
ミニロト予想

0.9なんてあれば最高に良いdataですが容易には存在しません!
逆に言えば自分が関連があると信じていても相関が0.2や0.3
では意味がなく
、それを今後も予想材料にするのは無駄です。
尚、それが正しい分析結果ならば残差の集計は0になります。
結果と予想値の集計は必ず同じ値になります。


分析ツールには各種ありますが、基本統計量、相関、回帰分析
の3個を使うのはほとんどでしょう!
最初の近似線予測の方法ですと結果だけが表示されますが
そこに至る各dataの分析ができません。
分析ツールで回帰予測をさせると各種情報も表示されます。
仮に回帰式Y=0.8154X+8.2254、相関が0.65
とするならば、それを示すのが黄色の部分です。

各項目の説明は統計本を参照されてください。
この中で標準偏差という有名なのだけ説明します。
サンプリングされた区間でこの値が小さい程、ばらつきの
度合い
が小さい事を意味していて、そういう状態の傾向が
あるロト6の列は狙い易い事を意味しています。
逆に大きければ数値予想が難しい状況で想定外が多発しています。
今ロトの各列がどういう状態であるのか?
それを細かく意識して一瞬のワンチャンスを逃さない方こそが
高額当選に一番近い方でしょうね!

★★★★★★★★★★★★★★★★★★★★★★★★
2年間研究してきてわかったのは
必要なのは予想の方法じゃあないんです!
★ロトの出目結果と極めて、影響度の大きい何かです。★
それがあるなら関係を式化すればいいだけの事です。

科学者がまずは実験の結果と正確なdataに拘るのは
それと同じ理由からで理屈を優先すると新しい発見が見えません。
立証する手法や理論などは後からでも解明できます。
----------------------------------------------
Blogでの家族紹介で私の父は歴17年の電気技師と紹介しましたが
エネルギー管理という仕事をしています。
その父からはよくこの予想という言葉が出てきます。
たとえばみなさんがお使いのエアコンですが、これはどういう仕組み
で制御されているのでしょうか
私は電気技師の娘ですから多少はそういうのに興味があるんです。

15年位前のエアコンですとフィルターのとこにセンサーがあり
これを室内温度として制御されていました。
ですがあくまで一局所の温度変化であり、25℃設定でその温度を
超えてから冷房能力を強くしていては
快適な温度環境には
間に合いません!

最先端のエアコンでは室内に人が何人いるのか?
人は動いているのか、静止しているのかなどいろんな条件を
赤外線センサーみたいな物で読んでいます。(MOVE EYE機能)
現在の熱負荷のままで推移した場合、将来どうなるのかを判断
して、部屋の温度が上がる前に冷房の強さを微調整しています。
そうこれこそが予想という行為その物です!