prob:2012 [Applied Statistics and Data Mining]

確率論

このページへの短縮URLはhttp://bit.ly/ymmtprob2012(山本確率2012の略記)。

お知らせ

2012.04.12は溢れたので、講義はせずに、ガイダンスに留めました。
2012.04.19は西9号館1階の135という教室を使います。キャンパスマップの69番です。今日の出席率に基づいて、教室をどこにするか決定します。
2012.04.19以降、教室を西9-135に変更しました。
2012.05.25 指数分布の分散は <jsm>\frac{1}{\lambda^2}</jsm> …
2012.05.31 中間試験は当初6月14日の予定でしたが、山本が6月21日に都内出張の予定が入りそうなため、中間試験を6月21日に変更させてもらいました。6月7日までの内容を範囲とすることには変更はありません。
2012.06.18 試験の範囲についての質問がありましたので回答します。
- 標準化は特に講義中には説明しませんでした。参考書の2章に記述があり、確率分布の平均が0、分散が1になるような変換のことです。出題するとしたら、定義と出題意図は明記します。
- モーメントについてプリントに記述がない、との指摘がありましたが、講義中にモーメント母関数と一緒に説明しました。(確率変数の期待値は原点まわりの1次のモーメント、確率変数の分散は期待値まわりの2次のモーメント、確率変数の2乗の期待値は原点まわりの2次のモーメント、と説明した記憶があります)
- 独立性と和や積の分布、とある項目については、互いに独立な確率変数の和や積について、これまでの講義の範囲でできること、を考えて貰えれば良いです。
2012.06.21 中間試験の出席者は141名でした。
2012.07.05 追試のアナウンスをしました。中間試験の答案は、明日からJ専攻事務室で返却します。
2012.07.06 中間試験の答案返却は月曜日からに変更させてください。こちらの手違いで、詳細な点数が入力されていませんでした。
2012.07.07 追試希望者を2名、受け付けました。
2012.07.08 配付資料にいろいろタイプミスがありました。とりあえず課題の部分だけ直した差し替え版をアップロードしました。お詫びに少し、解説を加えました。
2012.08.08 一応、関数電卓のみ持ち込み可、にします。持ってこなくても何とかなる計算ばかりとは思いますが・・・。
2012.08.09 130点満点になりそうです。加減乗除の他に平方根の計算があります。指数の計算は無いので、普通の電卓でも大丈夫かもしれません。
2012.08.09 期末試験の受験者は114名でした。180部用意したのに、1/3以上がゴミになるなんて・・・。
2012.08.10 解答例の採点者向け速報版。このまま書いて、満点が貰えるかどうかは保証せず。

担当

教員：山本
ＴＡ：横山(鈴木研院生)

到達目標 (2012.06.07更新)

確率表を用いた確率計算(同時確率, 条件付確率, 周辺確率, ベイズの定理)を修得する
1変量確率モデル(確率分布)を用いた確率計算(期待値, 分散, )を修得する
多変量確率モデルの扱いを修得する(同時分布,条件付分布,周辺分布)
確率不等式(マルコフ、チェビシェフ、・・・)を習得する
2つの確率収束定理(大数の法則、中心極限定理)を理解する

中間試験では最初の２つについて、理解度を問います。

参考書・参考ドキュメント

「確率・統計解析の基礎」, 久保木久孝・著, 朝倉書店
「統計学のための数学入門30講」, 永田靖・著, 朝倉書店
「統計技法」, 宮川雅巳・著, 共立出版
確率分布公式集, 清水邦夫・渋谷政昭・横内大介・高際睦
「中心極限定理」, 清水良一・著, 教育出版, 1976.
「情報理論講義」, 小林欣吾・森田啓義・共著, 培風館, 2008.

授業計画

回	テーマ	トピック	予定日	配付資料(レポート課題込み)	実際
#01	ガイダンス、確率の基礎概念（１）	事象，確率	2012.04.12	なし。
#02	確率の基礎概念（２）	事象，確率	2012.04.19
#03	確率の基礎概念（３）	条件つき確率と独立性，ベイズの定理	2012.04.26	prob-3-note-and-quiz-20110426.pdf
#04	確率変数と分布関数（１）	確率変数，確率分布，分布関数	2012.05.10	prob-4-note-and-quiz-20120510.pdf
#05	確率変数と分布関数（２）	確率変数のモーメント，分散	2012.05.17
#06	モーメント母関数とその応用（１），離散型確率モデル（１）	モーメント母関数，ベルヌーイ分布，二項分布	2012.05.24	prob-6-note-and-quiz-20120525.pdf	累積分布関数、指数分布の例、密度関数、期待値(母平均)、分散、標準偏差、指数分布を取り巻く算術、離散確率分布の確率関数、期待値、分散、二項分布
#07	離散型確率モデル（２），連続型確率モデル（１）	幾何分布，負の二項分布，ポアソン分布，指数分布	2012.05.31	prob-7-note-and-quizes-20120531.pdf	モーメント母関数、二項分布と指数分布の例、期待値の分配法則(和と定数倍)、たたみ込み
#08	連続型確率モデル（１）	ポアソン分布と指数分布の関係，正規分布	2012.06.07	prob-8-note-and-quizes-20120607.pdf	二項分布、ガンマ分布、指数分布、ポアソン分布 (負の二項分布と幾何分布は宿題)
#09	確率ベクトルと分布関数（１）	確率ベクトル，同時分布，周辺分布	2012.06.14	prob-9-note-and-quizes-20120614.pdf	不等式尽くし
#10	中間試験		2012.06.21	prob-a-mid-term-exam-20120621-for-students.pdf	第8回までの内容
#11	確率ベクトルと分布関数（２）	確率変数の独立性，同時モーメント，共分散，相関係数	2012.06.28	prob-b-note-and-quizzes-20120628.pdf
#12	モーメント母関数とその応用（２）		2012.07.05	prob-c-note-and-quizzes-20120705-r2.pdf	これ何・・・？
#13	連続型確率モデル（３）	２変量正規分布	2012.07.12	prob-d-note-and-quizzes-20120712-b.pdf	必ず1回はかかる
#14	大数の法則		2012.07.19	prob-e-note-and-quizzes-20120719.pdf	大数の法則と中心極限定理はたぶん1回で終わらせる
#15	中心極限定理		2012.07.26	prob-f-note-and-quizzes-20120726.pdf
#16	~~標本分布論~~		~~2012.08.02~~	~~あ、ここは補講等調整期間だ~~	~~これ、たぶんやらない~~
#16	期末試験		2012.08.09	prob-g-final-exam-20120809.pdf

この講義に関する負担

去年の反省を踏まえて、明確にします。

来週以降、試験の週を除いて毎週、課題を課します。(木曜出題→月曜昼休み提出→木曜返却、のサイクル)
中間試験と期末試験を行います。
出席はとりません。
成績評価は、課題と試験を総合して、学習の到達目標に達成しているかどうかの評価を行います。(課題ができていて、試験が少しできていなければ、救ってあげますが、課題ができていて、試験がぜんぜんだめなら、到達目標を達成しているとみなせないので・・・)

メモ

#01 2012.04.12

教室が溢れて授業ができませんでした。各人各様に月曜２限を履修できない事情があるようなので、教室の変更の検討を教務課に依頼しました。

「喫煙は、さまざまながんの原因の中で、予防可能な最大の原因です。日本の研究では、がんの死亡のうち、男性で40％、女性で５％は喫煙が原因だと考えられています。特に肺がんは喫煙との関連が強く、肺がんの死亡のうち、男性で70％、女性で20％は喫煙が原因だと考えられています。」(喫煙とがんより)
「喫煙は、がんだけでなく、冠動脈心疾患（狭心症、心筋梗塞など）や脳卒中など循環器の病気、肺炎や慢性閉塞性（へいそくせい）肺疾患（ＣＯＰＤ）など呼吸器の病気の原因でもあります。」
「慢性閉塞性肺疾患が起こる最大の原因は喫煙ですが、この病気になるのはタバコを吸う人の約15.20％にすぎません。」(http://www.koide-s.co.jp/heisoku.html
「喫煙者でタバコに感受性があると考えられる COPD 患者(約 15%)では、健康成人の 3 倍、1 年間あたり約 60mL 以上のペースで肺機能が低下していくため、中高年を迎えるころには、息切れなどの臨床症状によって日常生活に支障をきたし、やがては HOT(在宅酸素療法 )、そして最終的には死亡に至る。喫煙者の残り 85%は、非喫煙者と感受性のある者との間に正規分布するという。」喫煙と呼吸器疾患より)
競馬の払い戻し (JRAホームページお問い合わせより)
「Q. 競馬の控除率は２５％と言われますが、どうして２５％になるのですか？ A. 競馬の控除率は２５％と言われますが、払戻金の算式を見ればわかるように売上総額から一律に２５％を控除しているわけではありません。実際の控除率は、理論上１８％～２６．２％の間の値をとり、そのレースの不的中分が多ければ高くなり、少なければ低くなるというように変化します。また、的中が多いレース＝本命サイドで決着したレースでは控除率は低くなり、的中が少ないレース＝大穴が出たレースでは控除率が高くなりますが、これらの控除率を平均すると、約２５％になるので「控除率は２５％」と言われているのです。」JRAホームページお問い合わせ

([[http://www.soumu.go.jp/main_content/000084191.pdf|宝くじ・公営競技・サッカーくじの実効還元率]]より)

還元率
競馬：
競艇：
|競輪|払い戻し 75%, 施行自治体の収益(開催経費を含む) 20.6%, 金融公庫への納付金 1.1%, 日本自転車振興会への交付金(自転車等機械工業振興補助事業 1.6%, 体育・社会福祉等公益事業振興補助事業 1.4%, 競技の公正かつ円滑な実施を図るための事業 0.3%) 3.3% ([[http://www.city.takamatsu.kagawa.jp/file/2962_L11_keirinshikumi1.pdf|競輪のしくみ]]より)|

70%にする案が検討中

|宝くじ|当選金 46.2%, 印刷経費・売りさばき手数料など 14.7%, 都道府県及び20指定都市へ納付 39.1% [[http://www.takarakuji-official.jp/educate/about/proceeds/index.html|宝くじについて 収益金の使い道|宝くじ公式サイト]]より)|
パチンコ・パチスロ：

#02 2012.04.19

試しに教室を大きくしてみることにしました。空いている教室が、B棟の階段教室と、西9-135しかありませんでしたので、今週は、東地区のA101ではなく、西地区の一番奥の「西九号館」という建物の１階の１３５という教室を使います。恐縮ですが、東(の一番手前のA棟)から西(の一番奥の西9号館)まで5分ほどかかります。

確率変数を定義した、らしい。

#03 2012.04.26

標本空間と確率変数と部分集合族の例と復習
サイコロを念頭に、加法族、確率の公理、加法法則、条件付き確率、乗法法則、の説明まで。
第3回課題を配布した。

#04 2012.05.10

第4回課題を配布した。
加法法則、乗法法則、条件付き確率の公式
ベイズの定理(標本空間を制限したときの条件付き確率の計算方法)
前回の課題の解説
離散集合と連続集合
標本空間が離散集合の場合の事象は点の集合で定義され、標本空間が連続集合の場合の事象は区間で定義される
分布関数の定義: <jsm>F\left(a,b\right)=Pr\left[X\in\left[a,b\right)\right]</jsm> と2変数関数として確率を定めるよりは <jsm>F\left(b\right)=Pr\left[X\in\left(-\infty,b\right)\right]</jsm> と1変数関数で定義するのがいい。区間確率は <jsm>Pr\left[X\in \left[a,b\right)\right] = F\left(b\right)-F\left(a\right)</jsm> と計算できるから。

分布関数は定義しただけなので、確率の公理を満たす確認は次回。そして、半端なところで終わったので、課題として配布したのは、次回に改めて課すつもりで、今回は無し。

#05 2012.05.17

#06 2012.05.24

前回の講義を補足するノートと課題を配布した。(最終更新 02:22pm)
昨日の配付資料には、まだ誤植があり、また誤りもあったので訂正した。ダウンロードする人は、翌日に差し替えたこちらを。

以下は、今回のノートの図を作成するための、R言語のコード。

## source("prob-6-figures.r.txt") will produce the following EPS files.
# exponential-distribution-1.eps
# binomial-distribution-20-0.3-mean-stddev.eps
# exponential-distribution-1-mean-stddev.eps
# binomial-distribution-0.3.eps
# binomial-distribution-0.5.eps
# binomial-distribution-0.7.eps
# binomial-distribution-20-0.3.eps
# binomial-distribution-20-0.5.eps
# binomial-distribution-20-0.7.eps
# binomial-distribution-2-0.3.eps
# binomial-distribution-2-0.5.eps
# binomial-distribution-2-0.7.eps
# exponential-distribution.eps


## Binomial distribution

plot.binom <- function( size, prob, col="black", epsilon=0, connection=FALSE, cumulative.prob=FALSE) {
  probs <- NULL
  cprobs <- NULL
  for( k in c(0:size) ) {
    lines(c(k,k)+epsilon, c(0,dbinom(k, size=size, prob=prob)), type="l", col=col)
    probs <- append(probs, dbinom(k, size=size, prob=prob))
    cprobs <- append(cprobs, pbinom(k, size=size, prob=prob))
  }
  if( connection==TRUE ) {
    lines(c(0:size)+epsilon, probs, type="b", col=col)
  }
  if( cumulative.prob==TRUE ) {
    lines(c(0:size)+epsilon, cprobs, type="b", col=col)
  }
}

## Mean and standard error

lines.binom.12 <- function(size, prob, delta=0, epsilon=0, lty=1, lwd=1, col="black", ylim=c(0,1)) {
  lines( c(size*prob, size*prob), c(ylim[1]+delta, ylim[2]-delta), lty=lty, lwd=lwd, col=col)
  lines( c(size*prob-sqrt(size*prob*(1-prob)), size*prob+sqrt(size*prob*(1-prob))),
         c(mean(ylim), mean(ylim)), lty=lty, lwd=lwd, col=col)
}

# prob=0.5, n=c(1,3,5,10,20)
postscript("binomial-distribution-0.5.eps", width=8, height=4)
plot(c(0,20), c(0,0.7), type="n", xlab="k", ylab="probability", sub="prob=0.5")
plot.binom( size=1, prob=0.5, col="black", epsilon=0.0, connection=TRUE )
plot.binom( size=3, prob=0.5, col="red", epsilon=0.1, connection=TRUE )
plot.binom( size=5, prob=0.5, col="green", epsilon=0.2, connection=TRUE )
plot.binom( size=10, prob=0.5, col="blue", epsilon=0.3, connection=TRUE )
plot.binom( size=20, prob=0.5, col="blue", epsilon=0.4, connection=TRUE )
legend(12, 0.6, lty=1, col=c("black","red","green","blue","purple"),
       legend=c("size=1","size=3","size=5","size=10","size=20"))
lines.binom.12( size=1,  prob=0.5, ylim=c(0, 0.7), delta=0.1, col="blue", lwd=2, lty=3)
lines.binom.12( size=3,  prob=0.5, ylim=c(0-0.01, 0.7-0.01), delta=0.1, col="red", lwd=2, lty=3)
lines.binom.12( size=5,  prob=0.5, ylim=c(0-0.02, 0.7-0.02), delta=0.1, col="green", lwd=2, lty=3)
lines.binom.12( size=10, prob=0.5, ylim=c(0-0.03, 0.7-0.03), delta=0.1, col="blue", lwd=2, lty=3)
lines.binom.12( size=20, prob=0.5, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

# prob=0.3, n=c(1,3,5,10,20)
postscript("binomial-distribution-0.3.eps", width=8, height=4)
plot(c(0,20), c(0,0.7), type="n", xlab="k", ylab="probability", sub="prob=0.3")
plot.binom( size=1, prob=0.3, col="black", epsilon=0.0, connection=TRUE )
plot.binom( size=3, prob=0.3, col="red", epsilon=0.1, connection=TRUE )
plot.binom( size=5, prob=0.3, col="green", epsilon=0.2, connection=TRUE )
plot.binom( size=10, prob=0.3, col="blue", epsilon=0.3, connection=TRUE )
plot.binom( size=20, prob=0.3, col="purple", epsilon=0.4, connection=TRUE )
legend(12, 0.6, lty=1, col=c("black","red","green","blue","purple"),
       legend=c("size=1","size=3","size=5","size=10","size=20"))
lines.binom.12( size=1,  prob=0.3, ylim=c(0, 0.7), delta=0.1, col="blue", lwd=2, lty=3)
lines.binom.12( size=3,  prob=0.3, ylim=c(0-0.01, 0.7-0.01), delta=0.1, col="red", lwd=2, lty=3)
lines.binom.12( size=5,  prob=0.3, ylim=c(0-0.02, 0.7-0.02), delta=0.1, col="green", lwd=2, lty=3)
lines.binom.12( size=10, prob=0.3, ylim=c(0-0.03, 0.7-0.03), delta=0.1, col="blue", lwd=2, lty=3)
lines.binom.12( size=20, prob=0.3, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

# prob=0.7, n=c(1,3,5,10,20)
postscript("binomial-distribution-0.7.eps", width=8, height=4)
plot(c(0,20), c(0,0.7), type="n", xlab="k", ylab="probability", sub="prob=0.7")
plot.binom( size=1, prob=0.7, col="black", epsilon=0.0, connection=TRUE )
plot.binom( size=3, prob=0.7, col="red", epsilon=0.1, connection=TRUE )
plot.binom( size=5, prob=0.7, col="green", epsilon=0.2, connection=TRUE )
plot.binom( size=10, prob=0.7, col="blue", epsilon=0.3, connection=TRUE )
plot.binom( size=20, prob=0.7, col="purple", epsilon=0.4, connection=TRUE )
legend(12, 0.6, lty=1, col=c("black","red","green","blue","purple"),
       legend=c("size=1","size=3","size=5","size=10","size=20"))
lines.binom.12( size=1,  prob=0.7, ylim=c(0, 0.7), delta=0.1, col="blue", lwd=2, lty=3)
lines.binom.12( size=3,  prob=0.7, ylim=c(0-0.01, 0.7-0.01), delta=0.1, col="red", lwd=2, lty=3)
lines.binom.12( size=5,  prob=0.7, ylim=c(0-0.02, 0.7-0.02), delta=0.1, col="green", lwd=2, lty=3)
lines.binom.12( size=10, prob=0.7, ylim=c(0-0.03, 0.7-0.03), delta=0.1, col="blue", lwd=2, lty=3)
lines.binom.12( size=20, prob=0.7, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

# Cumulative probability
postscript("binomial-distribution-2-0.7.eps", width=8, height=4)
plot(c(0,2), c(0,1.0), type="n", xlab="k", ylab="probability", sub="prob=0.7, size=2")
plot.binom( size=2, prob=0.7, col="purple", epsilon=0, connection=FALSE,
         cumulative.prob=TRUE )
dev.off()

postscript("binomial-distribution-2-0.5.eps", width=8, height=4)
plot(c(0,2), c(0,1.0), type="n", xlab="k", ylab="probability", sub="prob=0.5, size=2")
plot.binom( size=2, prob=0.5, col="purple", epsilon=0, connection=FALSE,
         cumulative.prob=TRUE )
lines.binom.12( size=2, prob=0.5, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

postscript("binomial-distribution-2-0.3.eps", width=8, height=4)
plot(c(0,2), c(0,1.0), type="n", xlab="k", ylab="probability", sub="prob=0.3, size=2")
plot.binom( size=2, prob=0.3, col="purple", epsilon=0, connection=FALSE,
         cumulative.prob=TRUE )
lines.binom.12( size=2, prob=0.3, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

postscript("binomial-distribution-20-0.7.eps", width=8, height=4)
plot(c(0,20), c(0,1.0), type="n", xlab="k", ylab="probability", sub="prob=0.7, size=20")
plot.binom( size=20, prob=0.7, col="purple", epsilon=0.4, connection=FALSE,
         cumulative.prob=TRUE )
lines.binom.12( size=2, prob=0.7, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

postscript("binomial-distribution-20-0.5.eps", width=8, height=4)
plot(c(0,20), c(0,1.0), type="n", xlab="k", ylab="probability", sub="prob=0.5, size=20")
plot.binom( size=20, prob=0.5, col="purple", epsilon=0.4, connection=FALSE,
         cumulative.prob=TRUE )
lines.binom.12( size=20, prob=0.5, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

postscript("binomial-distribution-20-0.3.eps", width=8, height=4)
plot(c(0,20), c(0,1.0), type="n", xlab="k", ylab="probability", sub="prob=0.3, size=20")
plot.binom( size=20, prob=0.3, col="purple", epsilon=0.4, connection=FALSE,
         cumulative.prob=TRUE )
lines.binom.12( size=20, prob=0.3, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

postscript("binomial-distribution-20-0.3-mean-stddev.eps", width=8, height=4)
plot(c(0,20), c(0,1.0), type="n", xlab="k", ylab="probability", sub="prob=0.3, size=20")
plot.binom( size=20, prob=0.3, col="purple", epsilon=0.4, connection=FALSE,
         cumulative.prob=TRUE )
lines.binom.12( size=20, prob=0.3, ylim=c(0-0.04, 0.7-0.04), delta=0.1, col="purple", lwd=2, lty=3)
dev.off()

## Exponential distribution

plot.exp <- function( rate=1, xlim=c(0, 20), tics=200, col="black", lty=1, col.cprob="black", lty.cprob=2, \
cumulative.prob=FALSE ) {
  x <- c(0:tics)/tics * (xlim[2]-xlim[1]) + xlim[1]
  dexp.func <- dexp(x, rate=rate, log=FALSE)
  pexp.func <- pexp(x, rate=rate, lower.tail=TRUE, log.p=FALSE)
  lines(x, dexp.func, col=col, lty=lty)
  lines(x, pexp.func, col=col.cprob, lty=lty.cprob)
#  print(x)
#  print(dexp.func)
}

## Mean and standard error

lines.exp.12 <- function( rate=1, delta=0, epsilon=0, lty=1, lwd=1, col="black", ylim=c(0,1)) {
  lines( c(1/rate, 1/rate), c(ylim[1]+delta, ylim[2]-delta), lty=lty, lwd=lwd, col=col)
  lines( c(1/rate-sqrt(1/rate/rate), 1/rate+sqrt(1/rate/rate)),
         c(mean(ylim), mean(ylim)), lty=lty, lwd=lwd, col=col)
}

# rate=c(0.25, 0.5, 1, 2, 4)
postscript("exponential-distribution.eps", width=8, height=4)
plot(c(0,5), c(0,1.2), type="n", xlab="x", ylab="density")
plot.exp(rate=0.25, xlim=c(0,5), tics=500, col="blue")
plot.exp(rate=0.5, xlim=c(0,5), tics=500, col="purple")
plot.exp(rate=1, xlim=c(0,5), tics=500, col="black")
plot.exp(rate=2, xlim=c(0,5), tics=500, col="red")
plot.exp(rate=4, xlim=c(0,5), tics=500, col="orange")
legend(3,0.9, lty=1, col=c("blue","purple","black","red","orange"),
       legend=c("rate=1/4","rate=1/2","rate=1","rate=2","rate=4"))
lines.exp.12(rate=0.25, delta=0.2, ylim=c(0-0.08,1-0.08), lty=3, lwd=2, col="purple")
lines.exp.12(rate=0.5, delta=0.2, ylim=c(0-0.06,1-0.06), lty=3, lwd=2, col="blue")
lines.exp.12(rate=1,   delta=0.2, ylim=c(0-0.04,1-0.04), lty=3, lwd=2, col="black")
lines.exp.12(rate=2,   delta=0.2, ylim=c(0-0.02,1-0.02), lty=3, lwd=2, col="red")
lines.exp.12(rate=4,   delta=0.2, ylim=c(0     ,1     ), lty=3, lwd=2, col="orange")
dev.off()

## Step function approximation
plot.exp.approx <- function( rate=1, xlim=c(0, 20), tics=200, col="black" ) {
  x <- c(0:tics)/tics * (xlim[2]-xlim[1]) + xlim[1]
  epsilon <- 1/tics * (xlim[2]-xlim[1])  / 2
  dexp.func.mid <- dexp(x+epsilon, rate=rate, log=FALSE)
  for ( i in c(1:tics) ) {
    lines(c(x[i], x[i], x[i+1], x[i+1]), c(0, dexp.func.mid[i], dexp.func.mid[i], 0), col=col)
  }
}

postscript("exponential-distribution-1.eps", width=8, height=4)
plot(c(0,5), c(0, 1.1), type="n", xlab="x", ylab="density", sub="Exp(1)")
plot.exp(rate=1, xlim=c(0,5), tics=500, col="black", lty.cprob=2, col.cprob="red", cumulative.prob=TRUE)
plot.exp.approx(rate=1, xlim=c(0,5), tics=10, col="blue")
legend(2.5, 0.6,
    lty=c(1,1,2),
    col=c("black", "blue", "red"),
    legend=c("Density", "Step approx of density", "Cumulative probability"))
dev.off()

postscript("exponential-distribution-1-mean-stddev.eps", width=8, height=4)
plot(c(0,5), c(0, 1.1), type="n", xlab="x", ylab="density", sub="Exp(1)")
plot.exp(rate=1, xlim=c(0,5), tics=500, col="black", lty.cprob=2, col.cprob="red", cumulative.prob=TRUE)
plot.exp.approx(rate=1, xlim=c(0,5), tics=10, col="blue")
legend(2.5, 0.6,
    lty=c(1,1,2),
    col=c("black", "blue", "red"),
    legend=c("Density", "Step approx of density", "Cumulative probability"))
lines.exp.12(rate=1,   ylim=c(0.6,0.8), lty=3, lwd=2, col="black")
dev.off()

#07 2012.05.31

配付資料

モーメント母関数の定義と意味と性質
二項分布と指数分布のモーメント母関数
期待値の分配法則(和と定数倍)
独立な確率変数の和の分布とたたみ込み
モーメント母関数とラプラス変換との関係
たたみ込みとモーメント母関数の積
二項分布再び

要はモーメント母関数尽くし。中間試験日変更のお願いをしました。

#08 2012.06.07

配付資料

ベルヌーイ試行から導出される確率分布あれこれ
ガンマ分布の計算
指数分布とガンマ分布の関係 (母数が共通の指数分布の独立の和の分布がガンマ分布)
ポアソン分布の計算 (指数分布からの導出, 参考書は幾何分布から導出してる)
指数分布とポアソン分布の関係 (事象の発生間隔が互い独立に指数分布に従うとき、一定時間の事象発生回数はポアソン分布に従う)

幾何分布は宿題にしてしまいました。負の二項分布は幾何分布ができれば簡単だから、まあなんとか。

最近、頑張ってプリントを作ってみましたが、毎回、前回の補いと今回の補足、という内容になっており、回ごとの重複があります。学期末までに、整理した版も作成するかもしれません。

昨年の試験についてのメモ

参考までに昨年の状況をお知らせします。

昨年は中間試験は無しとし、期末試験だけを実施しました。昨年の試験問題はprob:2011の下の方に添付してあります。私には基礎科目の担当の場合、(計算には慣れてきてくださることを前提に)時間いっぱい忙しい感じの試験、を作る傾向があるようです。そのような試験で、どう評価するかというと

殆どすべての問題を時間内に解けていたら、大喜びでSを差し上げています。
あとは感覚ですが、Aは頑張りましたね、Bはまあまあかな、でしょうか。
単位を差し上げるかどうかのラインの線引きは、「最低限できて欲しいと講義中にお願いしていること」ができていればCで、こちらが「これができていないとちょっと単位は・・・」と言っていることができていないとD、だと思っていて下さい。

試験問題自体も、このような観点で作成しています。各種試験には、必要な計算や式変形には、慣れて臨むことを強くお勧めします。急いで計算できる必要はありませんが、式変形を一から考えている時間は無さそう、という意味です。

例えば昨年の問題では、

問1のA、問2のDができない人には、単位は差し上げていません。(講義中に説明したことでした。これができない人は他の問題もできてませんでしたから、表現としてはこれができない人は、になりますが、点数もとても低かったです。)
問1のBとCは計算量が多い問題です。
問3も試験の2回か3回前に板書したことだったのに、できてない人が多くて、悲しかったです。
問4は、ギリシャ文字を全て覚えてきてくださいね、という問題でしたが、意外と捨てる人が多かったです。
一応、計算量のヒントをあげようと、「基本問題」「少し複雑な問題」「発展問題」「応用問題」「復習問題」などと、装飾を加えてみました。「基本問題」「復習問題」などができているとCは確保、発展問題や応用問題までできていると満点でSになるような作りです。
でも上のような装飾は、皆さんが問題を解く順序の選択には、殆ど影響は無かったような印象を覚えました。

なお、

試験問題を作る際に、過去問は見ずに作ることが多いので、過去問はあくまでも出題量の参考のみにされると良いこと。
講義中に話していることは昨年とかなり異なりますので、過去問と同水準の試験問題になるとは限らないこと。

の2点は、書き添えておきます。

#09 2012.06.14

第9回配付資料。

レポート在庫のお知らせ

提出されたのに回収されてない、可哀想なレポートさんたち。

1: 1110030, 1110045

3: 1110062, 1010150, 1110039, 1010017, 1010093

4: 1010147, 1010150, 1010105, 1010078, 1110067, 1110073, 1110062, 1010149, 1110045, 1010125, 1010094, 1110012, 1010003, 1010017, 1010142, 1110021, 1110042,

6: 1110060, 1110061, 1110065, 1110066, 1110070, 1110071, 1110072, 1110074, 1110077, 1110079, 1113084, 1010105, 1110002, 1010100, 1110034, 1010150, 1010041, 1010017, 1010094, 1010127

7: 1110061, 1110063, 1110003, 1110002, 1010105, 1010041, 1010093, 1010017,

5の在庫が見つからないのは、そもそもレポート課題を出題していないため。

#10 2012.06.21

中間試験。出題意図等を説明した解説つき。解説部分を説明する予定なし。

採点結果は7月に告知予定。
事務室で解答用紙を返却しました。

#11 2012.06.28

prob-b-note-and-quizzes-20120628.pdf

この回出題のレポートの返却は、TAさんの都合で、一週間遅れになります。(実際には週遅れにせずに返却できました。TAさんが、この週の分だけ採点を他の人に委託しておいてくれました)

#12 2012.07.05

prob-c-note-and-quizzes-20120705.pdf (2012.07.08: 差し替え版)

参考書 p.196は標準正規分布の上側確率表。確率変数 <jsm>Z</jsm> を標準正規分布 <jsm>N\left(0,1^2\right)</jsm> に従うとすると、<jsm>Pr\left[Z\geq x\right]=\alpha</jsm>となる<jsm>\alpha</jsm>の値を探すことができる。<jsm>Pr\left[Z\geq x\right]</jsm> は累積分布関数 <jsm>F\left(x\right)=Pr\left[Z\leq x\right]</jsm>とは <jsm>Pr\left[Z\geq x\right] = 1-F\left(x\right)</jsm> の関係にあるので、累積確率を探すこともできる。平均が <jsm>\mu</jsm> で分散が <jsm>\sigma^2</jsm> の正規分布に従う確率変数 <jsm>X</jsm> と、上の <jsm>Z</jsm> は、講義で述べたように <jsm>X \sim \sigma Z+\mu</jsm> の関係にある。この関係は <jsm>Z \sim \left(X-\mu\right)/\sigma</jsm> とも表せる。このことから <jsm>X</jsm> についての上側確率もしくは下側確率を計算するには、 <jsm>Z \sim \left(X-\mu\right)/\sigma</jsm> の関係を用いて <jsm>Pr\left[\cdot\right]</jsm> の中の条件を、<jsm>X</jsm>についての不等式から<jsm>Z</jsm>についての不等式に変形すればよい。

<jsmath> Pr_X\left[X\leq x\right] = Pr_Z\left[\mu+\sigma Z \leq x\right] = Pr_Z\left[\sigma Z \leq x-\mu\right] = Pr_Z\left[Z \leq \left(x-\mu\right)/\sigma\right] </jsmath>

あるいは

<jsmath> Pr_X\left[X\geq x\right] = Pr_Z\left[\mu+\sigma Z \geq x\right] = Pr_Z\left[\sigma Z \geq x-\mu\right] = Pr_Z\left[Z \geq \left(x-\mu\right)/\sigma\right] </jsmath>

など。ここで、<jsm>\sigma</jsm>は常に正であることに注意すれば、式変形の最中に不等式の向きは変わらない。

#13 2012.07.12

配付資料にはミスがあり、講義中に改訂版のように訂正をしました。課題13-3の記述が不十分だったのと、提出日が祝日だったために1日延期したのが、主な訂正内容です。

#14 2012.07.19

#15 2012.07.26

#16 2012.08.09

期末試験を実施しました。

履修者数	中間試験受験者数	期末試験受験者数
180	141	114

とりあえず期末試験問題を公開します。試験時間中に見つかった3つの誤りは、修正済みです。ご迷惑をおかけしました。

4 <jsm>\frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_1-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}</jsm> → <jsm>\frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}</jsm>
5-4 「<jsm>X_3</jsm>と<jsm>X_2</jsm>の・・・」→「<jsm>X_1</jsm>と<jsm>X_2</jsm>の・・・」
ギリシャ文字 a, b, d, e, ・・・ → a, b, g, d, e, ・・・

採点者用の解答例の速報版を公開します。採点用なので、全体的に要点のみさっぱりと書いてあります。受験者はもう少ししっかりとした解答を作成してくれると嬉しいです。

期待値計算について: 大半が復習、一部は講義では触れてない内容
不等式: 講義内容と課題の確認
極限定理: 講義内容の確認、二項分布の正規近似
二変量正規分布と相関係数: 去年と同じ、相関係数は初出
三項分布: 周辺分布が二項分布と条件付き分布が二項分布で合わせて三項分布という話、講義で例示はしてない
確率分布間の関係: 図を配布済み
ギリシャ文字: なぜか予告出題しても捨てる人多数な問題

昨年度は期末試験のみを実施しましたが、今年度は中間試験と期末試験を実施するので、期末試験では主に講義の後半の内容を問いました。中間試験で失敗した人もいるかもしれないので、少し前半のことも問うています。そのため、昨年度の過去問は必ずしも参考にはなりません。試験問題は必ずしも、講義で示した式のみに制限する訳ではなく、既習得の内容を用いて解ける範囲から出題します。まだ採点していませんが、過去問やノートを眺めるだけでなく、全体を通じて計算を手で追いかけておくことを勧めます。

Applied Statistics and Data Mining

サイト用ツール

ユーザ用ツール

目次

確率論

お知らせ

担当

到達目標 (2012.06.07更新)

参考書・参考ドキュメント

授業計画

この講義に関する負担

メモ

#01 2012.04.12

#02 2012.04.19

#03 2012.04.26

#04 2012.05.10

#05 2012.05.17

#06 2012.05.24

#07 2012.05.31

#08 2012.06.07

昨年の試験についてのメモ

#09 2012.06.14

レポート在庫のお知らせ

#10 2012.06.21

#11 2012.06.28

#12 2012.07.05

#13 2012.07.12

#14 2012.07.19

#15 2012.07.26

#16 2012.08.09

サイト用ツール

ページ用ツール

ユーザ用ツール

目次

確率論

お知らせ

担当

到達目標 (2012.06.07更新)

参考書・参考ドキュメント

授業計画

この講義に関する負担

メモ

#01 2012.04.12

#02 2012.04.19

#03 2012.04.26

#04 2012.05.10

#05 2012.05.17

#06 2012.05.24

#07 2012.05.31

#08 2012.06.07

昨年の試験についてのメモ

#09 2012.06.14

レポート在庫のお知らせ

#10 2012.06.21

#11 2012.06.28

#12 2012.07.05

#13 2012.07.12

#14 2012.07.19

#15 2012.07.26

#16 2012.08.09