らんだむな記憶

blogというものを体験してみようか!的なー

statistics

整形したCSVを読み取ってみる

#! /usr/bin/env python # -*- coding: utf-8 -*- import sys import numpy as np data = np.loadtxt(sys.argv[1], delimiter=",", skiprows=1, usecols = range(8,21)) d = data[:, 3] print len((np.where((d >= 20001) * (d <= 30000) == True))[0]) とか…

すごくいけてないCSVを整形してみる

なんか統計データを書いたCSVが極めて腐っているのがあったので整形を試みる。 Excelデータがあれなのは仕方ないとして、CSVデータくらい処理しやすいものにしておいて欲しい。"1,234,567" とかセルに書いてあるのはどういうこと!? 超手抜きだが、整数的な…

統計勉強ノート(2)

電車の中でぼんやり読みつつ。変動係数(coefficient of variation) = 標準偏差 / 平均値ある程度平均値が0から離れていないとあかんよな、これだと。中央値, 最頻値, 四分位数。5数要約 = 最小値, 第1四分位数, 中央値(第2四分位数), 第3四分位数, 最大値箱…

統計勉強ノート(1)

やったふり。 名義尺度 最頻値とか 順序尺度 中央値, 四分位数とか 間隔尺度 平均, 標準偏差とか 比例尺度 変動係数, 幾何平均など 幹葉図 6 889 7 02778999 13 014555599 14 255588 15 0 とか。 68,68,69,70,72,77,77,78,79,79,79,130,131,134,... Lorenz c…

統計検定とか

そろそろ社会人のためのデータサイエンス演習 | gaccoの始まりが近づきつつある。本編データサイエンス - らんだむな記憶は後一歩でポカをしたが、今回は満点を狙えるだろうか? それはそうと受験のご案内 2016年6月19日試験|統計検定:Japan Statistical S…

MOOCの受講状況

データサイエンス - らんだむな記憶でやった、まぁぬるいかなという部類の講座だったが、受講状況が掲載されていた 受講登録者数: 7,635 1点以上得点している受講者: 2,124 修了者数: 1,190 修了率: 15.6% 修了者の平均: 82.9% 等々。 まず、1点以上得点して…

データサイエンス

統計学?(3) - らんだむな記憶で折角統計学を少し勉強したふりしたので、続けて社会人のためのデータサイエンス入門 | gaccoもやってみた。 第3週までまで3回チャンスというぬるぬるあまあま問題だったのでなめてたら、最終課題だけ一発勝負というえぇぇぇぇ…

統計学?(3)

統計学 - らんだむな記憶で触れた統計学Ⅱ:推測統計の方法 | gaccoの課題を全部片付けた。98%の正解率。1問間違えた。ムカつく...。 機械学習の講座が完了した - らんだむな記憶のほうもやはり1問failで99.6%だった。この「後一歩」ですっぽ抜けるのが昔から…

回帰分析

なんか機械学習でも Linear regression をやった気もするが。 \begin{equation} y \approx \beta_0 + \beta_1 x \end{equation} の形でデータにフィッティングしましょう的な。$x$を説明変数とか言って、$y$を被説明変数とか応答変数とか言うようだ。 実際に…

円周率×乱数×正規数

統計学入門 (基礎統計学) | 東京大学教養学部統計学教室 | 本 | Amazon.co.jpの第12章練習問題12.5を見るとちょっと面白い問題が載っている。 ちょっと端折ると以下のような内容である。 円周率$\pi = 3.14159265 \cdots$について、つぎのことを検定せよ。 …

仮説検定

確率変数$\{X_j\}_{j=1}^n$が正規分布に従っているとする。この時、正規化して $$P \left(a \le \frac{\overline{X} - \mu}{\sqrt{\sigma^2/n}} \le b \right) = \frac{1}{\sqrt{2\pi}} \int_a^b \exp \left(- \frac{x^2}{2} \right) dx \hspace{5em} (1)$$…

不偏推定量

あるパラメータ$\theta$の推定量$\hat{\theta}$に関して$E[\hat{\theta}] = \theta$が成立する時、$\hat{\theta}$を不偏推定量と言うのであった。 例えば、独立同分布の確率変数$\{X_j\}_{j=1}^n$に関する標本平均$\overline{X} = \frac{1}{n}\sum_{j=1}^n X…

モーメント(2)

統計学入門 (基礎統計学) | 東京大学教養学部統計学教室 | 本 | Amazon.co.jpの第5章 p.102を見ると、またもやモーメントである。 \begin{equation} E[(X - \mu)^r] \end{equation} の形のものを$\mu$の周りの$r$次のモーメントとしている。(http://as.wiley…

t分布

あまり触れたくない汚い感じだったけど、メモったほうが良さそうなので。 自由度$\nu > 0$のt分布の確率密度函数は次の式で与えられる。\begin{equation} f_\nu (t) = \frac{\Gamma(\frac{\nu + 1}{2})}{\sqrt{\nu \pi}\, \Gamma(\frac{\nu}{2})} \left(1 + …

対立仮説と帰無仮説

なんやこの言葉...。対立仮説(Alternative hypothesis)と帰無仮説(Null hypothesis)らしい。「帰無」とかあり得んやろ。なんでこういう訳語なんか...。 Fredholm alternativeもフレドホルムの交代定理などと訳される場合があるが、2つの命題が二者択一で成立…

統計学(2)

確率論は数学である。言葉として解析学の言葉を用いるのであるが、解析学をすることが目的ではなく、確率的事象を論じるのが目的であるので、解析学とは言えない。(言ってもいいけど、言わなくてもいいと思う) 統計学は実学である。言葉として確率論の言葉を…

大数の法則と中心極限定理(2)

一方の中心極限定理は、Microsoftが新人に読ませるだとかかんとか書かれているところのいかにして問題をとくか | G. ポリア, 柿内 賢信 | 本 | Amazon.co.jpの著者G. Polya氏の命名であるそうだ。この分野の中心的な極限定理だから、ということ、らしい。「…

大数の法則と中心極限定理

ぼんやり統計学の勉強もどきをすると間違いなく大数の法則と中心極限定理に遭遇する。 確率論 - らんだむな記憶で大数の法則についてメモをしたのを思い出した。 統計学の教科書的な記法を用いると、標本平均$\overline{X} := \frac{S_n}{n} = \frac{1}{n} \…

統計学

機械学習のお供と言うか、時代の流れというか。微分方程式の数値解析をまたーりしつつ統計学にも手を伸ばす。と言っても、英語ばかりも疲れたので日本語でとへたれてみる。 統計学Ⅱ:推測統計の方法 | gacco が最近開講した。が、イマイチだ...。放送大学と似…

Bayesの定理

とかいう定理がある。$H_1,\cdots,H_N$をなんらかの同時には発生しないが、いずれか1つは必ず発生するような事象(原因)として、また別の事象$E$があるとする。$P(E|H_j)$で事象$H_j$が起こった場合であって、かつ事象$E$が起こった場合の条件付き確率とする…