たぶん簡単にわかりやすく書かれているのだと思いますが、途中でわけがわからなくなってきました・・・^^;
でも、コンピュータの進歩が統計学の強い味方になった、というのはよくわかりました。
私は40年前に、一部屋まるごとコンピュータ(パソコンが並んでいる、というのじゃなく、まるごと一台のコンピュータなわけ。たぶんHITAC)の横のガラス窓でコンピュータの見える部屋(あれって見えても何の意味もないと思うけど・・・)で、パンチカードの束を読み取り機で読み込ませて、いろんな相関をとってました。SPSSという統計パッケージ(これは今もある)を使って(?)ました。でも・・・プレゼミ段階で統計が理解できず、単位が貰えずゼミに入れて貰えなかった・・・^^;
いやあ、一応、勉強しようとしたんです。でも大学の図書館の開架図書で「統計」で探すと蜷川虎三の統計学の本しか無かったという・・・あれって大学が悪いよなあ・・・
EBM(Evidence-Based Medicine)「科学的根拠に基づく医療」
ロンドンのコレラに対するジョン・スノウの調査と貢献。こちらに詳しい。
疫学(Wikipedia) アメリカの教育学界でもエビデンスが重視されるようになった。で、
その最もたるものは、ブッシュ政権時に成立した「落ちこぼれゼロ(No Child Left Behind)法」からスタートした What Works Clearinghouse (WWC) プロジェクトだろう。ということなんだけど、その効果・成果はどうだったんだろう??この政策は「破綻した」という意見もあるのだけど。
なお
「教師に競争させてボーナス査定をする」というアイデアについては、2006年から2009年にかけてナッシュビル・パブリックスクールで延べ24000人の生徒と300人の教師を対象に実験が行われ、「統計学的に何の改善も見られないか、むしろ悪影響」という結果が得られているそう。
早期教育については、3歳から4歳までの子どもに読み書きと算数の早期教育を行った結果、確かに3歳あるいは4歳の時点では、同年代の他の子どもと比較して明確に高かったが、小学校1年生になった頃に追跡調査をすると、両者の差は無くなっていたそう。
コンピュータの利用については、伝統的な授業を行われた生徒と比べ、統計学的に明らかといえるレベルで数学の成績が向上したというI CAN Learn プログラムと呼ばれる取り組みもあるそう。
しかし・・・コンピュータ利用については、アメリカの話だからなあ・・・アメリカって日本ほど計算とか算数とかに取り組んでないイメージがあって、そこでの話だからなあ・・・
専門用語
データマイニング
テキストマイニング
Exadoto
Greenplum
分散処理
インメモリデータベース
Hadoop
Aws
非構造化データ(リレーショナルデータベースのようにきれいな表になってたりしないデータ)
NoSQL
KVS
R言語
第2章 サンプリングが情報コストを激減させる 全数調査ってたいへんでコストもかかるからうまくサンプリングすればコストを下げられる、という話。
1929年の大恐慌に対するニューディール政策に取り組んだ統計家たちの例。当時のマンパワー・マシンパワーの制約で非常に少ないサンプル解析しかできなかった。後にサンプル数が増えていったが、最初期のデータも非常に信頼性の高いものであったことが証明された。
熟練した統計家ほど予備的解析の労を惜しまない。(そしてより適切な解析方法にしていく)
10万人の顧客データから、男女割合を抽出するなら・・・サンプルが100名なら標準誤差は9.5%、1000名で3%(劇的上昇)、8000名で1%、1万名で0.9%、2万名で0.6%・・・とどんどんかけたコストの割に誤差率は減らなくなる。
第3章 誤差と因果関係が統計学のキモであるデータをビジネスに使うための3つの問い
1.何かの要因が変化すれば利益は向上するのか?
2.そうした変化を起こすような行動は実際に可能なのか?
3.変化を起こす行動が可能だとしてそのコストは利益を上回るのか?と書いてあるけど、3.は「その利益はコストを上回るのか?」の誤植やな。
「A/Bテスト」(ランダム化比較実験) 実際にAの場合とBの場合をランダムにやってみて比較検討する
p値「実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率」これの5%以下を目指す。またそれを確かめるのが「カイ二乗検定」
第4章 「ランダム化」という最強の武器ロナルド・A・フィッシャー「紅茶を先に入れたミルクティー」と「ミルクを先に入れたミルクティー」の味がわかるか、という実験。→結果。「わかる」と豪語した夫人は本当にわかっていた。
一般的に統計家たちの間で共有されている倫理的ガイドライン
@ランダム化によって人為的にもたらされる、どれか1つまたは
すべての介入が明らかに有害である(またはその可能性が高い)
場合はダメ
A仮にすべてが有害でなくても、明らかに不公平なレベルで
「ものすごくいい」ものと、「それほどでもない」ものが存在
していると事前にわかっている場合もダメ なお、アメリカでは「一部の貧困家庭のみに家賃の補助券を配る」というのは、許可が出てやってみたそう。で
家賃補助を出すことで貧困家庭環境の悪いスラムから脱出させても、子どもの学業や犯罪率が改善したわけではなく、むしろ男の子においては悪影響すら見られた、という結果が示された。第5章 ランダム化ができなかったらどうするか回帰分析
t検定もカイ二乗検定も分散分析も回帰分析も、すべては「一般化線形モデル」という広義の回帰分析の考え方で統一的に理解できる(んだって・・・)
フランシス・ゴルトン「平凡への回帰」「平均値への回帰」
・回帰係数の推定値
・標準誤差
・95%信頼区間
・p値
重回帰分析とロジスティック回帰(なんのこっちゃ・・・)
ここでよく耳にする「オッズ比」というのが出てくる
第6章 統計家たちの仁義なき戦い ここで社会調査のさいの「質問」をどう作っていくか、というのが書かれている。このあたり、大学院なんかの現役教師の内地留学生が「調査しました」という論文がよく出てくるけど、たいていは「質問文がええかげん」というのが多いなあ、その調査、何の意味も無いやん、と思うのによく当たったことを思い出しました。
終章 巨人の肩に立つ方法 これはニュートンの
「私が遠くを見ることができているのだとすれば、それは巨人の肩に立っているからです」
からきている。
系統的レビュー
メタアナリシス
医学分野
コクラン共同計画社会政策科学分野
キャンベル共同計画 もともとはコクラン共同計画から出てきたみたいね。
教育学分野
What Works Clearinghouse (WWC) プロジェクト
エビデンスに基づく教育 ―アメリカの教育改革とWhat Works Clearinghouseの動向―(PDF注意)Google Scholar
Google Scholar について日本語文献
chinii J-STAGEおわりに100K Lives キャンペーン
2004年から2006年にかけてアメリカ全体の入院死亡率を5%低下させ、
年間12万人も死亡を減らした。
「やるべきだとわかりきった目標」を徹底した。
その報告書「To Err is Human」
日本語でも「人は誰でも間違える」と題して出版されているが、これは聖書の言葉で続きがある。
「過ちは人の常、許すは神の技(To err is human, to forgive divine.)」