蛍光ペンの交差点[別館]

"どの点に関心をもつべきか ―をわれわれが学びとるのは,もっぱら仮説からだけである"

Wikipediaの「標準誤差」の編集履歴を追ってみた

この式で重要なのは、標準誤差は抽出する標本サイズの平方根に反比例するという点である。つまり、例えば標本サイズを4倍にすると標準誤差を半分にできる。統計調査を計画する際に、費用や手間をある範囲内に収めた上で誤差を最小にしたい場合が多い。これらの条件の関係を判断するのに上の関係式が重要となる。

(Wikipedia 標準誤差 の項目より)

 

 

 

この文章はもともと、「標準誤差」の項目ができたときに既にその土台があったようだ

最新版との差分を見てみると、現在と用語が多少違うが主張の大筋は変わっていない。「可能な予算範囲内で一番小さい誤差を得たいときに、標準誤差の式が検討材料になる」というものだ。

 

差分を追うと、結構面白い。この文章は結局なんと書かれてから8年経った今も残されているわけで、標準誤差の理解に苦しむ学生たちは何度も遭遇してきたことかと思う。

8年の間に、用語、主張の構成、そして参考資料には細かな変更が入っている。

 

いくつか検討してみよう。

きっとWikipediaの正体を知る一助となる。

 

まず、初めての修正となる第2版では、「標本」のリンクが「標本(統計学)」に貼り直されている。これは「標本」のリンク先は曖昧性回避のための紹介記事になっているが、この文章を読んだ人は「標本(統計学)」を読みたいという判断のもとの修正だろう。修正者は名前から推測するに、もとの記事の執筆者とは異なるようだ。

 

次に、第3版では更に別の人物が"Standard error of mean"を"Standard error of the mean"に修正している。第4版では同IPアドレスの人物が"Standard error of the mean"を"standard error of the mean"と小文字で始まるように修正している。

 

次の版ではまた別の人物が文中に誤って含まれていた不要な空白を削除、そしていくつか版が飛んだあとの2007年1月16日、抜本的な表現修正が入る。とくに「測定誤差」が「標本誤差」に直されたのは大きい。なぜかというと、まずWikipediaの「測定誤差」の記述と照合しないのでここでは「測定誤差」と書くと読者(僕とか)が理解に窮する。

 

そして「標本誤差」は「標準誤差」とは別概念である。

つまり、「測定誤差」という表現自体には修正がかかったが、まだ記述が正しくなっていない。

 

またしばらく間が空いて2007/4/27に「比例する」が「反比例する」に直される。これは日本語表現の問題。勉強になる。

 

そして2009年10月21日、「用語の統一」というコメントと共に上記の「標本誤差」が「標準誤差」に直される2年半ほど修正されていなかったわけである。Wikipediaの一利用者として、この事実は極めて重要なので覚えておきたい。この事実から例えば以下のような仮説が考えられる:

 

  • 記事の種類によっては、2年半より早く修正がかかることがあるのでは?(たとえば今期アニメのキャラクター説明は週単位で修正がかかるだろう)
  • 逆に、記事の種類によっては、あとになるほど修正が難しいこともあるのでは?(資料が焼失した歴史的事件など)
  • 同じ記事を2 ~ 3年ぶりに読み返すことで、その記事に含まれていた間違い、その記事から自分が誤解してしまった知識をいくつか発見できるのでは

 

特に最後のやつは大事であろう。

 

そんでここからはかなり間があいて、2014年10月23日に「標本数」を「標本サイズ」とする修正が入る。この「標本数」と「標本サイズ」は違うという議論、一体どこが出典なのか知りたい。原典か何かにあるのだろうか。

 

ということで、日本語Wikipediaの「標準誤差」は2015年1月現在は第32版となっている。ちなみに英語版の標準誤差、「Standard Error」は現在第420版ぐらいである。この版数の違いからも、英語版の編纂に集まる熱意の総量が見て取れる(実際、英語版は一読で読みきれないほどの大作になっている)。

 

 

同じ文章を複数人で修正するのは、面白い。

慣用句の用い方(「天文学的」が数量が小さいことに使われているので直したというコメントも別の記事で見られた)から、専門用語の選択、主張の方向性、参考資料の提示の仕方など、さまざまな論点が存在することが実感できる。

 

みんなもやってみてね