ニコ動で「もっと評価されるべき」約4900作品の説明文を解析してみた
2年ほど前に、「もっと評価されるべき」タグが付いた動画の投稿だけをTwitterに流すBotを作っていたことがある。つい昨日、もう少しでデータベースが満杯になるから、データを消去しろと通知が来た。
せっかくなので、呟いていたデータを解析してみよう。データはMySQLに保存してあったので、Rに読み込んでいくつか可視化してみる。
分析1:「もっと評価されるべき」タグが付けられた動画作成者は、自己承認欲求が高いか低いか。
まず、みんな気になるのが「もっと評価されるべき」タグって本人が付けてるの?別の誰かが付けているの?ということだろう。
本人が「この動画はもっと評価されるべき」と付けているのならば、そのタグはあまり評価指標としてアテにならない。そのタグは、本人の自己承認欲求の高さ(あるいは自信の大きさ)を示しているだけになる。
一方で利害を持たない視聴者Aさんが付けているのならば、Aさんと似た嗜好を持つ人にとってそのタグは、動画再生数に依らずに良い作品を見つけるための有力な手がかりとなる。
僕の知る限り、「タグをどのユーザーが付けたか」は一般視聴者には特定できないため、この問題を決定的に解くことは一般に困難である。なので、別の値から逆推定してみよう。
今回使った値は、データベースに運良く紛れ込んでいた「動画説明文」のカラムだ。
「動画説明文の長さが、字数制限に近いほど自己承認欲求が高い」と仮定する。自分を認めてもらいたい、もしくは自分の作品に高い価値があると考える人であれば、おのずと投稿時に説明文をタイプする手も早まり、Enterキーを押しては「クソッまだ字数制限か」と、新聞の限られた紙面を余すところなく駆使する記者よろしく編集力を発揮して、限りなく字数制限に近いところまで作品をアピールする、と想定するわけである。この仮定はかなり強い仮定であるため、解析の行方次第では破棄される可能性も大きい。
上のニコニコ大百科によれば、文字数制限は1000バイトとのことだ。文字数ではない。バイト単位である。これは僕も知らなかった。いや待てよ、ネットに書いてある情報を鵜呑みにするなっておばあちゃんに習ったな。とりあえずこの情報も仮定としておこう。
実際の文字数分布は以下のようになった。まずは文字数から。
文字数は、上掲のように、200文字弱を最頻値(mode)とする右裾の長い/左裾打ち切りの分布になった。40文字あたりで少しポコンと飛び出ているのは、とりあえず何か書かないと投稿が承認されないとかそういうやつだろうか。ゲーム実況動画で【前-> sm*****】【次-> sm*****】などだけが書かれているパターンが現れているとみるべきだろうか。
文字数だと、500文字を越えたあたりから散在しており、どこかに見えない打ち切り線(運営の壁)のようなものが存在しているようには思えない。やはり、制限はバイト数だろうか?
次に、バイト数でのグラフを掲載する。計算はRのnchar(type="bytes")でja_JP.UTF-8ロケールで行った。
なるほど、基準が明確だ。
大百科情報はおそらく正しかった。バイト数が1000に近づくに従って、グラフ下の帯で示した動画数が小さくなっている。チキンレースのように、1000バイトギリギリで投稿している猛者もいる。調べたら996バイトだった。まだ1文字余裕があるね。
しかし、グラフから分かるように、解せないのは、
ここだ。
何なんだこいつらは。
「もっと評価されるべき」タグを含む全4890動画の中から、わずかに2つの動画だけが、1000バイトを超える文字数で投稿を行っている。おかしいな、大百科情報では1000バイトが制限だったのに。運営に騙されたか?
この動画2つの動画IDを確認してみると、
!!! オフィシャル動画 !!!
非ニコ厨の人のために解説すると、ニコニコ動画に投稿した動画にはso25358113などといった動画IDという値が一意に割り振られる。そしてその動画IDの先頭2文字は、動画のタイプを表す。nmはNiconico Moviemakerで作成した動画、smはSmile Videoに投稿されたMovie、そしてsoはSmile Video(ニコニコ動画)のOfficial動画という訳だ。
ということはsoの付いた公式動画だけが1000バイトを超えて投稿されてる!
これは運営の暴虐!!!???
と、陰謀論に走るのは手持ちの情報が少ないからで、追加調査によって結論はだいたい変わる。
まず、データベースに保存された値が正しいのかどうかを確認してみよう。
実際の動画2つの動画説明文をコピペして、ネット上の文字数カウンタで確認してみる。すると、
大百科に書かれていたUTF-8エンコードでのバイト数は、僕が取得したデータと同じく1263バイト、そして他のShift-jis、EUC-JP、JIS符号化の元ではそれぞれ1000バイト未満である。
もうひとつの動画も見てみよう。
こちらはUTF-8での換算値が僕の取得した値と異なり、JISでの換算が1000バイトを超えている(僕が取得したあとに動画説明文を変えたのかもしれない)。しかしEUC-JPとShift-jisでのバイト数は1000を切っている。
すると、以上の情報から推定できる真実は以下である。
- 千バイト制限は、smやnmなどではUTF-8エンコーディング、soではその他のエンコーディングで換算される。
- この2つをアップロードするときだけ公式側のバイト制限がうまく機能しなかった。
- 運営の陰謀。
この3つのどれを信じるにせよ、およそ1000バイト付近で字数制限が存在するのは間違いない。
となると、最初の問題に戻って、「もっと評価されるべき」タグの付いた動画のバイト数最頻値は300バイト程度であるのだから、仮定が正しいのならば、およそ全体の傾向としては承認欲求は高くない。たぶんみんな字数制限と戦うのが面倒くさくて適当な文字数で済ませるのだろう。あるいはそんなに長い文章は読んでくれないと捨てているか。
実際、バイト数上位者のテキストを眺めてみても、ほとんどはURLなど外部にリンクを貼る形で情報を付加している。その結果として1000バイトに近づいているだけだ。なるほど、確かに1文字=2バイトで換算される日本語で、このせせこましいスペースに書くよりも、1文字=1バイトで換算されるアルファベットでURLを張って自由な外の表現空間に逃げたほうが、戦略としては妥当だろう。彼らの自意識もまた、高くない。仮定は破られた。
(2列目は文字数だったはず)
考察
今回の分析の欠点は、データの少なさにある。「自分で【もっと評価されるべき】タグを付けている投稿者」は確実に存在する。あくまで動画説明文の長さではそれが説明できないと判明しただけだ。いずれ第二第三の解析者が、視聴者にとって有益ではない自己タグを付けている人物を白日の下に晒す日が来るであろうーーー(僕は面倒なのでもうやりません)
感想
人間、字数制限を与えられたら精一杯その中に自分を凝縮して表現するものだと考えていたが、制限に遥か達しない値が最頻値や平均であることに驚いた。
URLを使った外部への長文配置は確かに合理的だ。ニコニコ動画のユーザーは、投稿を続ける中で暗黙に最適戦略を編み出しているのかもしれない。
以上
おまけ
ボックスプロットでは、nmとsmは一見なにも違いがないように見える。
実際にデータとしては違いがない(ニコニコムービーメーカーで作ったからといって動画説明文の長さに差が出るわけではない)。
ただし、サンプル数はまるで違う。
統計は、見えない情報にこそ、注意。