はてなブックマークの現状

はてな技術勉強会 #4 : ATND に参加できそうなので、ざっとメモ。「はてなブックマークの新スパム判定システム」と言うタイトルで発表があるようなので、それにちょっと関連したデータです。大雑把に言うと「はてなブックマーク新着エントリー注目のエントリー含)がどの位 2ch まとめブログ記事に侵食されているか」と言う話です。

調査方法

  • SoGap で取得したデータを使用しています。
  • データの取得期間は 2011/06/01 〜 2011/08/31 の約 3ヶ月(途中、取得漏れの日あり)
  • 取得方法は、毎日、早朝 5時位に 新着エントリー - はてなブックマーク前日に掲載された記事のうち、被ブクマ数が 20以上かつツイート数が5以上のものを抽出しています。
  • 取得した記事の中に 2ch まとめブログ(2ch まとめブログの体裁を取っているエロブログも含む)記事が何件含まれているかを計算して、新着エントリーのおける 2ch まとめブログの占有率を観測しています。
  • 2ch まとめブログ記事かどうかの判定はブラックリスト方式で、リストは 2ch まとめブログ, エロブログ で閲覧できます。現在、対象となっているのは 2ch まとめブログ 223, エロブログ 43 です。もちろん、まだまだ漏れがあるので、実際はもっと占有率が高くなると予想されます。

新着エントリーに占める 2ch まとめブログ記事の割合

「合計記事数(青)」および「2ch まとめブログ記事数(緑)」は左軸、「割合(赤)」は右軸です。

3ヶ月の合計は、総記事数 20,928件に対して、2ch まとめブログ記事 5,536件で占有率は 26.45% でした。はてなブックマークにおける2chまとめサイトの割合を検証してみた。 | 生禿 では 3割強と言う結果が出ているので、被ブクマ数 5〜20 の記事も対象にすると、この割合はもっと上がると予想されます。

尚、以前に 2ch まとめブログ シェアランキング で調査した総ブクマ数における 2ch まとめブログの占有率は 4.64% 程度でした。この時も獲得ブクマ数の少ないサイトは対象外にしたので、実際にはもう少し占有率は高くなると予想されますが、記事数で占有率を導出すると、総ブクマ数で導出した場合の 6倍程度の値となっています。

この現象は、後でも少し触れますが、「20〜30ブクマ取れるような記事を量産(相互ブクマによる 3 or 5ブクマ戦略も含)して効率的にアクセス数を稼ぐ」と言う戦略の結果と言えます。これは、有名 2ch コピペブログの更新頻度 - Life like a clown で「2ch まとめブログでは、平均して 1日に 3件、多いところで 1日に 15件も記事を更新している」と言う、かなり更新頻度の高い現状からもその傾向(とにかく数を撃ってアクセス数を稼ぐ)を見ることができます。

2ch まとめブログ記事の被ブクマ数の累積分

データ取得時の被ブクマ数なので、実際にはもっと多くなってる記事が多いだろうと思います。データを見ると、2ch まとめブログ記事と判定された記事は 5,917 件で、そのうち 73% が被ブクマ数 50 以下、88% が被ブクマ数 100 以下 と言う結果でした。全体の傾向はまだ未調査なのでこれだけでは何とも言えないですが、主観としては、非モテタイムズアクセス解析雑感 - 情報の海の漂流者 辺りで言及されていた事と同様の事が 2ch まとめブログ全体で(傾向として)起こっているのではないかと予想しています。

低価格でライターを雇い、記事を大量に発注し、ソーシャルメディアを利用してアクセス流入をはかる、という非モテタイムズの戦略はコンテンツファーム戦略に類似している。

…(中略)…

そして、b.hatena.ne.jpからのアクセスというのは、ホッテントリーではてブが数百件付く記事を書くよりも、3user戦略を取ってセルクマ3個の記事を100件書いた方が総アクセスが高い結果になっている。

つまりはてなブックマークでは現状、質を度外視してひたすら記事を量産し、3人でブクマするだけでアクセスが流入してしまい、コンテンツファームと極めて相性が良いということになる。

非モテタイムズアクセス解析雑感 - 情報の海の漂流者

この他、http://anond.hatelabo.jp/20110901191530 で、2ch まとめブログ界隈で、アクセスアップを狙ったスパム的なブックマーク行為(コミュニティ内での相互ブックマーク)が起こっていると言う言及がありました。相互的なブックマークに関しては、自分で確認できている限りではアメーバにそう言ったコミュニティが存在しています(ブックマークファーム - Life like a clown 参照)。また、manaitano.com において、Facebook でも同様の目的のコミュニティが存在していると言及されています。

雑感

はてな技術勉強会 #4 : ATND であった「はてなブックマークの新スパム判定システム」の話は、主にスクリプト等による機械的なブクマスパム行為への対策のようで、今回挙げた 2ch まとめブログ界隈の人力によるブクマスパム?(コミュニティ内での相互ブックマーク行為)は、無関係ではないですが、あまり関係のない話のようでした。

ここ数年の 2ch まとめブログサイトの増加傾向はかなりのものがあり、これらのサイトの性質*1も考慮すると、個人的には 2ch まとめブログを放置する(他の記事と一律に扱う)のは、「はてなブックマーク新着エントリー注目エントリー)」全体を見てもそろそろ問題じゃないかと言う気がしています。

ただ、2ch まとめブログの多くがブックマークスパム(コンテンツファーム)的な指摘を受けていますが、明らかなもの(ブックマークの最初の 3user がまったく同じ等)は別としても、2ch まとめブログの各記事に対して、どれくらい正確にスパム判定できるかは疑問が残ります。被ブクマ数が 20〜30 ユーザまで上ると相互ブックマーク以外のブックマークもかなり増えている事になるので、そう言ったブクマも含めると、ブックマークスパムと認定できる記事はかなり限られてくるような気はします。

現状での実感としては、2ch まとめブログ記事は、スパム記事としてフィルタリングすると言う方向よりは「2ch まとめブログ」と言うカテゴリを設けて独立して扱うと言う方向の方が良いような気がしています。2ch まとめブログ記事の問題点は、スパム行為もありますがそれ以上に物理的な量(毎日、生成される記事数が多い)にあります。先の調査結果でも分かるように(3〜4件に 1件は 2ch まとめブログ記事と)独立したカテゴリを設けるには十分な量であるのと、2ch まとめブログ記事の(レスを引用すると言う体裁を取っている事による)独特なフォーマットを利用した判定が比較的実現しやすそうな事を考えても、そろそろ 2ch まとめブログは独立したカテゴリで扱った方が良いのかなぁと感じています。

上記に関連しますが、カテゴライズに関しては、社会、政治、経済、スポーツ、...、のような既存カテゴリにしたがって分類されているものをよく見ますが、Web 上においてはこれに加えて、各種 Web サービスの特性(2ch まとめブログ、Twitter 派生サービス、...)にしたがって分類する事も検討した方が良いのかなぁと思っています。

*1:基本的に更新頻度が高く、各サイトから大量の新着記事が流れ込んでくる。