Web サイトのフィルタリングについて、最近、「更新頻度の高すぎるサイトはフィルタリングしてしまうのが良いのではないか」と考えるようになりました。
ネットメディアや 2ch まとめブログなど「読者を無駄に煽り、時には捏造やデマを流す事も厭わない」と批判される Web サイトの多くは「コンテンツファーム」的な性質も同時に見られます。これは、記事を公開する事に対するコストの低さなどの Web の構造的な性質上、「各記事の質を気にせずに、ひたすら量(記事数)で攻めてもそこそこの PV を稼ぐ事が出来る」と言う問題があるためです。したがって、更新頻度を監視し、あまりにも更新頻度の高いサイトはブロックしてしまう事によって、読者を無駄に煽るイエロー・ジャーナリズム的なネットメディアを自動的にフィルタリングする事が期待できます。
更新頻度の高すぎるサイトをフィルタリングする事の利点と問題点
このフィルタリング方法の利点として、「コンテンツファーム側が対策し辛い」と言うものが挙げられます。このフィルタリングに引っかからないようにするためには更新頻度を落とす事になるのですが、コンテンツファームにとって更新頻度を落とす事は死活問題に関わってくるため、なかなかそうもいかないと言うジレンマが発生します。
問題点としては、現状の Web はよくも悪くもそういったコンテンツファーム的な「記事を量産するネットメディア」の影響を大きく受けて回っているので、そう言ったサイトを全て排除してしまったもの(まとめサイト、ランキングサイトなど)に対して一般層の需要があるのか(一部のニッチなユーザにしか受けないのではないか)と言う懸念が考えられます。現実的には、更新頻度の高すぎるサイトはいったん全てフィルタリングした後、人力で作成したホワイトリスト方式で復帰させると言う選択肢が良いのかもしれません。
あるいは、フィルタリングはやり過ぎなので「ニュースサイト」と言ったカテゴリを作成し、そこに全て押し込んでしまうと言う方法も考えられます。実際、更新頻度の高いサイトはニュース的な性質を帯びている事が多いので、そう言ったカテゴライズ方法は選択肢として良いかもしれません。
TODO: 実データによる検証
更新頻度の調査は、有名な 2ch まとめブログといくつかのネットメディアに関しては 2ch まとめサイトの更新頻度の変化 - Life like a clown でちょっとだけ行っているのですが、そのうち一度まじめにデータを取ってみようかと思います。
仮にフィルタリングをするとなった場合、こう言ったニュースサイトを運営していく際の更新頻度の基準として「1日10記事」みたいな事が言われたりするので、その辺りがフィルタリングするかどうかの閾値になりそうです(Google Reader の統計情報から得られる値では、70 〜 100 程度がひとつの目安か)。