WikipediaをパクったWEBサイトを検索エンジンはどう見ているのか?

      2016/03/18

今回はマーケティングではなく、少し専門的なSEOのトピックスです。
ただしテクニックの話は一切しないので、SEOを始めたばかりのWEB担当者でも十分に理解出来る内容になっています。

パンダアップデート4.0~やペンギンアップデート3.0~の施行に伴い、今まで以上にWEBサイトの品質が問われるようになりました。
本来SEO効果の有無を問わずコンテンツの品質は大切なはずですが、具体的にメリットがないと動かないというのが多忙を極めるウェブ担の正直な所だったのでしょう。

ところが、コンテンツの品質を勘違いした一部のSEOスパマーやあるいは悪意のない泥棒達によって多くのコンテンツが盗用、要はWEBサイトの内容を第三者が無断でパクるという事案が多発したのです。
パクられるWEBサイトの特徴は当然Google検索の上位のWEBサイトで、その代表的なWEBサイトがWikipediaなのです。

今日はこれら生産性のないスパム(正確にはスクレイピング)サイトが、検索エンジンなど機械的にはどのように見えているのか、実際にWikipediaをパクったWEBサイトを作りお見せいたします。
これらの悪質なスパマー・スクレイパーのSEO手法を公開する事で、少しでも業界内のSEOに対する認識が向上する事を願います。
※本記事を曲解し悪用しようという方は、申し訳ありませんが著者の望む読者ではありません。不利益が発生したとしても一切責任は持ちません。

2014年現在のパクりサイトの特徴

パクりサイトとひとことで言っても、パンダアップデート施行後の現在では完全コピーのWEBサイトは少なくなっており、あったとしてもGoogleのフィルタリングによってSEO的な恩恵を受ける事は殆どなくなってきました。
そこでスパマー達が考えたのが、一部の接続詞や言い回しなどの文章表現を変え、時に複数のWEBサイトを組み合わせたキメラを作る事で、あたかもオリジナルであるかのように装った不完全コピーサイトを作る事でした。
これらは「意図せずに似てしまった」では言い訳出来ない事が機械の目からは見えてしまいます。
ですので2014年現在もはびこる不完全コピーのパクりサイトを実際に作って、機械的にはどの様に見られるのか、見ていきたいと思います。
せっかくですので、キーワードは「SEO」でやってみましょう。

Wikipediaをパクったコピーサイトを作る

Wikipediaのページ 実際にWikipediaでSEOのページを見てみましょう。
説明するまでもなく、みんな大好きWikipediaです。これを元にパクりコンテンツを作るわけですが、私にとってはオリジナルを作るより模倣したコンテンツを作る方が大変でした。
いちいち文節ごとに言い回しを考えたり、違う言い方に思いを巡らせる方がよっぽど苦労するというのが分かりました。非生産的な作業の為モチベーションも上がらず、作業も面倒なものばかりなので精神衛生上も良くないですね。

検証用パクりサイトこちらが、検証用に作ったパクりサイトです。
スパマー達はこの様に一部の言葉を言い換えたり、前後を入れ替えるなどしてコンテンツを盗用します。テキストだけを見るとパクってる感じがプンプンするのですが、通常これらは装飾されたデザインや他の文章の中に紛れ(あるいは隠され)殆ど目立つことはありません。
今回は説明用なので極力シンプルなHTMLソースで、デザインは無視しております。
実際にこんなWEBサイトで上位化しようと思っても無謀です。
この様なコンテンツに対し、Googleがどの様な見解を持っているかは下記のウェブマスター向けガイドラインをご覧ください。

Googleウェブマスター向けガイドライン『無断複製されたコンテンツ』
https://support.google.com/webmasters/answer/2721312

ちなみにHTMLソースではこの様になっています。

HTMLソースマークアップ(HTMLのタグなど)は今回の検証には関係ありませんが、特別にHTMLソースに細工をしていたり、見えない部分でSEOテクニックを駆使していると思われると不本意なのでお出しいたしました。
コンテンツSEO時代の現在は旧石器時代のSEOの常識はほとんど役に立ちません。マークアップとSEOの関係性は年を増すごとに薄くなっていますので、小手先に走るのではなくコンテンツ内容にフォーカスしていきましょう。

パクったWEBサイトを検索エンジンはどう見る?

さて、2014年ともなるとパクるのも楽じゃない現実を前に、まさかまだパクるつもりでしょうか。
検索エンジンシミュレーターSeeSの類似表示機能(ALLモード)を使い、パクりサイトとWikipediaの類似性を見てみましょう。

Wikipediaとの全体の類似度まず先にページ間の一致率で見てみましょう。
パクりサイトの平均の類似度は39.84%と特段高い訳ではありませんでした。また、WikipediaのSEOページとの一致率も41.78%と、これも全体の一致率からすると高くありません。パクってなくても同一のテーマで書くとこれくらい一致する事はよくある事です。
これは僕の経験値とスパマーとしての才能の発見スパマー達が全体の類似度の緩和という点においては、一定の成果を上げている裏付けになります。
確かにこの数字だけ見ると、一見オリジナリティを担保した健全なWEBサイトのように見えます。

それでは次に、全体での一致ではなくWEBサイトを細かいブロックごとに見た場合(BLOCKモード)どのように見えるか見てみましょう。

パクりサイトとの比較左側がパクりサイトで右側がWikipediaです。同じ色の箇所が文節の一致している箇所です。ざっと見てもこれだけ一致しています。
さらに拡大して具体的にどの様に検索エンジンの目を欺こうとしているのか見ていきましょう。

SEOスパムも一目瞭然どうでしょう。WEBサイト全体の類似度では悪質性は見られませんでしたが、こうして比較すると一目瞭然ですね。
オリジナルの文章で「手法」としている箇所を「方法」と言い換えたり、「狭義」を「狭い意味で」としてみたり、たまたま似てしまったという言い訳もむなしいレベルです。大学生のレポートでももう少し工夫してパクると思いますがどうでしょうか。
ALLモードの図でモザイクをかけていますが、驚いた事に検証用のパクりサイトとWikipedia以上に類似しているサイトがいくつか出てきました。中には検索順位の高いWEBサイトも含まれています。
それにしてもパクり同士の方が模倣した筈のオリジナルよりも似ているという何とも滑稽な結果です。
パンダ・ペンギンアップデートにより日々Google検索も進化しておりますが、まだまだ発展途上の技術ですのでこの様なWEBサイトが上位化する事もまれにあります。
もちろんこれらのWEBサイトが今後どうなるかは推して知るべしといった所でしょう。

悪意のない泥棒にならない為に

コンテンツSEOに力を入れようと一念発起するもなかなか時間が取れないので、記事をライターに外注しようと検討中のWEB担当者は要注意です。
特にクラウドソーシングで検討中の方は、納品された文章が模倣されたものでないかチェックされた方が賢明です。
悪意がないにも関わらずペナルティを受けてしまう代表的なものが、有料リンクにならび意図しないコンテンツの盗用だからです。
もちろん、それら全てに言える事ではありませんが、文章作成にも人の手が加わっていると考えるのであれば、あまりに安いものは利用しない方が賢明なのではないでしょうか。
訪問ユーザーにとっても検索エンジンにとっても、コンテンツに使われる文章が外注なのかインハウスなのかは関係ありませんが、内容や品質には大きく左右されます。
会社としてアウトプットする以上、内容には一定の責任を持つべきではないでしょうか。
Contents is Kingに立ち戻ってください。
リソースが十分でない限り無理に量産に走るのは品質の低下だと私は考えます。

辞書にない情報こそがコンテンツの魅力

グッジョブ!上手に検索エンジンを欺き、検索順位の上位化を果たしたとしてもユーザーに求められるものの多くは辞書的な用途の意味調べではないはずです。
Wikipediaをはじめ各種辞書や用語サイトについては、もちろん辞書としての役割が求められていますが、多くのWEBサイトについてはそれら辞書的な意味合いの説明ではなく、それによってどうなるのか・どうしたのかといった部分以外、そのWEBサイトの特徴や魅了にはなり得ないですよね。
Googleが考える有益なコンテンツは、そのWEBサイトだから体験できるオリジナリティですし、ユーザーの立場に立ってもどこにでもある情報なら結局はいくらでも比較され淘汰されうるという事です。
Google検索の精度向上は日進月歩に進化し、今まで以上に有益なサイトを探しやすくしてくれるでしょう。
私たちが考えるべきは検索エンジン対策ではなく検索ユーザー対策で、本来当たり前だったはず事を改めて考える時期になったという事なのでしょう。
Google検索は答えから応えに、 人を思えば検索が応える時代が来ているのです。
私たちも進化しましょう。

他にもこんな記事が読まれています

 - SEO ,