04.コピペチェックテスト 類似度判定の仕組み – オリジナルワードプレスプラグイン コピペチェックプレス
ペナルティ楽勝! ワードプレスでコピペチェックができるツール
ペナルティ楽勝! ワードプレスでコピペチェックができるツール

04.コピペチェックテスト 類似度判定の仕組み

阿修羅ワークス阿修羅ワークス
コピーペーストチェックプレスの類似度判定の仕組みについて簡単に説明します。
あるコンテンツがあるサイトからコピーされて、それが検索エンジンにヒットするという前提である場合、検索エンジンのテキストボックスにそのコンテンツをコピーして検索すれば、理論上は検索結果に表示されるわけですが、実際には難しいです。

ランファランファ
そう言われてみればそうですね。

阿修羅ワークス阿修羅ワークス
コンテンツには改行やHTMLタグなどが含まれており、そのままでは検索エンジンのテキストボックスに入力できません。
また、この方法は文章が完全にコピーされた全文一致という前提ですので、少しリライトしただけで検索にヒットしなくなります。
あるいは、文章をネットから全文検索するというのは非常に時間が掛かり非現実的です。

ランファランファ
ふむふむ。

阿修羅ワークス阿修羅ワークス
そこで、コピーペーストチェックプレスでは文章内に現れる特徴的な語句を抽出し、その語句ひとつひとつで検索します。
複数の語句で共通する語を含むサイトをピックアップし、実際に内容が類似していれば大変怪しいという判定方法をとっています。
(共通した語句を一定以上含みながら内容が異なるというのは確率的に低いため)
この方法であれば、全文検索よりは速く、内容をリライトして書き換えた文章にも対応できます。

ランファランファ
共通する語を含むか含まないかで判定しているわけですね。

阿修羅ワークス阿修羅ワークス
はい。
ただし、あまりにも短文であったり、有名なフレーズ(名言・格言・金言)や詩であれば、ネットで引用されることは多々あり黙認されているためコピペチェックテストでは正確な判定ができない場合があります。

また、日本語である以上、まったく類似しないということはあり得ません。
どんな内容でも日本語である以上、3割から4割の確率で類似した文章がネットに存在します。
そのことを踏まえて、必要以上に神経質にならないようにしましょう。

ランファランファ
分かりました。

コメント

記事に戻る

コメントを残す