適合率

定義に合わせて言えば,

(適合率)=(検索結果の思った通りの内容のサイトの数)/(検索結果のサイト数)

です。
ここで, 検索結果っての言うのが, 直感的に理解しにくくなる原因の1つじゃないかなと思います。(僕はなりました。。)


例えば, ver0の検索結果の数っていくつですか?
僕が横着して10番目以降から....で省略しているので分からないですよね。。
実際に情報検索システムが扱うサイト数(データ数)は膨大で数えれません。
でも, グーグルなんかだと検索結果のサイト数が出ます。(実は分かります。)
でも, 思った通りの内容のサイトの数は出てきません。見て調べるのも厳しいです。


と言うような上記の理由で, 適合率ってどう求めるだろう?って思ったのですが, よくよく考えると検索結果を自分で決めてしまえば良いんですねm(_ _)m
例えば, ver0で4番目までを検索結果としてしまえば適合率は3/4になります。
勝手に定義を解釈してみると, 検索結果の集合をSとして,

適合率(S)=(Sの要素かつ正解となる要素数)/(Sの要素数

というイメージですね。


今回, Sのとり方を検索結果の1番目のみ, 1番目から2番目, 1番目から3番目, 1番目からS番目とすると, ver0とver1のそれぞれの適合率の変化は次のようになります。

ver1の方が, ver0より上の方に位置しているので精度が良さそうですね。
ver0は減少して増加していますが, ver1のように精度が良いシステムだと減少し続けるのが理想的だと(勝手に)思いました。