差分比較アルゴリズム

ex_22007-12-16


「用語の誤記を検出するために、一部違う文の比較検出ができないか」と聞かれました。

人間の頭で考えると、一部が違うことを判定するのって簡単なのに、PCにやらせようとするとすごく難しい。そんなことを説明して、ちょっと方法を調べてみますと色々考えてました。

すぐに思いついたのが差分比較アルゴリズム、いわゆるdiffです。ただし文字単位なので、比較対象が多くて厄介です。アルゴリズムを調べ、経路検索は面倒なので全経路比較で作ってみました。JavaScriptで。

最近このJavaScriptで色々作るのが面白いです。diffのエディットグラフを視覚的に表示する仕組みを作り、
マッチング率を計算することで%指定でのミス検索ができそうな感じになりました。遅いですが。

コレを見せながら説明したら「大変そうだからイイヤ」と言われてしまった。(ノ∀`)タハー