2007/02/24 13:43

중복된 글, 비슷한 글. 한글이 꿈틀

나는 예전에 두 글자 단위(바이그램)로 두 글 사이의 비슷한 정도(상호 정보량)를 측정했던 적이 있다. 딱딱한 축하하는 글은 80% 이상 비슷해서 깜짝 놀랬다. 곰곰히 생각해보니, 블로그에도 적용 가능할 것 같다. 중복된 글은 당연히 서로 100% 닮았거나, 약간 고친 부분만 남아 90% 대를 육박할 터. 블로그의 포스팅에 '이 글과 중복된 글' 이 뜬다면 무슨 일이 일어날까? 아하핫. 재미있을 것 같다.

물론 '비슷한 글'들 목록도 나오면 그것도 나름 재미있겠지만, 이건 좀 힘들다. 사실, 주제어보다도 문체의 영향을 많이 받기 때문이다. 주제어만 떼어낼 수 있다면 좋을텐데. 주제어 목록을 가지고 있으면 될까? 이건 현실적으로 어렵다. 그럼, 반대로 문체를 가지고 있으면 될까? 오, 이거 괜찮은 생각이다. 문체를 떼어내면 주제어가 남는다. 이걸로 비슷한 글을 찾는다.

나름 구현 가능한 방법 아닐까? <- 취소 ^^;

트랙백

이 글과 관련된 글 쓰기 (트랙백 보내기)
TrackbackURL : http://link.egloos.com/tb/3015954 [도움말]

덧글

  • typos 2007/02/24 15:58 # 답글

    둘다 어려운 부분이지. 비교한다는것은 그만큼 리소스를 잡아 먹는다는 것인데 몇만단위의 글도 아니고 수백만 이상의 글들을 계속해서 비교해 낼수 있을까? 현실적으로 첫번째 문제는 like보다는 equals로 푸는 것이 좋고, 두번째 문제는 categorization으로 풀면 되는 문제임. 그렇게 되면 첫번째는 쉽게 가능하게 되고 두번째는 알고리즘만으로 풀수 없는, 돈이 많이 들어가는 작업이 되겠지..
  • 최종욱 2007/02/24 16:42 # 답글

    아, 그렇군요; ^^; 대충 오래 걸리는 힘든 작업이리라 생각은 했는데 말이죠. equals 비교는 부호와 공백을 없앤 Hash값 비교 + 직접 비교를 스르륵 해낼 수도 있겠네요.
  • typos 2007/02/24 17:54 # 답글

    역시 금방 눈치 채는군^^.. 휴가나오면 들러.. 지난번 개인적으로 얘기 못했는데 개인얘기좀 하면서 놀게...
  • 최종욱 2007/02/25 17:09 # 답글

    typos/ 넵. 히힛. 나중에 연락 드릴게요.
덧글 입력 영역