masterdegree/모바일 컴퓨팅

구글의 페이지랭크

수상한 김토끼 2012. 3. 15. 11:07




구글 페이지 랭크란 무엇인가?


페이지랭크란 지금의 구글을 만든 검색 알고리즘으로서의 핵심만 짚어보면
"전 세계 총 웹페이지의 수를 N이라고 하고 내가 k라는 웹페이지를 가지고 있다면, N개의 웹페이지 모두에서 일일이 검색을 시작하여 내가 가지고 있는 k라는 웹페이지에 도달 할 확률을 합산한다."


각각의 부분을 좀 더 세세하게 살펴보자면 다음의 6가지로 정리 할 수가 있다.


1. 누가 당신을 링크 했는지가 중요하다. 페이지랭크가 낮은 사이트에서 당신의 웹사이트를 링크할 경우 페이지 랭크에 좋지 않다.
2. 구글은 정보 혹은 기관의 웹사이트를 신뢰한다. .edu혹은 .gov등의 도메인을 사용하는 웹사이트로부터 링크되면 좋다.
3. 당신과 비슷한 성격의 사이트로부터 링크되면 페이지 랭크에 유리하다.
4. 스팸사이트로부터 링크되면 구글은 당신의 웹사이트 역시 스팸으로 오인할 것이다.
5. 특정 사이트와 링크를 교환하는 일이 잦아지면 구글은 해당 링크를 무효로 처리한다.
6. 낮은 페이지랭크의 웹사이트로부터 많은 링크를 받는 것보다 높은 페이지랭크의 소수 웹사이트에 의해 링크되는 것이 유리하다.


구글 페이지 랭크라는 알고리즘을 찾아보고 나서 가장 먼저 드는 생각은 상업적인 이익을 위해 조작이 가능한 것인가 하는 부분이었다.
동서고금을 막론하고 악당은 존재 해 왔고 악당이 잘 먹고 잘 살았다는 것은 부정할 수 없는 현실이다. 예컨데 국내의 대형포털인 네X버나 네X트 같은 경우에는 검색 순위를 조작하고 광고위주의 검색결과를 보여준다는 것은 이제는 상식이 된 상황에서 이러한 불순한 의도(?)를 가진 웹페이지들로부터의 조작을 어떻게 막을 수 있을 것인가?
 위에서 찾아본 구글의 페이지랭크 알고리즘에 따르면 높은 페이지랭크 값을 갖기 위해서는 중요한 페이지로부터 언급되거나 중요하지 않은 많은 페이지로부터 링크되어야만 한다. 국내의 대형포털의 경우 광고링크를 구입하는 것과 같은 조작을 통해 백링크의 수를 조작하는 경우를 생각해 보면 심각한 문제가 발생 할 수도 있다. 예컨데, 문서가 자주 업데이트 되고 많은 조회수를 기록 한다는 것은 매우 바람직한 특징임에도 불구하고 검색 결과를 조작하고자 하는 사람들에게 남용 될수도 있기 때문이다. 
그런 이유로 5번과 같은 알고리즘이 사용되지 않았나 싶다. 특정 사이트(네X버, 네X트)에서의 잦은 링크교환은 무효처리 하는 알고리즘을 통해서 어느정도의 효과를 볼 수 있을 것 같다. 그래서인지 구글에서 검색을 하면 네x버나 네x트로의 링크는 많이 발견되지 않는다. 해당포털의 링크에서 내가 정말 찾고 싶은 내용에 있었음에도 불구하고 검색을 할 수 없다는 점은 지금의 우리나라의 안타까운 현실임에 틀림없다.


 대학원 수업을 들으면서 구글 페이지랭크에 대해 배우게 되었고 여기저기 많이 찾아보았는데 내 얕은 지식으로는 이 정도 밖에 표현 할 수가 없는 것 같다. 처음부터 내 전공 분야가 아니었을 뿐더러 구글이 이거뿐만 아니라 여러가지 복잡한 이론들을 엄청 사용했을 것이라는 건 불보듯 뻔한 일이지만 내 수준에서는 이 이상의 내용을 담고 있는 논문이나 전문 자료들은 해독이 불가능 하였다.


오늘의 교훈 : 나는 아는게 아무것도 없는 것 같다.

'masterdegree > 모바일 컴퓨팅' 카테고리의 다른 글

Pajek  (0) 2013.05.13
Gamification 은 게임과 무엇이 다를까?  (0) 2012.04.24
웹앱의 대표적인 라이브러리  (0) 2012.04.02
CDMA란 무엇인가?  (0) 2012.04.02