매일신문

[e세상] 검색엔진 서바이벌 전쟁

"영원한 1인자는 없다" '킬러' 출현땐 몰락…차세대 웹 경쟁 치

인터넷 세상의 데이터량은 빅뱅처럼 폭증하고 있다. 이제는 노하우(Know How) 못지 않게 노웨어(Know Where)가 득세하는 시대다. 필요한 자료가 어디 있는지 효율적으로 찾아내는 것이 그만큼 중요해졌다.

◆검색시장을 장악하는 자, 인터넷을 지배한다

인터넷에서 검색 시장을 장악한다는 것은 패권을 거머쥐는 거나 진배없다.

세계 검색 시장을 호령하는 구글. 1998년 미국 스탠퍼드 대학원생 2명이 구글을 만들었을 당시, 이 사이트가 세계 웹 시장을 주무르는 초거대 기업이 될 것으로 예상한 이는 없었다. 구글의 시가 총액은 대략 2천억 달러(180조 원)나 된다.

구글은 전 세계 검색 시장의 60%를 장악하며 14%인 야후와 4%인 마이크로소프트를 여유롭게 따돌리고 있다. 구글은 매출액의 60%, 총 이익의 80%를 검색 페이지 광고 사업으로 얻고 있다.

국내 검색 시장 부동의 1위 네이버를 운영하는 (주)NHN은 1999년까지만 해도 무명의 벤처기업에 불과했지만, 이제 연 매출액 1조 원을 넘보는 공룡 기업으로 성장했다.

웹로그 분석 서비스 사이트인 에이스카운터(www.acecounter.com)에 따르면 네이버는 2007년 한 해 동안 71.75%의 검색 엔진 유입률을 기록했다. 지난해 평균치(65.24%)보다 6.51%나 상승한 수치. 네이버는 2위 다음(11%대), 3위 야후코리아(6%대)와 큰 격차를 유지하고 있다. 4위와 5위인 엠파스와 구글코리아는 유입률이 2%도 안 됐다.

◆변덕스런 인터넷 시장

1995년 미국의 디지털 이퀴프먼트(DEC)사는 웹 페이지의 단어들을 색인으로 저장해 초고속 검색을 할 수 있는 기술을 개발했다. 그 유명한 알타비스타(Altavista)다. 알타비스타는 당대 최고의 검색 엔진이었다. 그러나 당시 DEC는 검색 시장의 시장성을 간과하는 실수를 했다. 검색으로는 부가가치를 창출할 수 없다고 본 것이다.

1998년 구글이라는 요상한 이름의 검색 엔진이 괜찮다는 소문이 퍼지기 시작했고 '게임'은 그것으로 끝이었다. 2년 만에 구글은 검색 시장을 제패하는 기적을 일궜다. 야후는 자신의 홈페이지에 구글 검색창을 띄워주는 등 '호랑이'를 키웠다. 마이크로소프트는 구글이 인터넷 시장의 맹주가 되는 것을 지켜볼 수밖에 없었다.

인터넷은 특성상 채널 전환 비용이 영(0)에 가깝다. 몇 년 안에 흥할 수 있지만 순식간에 몰락할 수 있는 변덕스런 시장이다. 알타비스타와 야후가 그랬듯이 구글도 새 검색 엔진에 의해 밀려날 수 있다. 지금도 '포스트' 구글을 노리는 도전자들이 끊임없이 등장하고 있다.

◆구글 아성 무너지나?

알타비스타가 1세대 검색 엔진이라면 구글은 2세대 검색 엔진이다. 알타비스타는 검색 키워드와 일치하는 단어가 포함된 웹 페이지를 찾아 주었다. 웹 사이트가 기하급수적으로 늘다 보니 검색 결과도 폭증했다. 검색 결과값이 많다 보니 도서관에서 정작 볼 만한 책을 찾기 힘든 격이 됐다.

'링크가 많이 된 페이지가 유용할 것'이라는 가정 아래, 구글은 검색 결과물에 순위를 매기는 방법으로 각광을 받았고 오늘날의 지위를 이뤘다. 그러나 구글 역시 검색 결과값이 너무 많이 나오는 한계점을 극복하지 못하고 있다.

이와 관련해 리드라이트웹(www.readwriteweb.com)은 2008년 구글의 아성이 흔들릴 것이라는 예측을 지난해 말 내놨다. '구글 킬러' 모델이 나타날 수 있고, 구글이 의욕적으로 도입한 새로운 사업 모델은 실패하거나 신뢰를 잃게 하는 요인이 될 수 있다고 했다.

온라인 백과사전으로 성가를 떨친 위키피디아는 이용자의 참여를 바탕으로 한 검색 엔진 위키아(www.wikia.com)를 개발해 이달 7일 공개했다. 사용자들의 자발적인 참여와 편집을 허락함으로써 대성공을 거둔 위키피디아식 집단지성 모델을 검색 엔진에서 구현하겠다는 것이다.

최근 선보인 퀸투라(www.quintura.com)도 주목받는 검색 엔진이다. 퀸투라는 비주얼 검색 엔진을 표방한다. 사용자가 검색을 하면 퀸투라는 검색어와 관련된 다른 키워드를 화면 왼쪽에 표시해 준다. 그 키워드를 누르면 처음에 입력한 키워드를 동시에 만족시키는 결과가 노출된다. 구글을 이용할 때보다 헤매는 경우가 적고 자료 찾는 속도도 빠르다.

◆똑똑한 검색이 시장을 제패한다

국내에도 퀸투라와 비슷한 개념의 검색 엔진이 등장했다. 2007년 대한민국 매쉬업 경진대회에서 우수상을 받은 '생각의 덩어리'(http://scaryama.com)라는 서비스가 그것이다. 검색어를 입력하면 그와 관련된 다른 검색어들이 동그란 거품처럼 화면에 떠오르며 연관된 검색을 편하게 할 수 있다. 키워드를 조합해 검색을 하는 데 서툰 사용자들에게 유용한 사이트다.

부분적인 음은 알지만 곡목과 가수 이름이 통 기억나지 않을 때 콧노래로 자료를 찾을 수 있는 독특한 검색 사이트도 있다. PC에 마이크를 연결한 뒤 미도미(www.midomi.com)에 접속해 찾고자 하는 노래의 일부분을 콧노래로 흥얼거리면 곡명과 가수 이름 같은 데이터를 찾아준다.

웹 2.0 시대를 관통하는 가치는 '더 쉽고 똑똑한 웹'이다. 지능형 웹을 가능케 하는 차세대 검색 엔진의 등장을 예견하는 이도 많다.

사용자의 취향과 사용 내력을 분석한 뒤 인공 지능 형태의 답변을 찾아주는 '개인화 검색'을 비롯해, 서로 다른 인터넷 서비스와 뉴스·검색 엔진을 홈페이지 초기화면에 묶는 '매쉬업(Mashup)'과 같은 것이 차세대 웹 서비스의 유력 후보로 떠오르고 있다.

김해용기자 kimhy@msnet.co.kr

♠ 방대한 자료 몇 초 만에 찾는 비결 뭘까?

구글이나 네이버 같은 검색사이트는 엄청나게 방대한 검색 결과값을 몇 초 안에 뿌려준다. 인터넷 세상에 산재한 방대한 데이터 중에 필요한 것을 이처럼 신속하게 찾아내는 비결은 '검색 엔진'에 있다.

검색 엔진은 인터넷에서 자료를 쉽게 찾을 수 있게 도와주는 소프트웨어 또는 웹 사이트를 말한다. 엔진이란 한 가지 목적을 위해 함께 작용하는 여러 프로그램에 대해 전반적인 운영을 조정하거나 응용프로그램 안에서 중추적인 기능을 하는 프로그램을 일컫는다. 바이러스 백신 엔진, 게임 엔진의 예처럼 컴퓨터 분야에서 차용되고 있다.

검색 엔진이 작동하려면 '크롤러'(crawler)라는 핵심 프로그램이 필요하다. 크롤러는 웹상의 다양한 정보를 자동으로 검색하고 색인하는 소프트웨어다. 크롤러는 끊임없이 웹 페이지를 찾아 돌아다니며 데이터를 수합해, 색인 자료를 만든 뒤 검색 엔진에 축적하는 작업을 반복한다. 검색 사이트 서버는 사용자가 입력한 검색어와 매칭되는 색인 값을 노출시켜 주는 것이다.

크롤러는 검색 로봇(robot) 또는 봇(bot)·스파이더(spider)라고도 불린다. 프로그램에 로봇이라는 이름을 단 것이 이채롭다. 검색 로봇이라고 해서 아무 사이트나 마구 헤집고 드나들 수는 없다. 거기에는 일종의 규약이 있다. 웹 사이트 관리자는 검색 로봇의 접근 범위를 정하는 robots.txt라는 파일을 배치해, 검색 로봇의 출입을 막을 수 있다. robots.txt 파일은 웹 서버의 공개 디렉토리 최상층에 배치된다.

robots.txt는 권고 사항일 뿐 강제 규정은 아니다. 그러나 대체적으로 검색엔진들은 robots.txt 규정을 따르고 있다.

네이버에 한번 들어가면 네이버 안에서 맴돌게 되는 경우가 많다. 네이버는 자사의 데이터 베이스 위주로 자료를 뿌려주고 다른 웹 사이트 결과값을 뒤쪽에 배치하는 등 사용자를 가둬두려 하고 있다. 반면 외부 검색 사이트에서는 네이버의 블로그나 지식iN 자료를 찾아내기 어렵다. 네이버가 robots.txt를 통해 다른 검색엔진 로봇의 접근을 막고 있기 때문이다. 네이버의 이 같은 '닫힌 철학'은 개방과 공유·확산을 가치로 삼는 웹 2.0 시대에 걸맞지 않다는 비판의 대상이 되고 있다.

김해용기자 kimhy@msnet.co.kr

▨ robots.txt 파일을 만드는 방법

검색 로봇은 특정 사이트를 방문했을 때 robots.txt 파일을 제일 먼저 찾으며, 이 파일에 내용을 지킨다. robots.txt 파일이 없을 경우 검색 로봇은 해당 사이트가 모든 접근을 허용하는 것으로 받아들인다.

robots.txt 파일은 웹 사이트의 최상위 디렉토리에 위치한다. robots.txt 파일을 만드는 방법은 간단하다. 메모장 프로그램을 열어서,

User-Agent : *

Disallow : /

라는 문구를 작성하고 업로드하면 된다. 위 문구는 '어떤 검색 로봇도 자신의 사이트를 인덱스하지 말라.'는 의미다. 인덱스를 허용한다면 'Disallow :' 뒤에 '/' 기호를 빼면 된다. robots.txt 파일에 문자를 추가해 검색 로봇이 특정 검색엔진·특정 디렉토리·특정 파일에 접근하는 것을 선별적으로 차단하거나 허용할 수도 있다.

최신 기사

많이 본 뉴스

일간
주간
월간