돌아보니,
웹 분석 관련 연구나 업종에 10년 가까이 일해왔던
것같다.
웹로그 분석에 대해서 논문 썼던게 1998년 이니까...
그때
썼던 (낙엽같은 - 이 표현의 의미를 아시는가?) 논문 제목이 다음과 같다
Discovery and Application of User Access Patterns in the
World Wide Web
(이 논문... 이젠 아예 검색도 잘
안되는 군... 십년전 낙엽이네..)
어쨌든, 웹 분석의 여러 지표들은 표준도
없고 업체마다 적당한 선에서 판단해서 구현하는 부분들이 많다는 문제가 있다.
텍스트큐브에서도 나름의 기준으로 구현할 수밖에 없다.
이번에 텍스트큐브의 수치 기준을
재점검하다보니,
그동안 설명없던 부분들이 많이 있었다는 것이 새삼 느껴졌다.
그래서,
설명할 부분은 명확히해야겠다고 생각이 들었다.
완전히 정리된 형태는 한참뒤에 다른 곳에서
공개될 것인데,
현재 텍스트큐브에 적용된
방문자수와 유입수의 기준에 대해서 먼저 간단히 설명해야겠다.
텍스트큐브에서는 몇가지 고민 끝에
방문자 수와
유입 수를 별도의 기준으로 산정하기로 했다.
방문자(visitor) 수는 세션(session)을 기준으로
판단하기로 하고,
유입 수는 세션 수 + 세션 중간의 page view 이더라도 referrer가 외부 사이트인 경우까지를 포함하기로 했다.
이것은 일반적인 웹 분석 통계 방법론과는 다른 것으로서,
- 블로그에서는 상대적으로 외부 유입 경로가 중요하고,
- 또 referrer가 다 찍히는 유입로그 통계 페이지가 tatter tools 에서부터 내려왔기 때문에,
page hit 을 기준으로 유입을 고려해왔던 철학을 이어받은 것이다.
- 또한 현재 textcube에서는 로봇 방문수를 방문수에 포함하고 있어서(이 부분에는 논란이 많고, 계속 논의중이다. 개인적인 입장에서는 빼야한다고 생각하고 있음), 로봇을 제거한 채로 유입통계를 내고 있는 현 상황을 고려할 때, 다른 숫자로 계산해야한다고 판단한 것이다.
기존의 일반적인 웹 분석에서는
유입 수와 방문자 수(=세션수)가 같다.



