사용자 내비게이션 패턴 분류와 예측을 위한 웹 서버 로그와 웹 콘텐츠의 합동 마이닝
- 전문가 제언
-
○ 웹 서버 로그는 사용자의 페이지 요청의 이력을 자동적으로 보존하는 파일이다. 요청에 대한 정보에는 클라이언트의 IP 주소, 요청 날자와 시간, 요청된 페이지, HTTP 코드와 서비스된 코드, 사용자 에이전트 등이 포함된다. 한편, 웹 페이지 콘텐츠는 웹 페이지 화면에 나타나는 모든 텍스트, 영상 및 서비스 등이 될 수 있다.
○ 웹 사용자 내비게이션 패턴은 사용자가 자기의 필요와 관심사를 위하여 인터넷 망을 통하여 수집한 웹 사이트들의 어떤 패턴이고 여기에는 웹 서버 로그와 웹 페이지 콘텐츠가 포함된다. 따라서 사용자의 내비게이션 패턴을 이용하여 사용자 내비게이션 프로파일링이 가능해진다.
○ 이 논문에서는 사용자 내비게이션 패턴 분류와 사용자의 요청 예측을 위하여 웹 서버 로그와 웹 페이지의 콘텐츠를 결합한 마이닝 방법을 제안한다. 웹 페이지의 텍스트형 콘텐츠는 웹 서버 로그 파일과 결합된 문자 N-gram의 추출을 통하여 얻고 실험을 위하여 실험 시스템이 구현되고 수행능력이 평가된다. 시스템은 거의 70%의 분류 정확도와 약 65%의 예측 정확도를 달성하고 있음을 보이고 있다.
○ 웹 마스터에 입장에서 볼 때, 웹 사용자의 편의를 위하여 사용자가 가장 많이 찾는 웹 사이트를 미리 예측하고 그에 알맞은 콘텐츠를 개발하는 것은 매우 중요하다. 이를 위하여서 사용자 내비게이션 패턴 프로파일과 같은 개념과 웹 사용 마이닝과 웹 콘텐츠 마이닝의 사용은 눈여겨 볼 내용이다.
○ 웹을 통하여 유통되는 막대한 양의 정보 가운데 유용한 정보의 추출방법은 연구 대상이다. 이 논문에서는 아직 실험실 수준에서 마이닝에 초점을 두고 정보추출을 다루고 있으므로 실용화에는 아직 미흡하고 더 연구할 여지가 많이 남아있다. 따라서 웹 자체가 정보를 추출하는 시멘틱 웹과 같은 지능형 웹의 연구가 더욱 필요할 것으로 보인다.
- 저자
- Haibin Liu, Vlado Keselj
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2007
- 권(호)
- 61
- 잡지명
- Data & Knowledge Engineering
- 과학기술
표준분류 - 정보통신
- 페이지
- 304~330
- 분석자
- 김*기
- 분석물
-
이미지변환중입니다.