정보검색 웹과 웹 문서의 특성, 크롤러 (Crawler)에 대하여
[정보검색] 웹과 웹 문서의 특성, 크롤러 (Crawler)에 대하여.pptx |
|
목차 웹과 웹 문서 특성 - 웹 - 웹 문서
크롤러 (Crawler) - 정의와 구조 - 검색엔진의 크롤러 로봇 - 크롤러 로봇을 막는 방법
본문 ●먼저 웹 입니다. ●웹은 인터넷이라는 시스템을 통해 서로서로 거미줄처럼 연결된 하이퍼텍스트 문헌 시스템으로 웹 서버와 웹 브라우져로 연결되어있습니다. ●웹 서버와 웹 브라우저는 html이라는 마크업 언어와 URL로 서로 의사소통을 이룹니다. ●여기서 html은 http의 마크업언어로 웹 문서를 만들기 위하여 사용하는 기본적인 프로그래밍 언어의 한 종류로 하이퍼텍스트를 작성하기 위해 개발되었습니다. ●그리고 URL이란 유니폼 리소스 로케이터 (Uniform Resource Locator)의 약자로 웹 문서의 각종 서비스를 제공하는 서버들에 있는 파일의 위치를 표시하는 표준을 말합니다. ●웹 브라우저가 특정 URL을 지정하는 http질의를 웹 서버로 보내면 ●질의된 URL 서버는 html 파일을 브라우저에게 보내게 됩니다 ●html 파일은 하이퍼링크와 내용들을 담고 있으므로 이용자는 웹 브라우져, 즉 클라이언트를 이용해 웹 문서 사이를 이동하며 웹 페이지를 살펴볼 수 있게 되는 것입니다.
본문내용 을 막는 방법
웹과 웹 문서 특성
웹[web] 인터넷이라는 시스템을 통해 서로서로 거미줄처럼 연결된 하이퍼텍스트 문헌 시스템. 웹 서버와 웹 브라우저(클라이언트)로 구성. 이용자는 이와 같은 과정을 통해 웹 문서 사이를 이동하며 웹 페이지를 살펴볼 수 있다. 웹 서버 웹 브라우저 URL HTML
웹 문서 1. 통제되지 않는 이질적인 문서 2. 누구나 작성(Open publishing) 3. 하이퍼텍스트 문서 4. 거대한 컬렉션
웹 문서 ① 통제되지 않는 이질적인 문서 - 비 동질적인 문서들이 통제되지 않은 형태 - 웹의 다양성을 의미 내부적 다양성 - 웹 문서에서 사용된 언어, 어휘, 포맷과 유형과 같은 특성의 다양성 외부적 다양성 - 웹 문서가 존재하는 페이지의 명성, 품질, 인기도, 이용성
참고문헌 노정순. 2011. 『정보검색 이론과 실제』. 대전: 한남대학교출판부.
김동조. 2008. 『웹 크롤러를 이용한 주제정보서비스』. 인하대학교, 석사학위 논문.
김광영, 이원구, 윤화묵, 신성호, 이민호. 2011. 『웹 자원 아카이빙을 위한 웹 크롤러 연구 개발』. 한국콘텐츠학회논문지.
구글. http://www.google.co.kr/.
다음. http://www.daum.net/.
야후. http://kr.yahoo.com/.
|
댓글 없음:
댓글 쓰기