2013년 6월 4일 화요일

정보검색 웹과 웹 문서의 특성, 크롤러 (Crawler)에 대하여

정보검색 웹과 웹 문서의 특성, 크롤러 (Crawler)에 대하여
[정보검색] 웹과 웹 문서의 특성, 크롤러 (Crawler)에 대하여.pptx


목차
웹과 웹 문서 특성
- 웹
- 웹 문서

크롤러 (Crawler)
- 정의와 구조
- 검색엔진의 크롤러 로봇
- 크롤러 로봇을 막는 방법



본문
●먼저 웹 입니다.
●웹은 인터넷이라는 시스템을 통해 서로서로 거미줄처럼 연결된 하이퍼텍스트 문헌 시스템으로 웹 서버와 웹 브라우져로 연결되어있습니다.
●웹 서버와 웹 브라우저는 html이라는 마크업 언어와 URL로 서로 의사소통을 이룹니다.
●여기서 html은 http의 마크업언어로 웹 문서를 만들기 위하여 사용하는 기본적인 프로그래밍 언어의 한 종류로 하이퍼텍스트를 작성하기 위해 개발되었습니다.
●그리고 URL이란 유니폼 리소스 로케이터 (Uniform Resource Locator)의 약자로 웹 문서의 각종 서비스를 제공하는 서버들에 있는 파일의 위치를 표시하는 표준을 말합니다.
●웹 브라우저가 특정 URL을 지정하는 http질의를 웹 서버로 보내면
●질의된 URL 서버는 html 파일을 브라우저에게 보내게 됩니다
●html 파일은 하이퍼링크와 내용들을 담고 있으므로 이용자는 웹 브라우져, 즉 클라이언트를 이용해 웹 문서 사이를 이동하며 웹 페이지를 살펴볼 수 있게 되는 것입니다.



본문내용
을 막는 방법

웹과 웹 문서 특성

웹[web]
인터넷이라는 시스템을 통해 서로서로
거미줄처럼 연결된 하이퍼텍스트 문헌 시스템.
웹 서버와 웹 브라우저(클라이언트)로 구성.
이용자는 이와 같은 과정을 통해 웹 문서
사이를 이동하며 웹 페이지를 살펴볼 수 있다.
웹 서버
웹 브라우저
URL
HTML

웹 문서
1. 통제되지 않는 이질적인 문서
2. 누구나 작성(Open publishing)
3. 하이퍼텍스트 문서
4. 거대한 컬렉션

웹 문서
① 통제되지 않는 이질적인 문서
- 비 동질적인 문서들이 통제되지 않은 형태
- 웹의 다양성을 의미
내부적 다양성 - 웹 문서에서 사용된 언어, 어휘, 포맷과
유형과 같은 특성의 다양성
외부적 다양성 - 웹 문서가 존재하는 페이지의 명성, 품질,
인기도, 이용성

참고문헌
노정순. 2011. 『정보검색 이론과 실제』. 대전: 한남대학교출판부.

김동조. 2008. 『웹 크롤러를 이용한 주제정보서비스』. 인하대학교, 석사학위 논문.

김광영, 이원구, 윤화묵, 신성호, 이민호. 2011. 『웹 자원 아카이빙을 위한 웹 크롤러 연구 개발』. 한국콘텐츠학회논문지.

구글. http://www.google.co.kr/.

다음. http://www.daum.net/.

야후. http://kr.yahoo.com/.
 

댓글 없음:

댓글 쓰기