웹 크롤러(web crawler)
주로 구글, 네이버 등 검색엔진을 생각하면 된다.
왜 필요한지??
검색 엔진은 최신 자료를 제공하기 위해 계속 자료를 업데이트 해줘야 한다.
또한 웹 사이트 자동 유지 관리 작업, 예를 들어 링크가 삭제되었다던지, HTML 코드에 이상은 없는지 등을 검증한다.
동작방법??
방문한 사이트 모든 페이지의 복사본을 생성하고, 빠른 검색을 위해 인덱싱(index)을 한다.
그리고 시드(seeds) URL을 시작으로 여기서 파생되는 모든 URL을 수집한다.
수집된 URL리스트들은 지속적으로 반복 업데이트 된다.
예) 시드 뒤에 붙는 "/2018/12/game.html" 파생 페이지들을 수집한다
시드 : kgu3405.blogspot.com
파생1 : kgu3405.blogspot.com/2018/12/game.html
파생2 : kgu3405.blogspot.com/2019/01/fodd.html
구글에 블로그를 등록해보자
1) 사용자 URL 등록(https://www.google.co.kr/intl/ko/add_url.html)
2) 사이트맵을 구글에서 사용할 수 있도록 등록하기
- 위 과정에 사이트를 등록하면 아래와 같은 화면이 나온다
3) Google Search Console에 등록하기
- 링크를 따라 다음과 같이 Google Search Console에 들어갑니다.
4) 먼저 시드(seeds) 주소를 입력해줍시다
- 하위 하이퍼링크를 제외한 제 블로그 주소를 넣으면 되겠죠
- http://kgu3405.blogspot.com
- 시드 등록 후 화면입니다.
6) 이제 구글 블로그로 들어가서 [설정] - [검색 환경설정] 을 들어갑니다.
- Google Search Console은 위에서 이미 작업 완료되었구요.
- 맞춤 robots.txt 를 수정해줍시다
7) robots.txt 를 수정해봅시다(주의!!)
- 경고가 있습니다. 기본 robots.txt 대신 다른 걸로 사용하게 되는데 잘못되면 검색이 되지 않을 수도 있다고 합니다(웃긴건 이미 검색 안되고 있었다는거죠ㅋㅋ)
8) http://ctrlq.org/blogger/ 사이트로 이동해서 robots.txt용 명령어를 생성합시다
일단 여기까지 Google Search Console, robots.txt를 등록해봤다.
구글 블로그는 사실 정말 한국인에게 있어서는 불편함 그 자체다.
네이버 블로그에서 알아서 해주는 것을 여기서는 모두 수작업을 해줘야 한다.
(게다가 설명이 너무 불친절하다, 쓰란거야 말란거야ㅠ)
현재 멍멍짱구라는 키워드로 구글링을 해보면 아직은 아무 정보도 검색되지 않고 있다.
구글 서치콘솔에서는 아직 크롤링 하고 있다는 메시지만 나올 뿐
며칠뒤, 크롤링이 성공적으로 되면 이 글에 추가로 후기를 올려보기로 하고
다음에는 '맞춤 로봇 헤더 태그'에 대해서 포스팅을 해보기로...
구글 블로그는 사실 정말 한국인에게 있어서는 불편함 그 자체다.
네이버 블로그에서 알아서 해주는 것을 여기서는 모두 수작업을 해줘야 한다.
(게다가 설명이 너무 불친절하다, 쓰란거야 말란거야ㅠ)
현재 멍멍짱구라는 키워드로 구글링을 해보면 아직은 아무 정보도 검색되지 않고 있다.
구글 서치콘솔에서는 아직 크롤링 하고 있다는 메시지만 나올 뿐
며칠뒤, 크롤링이 성공적으로 되면 이 글에 추가로 후기를 올려보기로 하고
다음에는 '맞춤 로봇 헤더 태그'에 대해서 포스팅을 해보기로...
댓글
댓글 쓰기