robots.txt 란?
robots.txt는 검색엔진 크롤러가 크롤링하며 정보를 수집해도 되는지, 해서는 안 되는 페이지가 무엇인지 알려주는 크롤러 이정표 역할을 한다.
robots.txt를 적용 해야 하는 이유?
1. 검색엔진 크롤러의 과도한 크롤링 및 요청으로 이한 과부하 방지
2. 검색엔진에 노출되면 안되는 콘텐츠 제한 가능
직접 작성해보자~
- 반드시 ROOT 디렉토리에 저장이 필요!
- 크롤러가 인식해야 하므로 정해진 형식을 따라 작성해야 한다.
- .txt 텍스트 확장자로 저장이 필요
# 아래 내용은
# 모든 크롤러가 directory01 폴더 내에 있는 모든 파일에 대해 크롤링을 제한하고
# 모든 크롤러가 directory02 폴더 내에 있는 모든 파일에 대해 크롤링을 허용한다.
User-agent: * # 어떤 검색엔진 크롤러를 지정할지 [반드시 포함 필요]
Disallow: /directory01/ # directory01 폴더 내에 있는 모든 파일 제한
Allow: /directory02/ # directory02 폴더 내에 있는 모든 파일 허용
구성요소
1. User-agent: robots.txt 에서 지정하는 크롤링 규칙이 적용되어야 할 크롤러를 지정
# 검색엔진 모두 다르다.
구글: Googlebot
네이버: Yeti
다음: Daum
빙: Bingbot
덕덕고: DuckDuckBot
2. Allow: 크롤링을 허용할 경로 (/ 부터의 상대 경로)
3. Disallow: 크롤링을 제한할 경로 (/ 부터의 상대 경로)
4. Sitemap: 사이트맵이 위치한 경로의 전체 URL
반응형
'Dev > CS' 카테고리의 다른 글
[Cache] 브라우저 캐시 삭제 및 초기화 (0) | 2023.08.18 |
---|---|
[Java] 자바 1.7 버전 설치 및 환경변수 설정 (0) | 2023.08.10 |
[네트워크] 공인 IP vs 사설 IP (0) | 2023.06.08 |
[CS] RAID 0, RAID 1 (2) | 2023.05.11 |
[CS] SMTP, POP3, IMAP 란? (0) | 2023.04.28 |