728x90
반응형

robots.txt 란?

robots.txt는 검색엔진 크롤러가 크롤링하며 정보를 수집해도 되는지, 해서는 안 되는 페이지가 무엇인지 알려주는 크롤러 이정표 역할을 한다.

 

 

robots.txt를 적용 해야 하는 이유?

1. 검색엔진 크롤러의 과도한 크롤링 및 요청으로 이한 과부하 방지

2. 검색엔진에 노출되면 안되는 콘텐츠 제한 가능

 

 

직접 작성해보자~

- 반드시 ROOT 디렉토리에 저장이 필요!

- 크롤러가 인식해야 하므로 정해진 형식을 따라 작성해야 한다.

- .txt 텍스트 확장자로 저장이 필요

 

# 아래 내용은 
# 모든 크롤러가 directory01 폴더 내에 있는 모든 파일에 대해 크롤링을 제한하고
# 모든 크롤러가 directory02 폴더 내에 있는 모든 파일에 대해 크롤링을 허용한다.


User-agent: *                         # 어떤 검색엔진 크롤러를 지정할지 [반드시 포함 필요]
Disallow: /directory01/               # directory01 폴더 내에 있는 모든 파일 제한
Allow: /directory02/                  # directory02 폴더 내에 있는 모든 파일 허용

 

구성요소

1. User-agent: robots.txt 에서 지정하는 크롤링 규칙이 적용되어야 할 크롤러를 지정

# 검색엔진 모두 다르다.

구글: Googlebot
네이버: Yeti
다음: Daum
빙: Bingbot
덕덕고: DuckDuckBot

2. Allow: 크롤링을 허용할 경로 (/ 부터의 상대 경로)

3. Disallow: 크롤링을 제한할 경로 (/ 부터의 상대 경로)

4. Sitemap: 사이트맵이 위치한 경로의 전체 URL

728x90
반응형

'Dev > CS' 카테고리의 다른 글

[Cache] 브라우저 캐시 삭제 및 초기화  (0) 2023.08.18
[Java] 자바 1.7 버전 설치 및 환경변수 설정  (0) 2023.08.10
[네트워크] 공인 IP vs 사설 IP  (0) 2023.06.08
[CS] RAID 0, RAID 1  (2) 2023.05.11
[CS] SMTP, POP3, IMAP 란?  (0) 2023.04.28