[크롤링] 사이트 검색 안되게 설정하기 (robots.txt)

Dev/CS

[크롤링] 사이트 검색 안되게 설정하기 (robots.txt)

한끄적

|2023. 6. 13. 10:28

robots.txt 란?

robots.txt는 검색엔진 크롤러가 크롤링하며 정보를 수집해도 되는지, 해서는 안 되는 페이지가 무엇인지 알려주는 크롤러 이정표 역할을 한다.

robots.txt를 적용 해야 하는 이유?

1. 검색엔진 크롤러의 과도한 크롤링 및 요청으로 이한 과부하 방지

2. 검색엔진에 노출되면 안되는 콘텐츠 제한 가능

직접 작성해보자~

- 반드시 ROOT 디렉토리에 저장이 필요!

- 크롤러가 인식해야 하므로 정해진 형식을 따라 작성해야 한다.

- .txt 텍스트 확장자로 저장이 필요

# 아래 내용은 
# 모든 크롤러가 directory01 폴더 내에 있는 모든 파일에 대해 크롤링을 제한하고
# 모든 크롤러가 directory02 폴더 내에 있는 모든 파일에 대해 크롤링을 허용한다.


User-agent: *                         # 어떤 검색엔진 크롤러를 지정할지 [반드시 포함 필요]
Disallow: /directory01/               # directory01 폴더 내에 있는 모든 파일 제한
Allow: /directory02/                  # directory02 폴더 내에 있는 모든 파일 허용

구성요소

1. User-agent: robots.txt 에서 지정하는 크롤링 규칙이 적용되어야 할 크롤러를 지정

# 검색엔진 모두 다르다.

구글: Googlebot
네이버: Yeti
다음: Daum
빙: Bingbot
덕덕고: DuckDuckBot

2. Allow: 크롤링을 허용할 경로 (/ 부터의 상대 경로)

3. Disallow: 크롤링을 제한할 경로 (/ 부터의 상대 경로)

4. Sitemap: 사이트맵이 위치한 경로의 전체 URL

'Dev > CS' 카테고리의 다른 글

[Cache] 브라우저 캐시 삭제 및 초기화 (0)	2023.08.18
[Java] 자바 1.7 버전 설치 및 환경변수 설정 (0)	2023.08.10
[네트워크] 공인 IP vs 사설 IP (0)	2023.06.08
[CS] RAID 0, RAID 1 (2)	2023.05.11
[CS] SMTP, POP3, IMAP 란? (0)	2023.04.28

[크롤링] 사이트 검색 안되게 설정하기 (robots.txt)

robots.txt 란?

robots.txt를 적용 해야 하는 이유?

직접 작성해보자~

구성요소

'Dev > CS' 카테고리의 다른 글

티스토리툴바