Robots.txt란 무엇인가요?
robots.txt 파일은 검색 엔진 봇과 같은 웹 크롤러가 웹사이트의 특정 URL에 액세스하지 못하도록 제한합니다. 또한 일부 웹 크롤러의 크롤링 속도를 조정하는 데 사용할 수도 있습니다.
모든 "정상" 웹 크롤러는 robots.txt 파일에 지정된 규칙을 준수합니다. 그러나 스크래핑 목적으로 주로 사용되는 등록되지 않은 "나쁜" 크롤러는 robots.txt 파일을 완전히 무시합니다.
robots.txt 파일은 웹사이트에 대한 크롤러 트래픽을 줄이거나 최적화하는 데 사용해야 하며 웹 페이지의 색인 생성을 제어하는 데 사용해서는 안 됩니다. robots.txt에서 URL이 허용되지 않더라도 외부 링크를 통해 URL이 발견되면 Google에서 색인할 수 있습니다.
Robots.txt 구문
robots.txt 파일의 구문에는 다음 필드가 포함되어 있습니다:
- 사용자 에이전트: 규칙이 적용되는 크롤러입니다.
- 불허: 크롤링해서는 안 되는 경로
- 허용: 크롤링할 수 있는 경로(선택 사항)
- 사이트맵: 사이트맵 파일의 위치(선택 사항)
- 크롤링 지연: 크롤링 속도 제어(선택 사항이며 GoogleBot에서 지원하지 않음)
다음은 한 가지 예입니다:
사용자 에이전트: RanktrackerSiteAudit 허용 안 함: /자원/ 허용 /자원/이미지/ 크롤링 지연: 2 사이트맵: https://example.com/sitemap.xml
이 robots.txt 파일은 "/resources/"에 있는 URL을 제외한 "/resources/이미지/" 디렉터리의 URL을 크롤링하지 않도록 RanktrackerSiteAudit 크롤러에 지시하고 요청 간 지연을 2초로 설정합니다.
Robots.txt 파일이 중요한 이유는 무엇인가요?
robots.txt 파일은 웹마스터가 웹사이트의 크롤러 동작을 제어하여 크롤링 예산을 최적화하고 공개 액세스를 목적으로 하지 않는 웹사이트 섹션의 크롤링을 제한할 수 있기 때문에 중요합니다.
많은 웹사이트 소유자는 작성자 페이지, 로그인 페이지 또는 멤버십 사이트 내의 페이지와 같은 특정 페이지를 색인하지 않도록 선택합니다. 또한 이메일 옵트인이 있어야 액세스할 수 있는 PDF나 동영상과 같은 게이트 리소스의 크롤링 및 색인화를 차단할 수도 있습니다.
워드프레스와 같은 CMS를 사용하는 경우 /wp-admin/ 로그인 페이지는 크롤러가 색인을 생성하지 못하도록 자동으로 차단된다는 점에 유의할 필요가 있습니다.
그러나 Google은 페이지 색인 생성을 제어할 때 robots.txt 파일에만 의존하는 것을 권장하지 않습니다. 또한 'noindex' 태그를 추가하는 등 페이지를 변경하는 경우 해당 페이지가 robots.txt에서 허용되지 않는지 확인하세요. 그렇지 않으면 Googlebot이 해당 페이지를 읽고 적시에 색인을 업데이트할 수 없습니다.
자주 묻는 질문
robots.txt 파일이 없으면 어떻게 되나요?
대부분의 사이트에는 robots.txt 파일이 반드시 필요한 것은 아닙니다. robots.txt 파일의 목적은 검색 봇에 특정 지침을 전달하는 것이지만, 규모가 작거나 검색 크롤러로부터 차단해야 할 페이지가 많지 않은 웹사이트의 경우에는 필요하지 않을 수 있습니다.
그렇긴 하지만 robots.txt 파일을 만들어 웹사이트에 게시하는 것의 단점도 없습니다. 이렇게 하면 나중에 필요한 경우 지시문을 쉽게 추가할 수 있습니다.
robots.txt를 사용하여 검색 엔진에서 페이지를 숨길 수 있나요?
예. 검색 엔진에서 페이지를 숨기는 것은 robots.txt 파일의 주요 기능 중 하나입니다. 불허 매개변수와 차단하려는 URL을 사용하여 이 작업을 수행할 수 있습니다.
그러나 robots.txt 파일을 사용하여 Googlebot에서 URL을 숨긴다고 해서 색인되지 않는다는 보장은 없다는 점에 유의하세요. 경우에 따라 URL 자체의 텍스트, 외 부 링크에 사용된 앵커 텍스트, URL이 발견된 외부 페이지의 컨텍스트 등의 요소에 따라 URL이 여전히 색인될 수 있습니다.
robots.txt 파일을 테스트하는 방법은 무엇인가요?
Google Search Console의 robots.txt 테스터를 사용하거나 Merkle의 테스터와 같은 외부 유효성 검사기를 사용하여 robots.txt 파일의 유효성을 검사하고 특정 URL에서 지침이 어떻게 작동하는지 테스트할 수 있습니다.