Robots.txt란 무엇인가요?
robots.txt 파일은 검색 엔진 봇과 같은 웹 크롤러가 웹사이트의 특정 URL에 액세스하지 못하도록 제한합니다. 또한 일부 웹 크롤러의 크롤링 속도를 조정하는 데 사용할 수도 있습니다.
모든 "정상" 웹 크롤러는 robots.txt 파일에 지정된 규칙을 준수합니다. 그러나 스크래핑 목적으로 주로 사용되는 등록되지 않은 "나쁜" 크롤러는 robots.txt 파일을 완전히 무시합니다.
robots.txt 파일은 웹사이트에 대한 크롤러 트래픽을 줄이거나 최적화하는 데 사용해야 하며 웹 페이지의 색인 생성을 제어하는 데 사용해서는 안 됩니다. robots.txt에서 URL이 허용되지 않더라도 외부 링크를 통해 URL이 발견되면 Google에서 색인할 수 있습니다.
Robots.txt 구문
robots.txt 파일의 구문에는 다음 필드가 포함되어 있습니다:
- 사용자 에이전트: 규칙이 적용되는 크롤러입니다.
- 불허: 크롤링해서는 안 되는 경로
- 허용: 크롤링할 수 있는 경로(선택 사 항)
- 사이트맵: 사이트맵 파일의 위치(선택 사항)
- 크롤링 지연: 크롤링 속도 제어(선택 사항이며 GoogleBot에서 지원하지 않음)
다음은 한 가지 예입니다:
사용자 에이전트: RanktrackerSiteAudit 허용 안 함: /자원/ 허용 /자원/이미지/ 크롤링 지연: 2 사이트맵: https://example.com/sitemap.xml
이 robots.txt 파일은 "/resources/"에 있는 URL을 제외한 "/resources/이미지/" 디렉터리의 URL을 크롤링하지 않도록 RanktrackerSiteAudit 크롤러에 지시하고 요청 간 지연을 2초로 설정합니다.
Robots.txt 파일이 중요한 이유는 무엇인가요?
robots.txt 파일은 웹마스터가 웹사이트의 크롤러 동작을 제어하여 크롤링 예산을 최적화하고 공개 액세스를 목적으로 하지 않는 웹사이트 섹션의 크롤링을 제한할 수 있기 때문에 중요합니다.
많은 웹사이트 소유자는 작성자 페이지, 로그인 페이지 또는 멤버십 사이트 내의 페이지와 같은 특정 페이지를 색인하지 않도록 선택합니다. 또한 이메일 옵트인이 있어야 액세스할 수 있는 PDF나 동영상과 같은 게이트 리소스의 크롤링 및 색인화를 차단할 수도 있습니다.
워드프레스와 같은 CMS를 사용하는 경우 /wp-admin/
로그인 페이지는 크롤러가 색인을 생성하지 못하도록 자동으로 차단된다는 점에 유의할 필요가 있습니다.
그러나 Google은 페이지 색인 생성을 제어할 때 robots.txt 파일에만 의존하는 것을 권장하지 않습니다. 또한 'noindex' 태그를 추가하는 등 페이지를 변경하는 경우 해당 페이지가 robots.txt에서 허용되지 않는지 확인하세요. 그렇지 않으면 Googlebot이 해당 페이지를 읽고 적시에 색인을 업데이트할 수 없습니다.
자주 묻는 질문
robots.txt 파일이 없으면 어떻게 되나요?
대부분의 사이트에는 robots.txt 파일이 반드시 필요한 것은 아닙니다. robots.txt 파일의 목적은 검색 봇에 특정 지침을 전달하는 것이지만, 규모가 작거나 검색 크롤러로부터 차단해야 할 페이지가 많지 않은 웹사이트의 경우에는 필요하지 않을 수 있습니다.
그렇긴 하지만 robots.txt 파일을 만들어 웹사이트에 게시하는 것의 단점도 없습니다. 이렇게 하면 나중에 필요한 경우 지시문을 쉽게 추가할 수 있습니다.
robots.txt를 사용하여 검색 엔진에서 페이지를 숨길 수 있나요?
예. 검색 엔진에서 페이지를 숨기는 것은 robots.txt 파일의 주요 기능 중 하나입니다. 불허 매개변수와 차단하려는 URL을 사용하여 이 작업을 수행할 수 있습니다.
그러나 robots.txt 파일을 사용하여 Googlebot에서 URL을 숨긴다고 해서 색인되지 않는다는 보장은 없다는 점에 유의하세요. 경우에 따라 URL 자체의 텍스트, 외부 링크에 사용된 앵커 텍스트, URL이 발견된 외부 페이지의 컨텍스트 등의 요소에 따라 URL이 여전히 색인될 수 있습니다.
robots.txt 파일을 테스트하는 방법은 무엇인가요?
Google Search Console의 robots.txt 테스터를 사용하거나 Merkle의 테스터와 같은 외부 유효성 검사기를 사용하여 robots.txt 파일의 유효성을 검사하고 특정 URL에서 지침이 어떻게 작동하는지 테스트할 수 있습니다.