구글서치콘솔 robots.txt에 의해 차단됨: 왜 발생하고 어떻게 해결할까?
웹사이트를 운영하는 사람이라면 누구나 자신의 웹페이지가 구글 검색 결과에 잘 노출되기를 바랍니다. 하지만 구글 서치 콘솔(Google Search Console)을 확인하다 보면 'robots.txt에 의해 차단됨'이라는 메시지를 발견하고 당황하는 경우가 종종 있습니다. 이 메시지는 구글 봇이 특정 페이지를 크롤링(수집)하거나 색인(인덱싱)하는 것을 막고 있다는 의미입니다. 이러한 문제는 웹사이트의 검색 엔진 최적화(SEO)에 치명적인 영향을 미칠 수 있으므로, 구글서치콘솔 robots.txt에 의해 차단됨 해결방법을 정확히 이해하고 적용하는 것이 매우 중요합니다.
robots.txt란 무엇인가요?
robots.txt 파일은 웹사이트의 루트 디렉토리에 위치하는 텍스트 파일로, 검색 엔진 크롤러(봇)에게 웹사이트 내 어떤 페이지나 파일에 접근할 수 있는지, 혹은 접근하지 말아야 하는지를 알려주는 일종의 '가이드라인' 역할을 합니다. 예를 들어, 관리자 페이지, 개인 정보가 포함된 페이지, 또는 검색 결과에 노출될 필요가 없는 임시 페이지 등을 크롤링하지 못하도록 지시할 수 있습니다. 올바르게 사용하면 서버 부하를 줄이고 중요한 콘텐츠의 색인에 집중할 수 있게 돕지만, 잘못 설정할 경우 웹사이트 전체 또는 중요한 부분이 검색 결과에서 사라질 수 있습니다.
'robots.txt에 의해 차단됨' 오류는 왜 발생할까요?
이 오류가 발생하는 주된 원인은 다음과 같습니다.
- 잘못된 robots.txt 설정: 가장 흔한 원인입니다. 실수로
Disallow: /
와 같이 모든 페이지를 차단하는 규칙을 추가했거나, 특정 디렉토리나 파일을 너무 광범위하게 차단했을 수 있습니다. 워드프레스(WordPress)와 같은 CMS(콘텐츠 관리 시스템)를 사용할 경우, 플러그인이나 테마 업데이트 과정에서 robots.txt 파일이 변경되거나 잘못 생성될 수도 있습니다. - 개발 단계의 설정이 유지된 경우: 웹사이트 개발 단계에서 검색 엔진 노출을 막기 위해
Disallow: /
설정을 해두고, 라이브(Live) 환경으로 전환하면서 해당 설정을 해제하는 것을 잊었을 때 발생합니다. - 서버 설정 문제: 드물지만, 웹 서버 설정 문제로 인해 robots.txt 파일이 제대로 로드되지 않거나 잘못된 콘텐츠를 반환할 때도 오류가 발생할 수 있습니다.
- 사이트맵(Sitemap)과의 불일치: 사이트맵에는 포함되어 있지만 robots.txt 파일에서 차단된 페이지가 있을 때 구글 서치 콘솔에서 이 오류를 보고할 수 있습니다.
구글서치콘솔 robots.txt 차단 여부 확인하기
문제를 해결하기 전에 먼저 어떤 페이지가 왜 차단되었는지 정확히 파악해야 합니다. 구글 서치 콘솔에는 이를 위한 유용한 도구들이 있습니다.
- 색인 범위 보고서 확인: 구글 서치 콘솔 대시보드에서 '색인' > '색인 범위'로 이동합니다. 여기에 'robots.txt에 의해 차단됨' 섹션이 있다면, 해당 섹션을 클릭하여 영향을 받는 URL 목록을 확인할 수 있습니다.
- URL 검사 도구 사용: 특정 URL이 차단되었는지 확인하려면, 구글 서치 콘솔 상단의 검색창에 해당 URL을 입력하고 'URL 검사'를 실행합니다. '색인 생성' 섹션에서 'robots.txt에 의해 차단됨' 메시지가 표시되는지 확인합니다. 이 도구는 현재 구글이 해당 URL을 어떻게 인식하고 있는지 상세한 정보를 제공합니다.
- robots.txt 테스터 사용 (구 버전): 과거에는 robots.txt 테스터 도구가 있었으나, 현재는 URL 검사 도구로 통합되었습니다. 하지만 직접
yourdomain.com/robots.txt
로 접속하여 현재 웹사이트의 robots.txt 파일 내용을 확인하는 것은 여전히 유효한 방법입니다.
구글서치콘솔 robots.txt에 의해 차단됨 해결방법
이제 본격적으로 문제를 해결하는 방법에 대해 알아보겠습니다. 해결 과정은 크게 'robots.txt 파일 수정'과 '구글 서치 콘솔에 반영' 두 단계로 나뉩니다.
1. robots.txt 파일 수정
robots.txt 파일을 수정하는 방법은 웹사이트의 종류(워드프레스, 카페24, 직접 구축 등)에 따라 조금씩 다를 수 있습니다.
robots.txt 파일 내용 확인 및 수정:
- FTP/SFTP 접속: 가장 일반적인 방법입니다. FTP 클라이언트(예: FileZilla)를 사용하여 웹사이트 호스팅 서버에 접속한 후, 루트 디렉토리(보통
public_html
,www
,htdocs
등)에서robots.txt
파일을 찾습니다. 파일을 다운로드하여 텍스트 편집기(예: Notepad++, VS Code)로 엽니다. - 워드프레스 사용자: Yoast SEO, Rank Math와 같은 SEO 플러그인을 사용하면 워드프레스 대시보드 내에서 robots.txt 파일을 직접 편집할 수 있습니다. 플러그인 설정에서 '도구' 또는 '파일 편집기' 섹션을 찾아보세요.
- 호스팅 업체 관리자 페이지: 일부 호스팅 업체는 파일 관리자 기능을 통해 robots.txt 파일을 직접 편집할 수 있는 인터페이스를 제공하기도 합니다.
주요 수정 규칙:
robots.txt 파일은 User-agent
와 Disallow
, Allow
지시어로 구성됩니다.
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php User-agent: Googlebot Disallow: /private/ Sitemap: https://www.yourdomain.com/sitemap.xml
User-agent: *
: 모든 검색 엔진 크롤러에게 적용되는 규칙을 의미합니다.Disallow: /
: 가장 위험한 설정입니다. 이는 웹사이트의 모든 페이지를 차단하므로, 이 구문이 있다면 즉시 삭제하거나 주석 처리(Disallow: #/
)해야 합니다.Disallow: /directory/
: 특정 디렉토리 전체를 차단합니다. 예를 들어,Disallow: /private/
는yourdomain.com/private/
로 시작하는 모든 URL을 차단합니다.Disallow: /file.html
: 특정 파일을 차단합니다.Allow: /directory/file.html
:Disallow
규칙으로 인해 차단되었지만, 특정 파일만 예외적으로 허용하고 싶을 때 사용합니다.Disallow
규칙보다Allow
규칙이 우선합니다. 예를 들어,/wp-admin/
전체를 차단하더라도/wp-admin/admin-ajax.php
파일은 허용할 수 있습니다.Sitemap:
: 사이트맵의 위치를 명시하여 검색 엔진이 쉽게 찾을 수 있도록 돕습니다. 여러 개의 사이트맵이 있다면 각각 명시할 수 있습니다.
수정 시 주의사항:
- 필요한 페이지만 차단: 정말로 검색 결과에 노출되면 안 되는 페이지나 리소스만 차단해야 합니다. CSS, JavaScript, 이미지 파일 등 웹페이지 렌더링에 필수적인 리소스는 절대 차단해서는 안 됩니다. 이들을 차단하면 구글 봇이 페이지를 제대로 렌더링하지 못해 SEO에 악영향을 미칩니다.
- 오타 주의: robots.txt 파일은 오타에 매우 민감합니다. 작은 오타 하나로 웹사이트 전체가 차단될 수 있으니 주의 깊게 확인해야 합니다.
- 변경 사항 저장 및 업로드: 수정된 robots.txt 파일을 저장하고, FTP/SFTP를 통해 웹사이트 루트 디렉토리에 다시 업로드합니다. 기존 파일을 덮어씁니다.
2. 구글 서치 콘솔에 반영 및 모니터링
robots.txt 파일을 수정한 후에는 구글이 변경 사항을 인식하고 적용하도록 해야 합니다.
- robots.txt 변경 사항 제출: 구글 서치 콘솔에서 '설정' > '크롤링 통계'로 이동합니다. 여기에서 'robots.txt' 섹션을 찾아 '제출' 버튼이 있다면 클릭하여 변경 사항을 구글에 알립니다. (현재 이 기능은 URL 검사 도구에 통합되어 명시적인 제출 버튼이 없을 수 있습니다. URL 검사 도구를 통해 변경 사항이 감지되는지 확인하는 것이 일반적입니다.)
- URL 검사 도구를 통한 재확인: 수정 후 몇 분 또는 몇 시간 뒤에, 이전에 'robots.txt에 의해 차단됨' 메시지가 표시되었던 URL을 다시 URL 검사 도구로 검사합니다. 'Google 색인 생성' 섹션에서 '색인 생성 가능' 또는 '크롤링 허용됨'과 같은 긍정적인 메시지를 확인해야 합니다. 만약 여전히 차단되어 있다면, robots.txt 파일이 제대로 수정되었는지, 서버에 올바르게 업로드되었는지 다시 확인해야 합니다.
- 색인 생성 요청: 이제 해당 URL에 대해 '색인 생성 요청'을 할 수 있습니다. 구글 봇이 해당 페이지를 다시 크롤링하고 색인하도록 요청하는 것입니다.
- 색인 범위 보고서 모니터링: 며칠 또는 몇 주에 걸쳐 '색인 범위' 보고서를 지속적으로 모니터링합니다. 'robots.txt에 의해 차단됨' 섹션의 URL 수가 점차 줄어들고, '유효' 섹션의 URL 수가 증가하는지 확인합니다.
robots.txt 사용 시 주의사항 및 베스트 프랙티스
- 민감한 정보 차단에는
noindex
사용: robots.txt는 크롤링을 막을 뿐, 이미 색인된 페이지를 검색 결과에서 제거하지는 않습니다. 또한, 다른 사이트에서 해당 페이지로 링크가 걸려 있다면 구글이 해당 페이지를 여전히 색인할 수 있습니다. 로그인 페이지, 관리자 페이지 등 검색 결과에 절대 노출되면 안 되는 민감한 정보는 robots.txt로 차단하는 것보다태그를 해당 페이지의
섹션에 추가하는 것이 훨씬 안전합니다.
noindex
태그는 페이지가 색인되지 않도록 명확하게 지시합니다. - 정기적인 robots.txt 검토: 웹사이트 업데이트, 플러그인 설치, 테마 변경 등의 작업 후에는 robots.txt 파일이 의도치 않게 변경되지는 않았는지 주기적으로 검토하는 것이 좋습니다.
- 간결하고 명확하게 작성: robots.txt 파일은 가능한 한 간결하고 명확하게 작성하여 오해의 소지를 줄여야 합니다.
결론
구글서치콘솔 robots.txt에 의해 차단됨 해결방법은 웹사이트의 검색 가시성을 확보하는 데 있어 매우 중요한 과정입니다. robots.txt 파일은 검색 엔진 크롤러에게 웹사이트 탐색의 길을 안내하는 중요한 역할을 하지만, 잘못된 설정은 웹사이트의 검색 노출에 치명적인 영향을 미칠 수 있습니다. 이 가이드에서 제시된 단계들을 차근차근 따라 하면서 자신의 robots.txt 파일을 올바르게 설정하고, 구글 서치 콘솔을 통해 지속적으로 모니터링한다면, 웹사이트가 검색 엔진에서 제 성능을 발휘할 수 있을 것입니다. 정확한 이해와 신중한 적용만이 웹사이트의 성공적인 SEO를 보장합니다.
0 댓글