AI 크롤러는 ‘학습용’과 ‘실시간 인용용’으로 나뉩니다. ChatGPT·Perplexity·Gemini의 답변에 인용되고 싶으면 인용용 봇(OAI-SearchBot·PerplexityBot·Google-Extended 등)을 robots.txt에서 허용하고, 콘텐츠를 학습에 쓰이지 않게 보호하고 싶으면 학습용 봇(GPTBot·ClaudeBot·CCBot)을 막으면 됩니다. 단, robots.txt는 강제가 아닌 ‘신사협정’이라 일부 봇은 무시할 수 있습니다.
요약
- AI 봇은 역할이 다르다 — 학습용(GPTBot·ClaudeBot·CCBot·Google-Extended)과 실시간 인용용(OAI-SearchBot·ChatGPT-User·PerplexityBot·Claude-SearchBot 등)으로 나뉜다.
- AI 답변에 인용되고 싶다면 인용용 봇을 허용(Allow)해야 한다. 막으면 출처에서 사라진다.
- 학습이 싫고 인용은 받고 싶다면 둘을 분리해서 제어할 수 있다.
- robots.txt는 강제력이 없는 ‘신사협정’이다. 확실한 차단은 서버·방화벽(WAF)이 함께 해야 한다.
“AI가 내 글을 가져가서 학습한다는데, 막아야 하나요?” 요즘 가장 많이 받는 질문입니다. 그런데 같은 분이 며칠 뒤엔 이렇게 묻습니다. “경쟁사는 ChatGPT가 추천해 주던데, 우리는 왜 안 나오죠?” 두 질문은 사실 같은 손잡이를 양쪽으로 당기는 일입니다. 그 손잡이가 바로 robots.txt이고, 손잡이를 어느 쪽으로 당길지는 ‘봇이 무슨 일을 하는지’를 알아야 정할 수 있습니다.
AI 크롤러는 한 종류가 아닙니다 — 무엇이 다른가요?
가장 큰 오해는 “AI 봇 = 학습 봇”이라는 생각입니다. 실제로는 같은 회사 안에서도 봇이 역할별로 나뉩니다. 크게 두 부류입니다.
- 학습(training)용 — 페이지를 모아 거대 모델을 훈련하는 데이터로 씁니다. 대표적으로 OpenAI의
GPTBot, Anthropic의ClaudeBot, 그리고 공개 데이터셋을 만드는 Common Crawl의CCBot이 있습니다. - 실시간 인용(search/retrieval)용 — 사용자가 지금 질문할 때, 또는 검색 색인을 위해 페이지를 가져와 답변에 출처로 인용합니다. OpenAI의
OAI-SearchBot·ChatGPT-User, Perplexity의PerplexityBot·Perplexity-User가 여기에 속합니다.
이 차이가 핵심입니다. 학습용을 막아도 인용용을 열어 두면, 내 콘텐츠가 모델 훈련에는 안 쓰이면서도 ChatGPT·Perplexity 답변의 출처로는 계속 노출될 수 있습니다.
봇별로 정확히 누가 무슨 일을 하나요?
아래는 2026년 6월 기준 주요 AI 크롤러의 정식 user-agent와 역할입니다. 봇 정책은 자주 바뀌므로, 적용 전엔 각 사의 공식 문서로 한 번 더 확인하는 걸 권합니다.
| User-agent | 운영사 | 하는 일 |
|---|---|---|
GPTBot | OpenAI | 모델 학습용 콘텐츠 수집 |
OAI-SearchBot | OpenAI | ChatGPT 검색 인용을 위한 색인 |
ChatGPT-User | OpenAI | 사용자 질문 시 실시간 1회 가져오기 |
ClaudeBot | Anthropic | 모델 학습용 콘텐츠 수집 |
Claude-SearchBot / Claude-User | Anthropic | Claude 검색·실시간 인용 |
PerplexityBot | Perplexity | 답변 인용용 검색 색인 |
Perplexity-User | Perplexity | 사용자 질문 시 실시간 가져오기 |
Google-Extended | Gemini·AI Overviews 학습·생성 제어(검색 색인과 별개) | |
CCBot | Common Crawl | 공개 데이터셋(다수 모델의 학습 재료) |
한 가지 짚어둘 점. Google-Extended는 일반 구글 검색(Googlebot)과 무관합니다. 이걸 막아도 검색 순위는 그대로이고, 대신 Gemini·AI Overviews에 콘텐츠가 쓰이는 것만 제어됩니다.
그래서, 어떻게 쓰면 되나요? — 바로 복사
“AI 답변에 인용되고 싶다”가 목표라면 인용용 봇을 모두 여는 게 출발점입니다. 아래 예시를 그대로 복사해 도메인 루트의 /robots.txt에 넣고, 마지막 Sitemap 줄만 본인 주소로 바꾸면 됩니다.
AI 봇 허용 robots.txt — 복사
인용 노출을 원할 때(허용) 예시.
User-agent: GPTBot Allow: / User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: ClaudeBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Allow: / Sitemap: https://example.com/sitemap.xml
참고로 robots.txt 표준에서 가장 확실한 건 Disallow입니다(접근 차단). Allow는 “차단 규칙 안의 예외를 다시 연다”는 의미라, 애초에 막은 게 없으면 사실상 ‘기본 허용’과 같습니다. 위 예시처럼 명시해 두면 “이 봇은 의도적으로 환영한다”는 신호를 분명히 남길 수 있습니다.
반대로, 학습은 막고 인용만 받으려면요?
“내 글로 모델을 훈련시키는 건 싫지만, AI 답변의 출처로는 나오고 싶다.” 충분히 가능한 입장입니다. 이때는 두 부류를 갈라서 다룹니다.
- 학습용은 차단 —
GPTBot,ClaudeBot,CCBot,Google-Extended에Disallow: / - 인용용은 허용 —
OAI-SearchBot,ChatGPT-User,Claude-SearchBot,PerplexityBot등에Allow: /
이렇게 하면 ‘학습 데이터로는 빠지되, 실시간 답변의 출처로는 남는’ 절충이 됩니다. 다만 봇 이름과 정책은 회사마다 수시로 바뀌므로, 한 번 설정하고 끝이 아니라 분기마다 점검하는 게 안전합니다.
그런데 막으면 정말 안 가져가나요?
여기서 가장 중요한 사실. robots.txt는 강제력이 없습니다. 웹 서버가 “들어오지 마세요”라고 붙여 둔 안내문일 뿐, 물리적으로 막는 잠금장치가 아닙니다. 그래서 ‘신사협정’이라고 부릅니다. GPTBot·ClaudeBot·PerplexityBot처럼 규칙 준수를 공표한 주요 봇은 따르지만, 규칙을 무시하는 크롤러도 분명히 존재합니다.
그래서 “학습에 절대 쓰이면 안 되는 콘텐츠”라면 robots.txt만 믿어선 안 됩니다. 서버·방화벽(WAF)에서 해당 user-agent나 IP를 직접 차단하는 ‘이중 장치’가 필요합니다. 반대로 “인용은 환영”이 목표라면 robots.txt만으로도 신호는 충분히 전달됩니다.
그래서 결론은 — 막느냐가 아니라 ‘무엇을 원하느냐’
대부분의 중소기업 사이트는 ‘인용 환영’ 쪽이 이득입니다. AI 답변에 회사 이름과 페이지가 출처로 뜨는 것은 새로운 노출 채널이니까요. 반대로 유료 자료·독점 콘텐츠가 핵심 자산이라면 학습 차단이 합리적입니다. 정답은 사업의 성격이 정합니다. Findable은 그 판단을 함께 하고, robots.txt·llms.txt·구조화 데이터까지 ‘AI에 찾아지는’ 기본 세트를 사이트에 내장합니다.
| 항목 | 기본 방치(설정 없음) | 의도적 관리 |
|---|---|---|
| AI 답변 인용 | 봇 임의 판단에 맡김 | 인용용 봇 명시 허용 → 출처 노출 유도 |
| 통제권 | 어느 봇이 뭘 가져갔는지 모름 | 봇별로 학습/인용 분리 제어 |
| 콘텐츠 보호 | 학습 수집 그대로 노출 | 학습용 차단 + WAF로 이중 방어 |
# 학습은 막고, 실시간 인용은 허용하는 절충 설정 # 위쪽 '전체 허용' 예시와 달리 학습봇만 골라 Disallow 합니다. User-agent: GPTBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: CCBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: Claude-SearchBot Allow: / User-agent: PerplexityBot Allow: / Sitemap: https://example.com/sitemap.xml
제가 작성할 때는 학습용과 인용용을 위처럼 빈 줄로 갈라 두어, 나중에 어느 쪽 정책을 손볼지 한눈에 보이게 둡니다.
설정을 정하기 전에 ‘무엇을 얻고 무엇을 내줄지’를 목표별로 먼저 정리하면 directive 선택이 단순해집니다.
| 사업 목표 | 학습봇(GPTBot·ClaudeBot·CCBot·Google-Extended) | 인용봇(OAI-SearchBot·PerplexityBot 등) |
|---|---|---|
| AI 답변 노출 최대화 | Allow | Allow |
| 학습 거부 + 인용 유지(가장 흔함) | Disallow | Allow |
| 유료·독점 자산 완전 보호 | Disallow + WAF 차단 | Disallow + WAF 차단 |
| 비공개 운영(검색 자체 거부) | Disallow | Disallow + Googlebot Disallow |
robots.txt로 막으면 AI가 무조건 못 가져가나요?
GPTBot과 OAI-SearchBot은 무엇이 다른가요?
AI 답변에 인용되고 싶으면 어떤 봇을 열어야 하나요?
Google-Extended를 막으면 구글 검색 순위가 떨어지나요?
학습은 싫은데 인용은 받고 싶습니다. 가능한가요?
AI에 찾아지는 기본 세트, 사이트에 내장해 드립니다
robots.txt·llms.txt·구조화 데이터까지. ‘막느냐 여느냐’부터 함께 판단하고 설치합니다. 무료 진단으로 시작하세요.
무료 진단 받기llms.txt, 꼭 만들어야 하나요
AI에게 사이트를 안내하는 파일.
2026 AI 검색, 무엇이 달라졌나
인용되는 콘텐츠의 조건.
GEO/AEO 최적화
AI 답변에 인용되는 사이트로.
robots.txt는 강제력이 없는 ‘신사협정’으로, 규칙을 무시하는 일부 봇이 존재할 수 있습니다. 본문의 user-agent·역할은 2026년 6월 기준 각 운영사 공개 정보를 반영했으며, 봇 정책은 수시로 바뀌므로 적용 전 공식 문서 확인을 권합니다. 날조된 사례·수치는 사용하지 않았습니다.