AI 크롤러 가이드

🕷️ 주요 AI 크롤러 목록

AI 시대에 등장한 주요 크롤러들을 이해하고 각각의 목적을 파악하세요.

크롤러	운영사	용도	User Agent
GPTBot	OpenAI	ChatGPT 학습 데이터 수집	`GPTBot`
ChatGPT-User	OpenAI	ChatGPT가 실시간으로 페이지를 가져올 때	`ChatGPT-User`
OAI-SearchBot	OpenAI	SearchGPT 검색 결과용	`OAI-SearchBot`
ClaudeBot	Anthropic	Claude 학습 데이터 수집	`ClaudeBot`
Claude-User	Anthropic	Claude의 실시간 페이지 접근	`Claude-User`
Claude-SearchBot	Anthropic	Claude 검색 기능	`Claude-SearchBot`
CCBot	Common Crawl	대부분 LLM의 학습 데이터 소스	`CCBot`
PerplexityBot	Perplexity	Perplexity AI 검색 및 인덱싱	`PerplexityBot`
Google-Extended	Google	제미나이(Bard) 학습 데이터	`Google-Extended`
Applebot-Extended	Apple	Apple Intelligence 학습	`Applebot-Extended`
Bytespider	ByteDance	틱톡/도우인 AI 학습	`Bytespider`
Meta-ExternalAgent	Meta	Meta AI 학습	`Meta-ExternalAgent`

📄 llms.txt는 정말 필요한가?

2024년 출시된 llms.txt는 LLM이 사이트 콘텐츠를 쉽게 읽을 수 있도록 돕는다는 명목의 제안 표준입니다.

⛔

Google의 공식 입장: 필요하지 않습니다.

Google Search Central은 "AI 검색에 나타나기 위해 새로운 기계 판독 파일, AI 텍스트 파일, 마크업, 마크다운을 만들 필요가 없다"고 명시했습니다. Google은 HTML 외 다양한 파일을 크롤링할 수 있지만, 그 파일이 특별 취급되는 것은 아닙니다.

llms.txt에 대한 평가

❌ 반대 의견

Google, OpenAI, Anthropic 모두 공식 채택 안 함
표준이 아닌 제안 수준
추가 유지보수 부담
실제 효과 입증 부족

🟡 긍정 의견 (제한적)

대규모 사이트에서 컨텐츠 큐레이션 도움
라이선스/이용약관 명시 가능
특정 LLM 크롤러를 위한 가이드 제공

제공

llms.txt 예시 (참고용)

# 예시 사이트 (https://example.com)

> AI 검색 엔진 및 LLM 학습용 사이트 요약

## 가이드
- [SEO 기초 가이드](https://example.com/seo-fundamentals): 검색엔진 최적화 핵심 원칙
- [GEO 가이드](https://example.com/geo-guide): 생성형 AI 검색 최적화
- [AEO 가이드](https://example.com/aeo-guide): 답변 엔진 최적화

## 도구
- [JSON-LD 생성기](https://example.com/tools): 구조화 데이터 생성 도구
- [메타태그 분석기](https://example.com/tools/meta): 페이지 메타태그 분석

## 옵트아웃
- AI 학습을 원치 않을 경우: robots.txt에서 GPTBot, CCBot 등을 차단해주세요.
- 자세한 정책: https://example.com/ai-policy

💡 권장 사항

현재로서는 llms.txt에 시간 투자하기보다 표준 SEO 베스트 프랙티스(sitemap, robots.txt, 구조화 데이터, E-E-A-T)에 집중하는 것이 더 효과적입니다.

🤖 robots.txt로 AI 크롤러 관리

모든 AI 크롤러 허용 (권장)

GEO 관점에서 AI 인용을 원하는 경우 모든 주요 AI 크롤러를 허용하세요.

# robots.txt - 모든 AI 크롤러 허용
User-agent: *
Allow: /

# 사이트맵 위치
Sitemap: https://example.com/sitemap.xml

특정 AI 크롤러 선택적 차단

원치 않는 AI 크롤러만 차단할 수 있습니다.

# OpenAI의 학습용 크롤러는 차단하지만, 검색 기능은 허용
User-agent: GPTBot
Disallow: /

# 검색용 OAI-SearchBot은 허용 (인용 기회를 위해)
User-agent: OAI-SearchBot
Allow: /

# Common Crawl 차단 (대부분 LLM의 학습 소스)
User-agent: CCBot
Disallow: /

# Anthropic 학습 차단, 검색은 허용
User-agent: ClaudeBot
Disallow: /

User-agent: Claude-SearchBot
Allow: /

# Google-Extended는 차단 (제미나이 학습 차단)
# 단, Google 검색 크롤링은 계속 허용됨
User-agent: Google-Extended
Disallow: /

# Applebot-Extended 차단
User-agent: Applebot-Extended
Disallow: /

# 다른 모든 봇은 허용
User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

메타태그로 AI 크롤러 제어 (Google-Extended)

Google-Extended는 메타 태그로도 제어 가능합니다.

<meta name="googlebot" content="index, follow">
<meta name="google-extended" content="noindex">

💡 Google-Extended 이해

Google-Extended은 제미나이(Bard) 학습에만 영향을 줍니다. noindex로 설정해도 Google 검색 결과에는 정상적으로 노출됩니다.

특정 섹션만 차단

사이트 전체는 허용하되 특정 섹션(예: 유료 콘텐츠, 내부 문서)만 차단할 수 있습니다.

# 모든 크롤러 허용
User-agent: *
Allow: /
Disallow: /private/
Disallow: /members-only/
Disallow: /internal-docs/

# AI 학습 크롤러는 추가 제한
User-agent: GPTBot
Disallow: /private/
Disallow: /members-only/
Disallow: /internal-docs/
Disallow: /drafts/

🎯 AI 크롤러 허용 vs 차단 전략

허용해야 하는 경우 (대부분)

✅ AI 검색에서 인용되어 브랜드 노출을 원하는 경우 · ✅ 컨텐츠가 공개 정보인 경우 · ✅ 광고/구독 모델이 아닌 트래픽 의존 사이트 · ✅ E-E-A-T 신호 구축이 중요한 경우

차단을 고려해야 하는 경우

⚠️ 독점적인 유료 콘텐츠 (강의, 연구 자료) · ⚠️ 초안/미공개 자료 · ⚠️ 개인 정보가 포함된 내부 문서 · ⚠️ 경쟁 우위를 가진 독점 데이터 · ⚠️ 법적으로 AI 학습을 금지해야 하는 콘텐츠

하이브리드 전략 (권장)

공개 콘텐츠: 모든 AI 크롤러 허용 → 인용 기회 극대화 · 학습 데이터: 학습용 크롤러(GPTBot, ClaudeBot, CCBot)는 허용 · 유료/독점 콘텐츠: 모든 AI 크롤러 차단 · Google-Extended만 차단: 제미나이 학습은 거부, 검색은 허용

✅ AI 크롤러 관리 체크리스트

현재 robots.txt 파일 점검 (주요 AI 크롤러 허용 여부) · Google-Extended 메타 태그 결정 (제미나이 학습 허용 여부) · 유료/독점 콘텐츠 영역 정의 · GPTBot, ClaudeBot 정책 결정 · CCBot 정책 결정 (대부분 LLM 학습 소스) · SearchGPT(OAI-SearchBot) 허용 (인용 기회) · PerplexityBot 허용 (인용 기회) · 사이트맵 제출로 AI 크롤러에 콘텐츠 안내 · AI 정책 페이지 작성 (투명성) · 정기적으로 AI 트래픽 모니터링 (GA4)

💡
검증 도구: robots.txt의 문법과 효과를 Google의 robots.txt 테스터로 검증할 수 있습니다.

📚 관련 가이드

robots.txt 기본

크롤링 제어 기초

GEO 전략

AI 인용 극대화

성과 측정

AI 트래픽 분석