🕷️ 주요 AI 크롤러 목록
AI 시대에 등장한 주요 크롤러들을 이해하고 각각의 목적을 파악하세요.
| 크롤러 | 운영사 | 용도 | User Agent |
|---|---|---|---|
| GPTBot | OpenAI | ChatGPT 학습 데이터 수집 | GPTBot |
| ChatGPT-User | OpenAI | ChatGPT가 실시간으로 페이지를 가져올 때 | ChatGPT-User |
| OAI-SearchBot | OpenAI | SearchGPT 검색 결과용 | OAI-SearchBot |
| ClaudeBot | Anthropic | Claude 학습 데이터 수집 | ClaudeBot |
| Claude-User | Anthropic | Claude의 실시간 페이지 접근 | Claude-User |
| Claude-SearchBot | Anthropic | Claude 검색 기능 | Claude-SearchBot |
| CCBot | Common Crawl | 대부분 LLM의 학습 데이터 소스 | CCBot |
| PerplexityBot | Perplexity | Perplexity AI 검색 및 인덱싱 | PerplexityBot |
| Google-Extended | 제미나이(Bard) 학습 데이터 | Google-Extended |
|
| Applebot-Extended | Apple | Apple Intelligence 학습 | Applebot-Extended |
| Bytespider | ByteDance | 틱톡/도우인 AI 학습 | Bytespider |
| Meta-ExternalAgent | Meta | Meta AI 학습 | Meta-ExternalAgent |
📄 llms.txt는 정말 필요한가?
2024년 출시된 llms.txt는 LLM이 사이트 콘텐츠를 쉽게 읽을 수 있도록 돕는다는 명목의 제안 표준입니다.
Google의 공식 입장: 필요하지 않습니다.
Google Search Central은 "AI 검색에 나타나기 위해 새로운 기계 판독 파일, AI 텍스트 파일, 마크업, 마크다운을 만들 필요가 없다"고 명시했습니다. Google은 HTML 외 다양한 파일을 크롤링할 수 있지만, 그 파일이 특별 취급되는 것은 아닙니다.
llms.txt에 대한 평가
❌ 반대 의견
- Google, OpenAI, Anthropic 모두 공식 채택 안 함
- 표준이 아닌 제안 수준
- 추가 유지보수 부담
- 실제 효과 입증 부족
🟡 긍정 의견 (제한적)
- 대규모 사이트에서 컨텐츠 큐레이션 도움
- 라이선스/이용약관 명시 가능
- 특정 LLM 크롤러를 위한 가이드 제공
llms.txt 예시 (참고용)
# 예시 사이트 (https://example.com)
> AI 검색 엔진 및 LLM 학습용 사이트 요약
## 가이드
- [SEO 기초 가이드](https://example.com/seo-fundamentals): 검색엔진 최적화 핵심 원칙
- [GEO 가이드](https://example.com/geo-guide): 생성형 AI 검색 최적화
- [AEO 가이드](https://example.com/aeo-guide): 답변 엔진 최적화
## 도구
- [JSON-LD 생성기](https://example.com/tools): 구조화 데이터 생성 도구
- [메타태그 분석기](https://example.com/tools/meta): 페이지 메타태그 분석
## 옵트아웃
- AI 학습을 원치 않을 경우: robots.txt에서 GPTBot, CCBot 등을 차단해주세요.
- 자세한 정책: https://example.com/ai-policy
💡 권장 사항
현재로서는 llms.txt에 시간 투자하기보다 표준 SEO 베스트 프랙티스(sitemap, robots.txt, 구조화 데이터, E-E-A-T)에 집중하는 것이 더 효과적입니다.
🤖 robots.txt로 AI 크롤러 관리
모든 AI 크롤러 허용 (권장)
GEO 관점에서 AI 인용을 원하는 경우 모든 주요 AI 크롤러를 허용하세요.
# robots.txt - 모든 AI 크롤러 허용
User-agent: *
Allow: /
# 사이트맵 위치
Sitemap: https://example.com/sitemap.xml
특정 AI 크롤러 선택적 차단
원치 않는 AI 크롤러만 차단할 수 있습니다.
# OpenAI의 학습용 크롤러는 차단하지만, 검색 기능은 허용
User-agent: GPTBot
Disallow: /
# 검색용 OAI-SearchBot은 허용 (인용 기회를 위해)
User-agent: OAI-SearchBot
Allow: /
# Common Crawl 차단 (대부분 LLM의 학습 소스)
User-agent: CCBot
Disallow: /
# Anthropic 학습 차단, 검색은 허용
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Allow: /
# Google-Extended는 차단 (제미나이 학습 차단)
# 단, Google 검색 크롤링은 계속 허용됨
User-agent: Google-Extended
Disallow: /
# Applebot-Extended 차단
User-agent: Applebot-Extended
Disallow: /
# 다른 모든 봇은 허용
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml
메타태그로 AI 크롤러 제어 (Google-Extended)
Google-Extended는 메타 태그로도 제어 가능합니다.
<meta name="googlebot" content="index, follow">
<meta name="google-extended" content="noindex">
💡 Google-Extended 이해
Google-Extended은 제미나이(Bard) 학습에만 영향을 줍니다. noindex로 설정해도 Google 검색 결과에는 정상적으로 노출됩니다.
특정 섹션만 차단
사이트 전체는 허용하되 특정 섹션(예: 유료 콘텐츠, 내부 문서)만 차단할 수 있습니다.
# 모든 크롤러 허용
User-agent: *
Allow: /
Disallow: /private/
Disallow: /members-only/
Disallow: /internal-docs/
# AI 학습 크롤러는 추가 제한
User-agent: GPTBot
Disallow: /private/
Disallow: /members-only/
Disallow: /internal-docs/
Disallow: /drafts/
🎯 AI 크롤러 허용 vs 차단 전략
허용해야 하는 경우 (대부분)
- ✅ AI 검색에서 인용되어 브랜드 노출을 원하는 경우 · ✅ 컨텐츠가 공개 정보인 경우 · ✅ 광고/구독 모델이 아닌 트래픽 의존 사이트 · ✅ E-E-A-T 신호 구축이 중요한 경우
차단을 고려해야 하는 경우
- ⚠️ 독점적인 유료 콘텐츠 (강의, 연구 자료) · ⚠️ 초안/미공개 자료 · ⚠️ 개인 정보가 포함된 내부 문서 · ⚠️ 경쟁 우위를 가진 독점 데이터 · ⚠️ 법적으로 AI 학습을 금지해야 하는 콘텐츠
하이브리드 전략 (권장)
- 공개 콘텐츠: 모든 AI 크롤러 허용 → 인용 기회 극대화 · 학습 데이터: 학습용 크롤러(GPTBot, ClaudeBot, CCBot)는 허용 · 유료/독점 콘텐츠: 모든 AI 크롤러 차단 · Google-Extended만 차단: 제미나이 학습은 거부, 검색은 허용
✅ AI 크롤러 관리 체크리스트
- 현재 robots.txt 파일 점검 (주요 AI 크롤러 허용 여부) · Google-Extended 메타 태그 결정 (제미나이 학습 허용 여부) · 유료/독점 콘텐츠 영역 정의 · GPTBot, ClaudeBot 정책 결정 · CCBot 정책 결정 (대부분 LLM 학습 소스) · SearchGPT(OAI-SearchBot) 허용 (인용 기회) · PerplexityBot 허용 (인용 기회) · 사이트맵 제출로 AI 크롤러에 콘텐츠 안내 · AI 정책 페이지 작성 (투명성) · 정기적으로 AI 트래픽 모니터링 (GA4)
검증 도구: robots.txt의 문법과 효과를 Google의 robots.txt 테스터로 검증할 수 있습니다.