최근 LinkedIn 게시물에서 Schema.org 구조화 데이터가 대규모 언어 모델(LLM)의 출력에 영향을 주는지에 대한 질문이 제기됐습니다. 회의론에도 불구하고, 일부 SEO 전문가는 AI 기반 검색엔진에서 더 잘 노출되려면 구조화 데이터를 써야 한다고 주장합니다. 과연 이 주장은 타당할까요?
SEO에서 사실과 의견
이 논쟁은 SEO에서 반복되는 문제, 즉 사실과 의견의 경계가 흐려지는 현상을 보여줍니다. 의견은 아이디어와 혁신을 이끌어내는 데 가치가 있지만, 근거 없이 사실처럼 받아들여질 때 문제가 됩니다. 「제 생각에는」이라는 표현은 의견임을 나타내지만, 이런 의견이 반복되면서 검증되지 않은 「진실」로 굳어지기도 합니다.
논쟁을 촉발한 LinkedIn 게시물
SEO 전문가 Patrick Stox는 중요한 질문을 던졌습니다.
제가 뭔가 놓친 건가요? 왜 SEO 전문가들은 스키마 마크업이 LLM 출력에 영향을 줄 것이라고 생각하나요?
이 질문은 ChatGPT Search 등 AI 기반 검색엔진 뒤의 LLM을 가리킵니다. AI 검색엔진이 실제로 Schema.org 구조화 데이터에 의존해 결과를 생성하는지 되짚어볼 필요가 있습니다.
LLM과 AI 검색엔진의 작동 방식
ChatGPT나 Bard 같은 LLM은 웹 콘텐츠, 서적, 공식 문서 등 방대한 데이터셋으로 학습합니다. 요약과 답변을 생성하지만, 웹사이트로 직접 트래픽을 보내지는 않으며, 학습에 구조화 데이터를 직접 활용하지도 않습니다.
AI 검색엔진은 검색 인덱스와 지식 그래프를 결합하는 RAG(검색 증강 생성) 방식을 사용합니다. 이 인덱스는 크롤링한 웹 콘텐츠로 구축되며, Schema.org 데이터만으로 만들어지지 않습니다.
- 구글·빙: 크롤링한 HTML 콘텐츠로 색인을 만들고, 헤더·본문 등 텍스트를 추출합니다. 구조화 데이터만에 의존하지 않습니다.
- Perplexity AI: 웹에서 크롤링한 콘텐츠를 PageRank 변형 알고리즘으로 랭킹합니다.
구조화 데이터는 주로 FAQ, 상품 스니펫 같은 특정 리치 결과에 쓰이며, Schema.org 전체 어휘 중 일부만 실제로 활용됩니다.
오해와 「전화 게임」 효과
Schema.org 구조화 데이터가 AI 검색 순위를 올린다는 생각은 오해에서 비롯된 것으로 보입니다. Jono Alderson은 구조화 데이터가 AI 검색엔진의 콘텐츠 이해를 돕는다고 제안한 적이 있지만, 이 아이디어가 반복되면서 근거 없는 SEO 「이론」으로 굳어졌을 수 있습니다.
SEO는 근거 없는 주장에 익숙합니다. 예를 들어, 구글 로컬 검색이 「내 주변」 쿼리에 IP 주소를 쓰지 않는다는 주장은 VPN 테스트로 쉽게 반박됩니다. 구글도 IP 주소가 지역 결과에 영향을 준다고 문서화하고 있습니다.
Schema.org와 AI 검색의 불일치
- LLM은 학습 데이터를 인용하지 않음: LLM은 학습 데이터를 바탕으로 답변을 생성하지만, 구조화 데이터를 직접 출처로 삼지 않습니다.
- 검색엔진은 스키마보다 텍스트에 집중: 검색엔진은 색인과 랭킹에 HTML 콘텐츠를 주로 사용합니다.
구조화 데이터 중에서도 리치 스니펫 등에 쓰이는 일부만 실제 검색 기능에 활용됩니다. AI 검색엔진이 Schema.org 데이터를 우선할 이유는 크지 않습니다.
실용적 SEO: 근거 기반 접근의 필요성
LLM은 일반적으로 검색엔진 SERP가 아니라 데이터 해석을 통해 응답을 생성합니다. 스키마 마크업은 SERP용이지 LLM용이 아닙니다.
Christopher Shin의 이 코멘트는 중요한 구분을 짚습니다. 추측보다 현실적이고 근거 있는 전략에 집중하는 실용적 SEO가 필요합니다.
마무리
SEO는 오랫동안 근거 없는 신화를 쫓으며 시간을 낭비해 왔습니다. 구조화 데이터와 AI 검색에 대한 오해 역시 이미 복잡한 분야에 불필요한 소음을 더합니다.
Patrick Stox, Christopher Shin 같은 전문가들은 명확한 사고와 비판적 검토의 가치를 상기시켜 줍니다. 의견을 사실과 혼동하지 말고, 검색엔진과 AI가 실제로 작동하는 방식에 맞춘 전략을 추구하는 것이 중요합니다.
