어느 AI가 더 일을 잘 합니까?:AI작문 능력 테스트 : 구성 능력 비교

대표 이미지

이제 블로그 운영에서 AI는 빼놓을 수 없는 핵심 요소로 자리 잡았습니다. 저 역시 AI가 직접 ‘읽을 만한 콘텐츠’를 만들어낼 수 있을지에 대해서는 아직 부정적이지만, 글의 전반적인 흐름을 잡거나 맞춤법을 교정해주는 데에는 이미 큰 도움을 받고 있습니다.

그러던 중 한 가지 의문이 들었습니다. “과거에는 ChatGPT가 이 분야의 선구자였지만, 다양한 경쟁자들이 등장한 지금, 과연 어느 AI가 가장 뛰어난 글쓰기 실력을 갖추고 있을까?”라는 것이죠.

그래서 요즘 주목받고 있는 ChatGPT, Claude, Gemini, Copilot, Grok을 직접 사용해, 어떤 AI가 글쓰기 능력에서 가장 앞서는지 검증해보도록 하겠습니다.

구성 능력 비교

우선은 위의 서문을 가지고 각 AI에 아래와 같이 명령해 보도록 하겠습니다.

위의 목적으로 블로그 기사를 작성할 거야. 이 기사의 목차를 구성해 줘. 단 상세 내용은 필요 없고. 500글자 내외로 작성해 줘.

아래는 그 결과 입니다.

들어가며: 왜 다양한 AI 글쓰기 능력을 비교해야 하는지 간단히 짚어보기
평가 대상 소개: ChatGPT, Claude, Gemini, Copilot, Grok 개요
평가 기준: 주제 이해, 문장력, 교정 및 요약 능력 등 핵심 요소
실험 과정: 동일 주제로 각 AI에게 텍스트 생성 요청
결과 비교: 강점과 약점을 중심으로 분석
결론: 블로그 활용 전략과 향후 AI 글쓰기 전망

ChatGPT o1

블로그 기사 목차: "AI 글쓰기 챔피언십: 어떤 AI가 최고의 작가인가?"
서론

//AI 글쓰기 도구의 중요성
//검증 목적 및 방법론 소개

주요 AI 글쓰기 도구 소개

//ChatGPT
//Claude
//Gemini
//Copilot
//Grok

평가 기준

//문장 구성력
//창의성
//맞춤법 및 문법
//주제 이해도
//자연스러운 표현

실험 방법

//동일 주제 글쓰기 테스트
//장르별 글쓰기 능력 비교
//수정 및 개선 능력 평가

분석 결과

//강점과 약점 분석
//용도별 최적 AI 추천

블로거를 위한 AI 활용 전략

//최적의 AI 선택 방법
//효과적인 프롬프트 작성법
//AI와 인간 글쓰기의 조화

결론

//종합 평가
//미래 전망

Claude 3.7 Sonnet

서론:
//AI 글쓰기 도구의 등장과 중요성
//본 기사의 목적 및 평가 대상 소개 (ChatGPT, Claude, Gemini, Copilot, Grok)
평가 기준:
//글의 자연스러움 및 가독성
//문법 및 맞춤법 정확도
//창의성 및 독창성
//정보의 정확성 및 신뢰도
//사용 편의성 및 속도
AI별 글쓰기 능력 비교 분석:
//ChatGPT: 강점 및 약점 분석
//Claude: 강점 및 약점 분석
//Gemini: 강점 및 약점 분석
//Copilot: 강점 및 약점 분석
//Grok: 강점 및 약점 분석
종합 평가 및 결론:
//각 AI의 장단점 비교 요약
//최고의 글쓰기 AI 도구 선정 및 이유
//AI 글쓰기 도구 활용 팁 및 전망

gemini 2.0 flash

서론

AI 기술의 발전과 블로그 운영의 변화
//이 기사를 작성하는 목적

비교 대상 AI 소개
//ChatGPT
//Claude
//Gemini
//Copilot
//Grok

비교 기준 설정
//글쓰기 능력 측정 기준
//평가 방법 및 절차

각 AI의 글쓰기 성능 평가
//ChatGPT의 글쓰기 능력 분석
//Claude의 글쓰기 능력 분석
//Gemini의 글쓰기 능력 분석
//Copilot의 글쓰기 능력 분석
//Grok의 글쓰기 능력 분석

결과 종합 및 비교
//각 AI의 강점과 약점
//최종 평가 및 종합 순위

결론
//가장 뛰어난 글쓰기 AI 선정

Copilot

서론: AI와 글쓰기의 만남
//AI가 블로그 운영에 미치는 영향과 기대감
비교 대상 소개
//ChatGPT, Claude, Gemini, Copilot, Grok 간략 소개
평가 기준 설정
//글의 자연스러움, 문법 정확성, 창의성 등 비교 잣대
테스트: 간단한 글쓰기 과제 수행
//동일 주제로 각 AI가 작성한 결과 비교
결과 분석
//각 AI의 강점과 약점 정리
최종 verdict: 최고의 글쓰기 AI는?
//테스트 기반 결론과 추천
맺음말: AI와 함께하는 콘텐츠 창작의 미래
//AI 활용 가능성과 한계에 대한 고찰

Grok3

각 AI의 구성 내용 비교

아래는 각 AI의 답변 내용을 간단히 요약한 표입니다.

항목 ChatGPT Claude Gemini Copilot Grok
목적 목적 목적 목적 유용성
대상 소개>평가 기준>실험 방법 평가 기준>실험 방법 평가 기준 대상 소개>평가 기준 대상 소개>평가 기준
강/약점 비교,활용 전략 강/약점 비교,용도별 추천,활용 전략 강/약점 비교,최고의 AI추천 강/약점 비교,최고의 AI추천 강/약점 비교,최고의 AI추천
전망 전망 전망 - 활용 가능성과 한계

기승전결에서 ‘기’에 해당하는 부분은 큰 차이가 없습니다. 그러나 그 후의 이야기 전개부터 각 AI의 개성이 드러나는데요. ChatGPT, Copilot, Grok의 경우에는 비교 대상을 먼저 소개한 뒤 평가 기준이나 방법을 설명하는 반면, Claude와 Gemini는 비교 대상 소개를 생략하고 바로 평가 기준을 설명합니다. 물론 비교 대상을 소개하는 내용도 좋지만, 블로그 기사인 만큼 결국 관심 있는 사람들이 보는 기사라는 점을 고려하면, 충분히 생략해도 무방합니다. 그래서 개인적으로는 Claude와 Gemini에 한 표를 주고 싶습니다.

‘전’ 부분에 대해서는 ChatGPT, Claude에 높은 점수를 주기 어려울 것 같습니다. 이 부분은 구독자가 가장 관심을 가질 만한 부분이므로 “결국 뭐가 제일 좋은가”를 명확히 설명해야 할 필요가 있기 때문입니다. 그런 측면에서 Gemini, Copilot, Grok에 한 표를 주겠습니다.

마지막 ‘결’ 부분에서는 거의 모든 AI가 미래 전망을 제시하고 있습니다. 특이한 점은 Copilot이 별다른 마무리를 하지 않는 반면, Grok는 시키지도 않은 부정적인 의견을 내놓는다는 것입니다. 시키지도 않은 짓을 하는 Grok이 약간 괘씸하기는 하지만, 적절한 부정적인 내용은 글의 설득력을 높여줍니다. 반대로 AI를 활용한 글쓰기의 전망에 대해서는 딱히 궁금해할 독자가 많아 보이지 않으니, 조금 더 독자의 관심을 끌 수 있는 Grok에게 한 표를 주겠습니다.

구성 능력이 가장 좋은 AI는?

구성 능력이 가장 좋은 AI는 누구일까요? 최종 득표수는 다음과 같습니다.
ChatGPT: 0, Claude: 1, Gemini: 1, Copilot: 1, Grok: 2

물론 글의 구성 능력이 최종 결과물의 품질에 절대적인 영향을 미치는 것은 아닙니다. 그러나 ChatGPT가 0점을 받은 것은, 앞으로 ChatGPT로 글을 쓰는 것을 다시 생각해볼 요소가 될 것으로 보입니다. 구성 능력만 놓고 보면 ChatGPT의 작문 능력은 다소 무난하고 자기주장이 약해 보입니다. 그리고 그런 글은 사람이 썼다고 보기에는 조금 어렵지요.

일단 이번 글은 여기까지입니다. 다음 글에서는 실제로 각 AI에게 본문을 작성하도록 시킨 뒤, 최종적으로 각 AI가 작성한 문장을 다시 각 AI에게 보여주어 누가 최고의 작문가인지 자기들끼리 평가해 보도록 하겠습니다!