과학자들도 인공지능(AI) 챗봇인 ‘챗GPT(ChatGPT)’가 쓴 논문 초록을 사람이 쓴 것인지 기계가 만들었는지 제대로 구분하지 못한다는 연구 결과가 나와 충격을 안겨주고 있다. 대학생들이 과제물 작성을 챗봇에 맡길 수 있다는 우려가 나온 데 이어, 연구자들까지 챗봇의 유혹에 빠질 수 있다는 것이다.
미국 노스웨스턴대의 캐서린 가오 박사 연구진은 12월 27일 논문 사전 공개 사이트인 바이오아카이브(bioRxiv)에 “챗GPT가 쓴 의학 논문 초록이 표절 검사 프로그램을 통과했으며, 의학 연구자들도 10편 중 3편 정도 걸러내지 못했다”고 밝혔다.
AI가 쓴 초록, 전문가도 3분의 1 못 걸러
챗GPT는 세계 최대 AI 연구소인 오픈AI가 지난해 11월 30일 무료 공개한 대화형 AI 서비스다. 오픈AI는 테슬라의 일론 머스크와 링크드인 공동 창업자인 리드 호프먼 같은 IT(정보기술) 업계의 거물들이 2015년 설립했다. 챗GPT는 ‘대형 언어 모델’이라고 부른다. 인간이 만든 수많은 문장을 학습해 사람이 이야기하듯 자연스러운 대화가 가능하다. 같은 방식으로 원하는 글도 작성할 수 있다.
노스웨스턴대 연구진은 챗봇에 미국의학협회저널(JAMA), 뉴잉글랜드저널오브메디신(NEJM), 랜싯, 브리티시메디컬저널(BMJ), 네이처 메디신 등 세계적인 의학 학술지에 실린 논문 50편을 참조해 의학 논문 초록을 작성하게 했다. 이 초록을 실제 연구자들이 쓴 초록과 함께 전문 프로그램으로 표절이나 AI 제작물 여부를 검사했다. 의학 연구자들에게도 같은 검사를 의뢰했다.
챗GPT가 쓴 초록은 표절 검사를 100% 통과했다. 표절로 볼 부분이 없었다는 말이다. 반면 AI 제작물 검사 프로그램은 66%가 기계 작품이라고 잡아냈다. 인간은 프로그램보다 크게 낫지 않았다. 챗봇이 만든 초록 중 32%를 실제 초록이라고 잘못 판정했다. 반면 사람이 쓴 초록 14%는 반대로 챗봇이 썼다고 오판했다.
영국 옥스퍼드대의 기술 규제 전문가인 샌드라 와처 교수는 1월 12일 국제 학술지 ‘네이처’에 “매우 우려된다”며 “전문가가 무엇이 옳은지 그른지 판단할 수 없는 상황이라면, 사회가 복잡한 주제를 다루도록 중개하는 존재가 사라지는 것”이라고 말했다.
이런 우려에도 불구하고 챗GPT는 이미 과학 논문 작성에 활용되고 있다. 스페인 연구자들은 12월 8일 논문 사전 공개 사이트인 아카이브(arXiv)에 챗GPT로 신약 개발에서 AI의 역할을 다룬 논문을 작성해 공개했다.
챗봇은 논문 저자에도 이름을 올렸다. 12월 12일 의학 논문 사전 공개 사이트인 메드아카이드(MedRxiv)에는 챗GPT가 세 번째 공저자로 등재된 논문이 공개됐다. 심지어 12월 16일 영국 맨체스터대 간호과의 시오반 오코너 교수는 정식 심사를 거쳐 국제 학술지에 발표한 논문에 자신과 챗GPT를 공동 교신저자로 올렸다.
“챗봇 금지해야” vs “논문 양적 평가가 더 문제”
‘네이처’지는 챗봇이 만든 논문 초록을 전문가도 가려내지 못할 수 있다는 연구 결과를 소개하면서 챗GPT에 대해 과학계의 의견이 갈리고 있다고 전했다. 많은 과학자가 챗GPT가 만든 글이 사람이 쓴 것과 구분하기 어려우면 큰 문제가 될 수 있다고 우려한다. 앞서 나온 논문들은 챗GPT의 역할을 논문에 명시했지만, 나중에는 이번 실험처럼 그냥 사람이 했다고 속일 수도 있기 때문이다. 와처 교수는 “과학 연구는 우리 사회에서 엄청난 역할을 한다”며 “과학자들이 연구가 진짜인지 판단할 수 없다면 무서운 결과를 초래할 것”이라고 우려했다. 연구 정보를 바탕으로 한 정책 결정이 부정확할 수도 있다는 것이다.
AI 업체인 허깅 페이스(Hugging Face)의 정책 전문가인 이렌 솔라이만도 “의학 분야에서 가짜 정보는 인간의 안전을 위협할 수 있다”며 “학술지는 더 철저하게 정보가 정확한지 검증해야 한다”고 말했다.
그는 챗봇이 근본적으로 과학 발전에 도움이 되지 않는다고 지적했다. 솔라이만은 “대형 언어 모델은 과거에 나온 정보를 훈련한다”며 “사회적·과학적 진보는 그와 달리 과거와 다른 방식으로 생각할 때 이뤄진다”고 말했다.
이와 달리 챗GPT에 대한 우려가 지나치다고 보는 전문가들도 있다. 프린스턴대의 컴퓨터 과학자인 아르빈드 나라야난 교수는 네이처에 “진지한 과학자라면 논문 초록을 쓰는 데 챗GPT를 쓰지 않을 것”이라고 지나친 우려를 경계했다. 그는 “챗봇이 만든 초록을 검사할 수 있는지보다 이런 도구가 정확하고 훌륭한 초록을 만들 수 있는지가 문제”라고 말했다.
AI 기술을 적극적으로 활용해야 한다는 의견도 있다. 박용근 카이스트(KAIST) 전기 및 전자공학부 교수는 소셜미디어에 “시간과 데이터 학습의 문제이지, 결국 AI가 대부분 일반인보다 글을 잘 쓰는 시대가 올 것”이라며 “변화로 내 직업이 없어질까 고민하는 것보다는 어떻게 활용하면 내 업무의 효율을 올리고 또 기존에 못 했던 새로운 일을 할 수 있을까 상상하는 게 더 중요할 듯”이라는 글을 올렸다.
규제안에 대해서도 의견이 갈린다. 이번에 챗GPT에 대한 논문을 발표한 노스웨스턴대 연구진은 과학계가 AI로 만든 문장을 논문에 쓰지 못하도록 해야 한다고 촉구했다. 연구기관들이 해당 기술을 특정 상황에 허용한다면 이를 명시하는 기준이 있어야 한다는 것이다.
실제로 1월 초 제40회 국제기계학습학술대회 조직위원회는 챗GPT나 다른 AI 언어 도구로 쓴 논문을 금지한다고 발표했다. 이 대회는 오는 7월 하와이에서 열린다.
반면 프린스턴대의 나라야난 교수는 “이런 문제에 대한 해결책이 챗봇 자체에 집중해서는 안 된다”며 “대학이 교수를 채용하거나 승진 심사를 할 때 논문의 질이나 영향과 상관없이 숫자로만 평가하는 잘못된 관행을 더 문제 삼아야 한다”고 말했다. 논문에 대한 양적 평가가 계속되면 논문 수를 늘리기 위해 앞서 표절의 유혹에 빠졌듯 챗봇에도 손길이 갈 수 있다는 것이다.