GPT-4와 클로드2(Claude2)는 '16세기에 쓰여진 라틴어 마술서'까지 번역, 학자들이 '인간 프로에 필적한다' 평가

Posted by 아디노
2023. 10. 6. 07:37 Tech

GPT-4와 Claude2(클로드)는 '16세기에 쓰여진 라틴어 마술서'까지 번역할 수 있어 학자들이 '인간 프로에 필적한다'고 평가했습니다.

"ChatGPT로 인해 논문을 읽는 수고가 99% 줄었다"고 말하는 연구자들이 있듯이 AI에 의한 지원은 학술 연구에 큰 변화를 가져오려고 합니다.
샌타크루즈 캘리포니아 대학교 역사학자 벤저민 브린이 OpenAI의 대규모 언어 모델(LLM)인 GPT-4와 Anthropic의 Claude2를 사용하여 16세기 라틴어 서적을 번역시켰더니 놀라울 정도로 정확도가 높은 결과를 얻었음을 보고했습니다.

Translating Latin demonology manuals with GPT-4 and Claude
https://resobscura.substack.com/p/translating-latin-demonology-manuals





LLM의 지원을 연구에 활용하려는 시도로서, 브린씨는 GPT-4나 Claude 2가 가지는 이하의 3가지 기능에 주목했습니다.

- 전근대의 책을 OCR에 걸쳐 얻은 글자가 깨진 문장과 같은 불완전한 원전의 내용을 추측하는 능력.
- 구글 번역과 같은 전용 번역기와는 달리, 책이 쓰여진 역사적 배경등을 포함한 광범위한 학습 데이터를 가지고 있을 것.
- 요약과 분석을 하는 능력.

특히 브린 씨와 같은 역사가들은 다양한 언어의 역사책을 살펴봐야 하기 때문에 방대한 자료 중에서 연구 주제와 관련된 것을 빼내는 것이 가능한 AI의 능력은 매우 중요합니다.

◆ 테스트 1 : 라틴어 번역


AI의 능력을 테스트하기 위해 브린 씨는 1599년 출간된 악마학 서적 'Magical Investigations(원제: Disquisitionum Magicarum Libri Sex)'를 GPT-4와 Claude 2로 번역시키기로 했습니다. 이 책의 저자 마르틴 델리오는 예수회 수도사이면서 마술과 악마의 소환에 깊이 정통해 이들 흑마술에 대항하기 위한 안내서로 Magical Investigations를 저술했다고 합니다.

테스트에 있어서, 브린씨는 구글 북스의 OCR 기능에 의해 탈자나 문자화가 있는 상태에서 텍스트화된 원문을, 수정하지 않고 그대로 AI에 입력해, 그 내용을 가능한 한 자세하게 번역하도록 지시했습니다.

그 결과 Claude 2와 Bing Chat의 크리에이티브 모드를 통해 사용한 GPT-4는 브린 씨가 성경 시편 91장 6절에 언급되어 있는 '한낮의 악마(Noonday Demon)'에 대해 이해하는 자료로 손색 없을 정도로 정확한 번역 결과를 보여줄 수 있었습니다.

GPT-4의 결과는 히브리어에 대한 기술에 다소 어려움이 있었지만 Claude2의 결과에 대해 브린씨는 "모든 것 중 최고의 번역이라고 생각됩니다"라고 칭찬을 하고 있습니다.

◆ 테스트 2 : 라틴어 요약


아래는 Claude 2에게 악마의 유형과 특징, 언급된 페이지를 표로 하도록 지시한 결과입니다. 10만 토큰이나 되는 컨텍스트 창을 지원하는 Claude 2는 요약에서도 우수한 결과를 보였습니다.




브린 씨가 원전을 체크하자 표에 적혀 있는 페이지에서 제대로 그 악마에 대한 기술이 발견되었습니다. 일부 페이지가 잘못된 곳도 있었지만, 이것은 페이지 번호 인쇄의 오염이나 오식에 기인하는 실수일 것이라고 브린씨는 생각하고 있습니다.

이 결과로부터 브린씨는 "이러한 도표나 요약은 다국어로 연구를 실시하는 사람에게 있어서의 게임 체인저가 된다고 생각합니다. 이것은 AI를 연구자를 대신할 수 있다는 의미가 아닙니다. AI가 다국어 연구의 보조 역할을 하도록 함으로써 연구의 실마리를 얻을 수 있다는 것입니다."

◆ 테스트 3 : 포르투갈어 의학서 번역


다음으로는 브린은 17세기~18세기에 활동한 포르투갈 의사 Joao Curvo Semedo의 서적을 주제로 삼기로 했습니다. 그리고 1707년에 Curvo Semedo가 쓴 증례 연구에 관한 의학서의 한 문장을 GPT-4로 번역시켰더니 Curvo Semedo가 당시 의료자로서는 드물게 수은의 독성을 올바르게 인식하고 있었음이 판명되었습니다.

현대에는 수은이 유해하다는 것은 널리 알려져 있지만, 20세기까지는 매독이나 우울증 치료제로 사용되고 있으며, 유명한 곳에서는 에이브러햄 링컨도 수은을 약으로 복용했다고 알려져 있습니다. 브린 씨는 깊이 생각하지 않고 Curvo Semedo의 책을 선택했는데 GPT-4 덕분에 역사적으로 중요한 발견을 얻을 수 있었습니다.




전술한 바와 같이 GPT-4는 라틴어 번역에서는 다소 부정확한 면이 있었지만 근세 포르투갈어에는 능통하며, 특히 의학서의 번역 스킬에 관해서는 인간 전문가에 필적할 것이라고 브린씨는 평가하고 있습니다. 또한 GPT-4는 Curvo Semedo가 언급한 치료제를 일람표로 만들 수도 있었습니다.

세 가지 테스트 결과에 대해 브린은 "LLM에 의한 1차 자료의 번역과 분석은 역사 연구자와 번역자에게 매우 유용한 도구가 된다는 것을 알았습니다. 다만 어디까지나 도구이지 연구자를 대신하는 것은 아닙니다"라고 말했습니다.