인공지능과 언어:
언어는 기계가 따라잡을 수 없는 인간 지능의 토대
〈노동자 연대〉 구독
올해 2월 세종대와 국제통역번역협회가 주최한 ‘인공지능 대 인간 번역 대결’에서 인간 번역사들이 구글 등 3종의 인공지능 번역기를 이겼다. 통번역 전문가 3인이 점수를 매긴 결과 인간 번역자는 평균 24.5점, 기계 번역은 10점을 받아 인간 번역자가 ‘완승’을 거뒀다.
물론 이 결과에 대해 다르게 평가하는 사람들도 있다. 한 인공신경망 기술기업 관련자는 “번역은 승패의 절대적 기준이 있다고 보기 어렵다.”(〈한겨레〉 2월 21일자) 하며 애써 그 의미를 축소하려 했다.
기계 번역의 정확성이 최근 들어 제법 개선된 것은 사실이다. 예전의 기계 번역은 인간의 번역 결과를 통계적으로 데이터화하고, 그 자료를 바탕으로 해 한 언어의 문장을 다른 언어로 대체하는 방식을 활용했다. 하지만 최근 들어 기계 번역에도 인공신경망 기법과 ‘딥 러닝’ 기법이 도입됐다. 이는 기계로 하여금 대량의 데이터를 학습하도록 하고, 그 데이터 속에서 패턴을 도출해 내게 하는 것이다. 알파고에 활용된 기법이 이제는 번역에도 적용되고 있다.
그렇다면, 알파고가 ‘딥 러닝’을 통해 바둑에서 인간을 이긴 것처럼, 언젠가 번역 대결에서도 인공지능이 인간을 번역 대결에서도 이길 수 있을까?
언어는 상상할 수 있는 어느 기계보다 복잡하다
지난 11월 《MIT 테크놀로지 리뷰》에는 ‘인공지능의 언어 문제’라는 기사가 실렸다. 이 기사에 따르면, 일부 가시적인 진전에도 불구하고 인공지능이 언어라는 난관을 넘어서기란 여전히 불가능한 것으로 보인다. 알파고와 비슷한 기술을 번역에 적용해 보니 번역의 정확성이 통계적으로 개선된 것은 확실했다. 하지만 최신 기법의 연구자들조차도 여전히 자신이 만든 “프로그램이 자신이 무슨 말을 하고 있는지 이해하지 못한다”고 말한다. 기계는 여전히 주어진 데이터를 바탕으로 인간의 언어 사용을 흉내낼 뿐, 언어의 내용, 즉 “실제로 현실에서 무슨 일이 일어나고 있는지에 대해서는 이해하지 못[한다.]” 컴퓨터는 데이터가 주어지면 그에 대응하는 단어와 문장을 출력해 내기는 한다. 그러나 근본적으로 기계는 자신이 기술(記述)하려는 대상에 대해 ‘이해’하는 것이 아니기 때문에 인간처럼 어휘와 문장을 능숙하게 사용하지 못한다.
많은 연구자들은 인간의 뇌와 신경·학습방식·언어 메커니즘을 기계가 모방할 수 있도록 노력하고 있다. 심지어 기술자들은 인간의 뇌와 비슷한 신경망 회로를 만들고 있다. 그렇게 함으로써 컴퓨터가 사람처럼 학습하고 생각할 수 있게 되리라고 기대하는 것이다. 그럼에도 여전히 기계의 언어 학습 능력은 어린 아이 수준도 못 된다. 어린 아이라도 인간은 자신이 직접 보거나 듣지 않더라도 어떤 대상을 상상하거나 기술할 수 있다.
근본적인 문제는 MIT의 인지과학자 테넨바움이 인정하듯이, 아무리 방대한 신경연결망을 만들어도 인간의 사고 과정을 구현하지 못한다는 것이다. 신경생물학자 스티븐 로즈도 “신경과학은 데이터가 넘쳐나지만 이론적으로는 극히 빈곤”하다고 지적한다. 기계가 모방하도록 만들 인간 뇌의 복잡성을 우리가 이해하지 못하고 있다는 얘기다.
언어학의 거두이기도 한 노엄 촘스키도 비슷한 점을 지적한다. 즉, ‘인간 언어의 역학에 대한 이해가 여전히 부족’하기 때문에 인공지능 연구자들은 기계로 하여금 인간 언어를 이해하도록 만들기가 어려울 것이다. 언어 문제에 천착하고 있는 스탠포드 인공지능 연구소의 리 페이페이(Fei-Fei Li)도 마찬가지 견해다. “오늘날의 기계학습·인공지능 기법으로 진정한 인공’지능’을 만들어 내기란 역부족이다.” 기계에 비해 “우리 인간은 대량의 데이터를 계산하는 데에는 취약하지만 추상적 사고와 창조성에서는 뛰어나다.”
창조성과 추상적 사고가 부족해도 더 많은 데이터를 주입하면 기계가 더 나은 연산을 통해 언어를 습득할 수 있지 않겠냐고 되물을 수도 있다. 하지만 인공지능 학자들은 이 경우에 과잉학습이 오히려 문제가 될 수 있다고 지적한다. 오늘날 많이 쓰이는 영상 인식의 경우에도 과잉학습을 시킬 경우 오히려 ‘과적합(오버피팅)’ 현상이 흔히 일어나 정확도가 떨어진다. 언어 학습에서도 비슷한 일이 일어날 것이라고 한다.
특히, 언어 같은 고도의 지능적 행위는 단지 기계적 연산 능력을 높이는 것만으로 구현할 수 있는 것이 아니다. 물리학자인 최무영 교수가 지적한 대로, 인간 지능은 복잡계 현상이다. 인간의 지능은 그 두뇌의 복잡하고 특수한 짜임 덕분에 ‘떠오르는(emerge)’ 것인데 두뇌를 이루는 무수히 많은 신경세포의 접합을 컴퓨터 회로망으로 구현할 수 있으리라고 보는 것은 양적으로나 질적으로나 여전히 매우 비현실적이다.
지능과 언어
기계가 인간 언어를 온전히 습득할 수 없다는 점은 두 가지 큰 함의가 있다. 첫째, ‘인공지능’ 기술이 실제로 적용될 수 있는 범위와 파급력에 큰 제약이 있다는 것이다. 《MIT 테크놀로지 리뷰》의 기사가 지적하듯, ‘인공지능’이 인간의 삶에 보편적으로 활용되려면 인간의 언어를 완전하게 습득하는 일이 결정적으로 중요하다. 그 기사의 저자가 지적하듯이, “인공지능이 진정으로 변혁적이기 위해서” 바뀌어야 하는 것은 바로 언어 능력이다. 그래야만 기계가 인간과 매끄럽게 협력하면서도 기존 인간 노동을 대체할 수 있을 것이다.
인간 언어를 습득하지 못하는 한은 기계가 ‘지능’을 획득하는 데에도 근본적 제약이 있을 것이다. 비고츠키나 볼로쉬노프와 같은 마르크스주의 언어학자들은 인간의 지능 발달에서 언어가 하는 구실에 대해 이론을 발전시켰다. 그들에 따르면, 언어는 인간이 자의식을 가질 수 있는 물질적 기초이며, 사고 과정의 도구다. 그리고 인간에게 사회적 협업은 생존에 필수적인데, 동료 인간들과 협력하는 과정에서 인간은 언어라는 도구를 획득하고 발전시켰다. 인간은 언어를 사용하면서 또한 복잡한 관념들을 추상적으로 사유하고 개념화할 수 있게 됐다. ‘내적 발화’(자신과의 대화)를 통해 이뤄지는 언어적 사고는 인간이 한층 복잡한 사고를 할 수 있게 하는 토대다. 이런 과정을 통해 인간은 자의식과 성찰 능력을 지닌 창의적 존재가 될 수 있었다.
따라서 인간의 언어를 이해할 가망이 거의 없어 보이는 기계의 업무 수행은 창의적이고 자의식적인 인간 노동을 대체할 수 없다. ‘인공지능’이 언어라는 난관을 극복하지 못하는 한은 인간 노동이 무용지물이 되는 디스토피아적 미래는 오지 않을 것이다.
물론 최근의 인공지능 기술 발달이 사회에 미칠 영향을 완전히 무시할 수는 없다. 생산성 증대를 위해 분업이 극도로 발달했기 때문에 많은 분야에서 인간이 ‘기계적인’ 노동과 사고를 강요당하고 있다. 이런 분야에서 기계가 인간 노동을 대체하는 것은 크게 어려운 일이 아니다. 심지어 기계번역도 문학이나 추상적 이론 등을 번역하는 데에서는 쓸모가 거의 없지만 “특정 전문 용어를 반복해서 쓰는 영역에서 월등히”(〈허핑턴 포스트〉 2월 21일자) 나은 성능을 보이고 있는 것은 사실이다.
그러나 기계가 인간의 사고능력을 흉내내기 어렵다는 점 때문에, 인공지능은 앞으로도 인간 노동에 보완적으로 적용되는 수준일 것이다.
자본가들은 이런 기술을 어떻게든 이용해 인력 감축이나 임금 삭감을 시도할 것이다. 그러나 그 위험은 과장돼 있다. 부르주아 경제학자·미래학자들이 흔히 말하는 바와 달리, 임금 삭감이나 노동을 자본으로 대체하는 것은 기술 진보에 따르는 필연적 결과가 결코 아니다. 기술 진보로 사회의 모습이 자동으로 결정되는 것이 아니기 때문이다. 미래는 결국 인간들 사이의 (계급)투쟁이 어떻게 이뤄지는가에 달려 있을 것이다.