캐럿

3분

AI가 계산을 틀리게 해서 난감한 일을 겪었다는 이야기를 SNS에서 종종 볼 수 있습니다. 현세대 IT 기술의 선두에 서 있는 LLM은 왜 계산을 못하는 것일까요?

빠른 결론

Claude, ChatGPT를 사용하고 있다면 사용자 설정 프롬프트에 다음의 내용을 추가합니다.

### 금액 및 수치 계산의 정확성
금액을 계산하거나 정확인 계산을 요청받았다면 스크립팅 도구를 사용하여 계산합니다. 

왜 컴퓨터가 계산을 못해?

그런데 왠만한 일상적인 대화에서는 계산을 제대로 못한다는 경험을 하기는 어렵습니다. AI가 계산에 실패하는 특정한 조건이 있는지, 아니면 정말 AI의 계산 정확성은 운에 달려 있어서 재수가 없으면 오답을 받게 되는 것인지, 몇 가지 AI 서비스를 통해서 테스트를 해보았고 그 결과 이 증상에 대한 몇 가지 힌트를 얻었습니다.

  • 작은 숫자의 계산은 거의 정확히 수행합니다.
  • 덧셈보다는 곱셈에서 실수가 더 자주 발견됩니다.
  • 곱셈의 경우 답이 10억 단위까지 커지면 대부분의 모델이 실수합니다.
  • 덧셈은 조, 경까지도 실수없이 계산하지만, 2~30자리 이상의 덧셈에서는 실수가 나타납니다.
  • 아주 큰 숫자를 여러 개 주고 합계를 구하라 그러면 잘 틀립니다.
  • 오답이 영 엉뚱한 값이 아니라 정답하고 비슷합니다. 어떤 경우는 중간에 숫자 하나만 다른 경우가 있습니다.

큰 숫자의 곱셈이나 아주 큰 수의 덧셈, 혹은 아주 많은 숫자들의 합산 같은 계산에서 실수가 일어납니다. 이러한 계산의 공통점은 사람이 직접 계산할 때 계산과정이 길다는 것입니다. 게다가 오답은 아예 관련없는 값을 답으로 내는 것이 아니라, 정답하고 비슷하다는 특징이 있습니다.

이쯤되면 대략 이렇지 않을까하는 가설을 세워볼 수 있습니다.

  1. AI는 계산을 요구받으면 사람하고 비슷한 과정(계산법)을 통해서 계산을 수행하려 합니다.
  2. 이 때 계산 과정의 내용은 컨텍스트에 보관되나, 계산과정이 길어지면 노이즈로 인해 실수를 하게 됩니다. 중간 계산값을 잘못 가져온다거나, 곱셈의 경우, 중간 결과들을 정렬을 잘 못해서 틀립니다.

완전하지는 않지만 이 가설은 AI에게 계산과정을 설명하면서 계산하라고 요청하면, 검증해볼 수 있습니다.

아래는 deepseek에게 5712346 × 6218164를 계산해보라고 할 때 출력한 중간 결과입니다.

           34,274,076,000,000  (6,000,000 × 5,712,346)
+           1,142,469,200,000  (200,000 × 5,712,346)
+              57,123,460,000  (10,000 × 5,712,346)
+              45,698,768,000  (8,000 × 5,712,346)
+                 571,234,600  (100 × 5,712,346)
+                 342,740,760  (60 × 5,712,346)
+                  22,849,384  (4 × 5,712,346)
--------------------------------
           35,519,889,253,384

물론 틀렸지만, 엄청 당당합니다.

![[Pasted image 20251106105830.png]]

역시나 실제로 검증해보면 오답입니다.

>>> f'{5712346 * 6218164:,d}'
'35,520,304,252,744'
>>>

정리

LLM은 본질적으로 패턴 매칭에 따라 확률적으로 나올 수 있는 단어를 생성하는 기계입니다. AI가 학습한 많은 자료 중에서 숫자 계산에 대한 글들이 있을 것이고 그 패턴을 바탕으로 계산 결과도 ‘만들어’ 냅니다. 아마도 그 많고 많은 자료 중에는 우리도 암산으로 계산할 수 있는 작은 값들도 있을 것입니다. 설령 저렇게 계산하더라도 계산 과정이 짧다면 컨텍스트에서의 노이즈도 적을 것이기 때문에 비교적 정확하게 계산할 수 있는 것으로 보입니다.

그런데, 이것을 보고 “AI는 실제로 계산을 수행하지 않는다”라고 말하기는 어려워 보입니다. 사실 우리도 계산하려면 DeepSeek의 저 방법을 따라서 계산하고, 실수로 틀리기도 하는데요. 같은 방식에 대해서 인간은 계산할 수 있고, AI는 계산을 못한다고 말하는 것도 어딘가 앞뒤가 맞지 않아 보입니다.