CER vs WER

CER과 WER에 대해 알아보자

한국어는 왜 CER로 계산해야하는가?

WER과 CER의 계산 방법은 거의 동일하다. 띄어쓰기로 구분되는 토큰들의 총 개수에 대비되는 insertion, deletion, substitution의 수가 얼마나 많은지를 계산한다. 차이는 WER은 단어가 토큰이 되며, CER은 문자가 토큰이 된다.

예를 들어, ‘어서 빨리 퇴근하고 싶어요’ 라는 문장은 다음과 같이 계산된다.

수식은 다음과 같다.

이 떄, STT의 결과가 다음과 같이 나왔다고 가정하자.

위 예시의 경우 계산은 다음과 같이 된다.

위 결과로 보았듯 CER과 WER의 값은 동일한 문장에 대해서도 다르게 나온다. 그렇다면 한국어는 왜 CER로 계산해야할까? 한국어는 교착어(첨가어)로 조사를 사용하고 다른 언어와 비교하여 형태소의 구조가 복잡하며, 단어와 단어 사이의 경계가 모호하기 때문이다.

예를 들어, 위 예시의 예측값이 ‘어서 빨리 퇴근하고싶어요’ 라고 나왔다면, WER의 경우 0.25, CER의 경우 0 이 나온다.

가끔 계산을 하다보면 CER이 1이 넘는 경우가 있다. 1이 넘으면 100%가 넘는다는 소리인데 뭔가 이상하다.

그러나 수식적으로 가능하다

예를 들어, 다음과 같은 정답값과 예측값이 있다고 가정하자.

이런 경우, S = 1, I = 8, D = 0, N = 2 가 된다. 따라서 9 / 2 = 4.5가 나오게 된다. 즉, 모델이 예측한 값이 완전하게 틀렸거나 할루시네이션 등이 발생할 경우 충분히 1이 넘을 수 있다는 것이다.