영어의 통계학적 정보량

영어 텍스트(알파벳 26자와 space 1자 총 27자)는 문자 사이에 의존성이 높다. 예를 들어 q다음엔 높은 확률로 u가 온다던가, 띄어쓰기 사이의 한 알파벳은 I 나 a 가 대부분을 차지한다. 영어 문장에서 특정 순서에 오는 알파벳을 통계학적으로 추정하려고 할 때, 이전 데이터를 전혀 비참조한 상태에서 (u 추정을 위해 q를 모르는 예시) 4.03bits/letter의 데이터량을 가지는데 (2^4.03=16.3), 이전 데이터 참조량이 10개까지 올라간다면 다음 글자 추정을 위한 데이터량은 1.3bits/letter까지 떨어진다 (2^1.3=2.46). 데이터 참조량과 데이터량은 10개의 참조량에서 급격히 수렴하여 극한값에 근접한다. 너무 신기하지 않나?

가장 많이 본 글