유니코드 정규화 알고리즘

위키백과 ― 우리 모두의 백과사전.

유니코드 정규화 알고리즘은 같은 역할을 하는 여러 문자들이 있을 경우, 이를 하나로 통합해 주는 알고리즘이다.

[편집] 정규화하는 문자

  • 로마자발음 구별 기호(조합 분음 기호: U+0300~U+036F)가 잇따라 붙었을 경우, 이를 한 글자로 처리할 수 있으면 한 글자로 처리하기
    • A(U+0041) + ̀ (U+0300) → À(U+00C0)
    • e(U+0065) + ̂ (U+0302) + ̣ (U+0323) → (U+1EC7)
  • 현대 한글을 첫가끝 코드로 썼을 경우, 이를 현대 한글 글자 마디 영역(U+AC00~U+D7A3)으로 처리하기
    • (U+110B) + (U+1171) → (U+C704)
    • (U+D558) + (U+11AB) → (U+D55C)
  • 한중일 호환용 한자한중일 통합 한자로 처리하기
    • (U+F914), (U+F95C), 樂(U+F9BF) → (U+6A02)
다른 언어