유니코드란 무엇일까?

유니코드란 무엇일까?

2021. 1. 10. 05:24ㆍ카테고리 없음

유니코드란, 숫자와 글자, 즉 키와 값이 1:1로 매핑된 형태의 코드 인것!!

다시 말해서 아스키코드로 0x41 = A로 매핑 된 것 처럼 아스키코드로 표현할 수 없는 문자들을 유니코드라는 이름 아래 전세계의 모든 문자를 특정 숫자(키)와 1:1로 매핑한 것이다.

전세계의 모든 문자가 너무 많을 것 같지만... 하지만 지금 유니코드는 현재 $$2^20 + 2^16$$ 개수 만큼의 공간을 사용하고 있어서

거의 모든 세계언어가 담겨있다. 특히 한자의 총 개수가 10만 여자가 될 것이라고 추정하는데, 모든 한자를 담고 있지 못한다는 것을 빼면 전세계 대부분의 문자가 전부 유니코드에 담겨 있다고 봐도 될 것이다. 우리가 사용하는 한글의 경우, 조합형을 위한 자모와, 완성형 한글이 모두 포함되어 있다.

<유니코드 블럭>

유니코드는 너무 많기 때문에 아스키코드 처럼 한눈에 들어오는 테이블을 만들기 굉장히 어렵다. 그래서 블록으로 나누어 놓은 테이블도 상당히 많다.

U+ 라는 접두어가 붙어있으면 아스키코드 라는 의미이며, 아스키코드의 0x41은 대문자 A이고, 이를 유티코드표에서 찾으면 U+0041이 된다.

그럼 UTF-8, UTF-16이런 말들을 많이 본 적이 있을 것이다. UTF-8 UTF-16같은 방식은 유니코드표의 숫자 키들을 어떻게 표현하느냐에 따라 달린 것이다. 예를 들어 UTF-8은 가변바이트를 사용하기 때문에, 1바이트로 표현이 충분한 A같은 경우 0x41로 표현한다. 반면, UTF-16은

16비트 즉, 2바이트로 표현하기 때문에, 0x0041로 표현한다. UTF-32도 있는데, 4바이트로 표현하기 때문에 0x00000041이 된다.

즉, 다시말해서 비트수의 차이로 인하여 각 각 8비트 16비트 32비트로 표현의 차이가 있다.

(추가내용)

리틀앤디안, 빅앤디안이라고 들어보았을 것이다.

UTF-16은 little-endian, big-endian이냐에 따라 0x4100이 될 수도, 0x0041이 될 수도 있다.

UTF-32 역시 위의 상황과 마찬가지로 0x4100 0000이거나 0x0000 0041이 될 수도 있다.

그럼 EUC-KR, CP949 같은 표현들은 무엇일까?

이 두가지 인코딩 방식은, 2바이트로 한글을 표현할 수 있게 만든 방식이다. 일부 한자 등도 포함된다. 아스키값은 그대로 1바이트로 표현된다.오래전부터 쓰이던게 EUC-KR이고, 이 인코딩에서 표현할 수 없는 한글이 있어 마이크로소프트에서 코드페이지 949를 사용하기 시작한다. CP949는 EUC-KR보다 더 많은 한글을 표현할 수 있으며, 윈도우에서 주로 쓰이는 인코딩 기법이다. CP949를 EUC-KR의 확장이라고 보면 될 것이다.

그럼 이제 UTF-8, EUC-KR을 사용하여 간다하게 비교해보겠다.

예제를 통해서 UTF-8와 EUC-KR을 간단하게 비교해보자.