본문 바로가기

자바의 정석 정리

자바의 정석 - 2.4 아스키(ASCII)

2.4.1 아스키 코드

  • 미국표준코드
  • 기본 7bit

2.4.2 확장 아스키(Extended ASCII)

  • 아스키 코드가 7bit이기 때문에 나머지 1bit를 활용하여 문자를 추가로 정의한 것
  • 각 기업및 국가에서 다르게 정의하여 사용

2.4.3 코드 페이지(Code Page, cp)

  • 여러버전의 확장 아스키를 모아둔 것
  • 한글 윈도우는 'CP949'를 사용하고, 영문 윈도우는 'CP437'를 사용한다.

2.4.4 유니코드

  • 전 세계의 모든 문자를 하나로 통일한 문자집합
  • 초기에는 16bit였으나, 21bit로 확장
  • 아스키코드에 추가된 문자를 보충 문자(Supplementary)라 하는데, 21bit이기 때문에 int를 사용해야한다.
  • UTF-8, UTF-16, UTF-32등이 있으며, 자바는 UTF-16을 사용한다.
  • UTF-16은 모든 문자를 2byte로 고정하고, UTF-8은 1~4byte 가변크기로 표현한다.