"UTF-8"의 두 판 사이의 차이

잔글 (봇: 자동으로 텍스트 교체 (-</source> +</syntaxhighlight>, -<source +<syntaxhighlight ))
 
(같은 사용자의 중간 판 하나는 보이지 않습니다)
5번째 줄: 5번째 줄:
:문자 1개를 나타내기 위해 1~4바이트 사용
:문자 1개를 나타내기 위해 1~4바이트 사용


<source lang='console'>
<syntaxhighlight lang='console'>
mysql> SELECT * FROM information_schema.CHARACTER_SETS WHERE CHARACTER_SET_NAME='utf8';
mysql> SELECT * FROM information_schema.CHARACTER_SETS WHERE CHARACTER_SET_NAME='utf8';
+--------------------+----------------------+---------------+--------+
+--------------------+----------------------+---------------+--------+
13번째 줄: 13번째 줄:
+--------------------+----------------------+---------------+--------+
+--------------------+----------------------+---------------+--------+
1 row in set (0.00 sec)
1 row in set (0.00 sec)
</source>
</syntaxhighlight>
:→ UTF-8은 최대 4바이트까지라는데, MySQL에서 MAXLEN은 3이다...??<ref>4바이트 짜리는 거의 수요가 없어서 무시한듯??</ref>
:→ UTF-8은 최대 4바이트까지라는데, MySQL에서 MAXLEN은 3이다...??<ref>4바이트 짜리는 거의 수요가 없어서 무시한듯??</ref>


57번째 줄: 57번째 줄:
*[[BOM]]
*[[BOM]]


==참고 자료==
==참고==
*http://en.wikipedia.org/wiki/UTF-8
*http://en.wikipedia.org/wiki/UTF-8
*http://ko.wikipedia.org/wiki/유니코드_범위_목록
*http://ko.wikipedia.org/wiki/유니코드_범위_목록

2021년 9월 24일 (금) 23:18 기준 최신판

1 개요[ | ]

UCS Transformation Format—8-bit; UTF-8; utf8
  • 유니코드 문자인코딩 방식 중 하나
  • 가변길이 인코딩
문자 1개를 나타내기 위해 1~4바이트 사용
mysql> SELECT * FROM information_schema.CHARACTER_SETS WHERE CHARACTER_SET_NAME='utf8';
+--------------------+----------------------+---------------+--------+
| CHARACTER_SET_NAME | DEFAULT_COLLATE_NAME | DESCRIPTION   | MAXLEN |
+--------------------+----------------------+---------------+--------+
| utf8               | utf8_general_ci      | UTF-8 Unicode |      3 |
+--------------------+----------------------+---------------+--------+
1 row in set (0.00 sec)
→ UTF-8은 최대 4바이트까지라는데, MySQL에서 MAXLEN은 3이다...??[1]

2 주요 영역[ | ]

  • 한글 자모: 1100 ~11FF
  • 한글 (가 ~ 힣): AC00 ~ D7A3

3 예시[ | ]

문자 Binary code point 2진수 16진수
$ U+0024 0100100 00100100 24
¢ U+00A2 00010100010 11000010 10100010 C2 A2
U+20AC 0010000010101100 11100010 10000010 10101100 E2 82 AC
𤭢 U+24B62 000100100101101100010 11110000 10100100 10101101 10100010 F0 A4 AD A2

4 같이 보기[ | ]

5 참고[ | ]

  1. 4바이트 짜리는 거의 수요가 없어서 무시한듯??
문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}