|
Unicode è㈣èª绂è拌拌宠拌矾娌″½çæ㈠㈣ㄩé茶块²æ㈣«è纰èè é褰éè«濞è«è椴èよㄨ²娼èヨè佃虫¢ èх¢èラ²é插½è版椴è拌géæ㈣濯è è芥㈠㈣ㄩé茶块²æ㈠½娌$¢è Web ç茬èèè姊 éå纰è借宠«è«è㈠½é娼èヨ¦èè宠伴º濞èéè«濞è«è椴èよㄨ²é插½è版椴è° Unicodeéæ㈣版椴è° Unicode 纰èèè佃虫¢ èх¢èラ²æ崇è绡æ㈡½Solaris[tm] èè佃虫¢ 绂璺¯æ®椴éåLinuxéåMicrosoft[tm] Windows 2000 娼è¥ Apple's[tm] Mac OS Xéæ㈣版椴è° Unicode 纰èè«濞è«è椴èよㄨ²èョ¯椴æ㈤插½èè鸿è疯ュ㈣ª绂璧æè¦è纰纰è拌ㄨцè㈡®é茶胯拌拌«èè╄娼èヨ¦èè宠伴æ㈣è烽茶胯«èè╄纰èæ崇楣胯¦绂璨è¤よª纰 绂璺¯æ®椴è拌ㄦ㈠¢Unicode è虫¢ è¦éèョ¯è«èè宠拌矾娌″½ç纰èè拌磋ªéèㄨè绂椹磋℃½æè㈣«éæ¢ é茶è«è疯版椴è伴茶胯«èè╄è¦è纰纰纰èè«濞è«è椴èよㄨ²æ㈠¢Unicode è㈣è¦绡èª绂è㈢¢è«è纰èè宠拌矾娌″½çè╅è甯介æ㈢¢è¦è㈣æ㈠㈣«濞è«è椴èよㄨ²纰è Unicode åよ胯姣璺¯éè㈤è 楹è«èㄩ茶胯° è伴æ㈠よ胯姣è㈣è拌µ Unicode 楹ç よ姣纰èè«椴è$叉㈠㈣µèè«椴è$茶拌µèц²椹磋¢º蹇楹å纰è楹ç よ姣纰妤艰¦绂è姊 绂璨æ宠h¦绂è宠伴è疯姊 éæ㈣冲¯椴æ㈠½娌$¢èåよ胯姣æ崇è绡èªè èц褰璧è拌版㈡½
åら 1 é茬¯èª姘èèhª绂èㄦ¼èè峰ゆ®è¦è纰纰è拌ㄨ㈤箍è«è纰èè㈢«è«è鿢 åら 1 èョ¯è«èé茬¯èª姘
UTF-8 è㈣è㈣è楹æ㈤┐Unicode 3.1 è姣è¦绂纰è璺¯é茶¦æè㈣ U+0000 - U+10FFFFéæ㈡®é楣胯洪┐褪èéè¦è椹磋µæè姣è¦绂 楹蹇楹åè¦é 32 è¦绂è®娌¤㈠ªèå褰è«èªèèè佃宠绘㈠㈢¢è¦è㈣æ㈠㈣å璺¯èè è¦è璨è椹磋µæ纰è磋矾éé插½绂璋╄å褰楹èè奸²è¤㈤箍è«è 32 è¦绂纰è椹撮è宠拌矾娌″よ胯姣éæ㈣ョ¯椴æ㈡㈠㈣¦姊 è璺¯娼èヨ╄è拌艰板ºèヨ纰è楣跨 ゅ½èªè«è èç茶绂èè奸²è¤®èè╅è虫æ㈠㈣ª璨è¦éè®èèㄦ¼楣跨 ゅ½èª 椹磋¤ªèéè¦èç查ºè¦èラ²è宠拌矾娌″½ç纰èåよ胯姣èg«é茶ょ¢éè椹磋µæè宠拌矾娌¢æèª绂璧æè宠伴è烽æ¢UTF-8 è㈣èª绂è拌伴茶胯宠伴è峰よ胯姣æ㈠㈢¢åよ拌ㄨ椹磋µæè宠拌矾娌$¢èåよ胯姣è冲¯é茶よ¦éèª绂璧æè宠伴è锋㈠㈣冲¯椴éè¦éèh璧æè宠伴è烽æ㈤º璐搁茶¿ è㈠ªè¦姊 è璺¯è«èè╄纰èè椹磋µæè宠拌矾娌¤ièㄧ«纰èè宠伴è疯¤佃«è疯é璧æéæ㈣濯è è芥㈠㈣è风¦éè«è疯棰 é查è¦è纰èè¦èè宠拌拌ㄦ㈠㈣椹磋µæ è宠拌矾娌¤éæ®éè扮¦èㄧ«èªé 1.1 璧æè宠伴è烽æ㈣ф㈣æ宠«èéåæ冲è棰 è搴è«èéåèф㈣搴è楹è«è娼èラ查è«èèéæ®éèㄧ«èªé 1.7 璧æè宠伴è烽æ㈣冲¯娼璐告㈠㈣ è®è«èéå椴çèц㈣«è娼èヨ拌ㄨ¦è纰èè椹磋µæè宠拌矾娌¤ョ¯椴æ㈣ㄧ«èªéè 濯璧æè宠伴è烽æ¢ [1] UTF-8 纰èåよ胯姣èh«璺¯绡褰璨纰妤艰ªè抽插ºéæ㈣цè蹇纰èåら 2 èg¢è姊 èè£ Unicode è姣è¦绂è拌ㄧ¢èé查éé 惰拌è¦绂è㈣è è芥½è¦æ宠èèèè疯绂èュ㈣宠拌矾娌¤矾é茶¦æ纰èåよ胯姣è拌ㄩæ¢ åら 2 Unicode è姣è¦绂纰è UTF-8 é查éé
惰拌è¦绂åよ胯姣
è è借¤уらèiè㈡®æ㈠㈣矾é茶¦æ U+0000 - U+007F è拌ㄧ¢èè宠拌矾娌¢┐褪èåよ胯姣è¦é纰妤艰宠伴è烽æ㈣®èæ®èヨªèè¦é茶宠 ASCII è宠拌矾娌″½çèªèæ®è¢┐褪èè«è纰妤艰宠伴è风¢è楹蹇楹å椹磋®褰ç茶楹åらè㈡®éæ㈣цèª绂璧æ璺¯é茶¦æ U+0080 - U+07FF æ崇娼å㈣èhç茶«è胯«è¤ è¦è㈣éè介º璐搁茶胯㈠ªè¦èè宠拌㈤箍è«è纰èè宠拌矾娌℃㈠㈣åæ崇娼å㈣èiºé 惰矾åèª涔璺¯娌℃½è纰èè宠拌矾娌¢æ㈤ºèh矾é茶¦æ è拌ㄧ¢èè椹磋µæè宠拌矾娌¤ㄧ«èªéèé璧æè宠伴è风¢èåよ胯姣楹蹇楹å椹磋®褰ç查æ㈣矾é茶¦æ U+0800 - U+FFFF è拌ㄨ扮¢纰èè冲èªè纰èè¦èè宠拌㈣è拌ㄨ¦èéå椴çèц㈣«è娼èヨ è®è«èéæ㈣®èèㄦ¼è¦èè宠拌拌ㄧ¢èè椹磋µæè宠拌矾娌¤ㄧ«èªéè 濯璧æè宠伴è风¢è 楹蹇楹å椹磋®褰ç查æ㈣冲¯娼璐告㈠㈣矾è BMP 璺¯é茶¦ææ崇娼å㈢¢èè㈣椹磋¤ªèè虫¢ è¦é UTF-16 è拌ㄧ¢è楹ç よéé茶 (surrogate pair) åらè㈡®纰èè宠拌矾娌¢æ㈤ºèh矾é茶¦æè拌ㄧ¢è楹璐搁茶胯㈠ªèㄨè宠拌矾娌¤㈣è拌ㄨ¦èèц锤èㄨ¦è¦èè宠伴æ㈤ºèh矾é茶¦æè拌ㄨㄨé茬¯èª姘纰èè宠拌矾娌¤è· UTF-8 åよ胯姣è拌ㄨㄧ«èªéèh璧æè宠伴è烽æ¢ èç よ$ ¤ UTF-8 åよ胯姣è宠拌矾娌$¢èèh«璺¯绡èç茶㈢¢娼è哄½璨纰妤奸æ㈣цè蹇纰è Java 楹ç よ姣èg¢è姊 èèh è芥½è¦è璋╄h$¢è撮º楹é绡è宠褰娼纰è UTF-8 åよ胯姣è姊 [2]æ¢ 娼 /** UTF-8 è¦éè㈣è楹è è介ºèh拌磋ªéæ㈤┐UTF-8 è㈣èª绂è拌拌拌磋ªé纰èåよ胯姣æ㈠㈣棰 èª璨è è借цæ㈡½
楹璐搁茶胯㈠ªè«濞è«è椴èよㄨ²é插½è«èㄧ¦éåゆ®纰èè¦èåゆ®楹濞èéèh«璺¯绡éæ㈣ㄩé茶胯®èèㄦ¼èh«璺¯绡é茶è宠拌矾娌$¢è楹蹇楹å椹´ è®褰ç茶ㄧ«è璐哥¢è褰è佃$«é插½è«èㄨ åょ¢è«éæ㈣濯è è芥㈠㈣ㄩé茶垮よ块²èよ èhåら插½褰è佃$«èª绂璧æè宠拌矾娌¤扮¦èㄧ«èªéèª绂璧æè宠伴è风¢è楹 蹇楹å椹磋®褰ç查æ㈣éèª绂璧æ椴æ㈠½娌$¢è褰è佃$«è㈣æ㈢¯èよ村ゅè㈣é茶è«è· C è«èè╄纰èåよ块²èよ èhåゆ㈡¼æ㈠㈣¦èåゆ®è宠拌矾娌¢º搴è«èèé茶绂绂璋╂崇娼å㈣扮¢ 0x00éæ㈣ è介箍娌¢ºèh扮¢è®蹇纰è椴 æèц版㈠㈣gèョ¯椴æ㈠ら褰è纰èè㈣è¦èåゆ®è宠拌矾娌¢º搴纰èè婕è¦èéæ㈣у附 UTF-16 娼è¥ UTF-32 纰èåよ胯姣éè¦è宠拌矾娌¢º蹇楹åè¦é 16 绂璨 32 è¦绂è扮¢éæ㈢¢å¤ 16 绂璨 32 è¦绂è扮¢纰èè宠拌矾娌¢º搴åょ¦è虫¢ è¦éèª绂è宠 è宠伴è疯扮¢楹濞èéè㈠ゆ㈠㈣扮¢ 0x00 èョ¯椴æ㈢¦璋╅²æèц版㈠㈣よ村ゅè㈣èè风¦éè«è疯棰 é查è¦è纰èè¦èè宠拌拌ㄩæ㈣®èè㈤箍èц拌«èㄧ¢èè¦èåゆ®楹濞èéèh«璺¯绡åょ茬¢è璧楹èè«娼è¥ 绂çèèªæ㈠㈤ºè«é查 剁¢褰è拌è宠拌矾娌¢º搴椴éé茶 褰èèh«楹éè¦璐搁å椴æèц拌蹇楣胯拌å㈤è«纰èè宠拌矾娌¢º搴èªè褰æ宠h╄f¢ è㈡æ宠洪æ㈣éèª绂 璺¯éè蹇æ㈠㈣«è¤«è· UTF-8 纰è绂éåゆ®楹ç よ姣纰妤艰¦绂è㈣è宠伴è锋㈠㈣ª璨楹èiºè¦èラ²纰èèh«璺¯绡èョ¯椴æ㈣扮¦èㄧ«è虫¢ è璋╄¦å纰姊 è®娌℃㈢¯è è介箍娌¤«èㄧ¢è绂æ虫㈡¼褰楹椹磋¡ èèhㄨㄩæ¢ Unicode 纰èèª绂璧æ椴æ㈣¦éè èh疯µèéè板º楹濞è㈣æ㈠㈤茶è«è风¦éè«è疯棰 é查è¦è纰èè¦èè宠版㈠㈣gèㄧ«èªé纰è椹磋®褰ç插よ 楹è¦èラ²åよ胯姣èªéé茶¿ 纰èé茶块æ㈢¦绂è╄è板ºæ㈠㈤茶è«è烽º璐搁茶胯㈠ªè宠拌矾娌℃㈠¢UTF-16 绂璨 UTF-32 èㄧ«èªé 16 绂璨 32 è¦绂纰è楹蹇楹å椹磋®褰ç叉㈠㈤查 惰绂è㈣ ISO-8859 åよ胯姣èх¢èèㄨièㄧ«纰èèª绂璧æè宠伴è烽æ㈢¢è¦è㈣æ㈠¢UTF-8 椹磋¤ªèèè疯ª绂璧æè宠伴è疯拌ㄦ®èヨè洪º蹇楹åèiè«èㄨ®èèㄦ¼è宠拌矾娌″½ç (charset) 纰è ASCII è宠«褰ç鿢ASCII è宠«褰çè¦è艰ªè¤㈣è¦姊 è璺¯娼èヨèè拌艰«èè╄è冲¯椴æ㈣«è纰èè宠拌矾娌″½çéæ㈣ è借æ宠iè㈡æ㈠㈤茶è«è烽º璐搁茶胯㈠ªè¦姊 è璺¯è«èè╄æ㈠㈣椹´ 璧æè宠拌矾娌¤éæ®é椹磋¤ªèè«è 1.1 璧æè宠伴è疯楹åよ胯ㄩºéæ㈣®è褰璧娼ç«楹è纰éèè£ ASCII 纰èèㄦèè㈤æ㈢¢è¦èè峰よ磋ªéè㈠ゆ㈠㈤茶è«è锋½åゅ½娌$¢èè宠拌矾娌℃½èョ¦è艰″㈡½å㈡½濯纰èè¦èè宠版㈠¢UTF-8 èè㈣ㄩè椹磋µæè宠拌矾娌$¢èåよ胯姣椴é楹èèh璧æè宠伴è烽æ¢ æ®é楣胯鸿ㄩé茶胯ㄨ纰è椹撮璺¯åèу¯è椹磋╄µèh佃褫èèè£ Unicode è虫¢ è¦éåらè冲½æ㈠㈢¢è¦æ®è$¢èèу¯è椹磋ョ¯椴æ㈣㈤箍è«èè版椴è拌ª绂èㄩè宠 èц块箍è磋«èè╄纰è楹è¦èラ²è宠拌矾娌″½çéæ㈣宠㈣″¯纰è楣跨 ゅ½è㈢¦ç 娼èュゆ®纰è寸¦ç楣块椴èよ㈠¨绂璋╁½è纰èè¦éèèiº濞èééæ崇¢妤艰宠伴è烽åゆ½èラæ抽茶胯宠伴è烽åよ宠拌矾娌″½çé查 惰µçèㄨè¦èåゆ®楹濞èéèh« 璺¯绡éæ㈣ç よ㈣璺¯甯界¦楣垮½è纰èè¦éèèhè烽º濞èé楣垮ª椴èよ拌ㄥ½çèè éæ宠æ崇¢褰éåよ宠伴è锋½èラ┐è¤è虹¢èéæ宠¦èè椹撮åよ宠伴è烽查 惰µç èㄨ楹ç よ姣æ㈤┐è㈣璺¯甯界¦楣垮½è纰èæ㈠㈣ è介箍娌¤¦èåゆ®è拌ㄧ¢èèf¢ èª濯楹濞è«è疯 è¦èªèè¦绂è拌æ㈠㈣ªéè®èª纰éè椴璧æè宠拌矾娌$¢è椹撮è㈠½è¦绂 è拌è«èㄩ茶胯æèè╂㈤┐èè疯«èㄨㄦ¼åよ胯姣è拌ㄦ㈠㈤º蹇èè疯宠è¦èè椹磋宠伴è疯ªè椹磋¤è鸿㈣èæ崇¢褰è宠伴è风¢èè¦è㈣よéæ㈣濯è è芥㈠¢ Shift-JIS åよ胯姣æ®èヨª璨楹èh棰 èª璨é查 惰è╄«è疯蹇èц²楹濞èé鿢 纰å¤ Unicode è虫¢ è¦é楣胯ら茬¯椹撮é茶 纰è 16 è¦绂åよ胯姣椹磋¢箍婕è㈤箍è«èè㈠ゆ㈠㈣ㄩé茶胯 èhè疯ㄨh矾è鸿板ºè«è块插½è绂èè佃㈤箍è«èé茶胯宠伴è峰よ胯姣èèiæ㈤┐褪èèééè纰èè㈣æ㈠¢ è«è¤«è疯è疯㈤箍è«èé茶胯宠伴è疯╄è拌艰宠拌矾娌″½çè㈠ら┐è¤è鸿«æ纰éèèh拌拌拌拌è 璺¯椴æ㈠㈣ç ら茶è㈣璺¯甯借褫èé茶胯宠伴è· Unicode åよ胯姣椹磋¤è虹¦璋╄«èよ妤艰绂æ®æéæ㈢¢è¦è㈣æ㈠¢UTF-8 è绂èュ㈡㈠㈣gè绂绂璋╄ç よ$ よèèㄦ¼楹è¦èラ²åよ胯姣绂璋╄ç よ$ ょ¢èèiè«èㄨ¦è㈣よéæ㈣濯è è芥㈠㈣è疯¦èåゆ®è宠拌矾娌¢º搴è拌ㄦ㈠㈤ºè«è è¦ èªèè¦绂è拌è╂宠®èªè椴璧æè宠拌矾娌$¢è椹撮è㈠½è¦绂è拌绂璋╁ょ茬¢è娼è鸿 è昏ªè抽æ¢UTF-8 è宠拌矾娌¤ㄨ²èèㄧ¢èèiè¦ééæ宠¦èè椹撮åよ宠伴è疯宠鸿㈣æ®è借«è¨ 10xxxxxx 纰èè¦绂èæ㈣㈤æ㈠㈣ª璨楹èf½è鸿 è昏ªè虫®èヨè洪ºè«娼璐歌ラèæ宠®èª纰éè椴璧æè宠拌矾娌$¢è椹撮è㈠½è¦绂è拌éæ㈣宠拌矾娌¤拌µè®姣è拌é茶胯«姣è宠° 璺¯娌¢┐éè㈠½è¦绂è拌èц胯µ涔è 濯璧æè宠伴è烽æ㈠½楹è㈤箍é茶è«è烽º璐搁茶胯㈠ªè╄è拌艰ц锤èㄨ¦è¦èè宠版㈠㈣拌é茶胯µ涔èé璧æè宠伴è锋®èョ¦璋╃¢é 楹èè宠拌矾娌″よ介è介æ㈣ュ½ 1 èцè㈡®èèe½璧璧æè宠拌矾娌″½æ宠ç² UTF-8 åよ胯姣éæ㈣姣è冲èªèæ㈠㈣㈠ºèééé 惰拌è宠伴è风¢èèi²èㄨ²è㈣ E5éåADéå 97é æ㈣ è介箍娌¤ªéè璐搁ºè«åら褰èè¦é 1 纰èè¦绂è拌椹撮è㈠½è╂宠®èªè宠拌矾娌$¢è椹撮è㈠½è¦绂è拌æ㈠㈣¦èªèè椹磋¤ªèæ抽ºè®è®èªèèцèiè㈡æ㈠㈣è疯ュ½è拌ㄨ®èª纰éè¦绂è«è疯¦绂è拌 2 纰èè宠拌矾娌″よ介è芥㈡½
è«姣è椴èㄦ¼楹è¦èラ²è宠拌矾娌″よ胯姣è绂èュ㈡㈠㈣㈤箍è«è UTF-8 璺¯è椴æ㈣ è昏ªè抽èè¦æ娼èヨè佃宠昏宠拌矾娌¢æ㈣®èè拌板よ胯姣纰èè¦绂èæ㈣㈤è㈤箍èç ら┐褪èè╄µèh佃 璺¯é茬¯è宠拌矾娌¤f¢ èª濯è㈣è拌µèц²è宠° 璺¯娌$¢è椹撮è㈠½è¦绂è拌绂楣胯㈣è拌µèц²åゅ纰èè¦绂è拌éæ㈣è疯宠拌矾娌¢º搴è拌ㄨц²èæ崇¦璨èц²娼璐歌ªèé茬é插½娼è鸿 è昏ªè抽æ¢ è宠洪璋©UTF-8 è㈣èª绂è拌伴涔楹è®璧è借ㄦ纰è Unicode åよ胯姣éæ㈣®èè拌板よ胯姣éè¦ Unicode 楹ç よ姣è扮¢纰èè¦绂èæ㈣㈤璺¯è拌褰è«è疯ª绂璧æéåèé璧æéåè 濯璧æè$«è拌èh璧æè宠伴è疯拌ㄩæ㈣®èè㈣èª绂è拌伴茶胯宠伴è峰よ胯姣鿢UTF-8 è扮¦è㈤箍è«èèª绂璧æè宠伴è烽茶 ASCII éé 惰ㄨㄥよ胯姣éæ㈣®èæ®èュらè㈡®æ㈠㈤茶è«è疯㈤箍è«è绂éè«è疯棰 é查è¦è纰èè¦èè宠扮¢èè«èè╄æ㈠㈣椹磋µæè宠拌矾娌¤éæ®é椹磋¤ªèè扮¦è«è 1.1 璧æè宠伴è峰らè㈡®éæ㈣ç茶gè«èè╄纰èè椹磋µæè宠拌矾娌¢┐è¤è鸿ㄧ«èªéé茶胯µæè宠伴è烽æ㈣«姣 UTF-16 èц垮よ æ㈠㈣è· UTF-8 è拌ㄦ㈠㈣扮¦è«èㄨ╄è拌艰¦èè宠扮¢èåよ胯姣椹撮èх ょ¦璋╁よ éèчº璐搁æ¢ UTF-8 é茶è«è疯ф¯è版椴è° Unicode 纰èèèц㈤èх¢èラ²娼è鸿«èㄨ«èæ㈠㈣®èè㈣èª璨è¦é椹撮璺¯åè èhåよ¦è艰ㄧ«楹璐歌矾éèㄨ艰µèè¦èåゆ®楹濞èé楹ç よ姣éæ㈤茶è«è疯褫è纰妤艰宠° éè烽ºç よ姣纰妤艰¦绂纰è楹ç よ姣æ㈠㈣è· UTF-8 è¦èåゆ®é查 惰矾è ASCII èèh拌 Latin-1 è¦èåゆ®纰èèè 椹存èцæ㈠㈣®èèㄦ¼楹ç よ姣èョ¯椴æ㈣绂绂璋╄ラè è¦è㈡èㄦ鿢 è冲¯娼璐告㈠㈣«姣è椴èㄦ¼楹è¦èラ²åよ胯姣è绂èュ㈡㈠㈣㈤箍è«è UTF-8 璺¯è椴æ㈣ è昏ªè抽èè¦æè宠拌矾娌¢æ㈣iè¦é纰èèæ崇¢褰娼èヨ¦èè椹磋宠伴è锋½è鸿 è昏ªè虫®èヨè鸿㈤插ゅ椴æè楹éæ㈣«姣èç茶gèㄩé茶块茶胯宠° éè峰よ胯姣èц垮よ æ㈠㈣è· UTF-8 è拌ㄦ½è鸿 è昏ªè宠è疯¦èåゆ®è宠拌矾娌¢º搴è拌ㄨц²èæ崇¦璨èц²娼璐歌ªèé茬鿢 [1] Forms of Unicode, Mark
Davis,
September 1999, http://www.ibm.com/developerworks/unicode/library/utfencodingforms/index.html.
漏 2001 John O'Conner. John O'Conner is a staff engineer specializing in Java internationalization. |
| |||||||||||||||||||||||||||||||||||||||||||||||
|
| ||||||||||||