【問題】請問 big5, unicode and unicode UTF-8 的差異

**阿土** · 2006-03-31, 12:59 PM

我倒是因為 PHP 常與 BIG5 相衝導致搜尋等功能不正常 , 所以採 UTF-8
且 MySQL 新版本也都改以 UTF-8 當作預設儲存模式 , big5 存進去反而比較麻煩
最近有試著把 GB2312 程式改成 UTF-8 編碼後 , 搜尋中文等問題也都很正常了 , 不必為了 big5 衝碼在那邊傷腦筋

**basuya** · 2006-03-31, 03:25 PM

受教了，各位前輩，感謝！

**otai** · 2006-03-31, 03:59 PM

這是個很有趣的現象,這樣一來BIG5碼對於網頁的編輯可能會有些不利,大家都該該用UTF-8編碼嘍.

**sfilc** · 2006-04-18, 03:22 AM

基本上可以分為幾種

ANSI(就是BIG5,GBXXXX那些的) : 優點是擁有小的檔案,但是不支援多語系.

較舊的軟體會採用這個編碼
你打開非BIG5的軟體,像是簡體中文的軟體,會亂碼
表示那個軟體就是採用ANSI編碼的軟體

Unicode(萬國碼太難聽了,我都叫他國際碼,感覺專業多了)也分為幾種

UTF-16 : 新的 WINDOWS作業系統 ,還有一些新的WINDOWS 軟體所採用的編碼, 優點是擁有高效能,固定位元,

xp記事本存檔後,那個儲存編碼那邊的unicode,指的就是utf-16

我寫的繁體中文utf-16應用程式,卻可以在日文電腦,啥都不用改,就可以執行,也不會亂碼,這就是unicode的好處之一

基本上
WINDOWS 95/98 => ANSI
WINDOWS 2000/XP/2003/披薩 => UTF-16

UTF-7 : 現在應該沒人再用這玩意了, 這個原先是為了讓舊有設備能夠支援UNICODE,所研發的編碼,現在要找到那種設備應該也蠻難的

UTF-8 : 跟UTF-16一樣,不過文字大小是變動位元,可能這個字要2byte,那個字卻要3byte,需要更多的CPU效能來做排序.所以效能沒utf-16來的好.因為他是變動位元.所以他的大小會比utf16還要小,所以比較多人將他用在網頁上

結論:
如果你要寫的是網頁,最好採用UTF-8編碼, 除非你不想要多語系的優點
如果你寫的是應用程式,最好採用UTF-16編碼 , 除非你希望其他語系的作業系統,打開會亂碼,跟不想要多語系

琥珀 · 2006-04-18, 03:55 PM

多國語系的資料處理與整合技術探討 (微軟寫的東西，但不保證正確性)

自己倒是習慣用「統一碼」。

本來是覺得「國際碼」(國際標準碼？) 也是不錯，但是自己老是會想到「國家標準碼」、「國標碼」，反而就不想用「國際碼」這個中文用詞了。

對一般人來說，「萬國碼」可能才是最容易了解的中文用詞。說「統一碼」恐怕沒多少人能了解。

官方是翻譯為「統一碼」。

**otai** · 2006-04-18, 05:58 PM

作者：琥珀

多國語系的資料處理與整合技術探討 (微軟寫的東西，但不保證正確性)

自己倒是習慣用「統一碼」。

本來是覺得「國際碼」(國際標準碼？) 也是不錯，但是自己老是會想到「國家標準碼」、「國標碼」，反而就不想用「國際碼」這個中文用詞了。

對一般人來說，「萬國碼」可能才是最容易了解的中文用詞。說「統一碼」恐怕沒多少人能了解。

官方是翻譯為「統一碼」。

從字面上看的直接翻譯就可說是"統一碼", uni 有單一,總的...的含意 ; code 就無疑的是 "碼", 所以 "統一碼" 個人認為比較妥當, 你覺得呢..

琥珀 · 2006-04-18, 07:06 PM

自己第一次知道「unicode」這個名詞，就自動解釋為「統一碼」。除非以後官方有改名稱，不然大概不會用其他名稱。

**realmax** · 2006-04-19, 04:10 PM

提供一個連結，應該unicode的官方網站吧，裡面的unicode中譯是統一碼或標準萬國碼，且並列說明，小弟習慣直接用英文稱呼，就像google一樣^^

http://www.unicode.org/standard/tran...t-chinese.html

**otai** · 2006-04-20, 12:32 AM

作者：realmax

提供一個連結，應該unicode的官方網站吧，裡面的unicode中譯是統一碼或標準萬國碼，且並列說明，小弟習慣直接用英文稱呼，就像google一樣^^

http://www.unicode.org/standard/tran...t-chinese.html

對啊,習慣問題吧,希望以後會習慣把google改稱為 "谷哥" 對我而言,可能要改很難..
unicode也習慣了,要不要翻譯成 "由你扣得"

開開玩笑的啦:jocky:

琥珀 · 2007-01-09, 12:47 AM

設英文字數為 x，中文字數為 y；

用 UTF-8 編碼，設每個英文字母為一個位元組，每個中文字為三個位元組；
用 UTF-16 編碼，設每個英文字母為兩個位元組，每個中文字為兩個位元組；

解二元一次方程式：2x+2y+2=x+3y+3, x≧0, y≧0

移項，得到 x=y+1
不計 BOM，得到 x=y

當 x 遠大於 y，用 utf-8 較省空間。