【問題】請問 big5, unicode and unicode UTF-8 的差異
在做網頁的時候,如果存檔編碼為big5碼的話,用瀏覽器上其他的編碼(如西歐或是簡體編碼等)都無法正確顯示出現亂碼這是正常的,而如果改為unicode或是UTF-8編碼的話就可以瀏覽,但是不知道unicode和unicodeUTF-8有何差異存在,會不會影響到網頁搜尋引擎,不知哪位高手可以教教小弟..
以下是使用不同編碼後存檔的一個例子,同樣檔案用不同的編碼檔案大小會有不同.
big5 = 9k
UTF-8 = 10k
unicode = 17k
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異
試過幾次之後,發現只有用unicode編碼才可以上繁體與簡體都可顯示.
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異
那是雙位元字的編碼....因為早期繁體中文是用big5編碼法....而簡體中文則是用gb碼編碼法....也因為編碼方式的不同....同一個內碼....在繁體和簡體下會顯示出不一樣的字....在軟體要跨國販售時....就會很痛苦....後來為了解決這個問題....所以後來就定出了unicode的編碼方式....在unicode原則下....一個內碼只代表一個中文字....所以當然就不會出現亂碼的問題囉....
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異
請教穩也大大為何unicode存檔會大過unicode(UTF-8)的格式那麼多?且說後者也是unicode編碼,它改用簡體去瀏覽的話卻無法正確讀繁體中文呢?
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異
多謝琥珀兄的回應,原來unicode就是UTF-16 Little Endian,那麼UTF-16 Big Endian是否就是會有更多的bit呢?
如果像琥珀兄說的 "和網頁有關的,需要利用網頁應用的資料,像是 html/xml/txt,用 UTF-8 就對了" 的狀況下,有些瀏覽器(如簡體OS內的)就還是無法讀出正確的繁體中文網頁,除非是改為big5編碼.
不知此理論是否正確!
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異
以內碼:1234h(0x1234)而言,若是Little Endian在記憶體內的存放順序為:3412,Big Endian則為1234,至於可紀錄的編碼數量皆為65536。
建議你可以"Little Endian"或"Big Endian"為關鍵字,搜尋Google,以得到更多資訊。
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異
[QUOTE=otai]多謝琥珀兄的回應,原來unicode就是UTF-16 Little Endian,那麼UTF-16 Big Endian是否就是會有更多的bit呢?
如果像琥珀兄說的 "和網頁有關的,需要利用網頁應用的資料,像是 html/xml/txt,用 UTF-8 就對了" 的狀況下,有些瀏覽器(如簡體OS內的)就還是無法讀出正確的繁體中文網頁,除非是改為big5編碼.
不知此理論是否正確![/QUOTE]
little endian 和 big endian 與檔案大小無關,是指資料的 byte order 的問題,高位元組放前面或是低位元組放前面。UTF-16 同時有這兩種作法,並且會在檔案開頭放一個 Byte Order Mark 作為標示。你可以參考 wikipedia 舉的例子:
[url]http://zh.wikipedia.org/wiki/UTF-16[/url]
對使用者而言不用太在乎是 UTF-16LE 還是 UTF-16BE,這是軟體會幫你處理好的部份。
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異
UTF-8編碼用在中文網頁的確是和BIG5編碼檔案大小差不多,一個中文字元是一倍的英文字元大小,所以中文網頁還是用UTF-8編碼較佳.因為用BIG5編碼的狀況下限制太多了.