PCZONE 版規 帳號無法發言?
 首頁 註冊 個人設定 悄悄話 搜尋文章 最新文章 今日所有文章 會員登出

返回   PCZONE 討論區 > ▲ ADSL_CABLE_FTTH 寬 頻 上 網 討 論 > -- 網站架設 / 免費空間 / 虛擬主機 專區 > ☉ -- 架 站 DIY 討 論 版
帳 號
密 碼
我確定要註冊 論壇說明 會員列表 行事曆 搜尋資料 今日新文章 標記所有討論區已讀

☉ -- 架 站 DIY 討 論 版 有了寬頻後,可利用來架設 WWW / FTP / MAIL 等各種 SERVER,請在此版跟大家一起討論各種 SERVER 架設心得。

發文 回覆
主題工具 搜尋本主題
舊 2006-03-30, 06:58 PM   #1
otai
等級:5 | 上線時間:47小時 | 升級還需:13小時等級:5 | 上線時間:47小時 | 升級還需:13小時
網際網路路人甲
 
otai 的大頭照
 
註冊日期: 2005-09-15
上網方式: ADSL
文章: 315
精華: 0
【問題】請問 big5, unicode and unicode UTF-8 的差異

在做網頁的時候,如果存檔編碼為big5碼的話,用瀏覽器上其他的編碼(如西歐或是簡體編碼等)都無法正確顯示出現亂碼這是正常的,而如果改為unicode或是UTF-8編碼的話就可以瀏覽,但是不知道unicode和unicodeUTF-8有何差異存在,會不會影響到網頁搜尋引擎,不知哪位高手可以教教小弟..
以下是使用不同編碼後存檔的一個例子,同樣檔案用不同的編碼檔案大小會有不同.
big5 = 9k
UTF-8 = 10k
unicode = 17k




這是檔的決定!!

此文章於 2006-03-30 07:43 PM 被 otai 編輯.
otai 目前未上線  
回覆時引用此文章
舊 2006-03-30, 07:42 PM   #2
otai
等級:5 | 上線時間:47小時 | 升級還需:13小時等級:5 | 上線時間:47小時 | 升級還需:13小時
網際網路路人甲
 
otai 的大頭照
 
註冊日期: 2005-09-15
上網方式: ADSL
文章: 315
精華: 0
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異

試過幾次之後,發現只有用unicode編碼才可以上繁體與簡體都可顯示.
otai 目前未上線  
回覆時引用此文章
舊 2006-03-30, 08:02 PM   #3
穩ㄝ
等級:8 | 上線時間:113小時 | 升級還需:4小時等級:8 | 上線時間:113小時 | 升級還需:4小時
會員
 
註冊日期: 2000-12-22
文章: 146
精華: 0
發 ICQ 訊息給 穩ㄝ
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異

那是雙位元字的編碼....因為早期繁體中文是用big5編碼法....而簡體中文則是用gb碼編碼法....也因為編碼方式的不同....同一個內碼....在繁體和簡體下會顯示出不一樣的字....在軟體要跨國販售時....就會很痛苦....後來為了解決這個問題....所以後來就定出了unicode的編碼方式....在unicode原則下....一個內碼只代表一個中文字....所以當然就不會出現亂碼的問題囉....


∼∼∼ 穩ㄝ ∼∼∼
穩ㄝ 目前未上線  
回覆時引用此文章
舊 2006-03-30, 08:17 PM   #4
otai
等級:5 | 上線時間:47小時 | 升級還需:13小時等級:5 | 上線時間:47小時 | 升級還需:13小時
網際網路路人甲
 
otai 的大頭照
 
註冊日期: 2005-09-15
上網方式: ADSL
文章: 315
精華: 0
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異

請教穩也大大為何unicode存檔會大過unicode(UTF-8)的格式那麼多?且說後者也是unicode編碼,它改用簡體去瀏覽的話卻無法正確讀繁體中文呢?
otai 目前未上線  
回覆時引用此文章
舊 2006-03-30, 08:21 PM   #5
琥珀
等級:124 | 上線時間:15947小時 | 升級還需:178小時等級:124 | 上線時間:15947小時 | 升級還需:178小時等級:124 | 上線時間:15947小時 | 升級還需:178小時等級:124 | 上線時間:15947小時 | 升級還需:178小時
あなたの家へ行く
 
琥珀 的大頭照
 
註冊日期: 2002-08-17
上網方式: DSL
文章: 8,546
精華: 0
沒特別說明,Unicode 在微軟視窗系統下就是指 UTF-16 Little Endian。
Unicode (UTF-8) 就是 UTF-8,會特別指明。

UTF-16 可和 UCS-2 大致視為相同。
UTF-16 就是 2 bytes,UTF-8 是 1 byte ~ 4 bytes。可變動字節 (位元組)。
UTF-8 編碼的中文,很多都是落在 3 bytes,所以才有人說資料庫轉換後,空間會比 Big5 多出一半。

不想了解這麼多,Windows 使用者至少記得以下幾點:

1. 和網頁有關的,需要利用網頁應用的資料,像是 html/xml/txt,用 UTF-8 就對了。
2. 不需要交流的,或是應用程式,用 UTF-16,或是非 Unicode 編碼,都不反對。
3. 需要 Tag 的,例如多媒體檔案 mp3/mkv/ape/... 這些,用 UTF-8。

沒有強迫各位一定非要用 UTF-16、UTF-8,要看使用時機。如果只是為了 UTF-8 而 UTF-8,不探討「升級的原因、理由」,只是因為「別人都在用」、「很多人都在用」,那自己也不知道要說什麼才好。
琥珀 目前上線  
回覆時引用此文章
舊 2006-03-30, 08:46 PM   #6
otai
等級:5 | 上線時間:47小時 | 升級還需:13小時等級:5 | 上線時間:47小時 | 升級還需:13小時
網際網路路人甲
 
otai 的大頭照
 
註冊日期: 2005-09-15
上網方式: ADSL
文章: 315
精華: 0
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異

多謝琥珀兄的回應,原來unicode就是UTF-16 Little Endian,那麼UTF-16 Big Endian是否就是會有更多的bit呢?
如果像琥珀兄說的 "和網頁有關的,需要利用網頁應用的資料,像是 html/xml/txt,用 UTF-8 就對了" 的狀況下,有些瀏覽器(如簡體OS內的)就還是無法讀出正確的繁體中文網頁,除非是改為big5編碼.
不知此理論是否正確!
otai 目前未上線  
回覆時引用此文章
舊 2006-03-30, 08:54 PM   #7
ivantw
等級:28 | 上線時間:913小時 | 離升級還需:44小時等級:28 | 上線時間:913小時 | 升級還需:44小時等級:28 | 上線時間:913小時 | 升級還需:44小時等級:28 | 上線時間:913小時 | 升級還需:44小時
放空
 
ivantw 的大頭照
 
註冊日期: 2002-05-04
上網方式: HiNet vDSL 10M/2M
文章: 4,301
精華: 0
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異

以內碼:1234h(0x1234)而言,若是Little Endian在記憶體內的存放順序為:3412,Big Endian則為1234,至於可紀錄的編碼數量皆為65536。

建議你可以"Little Endian"或"Big Endian"為關鍵字,搜尋Google,以得到更多資訊。


居易有三寶:無線網路廢、BUG修不完、服務作不好!
即日起,簽名檔放到居易倒或居易悔改為止。

配備列表:
: P-M 780_建碁915GMm-HFS_創見DDRII 1Gx2_希捷ES2 250G+日立7K1000 750Gx3_先鋒A12_三菱RDT261WH_銀欣LC13B_KVM 宏正1764
: C2D E8400_華碩P5K-VM_創見DDRII 2Gx4_希捷ES2 250G_先鋒213SL_技嘉3870拉麵版_三菱RDT261WH_銀欣SG01B-E_KVM 宏正1764
: C2D E8400_浩鑫XPC SG33G5_創見DDRII 2Gx2_希捷ES2 250G_先鋒115_三菱RDT261WH
: IBM Thinkpad X32/2672-OV9 Notebook PC(P-M 1.7G_創見1Gx2_日立7K100 80G_松下841S)

MITSUBISHI Diamondcrysta RDT261WH雙螢幕目標達成!
http://ivanlin.adv.googlepages.com/RDT261WH_X2.jpg
ivantw 目前未上線  
回覆時引用此文章
舊 2006-03-30, 10:59 PM   #8
s900221 帥哥
等級:3 | 上線時間:24小時 | 升級還需:8小時等級:3 | 上線時間:24小時 | 升級還需:8小時等級:3 | 上線時間:24小時 | 升級還需:8小時
史蒂芬周(刻骨銘心 精裝版)
 
s900221 的大頭照
 
註冊日期: 2001-07-27
上網方式: Hinet ADSL 2M/256
文章: 3,248
精華: 0
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異

引用:
作者: otai
多謝琥珀兄的回應,原來unicode就是UTF-16 Little Endian,那麼UTF-16 Big Endian是否就是會有更多的bit呢?
如果像琥珀兄說的 "和網頁有關的,需要利用網頁應用的資料,像是 html/xml/txt,用 UTF-8 就對了" 的狀況下,有些瀏覽器(如簡體OS內的)就還是無法讀出正確的繁體中文網頁,除非是改為big5編碼.
不知此理論是否正確!
little endian 和 big endian 與檔案大小無關,是指資料的 byte order 的問題,高位元組放前面或是低位元組放前面。UTF-16 同時有這兩種作法,並且會在檔案開頭放一個 Byte Order Mark 作為標示。你可以參考 wikipedia 舉的例子:
http://zh.wikipedia.org/wiki/UTF-16

對使用者而言不用太在乎是 UTF-16LE 還是 UTF-16BE,這是軟體會幫你處理好的部份。


本著作係採用 Creative Commons 2.0 台灣(中華民國)授權條款 授權
您可以任意複製、散佈、修改本著作,但須標示姓名並使用相同授權條款
詳見 http://creativecommons.org/licenses/by-sa/2.0/tw/
本著作引用之任何形式著作,其版權屬原作者所有。
Copyright(C) 2005 Samael Wang, Some Right Reserved.

此文章於 2006-03-30 11:01 PM 被 s900221 編輯.
s900221 目前未上線  
回覆時引用此文章
舊 2006-03-30, 11:18 PM   #9
琥珀
等級:124 | 上線時間:15947小時 | 升級還需:178小時等級:124 | 上線時間:15947小時 | 升級還需:178小時等級:124 | 上線時間:15947小時 | 升級還需:178小時等級:124 | 上線時間:15947小時 | 升級還需:178小時
あなたの家へ行く
 
琥珀 的大頭照
 
註冊日期: 2002-08-17
上網方式: DSL
文章: 8,546
精華: 0
如果有一篇文章,以英數字元為主,用傳統編碼和 UTF-8 編碼,檔案大小幾乎沒有差別。如果用 UTF-16 編碼,檔案大小會增加一倍。

顯然,對於英數字元,用 UTF-16 並非明智之舉。雖然儲存容量不是問題,但為了和世界其他國家正確交換訊息,是很划不來的。

如果有一篇文章,以中文字元為主,用傳統編碼和 UTF-8 編碼,檔案大小就有差別了。理論上通常是原本檔案大小的 1.5 倍。如果用 UTF-16 編碼,檔案大小就和傳統編碼幾乎沒有差別了。

所以,這也是為何網頁相關的應用,採用的往往都是 UTF-8 編碼,而不是 UTF-16 編碼。
當然,BOM 的問題,也是 UTF-8 被採用的一個重要理由。


琥珀 目前上線  
回覆時引用此文章
舊 2006-03-31, 01:09 AM   #10
otai
等級:5 | 上線時間:47小時 | 升級還需:13小時等級:5 | 上線時間:47小時 | 升級還需:13小時
網際網路路人甲
 
otai 的大頭照
 
註冊日期: 2005-09-15
上網方式: ADSL
文章: 315
精華: 0
回覆: 【問題】請問 big5, unicode and unicode UTF-8 的差異

UTF-8編碼用在中文網頁的確是和BIG5編碼檔案大小差不多,一個中文字元是一倍的英文字元大小,所以中文網頁還是用UTF-8編碼較佳.因為用BIG5編碼的狀況下限制太多了.
otai 目前未上線  
回覆時引用此文章

發文 回覆



主題工具 搜尋本主題
搜尋本主題:

進階搜尋

發表規則
不可以發文
不可以回覆主題
不可以上傳附加檔案
不可以編輯您的文章

論壇啟用 BB 語法
論壇啟用 表情圖案
論壇啟用 [IMG] 語法
論壇禁用 HTML 語法
Trackbacks are 禁用
Pingbacks are 禁用
Refbacks are 禁用

所有時間均為台灣時間。現在的時間是 11:14 AM


 XML   RSS 2.0   RSS 
本站使用 vBulletin 合法版權程式
站務信箱 : webmaster@pczone.com.tw

本論壇所有文章均為網友個人意見,並不代表本網站之立場