【求助】是否有軟體可以批次判斷文字檔是big5或utf-8



贊助商連結


realmax
2005-11-20, 11:25 AM
有一種比較笨的方法,就是利用windows內建的筆記本打開,然後另存時就會顯示了如圖
http://home.pchome.com.tw/net/yhk/pix/notepad.GIF
但如果是一堆文字檔,就得一一打開,很沒效率?
後來發現convertZ也可以點選判別,但還是要一一點選,而沒辦法批次判別,而且我不是要用convertZ批次轉換成utf-8,有這樣的軟體嗎?

贊助商連結


dkjfso
2005-11-20, 05:55 PM
如果只是要判斷這兩種的話,
big5有個特徵就是幾乎沒有byte的value=0的,
可從ultraedit的hex模式觀察,
然後寫個程式判斷

琥珀
2005-11-20, 08:22 PM
如果是 Windows 的規則,檢查檔案一開始是否為 FF FE (utf-16 little endian)、FE FF (utf-16 big endian)、?? ?? ?? (utf-8)。沒有這些特徵的,是傳統 ansi 編碼。

但就是有程式不喜歡遵守這樣的遊戲規則。

realmax
2005-11-20, 08:56 PM
請教一下心中長久的疑問,unicode是不是包含utf-8和(utf-16 little endian)、(utf-16 big endian)這三種,常聽到大家說某程式是否支援unicode,是不是指的就是支援utf-8呢?還是utf-8跟unicode是不一樣的兩個東西,
另外,為何只有常聽到utf-8,utf-16甚少聽到,是否規格比較差一點?

琥珀
2005-11-20, 09:27 PM
還有 UTF-32 (LE & BE),不過目前應該不會有人使用 UTF-32 吧?

簡單來說:

Windows 程式用 UTF-16
網頁 (包含網址的傳送) 用 UTF-8

當然,網頁 (HTML/XML) 要用 UTF-16 也可以,不會有人反對。
Unicode 只是通稱,可能專指 UTF-16,也可能專指 UTF-8 + UTF-16,看文章的前後、場合而定。
記事本的 Unicode 是指 UTF-16 小結。
給 Windows 自己用,通常不需要用到 UTF-16 大結。
如果 .txt 文件是要放到網頁上的,建議用 UTF-8,副檔名順便改為 .htm。
如果 .txt 文件不打算放到網頁上,看個人喜好,用 UTF-8 / UTF-16 都可以。

至於為何要用 UTF-8 傳送 URL?因為要和既有的英文系統、傳統編碼相容。所以英文和數字不會因為 UTF-8 的啟用或停用而受到影響,而傳送包含中文的網址就有差別了。

realmax
2005-11-20, 09:51 PM
真的太感謝您了,以前都不知道這些知識呢:)