英文字用法指南



贊助商連結


頁 : [1] 2

DDSC
2006-07-14, 11:48 AM
英文字用法指南 (http://myweb.hinet.net/home1/asccpu/TEXT/814.pdf)(PDF)是很早就計畫OCR的書,由於這本在我手上快20年了,書本內的紙都變更黃了,使得掃瞄更困難,所以計畫這一、二年內OCR完成。
本書上下冊約1000多頁,去年曾試掃其中4頁,而最近才OCR出來成上述的那檔,這是大計畫。

贊助商連結


ivantw
2006-07-14, 11:58 AM
請問DDSC兄您年紀多大啊? XD

Zuchen
2006-07-14, 12:07 PM
您辛苦了
年代雖久仍好用的書

DDSC
2006-07-14, 01:26 PM
請問DDSC兄您年紀多大啊? XD
我從不記年齡的 :D
但,我54年次的,幾歲就交由別人計算 :D :D :D

DDSC
2006-07-14, 01:32 PM
您辛苦了
年代雖久仍好用的書
其實買這書回來沒在看,只是這次OCR時,看得比較仔細(可說是細讀) :D
忘了買多少了,1.5K跑不掉。

ACOPPER
2006-07-16, 12:05 AM
OCR軟體有沒有有學習功能的?否則要一直更正同樣的字會很痛苦。

DDSC
2006-07-16, 12:37 AM
丹青有,不過丹青厲害的地方在詞庫修正。
我是在OCR後就進入圖文對照編輯,修正錯字及英文,這是 PASS1
PASS 2 就建立 WORD 檔,確認排版方式再把一些半形符號取代成全形。
PASS 3 開始編輯WORD內文到完成。
不過上面的文件比一般純中文的,所花的時間要多,這檔共發了5小時,後製較發時間(尤其要做到與原書的字體相似)

deepblue
2006-07-16, 07:34 AM
不過掃出來的PDF品質很不賴呢!
如果可以將這一個大工程實現的話
那我真的謝謝您了

linux_xp
2006-07-16, 01:08 PM
我本身也有在做電子書的製作
前後共掃了7本電腦書,約 5000 多頁
因為是有版權的書籍,所以只有自己使用

但是我不進行 OCR 辨識,直接用灰階的 PNG 圖檔閱讀
寬度(x軸)固定在 640像素,長度(y軸)不定

這樣做的理由是:

OCR 太花功夫和時間,若要進行 OCR 和校正,製作時間恐怕得花十倍以上的時間,光是製作花的時間拿來實際閱讀,說不定早就看到背起來了。
為了要在 PDA 上面也能看,實現真正的可攜帶型電子書,有必要使用圖檔直接閱讀,雖然有的 PDA 也能讀取 PDF 檔,但速度太慢,且會漏字。
現階段 PDA 的主流機種,雖可讀取 PDF,但僅止於畫面會出來,實際上就換頁速度和畫質來說,並不適合拿來當電子書閱讀。


不過圖檔直接閱讀,缺點也很明顯
一本書的圖檔,約要 200MB 左右,佔用記憶卡空間太大
若要分享,可能得透過 BT 種子發佈的方式,P2P 下載


真佩服樓主的耐心和毅力,還有造福群眾的精神

冒昧的請問一下
樓主用的掃描器,是 ADF 雙面掃描的專業掃描器嗎?
不知道好不好用?

我是用事務機內建的 ADF 自動送紙單面掃描器
總覺得很花時間,掃一本書加上後製得花上6小時
單面的缺點是紙張的頁次要整理的很好,不能出錯
不然掃完後,組合不起來....

如果用雙面掃描,不僅不用特別在意紙張的頁次
還能節省一半的掃描時間 (掃一次出兩頁圖檔)

只是專業型 ADF 雙面掃描器,超貴的買不下手
不知道好不好用?

DDSC
2006-07-16, 03:07 PM
但是我不進行 OCR 辨識,直接用灰階的 PNG 圖檔閱讀
寬度(x軸)固定在 640像素,長度(y軸)不定

我很少用灰階的,除非是黑白照片,或是書變黃了(我掃的書都在15年以上的書,不太敢拿近10年的書 :p )
如果紙張還很白我就直接以300DPI單色掃,如果書中的圖片很多(如自然界奇觀一書),我就用全彩掃。


這樣做的理由是:

OCR 太花功夫和時間,若要進行 OCR 和校正,製作時間恐怕得花十倍以上的時間,光是製作花的時間拿來實際閱讀,說不定早就看到背起來了。
為了要在 PDA 上面也能看,實現真正的可攜帶型電子書,有必要使用圖檔直接閱讀,雖然有的 PDA 也能讀取 PDF 檔,但速度太慢,且會漏字。
現階段 PDA 的主流機種,雖可讀取 PDF,但僅止於畫面會出來,實際上就換頁速度和畫質來說,並不適合拿來當電子書閱讀。


第一點當初在成立DDSC時有考量到,後來經考慮後決定還是逐字OCR,最大的原因在第1點最後一段話。
看書很容易,但要仔細看卻不容易,所以我為了能細讀從來沒仔細看的書就選擇OCR,每一本書我至少詳讀2次(OCR文稿編輯及WORD內文編排)。
另外有一點就是可修改原書上打字出錯的問題,如漏字,錯字或訂正不合時宜的文字等。
而2,3點我沒有PDA就沒法得知有什麼問題:D
不過我用的字體都是標楷體及明細體等系統標準用字,除非特例,用其他的大都用內嵌的。



冒昧的請問一下
樓主用的掃描器,是 ADF 雙面掃描的專業掃描器嗎?
不知道好不好用?

不是,我用的是8年前的產物 U牌 610S :D :D :D
之前因換WIN2000還擔心不能在2000上用,後來有人指點後就可繼續用,不然我還要到WIN3.1下作業 XD

我是想說既然都要做了,乾脆做好一點。在DDSC成立之前的第1份電子檔是用打字的,而這份文件則是成立DDSC的關鍵。