【求助】用掃瞄器來掃文字,就是不理想,唉!



贊助商連結


mrchang
2002-11-15, 12:25 PM
因個人的偏好,所以抽屜中有一大堆的剪報,(現在快塞爆抽屜了!!)
平常的在看雜誌的時候,也常常看到一些不錯的文章(例如美食的作法或是旅遊資訊),想私下保存起來,可惜有些是跟人家借來的雜誌,不能剪也剪不得!!

最近一想,
跟朋友借了一台掃瞄器(HP-3400c),也借了丹青中文辨識(3.02版,隨机送的),想把這些資料給整理整理或是拿來掃雜誌,可是中文的辨識的效果非常差!想掃成圖片檔,又嫌檔案太大!!

本來想是不是因為字太小,所以弄不好?於是拿了一些影印的文件來試試,
文字辨識的效果也不好!!

疑問~~~
一。是因為掃瞄器的解析度沒弄好嗎??
二。是因為我的丹青版本太舊嗎?(現在好像出到4點多版了!)
三。我還可以用什麼方法,來保存起來這些資料??

在這兒將情形提出,不知大家有沒什麼好的建議可以提供給我,
讓我可以將這些資料給保存起來的??

在此,先謝謝各位了!!

贊助商連結


cit0316
2002-11-15, 12:38 PM
慢慢去調解析度!

guessme
2002-11-15, 12:46 PM
我回答一些我知的

1.版本是有差的
你那種叫標準版...比那種外面要買錢的什麼黃金版..專業版差
而且識字率(可辨視的字數)也差了很多..快慢啦等等

2.要掃字的話我是用黑白..300pdi去掃
模式越單純越好

其實有時是書本的字型不好...導致辨視率很低

alldown
2002-11-15, 04:38 PM
如同guessme兄說的,解析度調高一點,一般來說300dpi比較好,
還有,如果報紙掃瞄出來有類似網狀底的話,也會影響辨識效果,因為報紙的纖維比較粗,
所以調成黑白的會好一些,不然就是把文字部分以外的地方填滿白色,也會減少誤判的效果

pete001
2002-11-15, 06:16 PM
除了用黑白的單純模式去掃之外,
還有一個小偏方建議你,
就是字體最好跟掃描器是平行的,
一般我在用就是把紙張盡量擺正, 不要有歪斜的狀況,
不過那是因為紙張上面的字沒有印斜掉才可以喔,
我的經驗是這樣可以提升許多正確識別的機會.

mrchang
2002-11-18, 12:49 AM
因為忙,好幾天沒上網了!一上來看到大家這麼熱心的為我解答,很感動!!
借我scaner的那個朋友,跟我講說他用了白金版4.5,辨識率增加了不少!
如果加上各位的方法,我想,這樣應該是可以的!!(不過就是要試試才知囉!)

再一次謝謝各位!

Schnaufer
2002-11-18, 12:56 AM
  大部分的重點其他人都說過了。通常我跑 OCR 會蠻注重整個頁面的整齊,所以掃下來的圖我都會用修突軟體來處理,去掉黑點符號之類等無法辨識的東西,畢竟這個是 OCR 之前或之後都要做的事情,看你怎麼樣安排。

  此外,調整一下黑白對比,白一點會讓一些小黑點消失,但是字體顯得比較不清楚,這個 trade-off 要自己來拿捏。