聯合知識庫 舊報紙的新生

聯合報系線上新聞資料庫─「聯合知識庫」 udndata.com將從二月十九起正式上線,並計畫在四年內收錄聯合報系過去50年產出的所有新聞,根據統計,聯合報系過去50年來一共出版了130萬個報紙版面、一千多萬則新聞、七十餘億個字。

聯合知識庫如何完成?簡單地說,它是先以光學辨識技術(OCR)進行整版掃描,再用圖文切割方式,將報紙版面上的內容分區切塊辨識儲存,然後再以新開發的系統進行「半自動、半人工」的兩循環校對除錯,最後在使用上輔以人工智慧資料加值與搜尋引擎技術。

另外,報紙數位化的生產線上,必須先透過大尺寸的數位掃描器將報紙影像掃入電腦中,後端的影像處理伺服器進行去除影像雜訊,接著切割報紙標題與內文區塊,進行版面校對,並逐版把切割完成的報紙影像登入資料庫中。

http://udndata.com