office在2003版中增加了Document Imaging工具,用它可以查看、管理、讀取和識別圖像文檔和傳真文本。其實,利用它的這個功能,我們還可以把網頁或電子書中的文字給“摳”出來。
打開電子書,盡量采用較大的字體,翻到想要獲取的頁面,用抓圖軟件SnagIt對相關的內容進行抓取,然后在“文件”菜單中選擇“復制到剪貼板”命令(也可以用其他抓圖軟件,當然最簡單的是Windows中自帶的Print Screen鍵來抓取整個屏幕,然后在“畫圖”程序中對不要的部分進行裁剪并保存,然后復制)。
在“開始”菜單的“microsoft Office工具”中打開Microsoft Office Document Imaging,在左側窗口中單擊鼠標右鍵,選擇“粘貼頁面”,把復制的圖片粘貼到Document Imaging中,在“工具”中選擇“使用OCR識別文本”,Document Imaging的OCR識別程序就會對圖片進行識別,完成后選擇“工具”中的“將文本發(fā)送到word”,程序會自動打開Word文檔,展現(xiàn)在你面前的就是從圖片中“摳”出來的文字。
提示:一般而言,識別的準確率可以達到95%以上,但對英文和數(shù)字的識別不是太好。
相關閱讀