|
HỒ LÔ BIẾN |
|
Chuyển đổi file
PDF tiếng Việt sang TEXT bằng ABBYY FineReader
HIẾU TRUNG (Q3-TPHCM)
|
|
ABBYY FineReader (bạn có thể tải về dùng thử phiên
bản 7.0 Professional Edition tại địa chỉ
www.abbyyusa.com)
là chương trình quét (scan) và nhận dạng văn bản
quang học OCR - Optical Character Recognition (quét
văn bản từ máy scanner và chuyển đổi sang TEXT)
tương tự như Omni Page. Đặc biệt chương trình này có
một tính năng cực kỳ tuyệt vời là có thể chuyển đổi
file PDF sang TXT hay DOC tiếng Việt có dấu với độ
chính xác rất cao, khoảng 95% (hỗ trợ toàn bộ font
có dấu tiếng Việt như VNI, Bách khoa, Unicode...).
Nếu các trang PDF có hình ảnh và chia cột thì chương
trình vẫn giữ nguyên định dạng đó cho trang Text.
Tóm lại là bạn thấy trang PDF thế nào thì bên trang
text bạn cũng thấy thế ấy, quá tuyệt phải không? |
|
 |
|
Để có thể thực hiện việc này, chúng ta sẽ làm như
sau: |
|
Nhấn nút Open Image (hay vào menu File -> Open
Image), chọn dạng tập tin là PDF và mở tập tin cần
chuyển đổi -> nhấn nút Read, có thể chọn một trang
hay tất cả các trang cần chuyển đổi. Nếu chỉ chọn
một trang thì nhấn Ctrl+R (mặc định), còn chọn tất
cả các trang thì nhấn Ctrl + Shift + R. Chương trình
sẽ thực hiện việc phân tích định dạng trang PDF,
đóng khung từng khu vực chữ và hình rồi chuyển đổi
tập tin PDF sang TEXT. |
|
Màn hình làm việc của chúng ta sau khi chuyển đổi
xong gồm bốn phần: |
|
- Phần Batch hiển thị thứ tự các trang PDF của tập
tin đang mở và làm việc. |
|
- Phần Image hiển thị trang PDF chúng ta đang chọn
để làm việc. |
|
- Phần Text hiển thị văn bản dạng Text đã được
chuyển đổi. Do mặc định hiển thị text là Unicode,
nên nếu trang PDF tiếng Việt được tạo từ các phông
không thuộc bảng mã Unicode, các bạn phải chọn lại
phông để hiển thị đúng tiếng Việt. Nếu biết chính
xác phông gì thì có thể vào menu Tools -> Options -
> Formatting cấu hình lại phông hiển thị. Mức độ
chính xác của tập tin TEXT sau khi chuyển đổi (hiển
thị đúng tiếng Việt, không bị mất dấu hay sai dấu,
hiện ra... mã lăng quăng) cũng ảnh hưởng bởi phông
chữ khi tạo ra tập tin PDF. Nếu tập tin PDF được tạo
từ những trang văn bản dùng Unicode thì độ chính xác
sẽ đạt tối ưu. |
|
- Phía dưới phần Image và Text là một ô dùng để đối
chiếu nếu như các bạn đánh dấu chọn (tô đen văn bản)
ở phần Text với phần Image. Nó giúp bạn đọc rõ hơn
phần mình đánh dấu nếu như phần Text có cỡ chữ quá
nhỏ. |
|
Cuối
cùng, các bạn lưu tập tin Text này lại, bỏ qua quá
trình Check Spelling (kiểm tra chính tả) vì chức
năng này chỉ đúng với tiếng Anh, nếu dùng nó thì các
bạn sẽ thấy “tùm lum lỗi” trên trang tiếng Việt của
mình. Nhấn vào nút mũi tên nhỏ của nút Save rồi chọn
Save Text To File (Ctrl+F2) hay vào menu File ->
Save Text As -> đặt tên tập tin, nên chọn kiểu tập
tin là MS Word Document (*.doc). Nếu chỉ muốn lưu
trang đang làm việc thì đánh dấu vào Selected pages,
còn nếu muốn lưu tất cả các trang thì chọn All
pages. Với các tùy chọn còn lại, các bạn cứ giữ
nguyên. |
|
Các bạn cũng có thể sắp xếp, định dạng lại trang
Text này giống MS Word như đổi phông chữ, chuyển mã,
chọn cỡ chữ, tô đậm, in nghiêng, gạch dưới, canh
trái/phải/giữa/đều trang... trước khi lưu lại. |
|
Như vậy là chúng ta đã có thể chuyển đổi một tập tin
PDF tiếng Việt sang văn bản TEXT (tập tin .DOC).
Chương trình làm việc rất tốt, hơn hẳn các chương
trình chuyển đổi PDF sang TEXT khác như PDF2TXT,
PDF2HTML... Tuy nhiên không phải vì thế mà không có
sai sót, vẫn sẽ có vài chữ không đúng (cũng ít thôi)
nhất là với các phông chữ không thuộc bảng mã
Unicode như đã nói ở trên, cần đọc lại để sửa chữa
trước khi lưu lần cuối. |
|
Ngoài ra, nếu như các bạn có các tập tin hình ảnh
dạng BMP, JPEG, TIF chứa chữ thì vẫn có thể dùng
ABBYY FineReader để chuyển đổi, giúp bạn lọc được
phần chữ trong hình ra dạng text. |
|
|