Phần mềm liên quan đến tạo file Box chuẩn bị cho
training trong Tesseract
Mục tiêu là từ 1 file ảnh, ta tạo ra 1 file *.box có
nhiều dòng, mỗi dòng có dạng:
耡
0 164 25 196
Trong đó, ký tự đầu tiên là chữ cái hay mã ký tự nào
đó trong file ảnh, 4 số sau tương ứng là 4 giá trị định vị hình chữ nhật chữa
ký tự đó.
Như vậy, về mặt lý thuyết ta phải tự làm thủ công việc
này để đảm bảo độ chính xác cho dữ liệu huấn luyện, nhưng rất may đã có một số
công cụ hỗ trợ việc này. Ngay trong Tesseract, có dòng lệnh để tạo ra file Box
từ ảnh nhưng độ chính xác không cao, chúng ta cần hiệu chỉnh lại bằng tay. Để hỗ
trợ có thêm 2 phần mềm: qt-box-editor và
owlboxer-1.02 (http://owlboxer.googlecode.com/files/owlboxer-1.02.exe).
qt-box-editor cung cấp khả năng tạo ra file Box từ ảnh,
tiến hành nhận dạng, có chức năng nối và tách 2 vùng liền kề, tạo box mới,sửa
ký tự cho đúng mã… nhưng việc điều chỉnh các Box cho sát với ký tự thì nó ít hỗ
trợ, nó cho phép điều chỉnh số nên gây khó khăn, chậm và thiếu chính xác.
Bổ sung cho những thiếu sót đó, owlboxer-1.02 có khả
năng hiệu chỉnh kết quả khá hiệu quả với 1 hệ thống các phím tắt.
Khi cài đặt có thể báo thiếu file mingwm10.dll, ta
download bổ sung từ http://www.dll-files.com/mingwm10.zip?0WHiUHaFfP,
sau đó giải nén đưa vào thư mục system hoặc system32 sau đó chạy bình thường!
No comments:
Post a Comment