Saturday, December 29, 2012

Một số phần mềm hỗ trợ tạo Box file cho Trainning trong Tesseract!



Phần mềm liên quan đến tạo file Box chuẩn bị cho training trong Tesseract
Mục tiêu là từ 1 file ảnh, ta tạo ra 1 file *.box có nhiều dòng, mỗi dòng có dạng:
耡 0 164 25 196
Trong đó, ký tự đầu tiên là chữ cái hay mã ký tự nào đó trong file ảnh, 4 số sau tương ứng là 4 giá trị định vị hình chữ nhật chữa ký tự đó.
Như vậy, về mặt lý thuyết ta phải tự làm thủ công việc này để đảm bảo độ chính xác cho dữ liệu huấn luyện, nhưng rất may đã có một số công cụ hỗ trợ việc này. Ngay trong Tesseract, có dòng lệnh để tạo ra file Box từ ảnh nhưng độ chính xác không cao, chúng ta cần hiệu chỉnh lại bằng tay. Để hỗ trợ có thêm 2 phần mềm: qt-box-editor  và owlboxer-1.02 (http://owlboxer.googlecode.com/files/owlboxer-1.02.exe).
qt-box-editor cung cấp khả năng tạo ra file Box từ ảnh, tiến hành nhận dạng, có chức năng nối và tách 2 vùng liền kề, tạo box mới,sửa ký tự cho đúng mã… nhưng việc điều chỉnh các Box cho sát với ký tự thì nó ít hỗ trợ, nó cho phép điều chỉnh số nên gây khó khăn, chậm và thiếu chính xác.
Bổ sung cho những thiếu sót đó, owlboxer-1.02 có khả năng hiệu chỉnh kết quả khá hiệu quả với 1 hệ thống các phím tắt.



Khi cài đặt có thể báo thiếu file mingwm10.dll, ta download bổ sung từ http://www.dll-files.com/mingwm10.zip?0WHiUHaFfP, sau đó giải nén đưa vào thư mục system hoặc system32 sau đó chạy bình thường!


No comments:

Post a Comment