Công nghệ

Các công nghệ nhận dạng, công nghệ xử lý ảnh của DocEye là thành quả của sự hợp tác giữa các kỹ sư tài năng đến từ nước Nga và Việt Nam, giúp cho DocEye trở thành phần mềm quản lý tài liệu được ưu chuộng nhất
Công nghệ nhận dạng chữ in OCR
"Chúng tôi cam kết mang đến những sản phẩm, dịch vụ tốt nhất cho khách hàng"

Công nghệ nhận dạng chữ in OCR

4842 Views

Ngày nay, việc xử lý dữ liệu là vấn đề cấp thiết chung của mọi doanh nghiệp khi nó là một trong những nguyên nhân trực tiếp ảnh hưởng đến năng suất của quy trình hoạt động doanh nghiệp. Xuất phát từ nhu cầu giải quyết khối lượng lớn tài liệu, xử lý thông tin giúp tiết kiệm thời gian và tiền bạc của doanh nghiệp; công nghệ OCR ra đời đã tạo ra cuộc cách mạng về tự động hóa quy trình hoạt động của doanh nghiệp.

Công nghệ OCR là gì?

OCR là viết tắt của từ Optical Character Recognition – nhận dạng ký tự quang học. Công nghệ OCR là loại phần mềm máy tính được tạo ra để chuyển đổi hình ảnh của chữ viết tay hoặc chữ đánh máy phép chuyển đổi tài liệu dạng ảnh ( nhận diện chữ trên các ảnh đầu ra của máy quét, máy ảnh, nhận dạng chữ từ file PDF, nhận dạng chữ qua ảnh, nhận diện ảnh ...) thành tài liệu có thể biên tập được (file text, file Word...), xử lý ngôn ngữ tự nhiên và bóc tách thông tin. Việc áp dụng các công nghệ này vào hệ thống giúp công việc quản lý, biên soạn lại các tài liệu dạng ảnh, tìm kiếm tài liệu trở nên đơn giản và thuận tiện.

OCR hoạt động như thế nào?

Công nghệ OCR hoạt động theo 3 bước sau:

Bước 1 – Tiền xử lí: Ảnh văn bản được chuyển đổi thành ảnh nhị phân (pixel) để thể hiện chính xác nhất. Phần mềm OCR sẽ quét và xác nhận các vị trí cần xử lý kí tự.

Bước 2 – Nhận dạng kí tự: Khi trích xuất thông tin từ bước 1, OCR quét các biểu tượng gặp và phân chúng thành kí tự cơ bản.

Bưới 3 – Xử lý hậu kì: Nếu thiếu bước này, độ chính xác chuyển đổi thấp, OCR sẽ tạo ra nhiều từ vô nghĩa. Thuật toán OCR sẽ quét các từ trong bộ từ điển có trong output chứa danh sách các từ được phép xuất hiện trong văn bản.

Tính năng ưu việt của công nghệ OCR:

- Bóc tách và nhận dạng tự động thông tin: Trong nhập liệu, trường hợp  cần sử dụng OCR nhất là công việc chuyển đổi tài liệu giấy in thành tài liệu văn bản có thể đọc được khi đưa  lên hệ thống, người dùng chọn lựa loại tài liệu (công văn, báo cáo, quyết định, hoặc 1 số dạng khác …), Tài liệu sau đó được nhận dạng OCR chuyển sang dạng text và tự động bóc tách các trường thông tin cần thiết.  

- Bóc tách và nhận dạng theo form mẫu do người dùng định nghĩa: Người dùng định nghĩa các vùng cần bóc tách, sau đó lưu lại thành. Khi đưa tài liệu lên hệ thống người dùng chọn mẫu tài liệu tương ứng, sau đó hệ thống sẽ tự động nhận dạng và trích xuất thông tin tại các vùng được đánh dấu trong mẫu

- Bóc tách và nhận dạng trực tiếp trên file tài liệu: Người dùng chọn file cần bóc tách thông tin sau đó lựa chọn vùng ảnh và gán vùng ảnh đó với trường thông tin cụ thể, hệ thống sẽ nhận dạng và tự động đưa vào các trường thông tin tương ứng đó

OCR và những ứng dụng thực tế

Có lẽ, chúng ta đều đã từng một lần được sử dụng OCR nhưng không để ý, vì chúng ta thường chỉ hay sử dụng chúng một cách gián tiếp dựa trên máy scanner. 

OCR được coi như một ứng dụng phần mềm có khả năng tích hợp trực tiếp vào máy tính hay một phần cứng bất kỳ. Ví dụ như: 

- PDF OCR 

- IONE

- .....

Trong số đó, phần mềm ứng dụng OCR đang được ứng dụng tại nhiều cơ quan doanh nghiệp tại VIệt Nam phải kể đến IONE. Công nghệ IONE là một sản phẩm nổi bật của FSI - Doanh nghiệp hàng đầu trong lĩnh vực chuyển đổi số tại Việt Nam. Đây là giải pháp nhận dạng và bóc tách thông tin tự động cho phép xử lý dữ liệu lớn trong thời gian ngắn. Các ảnh đầu vào qua xử lý của IONE cho ra dữ liệu văn bản, metadata để lưu trữ hoặc tích hợp vào các hệ thống khác.

Để biết thêm thông tin chi tiết về dịch vụ thuê ngoài nhập liệu của chúng tôi, Quý khách vui lòng liên hệ qua email support@fsivietnam.com.vn hoặc Hotline 0904805255