Công nghệ

Các công nghệ nhận dạng, công nghệ xử lý ảnh của DocEye là thành quả của sự hợp tác giữa các kỹ sư tài năng đến từ nước Nga và Việt Nam, giúp cho DocEye trở thành phần mềm quản lý tài liệu được ưu chuộng nhất

Công nghệ nhận dạng chữ in OCR

Công nghệ nhận dạng chữ in OCR

Ngày nay, việc xử lý dữ liệu là vấn đề cấp thiết chung của mọi doanh nghiệp khi nó là một trong những nguyên nhân trực tiếp ảnh hưởng đến năng suất của quy trình hoạt động doanh nghiệp. Xuất phát từ nhu cầu giải quyết khối lượng lớn tài liệu, xử lý thông tin giúp tiết kiệm thời gian và tiền bạc của doanh nghiệp; công nghệ OCR ra đời đã tạo ra cuộc cách mạng về tự động hóa quy trình hoạt động của doanh nghiệp.

Công nghệ OCR là gì?

OCR là viết tắt của từ Optical Character Recognition – nhận dạng ký tự quang học. Công nghệ OCR là loại phần mềm máy tính được tạo ra để chuyển đổi hình ảnh của chữ viết tay hoặc chữ đánh máy phép chuyển đổi tài liệu dạng ảnh ( nhận diện chữ trên các ảnh đầu ra của máy quét, máy ảnh, nhận dạng chữ từ file PDF, nhận dạng chữ qua ảnh, nhận diện ảnh ...) thành tài liệu có thể biên tập được (file text, file Word...), xử lý ngôn ngữ tự nhiên và bóc tách thông tin. Việc áp dụng các công nghệ này vào hệ thống giúp công việc quản lý, biên soạn lại các tài liệu dạng ảnh, tìm kiếm tài liệu trở nên đơn giản và thuận tiện.

OCR hoạt động như thế nào?

Công nghệ OCR hoạt động theo 3 bước sau:

Bước 1 – Tiền xử lí: Ảnh văn bản được chuyển đổi thành ảnh nhị phân (pixel) để thể hiện chính xác nhất. Phần mềm OCR sẽ quét và xác nhận các vị trí cần xử lý kí tự.

Bước 2 – Nhận dạng kí tự: Khi trích xuất thông tin từ bước 1, OCR quét các biểu tượng gặp và phân chúng thành kí tự cơ bản.

Bưới 3 – Xử lý hậu kì: Nếu thiếu bước này, độ chính xác chuyển đổi thấp, OCR sẽ tạo ra nhiều từ vô nghĩa. Thuật toán OCR sẽ quét các từ trong bộ từ điển có trong output chứa danh sách các từ được phép xuất hiện trong văn bản.

Tính năng ưu việt của công nghệ OCR:

- Bóc tách và nhận dạng tự động thông tin: Trong nhập liệu, trường hợp  cần sử dụng OCR nhất là công việc chuyển đổi tài liệu giấy in thành tài liệu văn bản có thể đọc được khi đưa  lên hệ thống, người dùng chọn lựa loại tài liệu (công văn, báo cáo, quyết định, hoặc 1 số dạng khác …), Tài liệu sau đó được nhận dạng OCR chuyển sang dạng text và tự động bóc tách các trường thông tin cần thiết.  

- Bóc tách và nhận dạng theo form mẫu do người dùng định nghĩa: Người dùng định nghĩa các vùng cần bóc tách, sau đó lưu lại thành. Khi đưa tài liệu lên hệ thống người dùng chọn mẫu tài liệu tương ứng, sau đó hệ thống sẽ tự động nhận dạng và trích xuất thông tin tại các vùng được đánh dấu trong mẫu

- Bóc tách và nhận dạng trực tiếp trên file tài liệu: Người dùng chọn file cần bóc tách thông tin sau đó lựa chọn vùng ảnh và gán vùng ảnh đó với trường thông tin cụ thể, hệ thống sẽ nhận dạng và tự động đưa vào các trường thông tin tương ứng đó

OCR và những ứng dụng thực tế

Có lẽ, chúng ta đều đã từng một lần được sử dụng OCR nhưng không để ý, vì chúng ta thường chỉ hay sử dụng chúng một cách gián tiếp dựa trên máy scanner. 

OCR được coi như một ứng dụng phần mềm có khả năng tích hợp trực tiếp vào máy tính hay một phần cứng bất kỳ. Ví dụ như: 

- PDF OCR 

- IONE

- .....

Trong số đó, phần mềm ứng dụng OCR đang được ứng dụng tại nhiều cơ quan doanh nghiệp tại VIệt Nam phải kể đến IONE. Công nghệ IONE là một sản phẩm nổi bật của FSI - Doanh nghiệp hàng đầu trong lĩnh vực chuyển đổi số tại Việt Nam. Đây là giải pháp nhận dạng và bóc tách thông tin tự động cho phép xử lý dữ liệu lớn trong thời gian ngắn. Các ảnh đầu vào qua xử lý của IONE cho ra dữ liệu văn bản, metadata để lưu trữ hoặc tích hợp vào các hệ thống khác.

Để biết thêm thông tin chi tiết về dịch vụ thuê ngoài nhập liệu của chúng tôi, Quý khách vui lòng liên hệ qua email support@fsivietnam.com.vn hoặc Hotline 0904805255

Công nghệ nhận dạng chữ viết tay ICR

Công nghệ nhận dạng chữ viết tay ICR

Công nghệ nhận dạng chữ viết tay ICR (Intelligent Character Recognition) là bản dịch từ các ký tự viết tay sang dạng văn bản với ký tự mà máy tính có thể đọc được. Công nghệ ICR là sự phát triển ở mức cao hơn từ công nghệ nhận dạng chữ in (OCR). Đối tượng nhận dạng của công nghệ ICR là chữ viết tay và cả chữ in. Công nghệ ICR tương tự như nhận dạng ký tự quang học (OCR) và đôi khi sử dụng kết hợp với OCR trong hình thức xử lý.

Công nghệ nhận dạng chữ viết tay thường được sử dụng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai, phiếu đăng ký, bài kiểm tra, v..v…).

Tính năng ưu việt của công nghệ:

- Chất lượng dữ liệu nhập vào đảm bảo: do thông tin được xử lý bằng công nghệ ICR, nên giảm thiểu sai sót do người nhập tin gây ra, chất lượng dữ liệu tốt hơn nhập tin bằng bàn phím

- Rút ngắn thời gian xử lý dữ liệu so với nhập tin truyền thống

- Có khả năng cung cấp kết quả sớm theo từng phần: với công nghệ ICR, ta có thể chia việc kiểm tra số liệu nhận dạng thành những giai đoạn khác nhau, mỗi giai đoạn chỉ kiểm tra một số trường nhất định. Điều này tạo khả năng cung cấp sớm kết quả theo từng nhóm chỉ tiêu một cách mềm dẻo, hiệu quả

- Giảm bớt chi phí kho/mặt bằng chứa phiếu, kệ/giá chứa phiếu và cả nhân lực quản lý, bảo quản phiếu: Các tập phiếu sau khi quét xong đã được lưu giữ đầy đủ dưới dạng ảnh. Vì thế không nhất thiết phải lưu giữ phiếu một thời gian dài sau khi nhập tin. Ngoài khu vực của máy quét, những người kiểm tra dữ liệu chỉ làm việc với máy tính chứ không cần có các phiếu bên cạnh nên yêu cầu mặt bằng ít hơn, giảm bớt các căng thẳng do thiếu mặt bằng làm việc trong các cuộc tổng điều tra.

Các tập phiếu không phải bàn giao, chuyển tiếp giữa các khâu khác nhau nên không nhất thiết phải tổ chức các kệ /giá chứa phiếu cho dễ tìm kiếm, không phải tổ chức bảo quản phiếu riêng theo từng công đoạn. Nhân công để bảo quản, sắp xếp, bàn giao phiếu cũng giảm bớt đi rất nhiều.

Công nghệ nhận dạng đánh dấu OMR

Công nghệ nhận dạng đánh dấu OMR

Công nghệ nhận dạng đánh dấu OMR (OMR - Optical Mark Recognition): Là công nghệ nhận biết dấu quang học trên trang giấy theo một định dạng nhất định. Công nghệ này có thể xác định các dấu hiệu đặc biệt đã được đánh dấu trên trang giấy tại các vị trí định trước bằng quang học.

Nó cho phép điều khiển một số loại máy quét ảnh, nhập tự động và số hóa các dữ liệu ảnh theo biểu mẫu được thiết kế phù hợp, kiểm tra, điều chỉnh điểm chọn  trực quan trên ảnh quét và kết xuất ra báo cáo dạng text dễ truy nhập vào các phần mềm xử lý dữ liệu khác.

Công nghệ này thường được áp dụng để xử lý các dữ liệu từ phiếu điều tra hay các bài thi trắc nghiệm

Tính năng ưu việt của công nghệ:

- Công nghệ có thể nhận biết các kích cỡ đánh dấu khác nhau với độ chính xác và linh hoạt cao.

- Điều chỉnh hình ảnh được scan để bù lại chất lượng thấp của máy scan

- Sử dụng được với nhiều loại công cụ viết (bút chì, bút bi, bút nhớ,…)

- Dễ dàng kiểm tra lại câu trả lời thông qua việc dùng xóa hoặc đánh dấu với kích cỡ lớn hơn

- Để tránh việc đọc sai hình ảnh, công nghệ OMR đọc dựa trên đánh dấu thời gian nên bù đắp được các lỗi kỹ thuật của máy scan

- Giúp tiết kiệm thời gian và chi phí

Công nghệ nhận dạng văn bản ADRT

Công nghệ nhận dạng văn bản ADRT

ADRT (Adaptive Document Recognition Technology) là một bước tiến lớn trong công nghệ nhận dạng tài liệu

ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh, số trang v..v…

Khi kết quả nhận dạng được lưu dưới dạng Microsoft Word, các định dạng trên được nhìn nhận như những đối tượng tương ứng trong Word chứ không đơn thuần chỉ là các khối văn bản. 

Để đạt được tính chính xác trong việc phân tích dàn trang, cấu trúc logic cũng như các định dạng trong tài liệu là do ADRT xem xét và xử lý các tài liệu nhiều trang như là một đối tượng tổng thể chứ không phải là tập hợp các trang riêng biệt. Với công nghệ ADRT, người dùng sẽ không mất, hoặc mất rất ít thời gian cho việc biên tập lại kết quả nhận dạng. 

Hãy dùng thử ngay để trải nghiệm sức mạnh quản trị thông tin, tài liệu của DocEye !