OCR thế hệ mới và OCR truyền thống – đột phá trong công nghệ phân tích hình ảnh

1. Bạn hiểu gì về Nhận dạng Ký tự Quang học?

Nhận dạng ký tự quang học (Optical Character Recognition – OCR) là công nghệ cho phép máy tính trích xuất văn bản từ hình ảnh, tài liệu được quét và ghi chú viết tay. OCR chuyển đổi nội dung trực quan thành định dạng có thể đọc được bằng máy, giúp tìm kiếm, chỉnh sửa và xử lý văn bản vốn dĩ bị “khóa” trong các hình ảnh tĩnh hoặc tệp PDF.

OCR hoạt động bằng cách phân tích hình dạng và mẫu của các ký tự trong một hình ảnh. Các hệ thống OCR tiên tiến sử dụng trí tuệ nhân tạo (AI) và máy học (ML) để nhận dạng nhiều kiểu chữ, chữ viết tay và bố cục phức tạp. Nhờ đó, chúng có thể xử lý nhiều loại tài liệu khác nhau, từ hợp đồng in ấn đến đơn thuốc viết tay.

Các hệ thống OCR đã có sự phát triển đáng kể, từ các hệ thống đa năng có khả năng nhận dạng ký tự từ nhiều loại chữ viết khác nhau đến các hệ thống chuyên biệt được thiết kế cho các ứng dụng cụ thể như nghiệp vụ ngân hàng hay nhận dạng biển số xe.

2. Công nghệ OCR truyền thống

2.1. Lịch sử phát triển

Công nghệ Nhận dạng Ký tự Quang học (Optical Character Recognition – OCR) có nguồn gốc từ đầu thế kỷ 20, khi những hệ thống đầu tiên được phát triển để nhận dạng ký tự in. Tuy nhiên, chỉ đến cuối thế kỷ 20, khi máy tính và thiết bị quét (scanner) phát triển mạnh mẽ, OCR mới trở nên phổ biến rộng rãi.

Các hệ thống OCR sơ khai chỉ có thể nhận diện phông chữ và bộ ký tự cố định, đòi hỏi tài liệu phải được định dạng theo cách dễ xử lý. Trong những năm 1980 và 1990, công nghệ quét cải tiến đáng kể, dẫn đến sự ra đời của các phần mềm OCR trên máy tính để bàn (desktop-based OCR solutions). Những công cụ này giúp số hóa tài liệu in thành văn bản có thể chỉnh sửa, giúp doanh nghiệp giảm bớt công việc nhập dữ liệu thủ công.

Bước sang những năm 2000, OCR trở thành tính năng phổ biến trong các hệ thống quản lý tài liệu. Công nghệ này được ứng dụng rộng rãi trong văn phòng, cơ quan chính phủ và tổ chức tài chính để xử lý hồ sơ một cách hiệu quả. 

Tuy nhiên các hệ thống OCR này chủ yếu dựa vào việc nhận dạng các mẫu ký tự riêng lẻ hoặc dòng văn bản và thường bị giới hạn bởi độ chính xác của mô hình quang học (optical models) cũ.

2.2. Điểm mạnh của OCR truyền thống (Strengths of Traditional OCR)

  • Không phụ thuộc vào kết nối Internet

Các công cụ OCR truyền thống được cài đặt trực tiếp trên máy tính hoặc máy chủ doanh nghiệp, giúp xử lý tài liệu mà không cần kết nối Internet. Điều này đặc biệt quan trọng với những tổ chức xử lý dữ liệu nhạy cảm và yêu cầu bảo mật cao, như tài chính, y tế và pháp lý.

  • Kiểm soát hoàn toàn quá trình xử lý dữ liệu

OCR cục bộ giúp doanh nghiệp tùy chỉnh và kiểm soát toàn bộ quy trình nhận dạng và lưu trữ dữ liệu. Đây là lợi thế lớn với các ngành phải tuân thủ các tiêu chuẩn bảo mật và quy định nghiêm ngặt.

  • Tối ưu hóa cho khối lượng lớn tài liệu

Các tổ chức xử lý khối lượng lớn tài liệu định kỳ có thể tối ưu hóa hệ thống OCR để phù hợp với quy trình nội bộ của họ. Một số công cụ OCR truyền thống còn hỗ trợ tùy chỉnh thuật toán nhận dạng, giúp tăng độ chính xác trong những tình huống sử dụng đặc thù.

Tuy nhiên, với sự phát triển của công nghệ máy tính, các hệ thống OCR hiện đại đã ứng dụng các kỹ thuật học máy (machine learning), tích hợp mô hình ngôn ngữ (language models) để dự đoán xác suất xuất hiện của các từ hoặc chuỗi ký tự khác nhau.

2.3. Thách thức của các hệ thống OCR truyền thống

  • Văn bản đa ngôn ngữ và chữ viết tay

Các hệ thống OCR truyền thống thường gặp phải những thách thức lớn khi xử lý văn bản viết tay và văn bản đa ngôn ngữ. Chúng gặp khó khăn với chữ viết tay do tính không nhất quán tự nhiên của nét chữ con người, có nhiều biến thể giữa các cá nhân khác nhau. Bên cạnh đó, việc nhận dạng văn bản trong nhiều ngôn ngữ, đặc biệt là các hệ chữ phi Latin (non-Latin scripts), càng kiến quá trình xử lý trở nên phức tạp hơn. Mỗi ngôn ngữ yêu cầu một bộ nhận dạng ký tự (character recognizers) và mô hình ngôn ngữ (language models) riêng biệt. Ngay cả các hệ thống OCR tiên tiến cũng có những hạn chế khi nhận dạng nội dung đa ngôn ngữ, đặc biệt đối với các ngôn ngữ có cấu trúc hình ảnh phức tạp như tiếng Trung (Chinese).

  • Bố cục phức tạp và chất lượng tài liệu (Complex Layouts and Document Quality)

Các hệ thống OCR cũng gặp nhiều thách thức khi xử lý các tài liệu có bố cục phức tạp và chất lượng kém. Vấn đề thường xuất hiện khi xử lý các tài liệu có cấu trúc hình ảnh đa dạng như bảng biểu, biểu mẫu hoặc các bố cục văn bản không tiêu chuẩn.

Chất lượng hình ảnh kém, chẳng hạn như tài liệu được quét trong điều kiện không tối ưu hoặc có văn bản bị mờ, nhòe càng là thách thức đối với OCR. Mặc dù các mô hình đa phương thức lớn (large multimodal models) có thể thực hiện các nhiệm vụ OCR cơ bản, nhưng chúng vẫn gặp phải những thách thức đáng kể khi nhận dạng văn bản từ hình ảnh chất lượng thấp, tài liệu có bố cục phức tạp và các định dạng đầu vào đa dạng.

3. Các thành phần chính của hệ thống OCR

  • Tiếp nhận và tiền xử lý hình ảnh (Image Acquisition and Preprocessing)

Tiếp nhận hình ảnh (image acquisition) là bước đầu tiên trong quy trình OCR, và chất lượng của hình ảnh đầu vào có thể ảnh hưởng đáng kể đến hiệu suất của hệ thống. Các kỹ thuật tiền xử lý (preprocessing), chẳng hạn như giảm nhiễu (noise reduction), nhị phân hóa (binarization) và hiệu chỉnh độ nghiêng (skew correction), đóng vai trò quan trọng trong việc nâng cao chất lượng hình ảnh để cải thiện kết quả OCR. Những phương pháp tiền xử lý này giúp làm nổi bật văn bản và đảm bảo tính nhất quán giữa các nguồn dữ liệu đầu vào khác nhau.

  • Phát hiện và nhận dạng văn bản 

Quá trình phát hiện văn bản (text detection) và phân đoạn (segmentation) là những bước quan trọng để xác định các vùng chứa văn bản trong hình ảnh. Quá trình này bao gồm việc phát hiện các khối văn bản (text blocks) và sau đó phân đoạn chúng thành các ký tự hoặc từ riêng lẻ để nhận dạng. Việc phân đoạn chính xác giúp đảm bảo rằng từng thành phần của văn bản có thể được đọc và diễn giải đúng nhất.

  • Xử lý hậu kỳ để tăng độ chính xác 

Các kỹ thuật xử lý hậu kỳ (postprocessing) đóng vai trò quan trọng trong việc tinh chỉnh đầu ra của OCR, đặc biệt là trong các trường hợp có phông chữ phức tạp hoặc độ phân giải thấp. Các mô hình ngôn ngữ lớn (Large Language Models – LLMs), như ByT5 và Llama 7B, đã được ứng dụng thành công trong việc hiệu chỉnh OCR sau nhận dạng (OCR post-correction), tận dụng khả năng hiểu ngữ cảnh để giảm đáng kể tỷ lệ lỗi ký tự (Character Error Rate – CER).

Việc tinh chỉnh (fine-tuning) các mô hình LLM cho nhiệm vụ hiệu chỉnh OCR đã chứng minh khả năng cải thiện tính mạch lạc của văn bản và nâng cao độ chính xác tổng thể. Ví dụ, một nghiên cứu cho thấy ByT5, khi được tinh chỉnh cho nhiệm vụ này, đã giảm tỷ lệ lỗi ký tự (CER) tới 56%, một mức cải thiện đáng kể so với các phương pháp truyền thống.

4. Công nghệ OCR hiện đại 

4.1. Giới thiệu về LLMs trong OCR (Introduction to LLMs in OCR)

Các mô hình Ngôn ngữ Thị giác Lớn (Large Vision Language Models – LVLMs) như GPT-4V, Llama 3.2 11B-Vision, LLaVA-1.5 đang đóng vai trò quan trọng trong việc nâng cao khả năng nhận dạng ký tự quang học (Optical Character Recognition – OCR) bằng cách tích hợp phân tích ngữ cảnh (contextual analysis) vào quy trình nhận dạng.

LVLMs đã cải thiện đáng kể hiệu suất của OCR bằng cách giúp mô hình hiểu và diễn giải các yếu tố hình ảnh phức tạp (complex visual elements), mang lại khả năng trích xuất văn bản chính xác hơn, đặc biệt là đối với các tài liệu đa ngôn ngữ có bố cục phức tạp.

Bằng cách nhúng trực tiếp đầu ra của mô hình nhận diện đối tượng (object detection outputs) vào LLMs, các mô hình có thể xử lý đồng thời thông tin văn bản và thị giác (textual and visual cues), từ đó giảm thiểu lỗi trong các tình huống liên quan đến văn bản trong cảnh thực tế (scene text) hoặc tài liệu có bố cục phức tạp .

Các thử nghiệm đã chỉ ra rằng việc tích hợp OCR với các mô hình LLMs đa phương thức (multimodal LLMs) có thể giúp cải thiện hiệu suất lên đến 12.5% trên nhiều bộ đánh giá thị giác (visual benchmarks).

4.2. Cải tiến trong hệ thống OCR thế hệ mới được hỗ trợ bởi LVLMs 

  • Cải thiện độ chính xác theo ngữ cảnh 

Các hệ thống OCR thế hệ mới đã có những bước tiến đáng kể về độ chính xác, chủ yếu nhờ vào sự tích hợp của các Mô hình Ngôn ngữ Lớn (Large Language Models – LLMs). Những mô hình này tận dụng kho dữ liệu huấn luyện rộng lớn về ngôn ngữ và sở thích của con người để cải thiện tính mạch lạc của văn bản (text coherence) và sửa lỗi (error correction) hiệu quả hơn so với các phương pháp OCR truyền thống.

Ví dụ, việc tinh chỉnh (fine-tuning) các LLMs ở cấp độ ký tự (character-level LLMs) như ByT5 cho các nhiệm vụ OCR cụ thể đã cho thấy khả năng giảm đáng kể tỷ lệ lỗi ký tự (Character Error Rate – CER). Mô hình ByT5 đã đạt được mức giảm CER lên đến 56%, so với 48% từ các mô hình chuỗi sang chuỗi truyền thống (sequence-to-sequence baselines).

Những cải tiến này nhấn mạnh tiềm năng của LLMs trong việc tối ưu hóa kết quả OCR, đặc biệt là trong các trường hợp phức tạp liên quan đến văn bản có chất lượng thấp.

  • Tiến bộ trong nhận diện đa ngôn ngữ

Trong khi các hệ thống OCR truyền thống gặp nhiều khó khăn với các hệ chữ phi Latin (non-Latin scripts), các Mô hình Ngôn ngữ Lớn (Large Language Models – LLMs) đã giải quyết các vấn đề này ở OCR thế hệ mới, đặc biệt là đối với nhận diện văn bản đa ngôn ngữ. Các mô hình đa phương thức như GPT-4V cho thấy khả năng nhận diện mạnh mẽ đối với các ngôn ngữ dựa trên hệ Latin như Tiếng Anh, Tiếng Pháp, và Tiếng Đức. Tuy nhiên, chúng vẫn gặp thách thức đáng kể khi xử lý các hệ chữ phi Latin. Nghiên cứu cho thấy LLMs có thể cải thiện độ chính xác của OCR đa ngôn ngữ bằng cách cung cấp ngữ cảnh giúp phân biệt các ký tự có hình dạng tương tự nhau. Tuy nhiên, khoảng cách về hiệu suất vẫn còn đáng kể đối với các ngôn ngữ phức tạp hơn như Tiếng Trung và Tiếng Nhật.

5. Hướng đi trong tương lai của OCR với LLMs 

5.1. Mô hình đa phương thức thống nhất (Unified Multimodal Models)

Các tiến bộ về OCR trong tương lai có thể sẽ tập trung vào việc phát triển các mô hình đa phương thức thống nhất (unified multimodal models) kết hợp cả xử lý hình ảnh và ngôn ngữ. Các mô hình như GPT-4V và LLaVA-1.5 đã chứng minh tiềm năng trong việc đạt độ chính xác vượt trội khi nhận diện văn bản bằng cách hiểu và kết hợp cả dữ liệu hình ảnh lẫn ngữ cảnh ngôn ngữ.

Tuy nhiên, vẫn còn những thách thức trong việc xử lý văn bản phi ngữ nghĩa (non-semantic text), chữ viết tay (handwritten content), và văn bản đa ngôn ngữ (multilingual text), thứ mà các mô hình đa phương thức hiện tại vẫn chưa thể vượt qua được các phương pháp chuyên biệt theo từng lĩnh vực. Để cải thiện hiệu suất, cần tăng độ phân giải hình ảnh đầu vào và tinh chỉnh phương pháp mã hóa hình ảnh thành token.

5.2. Mở rộng ứng dụng của OCR

Công nghệ OCR ứng dụng Mô hình Ngôn ngữ lớn (LLMs) có tiềm năng cách mạng hóa nhiều ngành công nghiệp bằng cách tạo ra các ứng dụng phức tạp hơn. Ví dụ:

  • Ngành y tế (Healthcare): OCR có thể hỗ trợ xử lý đơn thuốc viết tay (handwritten prescriptions).
  • Tài chính (Financial Services): OCR có thể được ứng dụng trong xác minh tài liệu tự động (automated document verification).

Việc mở rộng bộ dữ liệu huấn luyện bao gồm các nội dung đa dạng và chuyên biệt theo từng lĩnh vực sẽ giúp tăng độ chính xác và khả năng ứng dụng thực tế của các hệ thống OCR.

5.3. Khắc phục những hạn chế hiện tại 

Mặc dù các hệ thống OCR hiện tại sử dụng Mô hình Ngôn ngữ lớn (LLMs) đã có nhiều cải tiến, xong chúng vẫn gặp khó khăn khi xử lý văn bản phi ngữ nghĩa và văn bản đa ngôn ngữ.

Để vượt qua những hạn chế này, nghiên cứu trong tương lai có thể tập trung vào:

  • Thiết kế bộ dữ liệu chuyên biệt tương ứng với từng điểm hạn chế.
  • Phát triển kiến trúc mô hình mới tối ưu hơn cho nhận diện chữ viết tay và văn bản đa ngôn ngữ.

6. “Mắt thần” Smart OCR thế hệ mới của VinBigdata 

Giải pháp Smart OCR xử lý tài liệu thế hệ mới tích hợp Gen AI của VinBigdata, được phát triển dựa trên việc kết hợp mô hình ngôn ngữ lớn (LLM) và công nghệ nhận dạng ký tự quang học (OCR) truyền thống. Đây không đơn thuần chỉ là một giải pháp trích xuất ký tự chữ viết từ văn bản mà là công cụ toàn diện theo hướng Xử lý tài liệu thông minh (Intelligent Document Processing – IDP).

 

Bình luận

Địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC
    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý
    Thông tin đã được xử lý
    Mức độ tin cậy: 0%
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.