Công nghệ thị giác máy tính (Computer Vision) sử dụng các thuật toán để máy tính có khả năng mô phỏng tầm nhìn của con người, bao gồm việc chụp ảnh ban đầu, phát hiện và nhận dạng đối tượng, nhận biết bối cảnh tạm thời giữa các cảnh và phát triển sự hiểu biết ở mức độ cao về những gì đang xảy ra trong khoảng thời gian thích hợp. Tuy nhiên, một thách thức đặt ra cho máy tính khi phải xử lý với các đối tượng nhỏ hoặc rất nhỏ, vì chúng thường có kích thước và chất lượng thấp, khiến máy khó có thể xác định chính xác đặc trưng nhận dạng để chỉ rõ chúng là gì.
Bài viết dưới đây gợi ý phương thức sử dụng Mô hình mạng tính năng thiết kế dạng kim tự tháp mở rộng (Extended Feature Pyramid Network – EFPN) để phát hiện các vật thể nhỏ.
Kiến trúc của mô hình EFPN
Như thể hiện trong hình trên, kiến trúc của EFPN có 1 số đặc trưng như sau:
- EFPN bao hàm một lớp phát hiện (P2’)
- EFPN sử dụng mô-đun FTT để truyền những đặc trưng từ P2 và P3 đến P2’. Khác với những tầng trước đó chỉ sử dụng bản đồ đặc trưng ở tầng thấp hơn và liền kề để tăng kích thước, mô-đun FTT xử lí hai bản đồ đặc trưng P2 và P3 để tạo ra P3′, sau đó được sử dụng cho lớp phát hiện mới P2′.
- EFPN có thể đưa ra dự đoán ở 5 mức độ khác nhau.
Mô-đun FTT
Trong mô-đun FTT, bước đầu tiên sử dụng kỹ thuật trích xuất nội dung để trích xuất các đặc trưng ngữ nghĩa từ P3 (bước chính). Sau đó, một lớp tích chập điểm ảnh phụ được áp dụng để cải thiện đầu ra của kỹ thuật trích xuất nội dung. Tiếp theo, thông tin mới nhất được liên kết với bản đồ đặc trưng P2 (tham khảo) để tạo thành đầu vào cho công cụ trích xuất đặc thù, với kết cấu được thiết kế dành riêng cho các vật thể nhỏ. Cuối cùng, thiết lập một kết nối dư để kết hợp đặc trưng và tạo thành bản đồ đặc trưng đầu ra P3′. Áp dụng phương thức này, P3′ truyền trọn vẹn các đặc trưng được chọn lọc từ bản đồ đặc trưng nông P2 và nhận ngữ nghĩa từ lớp sâu hơn P3.
Foreground-background-balanced Loss
Foreground-background-balanced loss là hàm mất mát đa tiêu – hàm loss, bao gồm: Foreground (chứa vật thể) và Background (nền và không chứa vật thể). Các nhà nghiên cứu đã chỉ ra rằng sự mất cân bằng dữ liệu giữa các nhóm foreground-background là nguyên nhân chính dẫn tới sự kém hiệu quả trong việc phát hiện vật thể.
Các phương pháp cổ điển thường cải thiện hiệu suất phát hiện đối tượng bằng cách sử dụng ảnh đầu vào có độ phân giải cao. Khởi điểm từ nền tảng cơ bản này, các nhà nghiên cứu đã đề xuất một cơ chế đào tạo mới mang tên là Cross Resolution Distillation.
Ở đây chúng ta sử dụng mô hình để kiểm tra với đầu vào 2x (độ phân giải gấp đôi đầu vào bình thường) sau đó sử dụng đầu ra của 4 lớp trên cùng của hệ thống làm mục tiêu đào tạo. Ví dụ: P5 của đầu vào 2x có độ phân giải gấp đôi so với P5 của đầu vào ban đầu (đầu vào 1x) và có cùng độ phân giải với P4 của đầu vào ban đầu (đầu vào 1x), như được minh họa trong hình trên. Do đó, P3 và P2 của đầu vào 2x sẽ được sử dụng làm mục tiêu để đào tạo P3′ và P2′ của đầu vào ban đầu (đầu vào 1x), tương ứng.
Đào tạo mô hình EFPN bằng cách sử dụng hàm loss như sau:
Trong đó L_fbb là Foreground-background-balanced loss được đề xuất. Hàm mất mát đa tiêu bao gồm hai phần: mất mát tái tạo toàn cục L_glob và mất mát bản vá tích cực L_pos.
Trong đó P_pos thể hiện tọa độ bản đồ đối tượng (x,y) và N mô tả số lượng pixel dương. Thông tin chi tiết về các hàm được trình bày trong bài báo khoa học của Cornell University.
Hiệu quả của EFPN
So với các phương pháp hiện đại khác, các tác giả đã thử nghiệm EFPN trên tập dữ liệu biển báo giao thông nhỏ 100K trên Tsinghua-Tencent và tập dữ liệu đối tượng nhỏ của MS COCO, đã nhận được những dấu hiệu tích cực hơn với độ chính xác cao hơn.
Phát hiện vật thể là một trong những tính năng vượt trội được VinBigData tập trung phát triển trong hệ thống Camera AI giám sát thông minh – VinCamAI. VinCamAI có thể ứng dụng trên quy mô lớn, đáp ứng đa dạng nhu cầu, và phù hợp với nhiều quy mô doanh nghiệp, với độ chính xác tới 99%. |
Nguồn tham khảo: Towards Data Science