Phát hiện đối tượng (object detection) là một bài toán phổ biến trong thị giác máy tính. Nó liên quan đến việc khoanh một vùng quan tâm trong ảnh và phân loại vùng này tương tự như phân loại hình ảnh. Tuy nhiên, một hình ảnh có thể bao gồm một số vùng quan tâm trỏ đến các đối tượng khác nhau. Điều này làm cho việc phát hiện đối tượng trở thành một vấn đề nâng cao hơn của phân loại hình ảnh.
YOLO (You Only Look Once) là mô hình phát hiện đối tượng phổ biến được biết đến với tốc độ nhanh và độ chính xác cao. Mô hình này lần đầu tiên được giới thiệu bởi Joseph Redmon và cộng sự vào năm 2016. Kể từ đó đến nay, đã có nhiều phiên bản của YOLO, một trong những phiên bản gần đây nhất là YOLO v7.
FriData tuần này sẽ cùng bạn thảo luận về điều gì khiến YOLO v7 trở nên nổi bật và so sánh nó với các thuật toán phát hiện đối tượng khác.
Phát hiện đối tượng là gì?
Phát hiện đối tượng là một bài toán thị giác máy tính liên quan đến việc xác định và định vị các đối tượng trong hình ảnh hoặc video. Nó là một phần quan trọng của nhiều ứng dụng, chẳng hạn như camera giám sát thông minh, ô tô tự lái hoặc người máy. Các thuật toán phát hiện đối tượng có thể được chia thành hai loại chính: phát hiện một giai đoạn (Single-shot object detection) và phát hiện hai giai đoạn (Two-shot object detection).
-
Single-shot object detection
Single-shot object detection sử dụng một lần truyền hình ảnh đầu vào để đưa ra dự đoán về sự hiện diện và vị trí của các đối tượng trong ảnh. Nó xử lý toàn bộ hình ảnh trong một lần chạy, khiến chúng trở nên hiệu quả về mặt tính toán.
Tuy nhiên, single-shot object detection thường kém chính xác hơn so với các phương pháp khác và kém hiệu quả hơn trong việc phát hiện các đối tượng nhỏ. Các thuật toán như vậy có thể được sử dụng để phát hiện các đối tượng theo thời gian thực trong các môi trường hạn chế về tài nguyên.
YOLO là thuật toán single-shot object detection sử dụng mạng thần kinh tích chập (CNN) để xử lý hình ảnh.
-
Two-shot object detection
Two-shot object detection sử dụng hai lần truyền hình ảnh đầu vào để đưa ra dự đoán về sự hiện diện và vị trí của đối tượng. Lượt đầu tiên được sử dụng để tạo một tập hợp các đề xuất hoặc vị trí tiềm năng của đối tượng. Lượt thứ hai được sử dụng để tinh chỉnh các đề xuất này và đưa ra dự đoán cuối cùng. Cách tiếp cận này chính xác hơn Single-shot object detection nhưng cũng tốn kém hơn về mặt tính toán.
Nhìn chung, sự lựa chọn giữa phát hiện đối tượng một lần và hai lần tùy thuộc vào các yêu cầu và ràng buộc cụ thể của ứng dụng.
Nói chung, Single-shot object detection phù hợp hơn cho các ứng dụng thời gian thực, trong khi two-shot object detection tốt hơn cho các ứng dụng đề cao độ chính xác.
YOLO là gì?
YOLO đề xuất sử dụng mạng thần kinh đầu cuối để đưa ra dự đoán về các hộp giới hạn (bounding box) và xác suất của đối tượng cùng một lúc. Nó khác với cách tiếp cận của các thuật toán phát hiện đối tượng trước đó, vốn sử dụng lại các trình phân loại để thực hiện phát hiện.
Theo một cách tiếp cận cơ bản khác để phát hiện đối tượng, YOLO đã đạt được kết quả tiên tiến, đánh bại các thuật toán phát hiện đối tượng thời gian thực khác với khoảng cách lớn.
Trong khi các thuật toán như Faster RCNN hoạt động bằng cách phát hiện các khu vực quan tâm có thể có bằng cách sử dụng Region Proposal Network và sau đó thực hiện nhận dạng trên các khu vực đó một cách riêng biệt, thì YOLO thực hiện tất cả các dự đoán với sự trợ giúp của một lớp được kết nối đầy đủ duy nhất.
Các phương pháp sử dụng Region Proposal Network thực hiện nhiều lần lặp cho cùng một hình ảnh, trong khi YOLO hoàn thành trong một lần duy nhất.
Một số phiên bản mới của cùng một mô hình đã được giới thiệu kể từ lần phát hành đầu tiên của YOLO vào năm 2015. Mỗi phiên bản được xây dựng để cải tiến phiên bản tiền nhiệm. Dưới đây là mốc thời gian thể hiện sự phát triển của YOLO trong những năm gần đây.
Nguồn ảnh: V7Labs
YOLO hoạt động như thế nào? Kiến trúc YOLO
Thuật toán YOLO lấy hình ảnh làm đầu vào, sau đó sử dụng mạng nơ-ron tích chập sâu đơn giản để phát hiện các đối tượng trong ảnh. Kiến trúc của mô hình CNN tạo thành xương sống của YOLO được hiển thị bên dưới.
20 lớp tích chập đầu tiên của mô hình được đào tạo trước với ImageNet bằng cách cắm vào một lớp tổng hợp trung bình tạm thời (temporary average pooling) và lớp được kết nối đầy đủ (fully connected layer). Sau đó, mô hình đào tạo trước này được chuyển đổi để thực hiện phát hiện. Lớp được kết nối đầy đủ cuối cùng của YOLO dự đoán cả xác suất của lớp và tọa độ hộp giới hạn.
YOLO chia hình ảnh đầu vào thành lưới S × S. Nếu tâm của một đối tượng rơi vào một ô lưới thì ô lưới đó có nhiệm vụ phát hiện đối tượng đó. Mỗi ô lưới dự đoán các hộp giới hạn B và điểm tin cậy cho các hộp đó. Các điểm tin cậy này phản ánh mức độ tin cậy của mô hình rằng hộp chứa một đối tượng và mức độ chính xác mà mô hình cho rằng hộp được dự đoán.
YOLO dự đoán nhiều hộp giới hạn trên mỗi ô lưới. Tại thời điểm đào tạo, ta chỉ muốn một bộ dự đoán hộp giới hạn thể hiện cho từng đối tượng. YOLO chỉ định bộ dự đoán dựa trên chỉ số IOU hiện tại cao nhất với thực tế. Điều này dẫn đến sự chuyên môn hóa giữa các bộ dự đoán hộp giới hạn. Mỗi công cụ dự đoán trở nên tốt hơn trong việc dự báo các kích thước, tỷ lệ khung hình hoặc loại đối tượng nhất định, cải thiện tổng thể recall score.
Một kỹ thuật quan trọng được sử dụng trong các mô hình YOLO là NMS (non-maximum suppression). NMS là một bước hậu xử lý được sử dụng để cải thiện độ chính xác và hiệu quả của việc phát hiện đối tượng. Trong phát hiện đối tượng, thông thường có nhiều hộp giới hạn được tạo cho một đối tượng trong một hình ảnh. Các hộp giới hạn này có thể chồng lên nhau hoặc nằm ở các vị trí khác nhau, nhưng tất cả chúng đều đại diện cho cùng một đối tượng. NMS được sử dụng để xác định và loại bỏ các hộp giới hạn dư thừa hoặc không chính xác và đề xuất một hộp giới hạn duy nhất cho từng đối tượng trong ảnh.
Điểm cải tiến của các phiên bản YOLO
-
YOLO v2
YOLO v2, còn được gọi là YOLO9000, được giới thiệu vào năm 2016 như một cải tiến so với thuật toán YOLO ban đầu. Nó được thiết kế để nhanh hơn và chính xác hơn YOLO và có thể phát hiện nhiều loại đối tượng hơn. Phiên bản cập nhật này cũng sử dụng một xương sống CNN khác có tên là Darknet-19, một biến thể của kiến trúc VGGNet với các lớp progressive convolution và pooling layers đơn giản.
Một trong những cải tiến chính trong YOLO v2 là việc sử dụng các anchor boxes. Các anchor boxes là một tập hợp các hộp giới hạn được xác định trước với các tỷ lệ và tỷ lệ khung hình khác nhau. Khi dự đoán các hộp giới hạn, YOLO v2 sử dụng kết hợp các anchor boxes và độ lệch được dự đoán để xác định hộp giới hạn cuối cùng. Điều này cho phép thuật toán xử lý phạm vi kích thước và tỷ lệ khung hình rộng hơn của đối tượng.
Một cải tiến khác trong YOLO v2 là sử dụng chuẩn hóa hàng loạt, giúp cải thiện độ chính xác và ổn định của mô hình. YOLO v2 cũng sử dụng chiến lược đào tạo đa quy mô, bao gồm đào tạo mô hình trên hình ảnh ở nhiều tỷ lệ và sau đó lấy trung bình các dự đoán. Điều này giúp cải thiện hiệu suất phát hiện các đối tượng nhỏ.
YOLO v2 cũng giới thiệu một loss function phù hợp hơn với các tác vụ phát hiện đối tượng. Loss function dựa trên tổng các lỗi bình phương giữa các hộp giới hạn sự thật được dự đoán và xác suất của lớp.
Kết quả thu được từ YOLO v2 so với phiên bản gốc và các mô hình hiện đại khác được hiển thị bên dưới.
Nguồn ảnh: Bài báo https://arxiv.org/pdf/1612.08242
-
YOLO v3
YOLO v3 là phiên bản thứ ba của thuật toán phát hiện đối tượng YOLO. Nó được giới thiệu vào năm 2018 như một cải tiến so với YOLO v2, nhằm tăng độ chính xác và tốc độ của thuật toán.
Một trong những cải tiến chính trong YOLO v3 là việc sử dụng kiến trúc CNN mới có tên là Darknet-53. Darknet-53 là một biến thể của kiến trúc ResNet và được thiết kế dành riêng cho các nhiệm vụ phát hiện đối tượng. Nó có 53 lớp tích chập và có thể đạt được kết quả tiên tiến trên nhiều tiêu chuẩn phát hiện đối tượng khác nhau.
Một cải tiến khác trong YOLO v3 là các anchor box với các tỷ lệ và tỷ lệ khung hình khác nhau. Trong YOLO v2, các anchor box đều có cùng kích thước, điều này đã hạn chế khả năng phát hiện các đối tượng có kích thước và hình dạng khác nhau của thuật toán. Trong YOLO v3, các anchor box được chia tỷ lệ và tỷ lệ khung hình thay đổi để phù hợp hơn với kích thước và hình dạng của các đối tượng được phát hiện.
YOLO v3 cũng giới thiệu khái niệm “feature pyramid networks” (FPN). FPN là một kiến trúc CNN được sử dụng để phát hiện các đối tượng ở nhiều tỷ lệ. Nó xây dựng một kim tự tháp gồm các bản đồ đặc trưng, với mỗi cấp độ của kim tự tháp được sử dụng để phát hiện các đối tượng ở một tỷ lệ khác nhau. Điều này giúp cải thiện hiệu suất phát hiện trên các đối tượng nhỏ, vì mô hình có thể nhìn thấy các đối tượng ở nhiều tỷ lệ.
Ngoài những cải tiến này, YOLO v3 có thể xử lý nhiều kích thước đối tượng và tỷ lệ khung hình hơn. Nó cũng chính xác và ổn định hơn so với các phiên bản trước của YOLO.
Nguồn ảnh: Bài báo https://arxiv.org/pdf/1804.02767.pdf
-
YOLO v4
Lưu ý: Joseph Redmond, tác giả ban đầu của YOLO, đã rời khỏi cộng đồng AI vài năm trước, vì vậy YOLOv4 và các phiên bản khác trước đây không phải là tác phẩm chính thức của ông. Một số trong số chúng được duy trì bởi các đồng tác giả, nhưng không có bản phát hành nào trước đây của YOLOv3 được coi là YOLO “chính thức”.
YOLO v4 là phiên bản thứ tư của thuật toán phát hiện đối tượng YOLO được giới thiệu vào năm 2020 bởi Bochkovskiy và cộng sự như một cải tiến so với YOLO v3.
Cải tiến chính trong YOLO v4 so với YOLO v3 là việc sử dụng kiến trúc CNN mới có tên là CSPNet (hiển thị bên dưới). CSPNet là viết tắt của “Cross Stage Partial Network” và là một biến thể của kiến trúc ResNet được thiết kế đặc biệt cho các nhiệm vụ phát hiện đối tượng. Nó có cấu trúc tương đối nông, chỉ có 54 lớp chập. Tuy nhiên, nó có thể đạt được kết quả tiên tiến trên các tiêu chuẩn phát hiện đối tượng khác nhau.
Kiến trúc của CSPNet. Nguồn ảnh: Bài báo https://arxiv.org/pdf/1911.11929v1.pdf
Cả YOLO v3 và YOLO v4 đều sử dụng các anchor box có tỷ lệ và tỷ lệ khung hình khác nhau để phù hợp hơn với kích thước và hình dạng của các đối tượng được phát hiện. YOLO v4 giới thiệu một phương pháp mới để tạo các anchor box, được gọi là “k-means clustering”. Nó liên quan đến việc sử dụng thuật toán phân cụm để nhóm các hộp giới hạn thực tế thành các cụm và sau đó sử dụng trọng tâm của các cụm làm anchor box. Điều này cho phép các anchor box được căn chỉnh chặt chẽ hơn với kích thước và hình dạng của các đối tượng.
Mặc dù cả YOLO v3 và YOLO v4 đều sử dụng loss function tương tự để đào tạo mô hình, nhưng YOLO v4 giới thiệu một thuật ngữ mới gọi là “GHM loss”. Đây là một biến thể của focal loss function và được thiết kế để cải thiện hiệu suất của mô hình trên các bộ dữ liệu mất cân bằng. YOLO v4 cũng cải thiện kiến trúc của FPN được sử dụng trong YOLO v3.
So sánh hiệu năng của YOLO v4. Nguồn: Bài báo https://arxiv.org/pdf/2004.10934.pdf
-
YOLO v5
YOLO v5 được giới thiệu vào năm 2020 bởi cùng một nhóm đã phát triển thuật toán YOLO ban đầu dưới dạng một dự án mã nguồn mở và được duy trì bởi Ultralytics. YOLO v5 được xây dựng dựa trên sự thành công của các phiên bản trước và bổ sung một số tính năng và cải tiến mới.
Không giống như YOLO, YOLO v5 sử dụng một kiến trúc phức tạp hơn gọi là EfficientDet (kiến trúc hiển thị bên dưới), dựa trên kiến trúc mạng EfficientNet. Việc sử dụng một kiến trúc phức tạp hơn trong YOLO v5 cho phép nó đạt được độ chính xác cao hơn và khả năng khái quát hóa tốt hơn cho nhiều loại đối tượng hơn.
Cấu trúc của mô hình EfficientDet. Nguồn: Bài báo: https://arxiv.org/pdf/1911.09070.pdf
Một điểm khác biệt nữa giữa YOLO và YOLO v5 là dữ liệu đào tạo được sử dụng để học mô hình phát hiện đối tượng. YOLO được đào tạo trên bộ dữ liệu PASCAL VOC, bao gồm 20 danh mục đối tượng. Mặt khác, YOLO v5 được đào tạo trên tập dữ liệu lớn hơn và đa dạng hơn có tên là D5, bao gồm tổng cộng 600 danh mục đối tượng.
YOLO v5 sử dụng một phương pháp mới để tạo các anchor box, được gọi là “dynamic anchor boxes”. Nó liên quan đến việc sử dụng thuật toán phân cụm để nhóm các hộp giới hạn thực tế thành các cụm và sau đó sử dụng trọng tâm của các cụm làm anchor box. Điều này cho phép các anchor box được căn chỉnh chặt chẽ hơn với kích thước và hình dạng của các đối tượng.
YOLO v5 cũng giới thiệu khái niệm “spatial pyramid pooling” (SPP), một loại lớp tổng hợp được sử dụng để giảm độ phân giải không gian của bản đồ đối tượng địa lý. SPP được sử dụng để cải thiện hiệu suất phát hiện trên các đối tượng nhỏ, vì nó cho phép mô hình nhìn thấy các đối tượng ở nhiều tỷ lệ. YOLO v4 cũng sử dụng SPP, nhưng YOLO v5 bao gồm một số cải tiến đối với kiến trúc SPP cho phép nó đạt được kết quả tốt hơn.
YOLO v4 và YOLO v5 sử dụng loss function tương tự để huấn luyện mô hình. Tuy nhiên, YOLO v5 giới thiệu một thuật ngữ mới gọi là “CIoU loss”, đây là một biến thể của IoU loss function được thiết kế để cải thiện hiệu suất của mô hình trên các bộ dữ liệu mất cân bằng.
-
YOLO v6
YOLO v6 được đề xuất vào năm 2022 bởi Li và cộng sự như một cải tiến so với các phiên bản trước. Một trong những điểm khác biệt chính giữa YOLO v5 và YOLO v6 là kiến trúc CNN được sử dụng. YOLO v6 sử dụng một biến thể của kiến trúc EfficientNet có tên là EfficientNet-L2. Đó là một kiến trúc hiệu quả hơn so với EfficientDet được sử dụng trong YOLO v5, với ít tham số hơn và hiệu quả tính toán cao hơn. Nó có thể đạt được kết quả tiên tiến trên các điểm chuẩn phát hiện đối tượng khác nhau. Framework của mô hình YOLO v6 được hiển thị bên dưới.
Tổng quan về YOLO v6. Nguồn: Bài báo https://arxiv.org/pdf/2209.02976.pdf
YOLO v6 cũng giới thiệu một phương pháp mới để tạo các anchor box, được gọi là “dense anchor boxes”.
Kết quả thu được từ YOLO v6 so với các phương pháp hiện đại khác được hiển thị bên dưới.
YOLO v7 có gì mới?
YOLO v7, phiên bản mới nhất của YOLO, có một số cải tiến so với các phiên bản trước. Một trong những cải tiến chính là việc sử dụng các anchor box.
Các anchor box là một tập hợp các hộp được xác định trước với các tỷ lệ khung hình khác nhau được sử dụng để phát hiện các đối tượng có hình dạng khác nhau. YOLO v7 sử dụng chín anchor box, cho phép YOLO phát hiện phạm vi hình dạng và kích thước đối tượng rộng hơn so với các phiên bản trước, do đó giúp giảm số lượng xác định sai.
Một cải tiến quan trọng trong YOLO v7 là việc sử dụng một loss function mới gọi là “focal loss”. Các phiên bản trước của YOLO đã sử dụng cross-entropy loss function tiêu chuẩn, được biết là kém hiệu quả hơn trong việc phát hiện các đối tượng nhỏ. Focal loss giải quyết vấn đề này bằng cách giảm trọng số mất mát cho các ví dụ được phân loại tốt và tập trung vào các ví dụ khó—các đối tượng khó phát hiện.
YOLO v7 cũng có độ phân giải cao hơn so với các phiên bản trước. Nó xử lý hình ảnh ở độ phân giải 608 x 608 pixel, cao hơn độ phân giải 416 x 416 được sử dụng trong YOLO v3. Độ phân giải cao hơn này cho phép YOLO v7 phát hiện các đối tượng nhỏ hơn và có độ chính xác tổng thể cao hơn.
Thay đổi sơ đồ tổng hợp lớp của YOLO v7. Nguồn: Bài báo https://arxiv.org/pdf/2207.02696.pdf
Một trong những ưu điểm chính của YOLO v7 là tốc độ. Nó có thể xử lý hình ảnh với tốc độ 155 khung hình mỗi giây, nhanh hơn nhiều so với các thuật toán phát hiện đối tượng hiện đại khác. Ngay cả mô hình YOLO cơ bản ban đầu cũng có khả năng xử lý ở tốc độ tối đa 45 khung hình mỗi giây. Điều này làm cho nó phù hợp với các ứng dụng thời gian thực nhạy cảm như giám sát và ô tô tự lái, trong đó tốc độ xử lý cao hơn là rất quan trọng.
So sánh hiệu suất và tốc độ suy luận của YOLO v7 với các công cụ phát hiện đối tượng thời gian thực hiện đại nhất. AP = Độ chính xác trung bình.
Nguồn: Bài báo https://arxiv.org/pdf/2207.02696.pdf
Về độ chính xác, YOLO v7 thể hiện tốt so với các thuật toán phát hiện đối tượng khác. Nó đạt được độ chính xác trung bình là 37,2% ở ngưỡng IoU (giao điểm trên hợp nhất) là 0,5 trên bộ dữ liệu COCO phổ biến, có thể so sánh với các thuật toán phát hiện đối tượng hiện đại khác. So sánh định lượng của hiệu suất được hiển thị dưới đây.
Nguồn: Bài báo https://arxiv.org/pdf/2207.02696.pdf
Tuy nhiên, cần lưu ý rằng YOLO v7 kém chính xác hơn so với các công cụ phát hiện hai giai đoạn như Faster R-CNN và Mask R-CNN, những công cụ này có xu hướng đạt được độ chính xác trung bình cao hơn trên tập dữ liệu COCO nhưng cũng yêu cầu thời gian suy luận lâu hơn.
Hạn chế của YOLO v7
YOLO v7 là một thuật toán phát hiện đối tượng mạnh mẽ và hiệu quả, nhưng nó có một số hạn chế.
- YOLO v7, giống như nhiều thuật toán phát hiện đối tượng, gặp khó khăn trong việc phát hiện các đối tượng nhỏ. Nó có thể không phát hiện chính xác các đối tượng trong các cảnh đông đúc hoặc khi các đối tượng ở xa máy ảnh.
- YOLO v7 cũng không hoàn hảo trong việc phát hiện các đối tượng ở các tỷ lệ khác nhau. Điều này có thể gây khó khăn cho việc phát hiện các đối tượng rất lớn hoặc rất nhỏ so với các đối tượng khác trong cảnh.
- YOLO v7 có thể nhạy cảm với những thay đổi về ánh sáng hoặc các điều kiện môi trường khác, vì vậy có thể bất tiện khi sử dụng trong các ứng dụng thực, nơi điều kiện ánh sáng có thể thay đổi.
- YOLO v7 có thể đòi hỏi nhiều tính toán, điều này gây khó khăn khi chạy trong thời gian thực trên các thiết bị hạn chế về tài nguyên như điện thoại thông minh hoặc các thiết bị biên khác.
YOLO v8
Tại thời điểm tháng 3/2023, việc phát hành YOLO v8 đã được xác nhận bởi Ultralytics, hứa hẹn các tính năng mới và hiệu suất được cải thiện so với các phiên bản tiền nhiệm. YOLO v8 tự hào về một API mới giúp đào tạo và suy luận dễ dàng hơn nhiều trên cả thiết bị CPU và GPU và khung sẽ hỗ trợ các phiên bản YOLO trước đó. Các nhà phát triển vẫn đang làm việc để phát hành một bài báo khoa học bao gồm mô tả chi tiết về kiến trúc và hiệu suất của mô hình.
Tổng kết
YOLO (You Only Look Once) là một thuật toán phát hiện đối tượng phổ biến đã cách mạng hóa lĩnh vực thị giác máy tính. Nó nhanh và hiệu quả, là một lựa chọn tuyệt vời cho các nhiệm vụ phát hiện đối tượng thời gian thực. YOLO đã đạt được hiệu suất tiên tiến trên nhiều tiêu chuẩn khác nhau và đã được áp dụng rộng rãi trong nhiều ứng dụng thực tế.
Một trong những ưu điểm chính của YOLO là tốc độ suy luận nhanh, cho phép nó xử lý hình ảnh theo thời gian thực. Nó rất phù hợp cho các ứng dụng như giám sát bằng video, ô tô tự lái và thực tế tăng cường. Ngoài ra, YOLO có kiến trúc đơn giản và yêu cầu dữ liệu đào tạo tối thiểu, giúp dễ dàng triển khai và thích ứng với các nhiệm vụ mới.
Bất chấp những hạn chế như không có khả năng phân loại đối tượng chi tiết, YOLO đã chứng tỏ là một công cụ có giá trị để phát hiện đối tượng và mở ra nhiều khả năng mới cho các nhà nghiên cứu và người thực hành. Khi lĩnh vực Thị giác máy tính tiếp tục phát triển, sẽ rất thú vị khi xem YOLO và các thuật toán phát hiện đối tượng khác phát triển và cải thiện như thế nào