8 Thuật toán theo dõi đối tượng trong video phổ biến nhất 2025

Theo dõi đối tượng trong video

Theo dõi đối tượng (object tracking) là một trong những thành phần cốt lõi của hệ sinh thái thị giác máy tính (computer vision). Công nghệ này đóng vai trò nền tảng cho nhiều ứng dụng trí tuệ nhân tạo (AI) hiện đại, từ xe tự lái, giám sát an ninh đến nhận diện hành động.

Các thuật toán theo dõi kết hợp giữa phát hiện đối tượng (object detection) và quá trình truy vết (tracking) để xác định và định vị chính xác các thực thể trong từng khung hình video. Những thuật toán này trải dài từ các phương pháp học máy (machine learning) cơ bản đến các mạng học sâu (deep learning) phức tạp. Mỗi loại đều có cách triển khai riêng và được sử dụng cho những mục đích khác nhau.

Bài viết này sẽ giới thiệu 8 thuật toán theo dõi đối tượng trong video phổ biến nhất hiện nay, đồng thời phân tích cách hoạt động, ưu và nhược điểm của từng thuật toán. 

1. Theo dõi đối tượng trong video là gì?

Theo dõi đối tượng trong video (video object tracking) là quá trình phát hiện một đối tượng trong khung hình và theo dõi vị trí của nó xuyên suốt toàn bộ video. Khái niệm này bắt nguồn từ kỹ thuật phát hiện đối tượng, một phương pháp phổ biến trong lĩnh vực thị giác máy tính được sử dụng để nhận diện và xác định vị trí các đối tượng khác nhau trong ảnh.

Nếu như phát hiện đối tượng chỉ hoạt động trên hình ảnh tĩnh (từng khung hình đơn lẻ), thì theo dõi đối tượng trong video mở rộng nguyên lý đó ra để áp dụng cho toàn bộ chuỗi khung hình của video. Thuật toán sẽ phân tích từng khung hình để nhận diện đối tượng cần theo dõi và vẽ một hộp giới hạn (bounding box) bao quanh. Việc lặp lại thao tác này trên tất cả các khung hình giúp hệ thống duy trì khả năng theo dõi chính xác. Nhờ đó, mô hình nắm bắt được chuyển động của đối tượng xuyên suốt video.

Bên cạnh các phương pháp cơ bản, những thuật toán học máy (machine learning) và học sâu (deep learning) phức tạp còn áp dụng thêm các kỹ thuật nâng cao như đề xuất vùng (region proposal) và dự đoán quỹ đạo (trajectory prediction) để nhận diện đối tượng theo thời gian thực chính xác hơn. 

2. Các thuật toán theo dõi đối tượng trong video phổ biến

2.1. Bộ lọc Kalman

Bộ lọc Kalman là phương pháp ước lượng vị trí của đối tượng và dự đoán chuyển động của nó trong các khung hình tiếp theo. Bộ lọc này duy trì một biểu diễn nội bộ về trạng thái của đối tượng, bao gồm vị trí, vận tốc và đôi khi cả gia tốc.

Bộ lọc Kalman sử dụng thông tin từ trạng thái trước đó của đối tượng cùng với một mô hình toán học để phân tích chuyển động, từ đó dự đoán trạng thái trong tương lai. Mô hình này tính đến các yếu tố không chắc chắn trong chuyển động của đối tượng và tổng hợp mọi dữ liệu liên quan để ước lượng trạng thái hiện tại, nhằm tạo ra dự đoán cho bước tiếp theo.

Ưu điểm

  • Là mô hình toán học nên không cần quá trình huấn luyện.
  • Có hiệu suất tính toán cao, xử lý nhanh.

Nhược điểm

  • Hiệu quả và năng lực dự đoán kém hơn nhiều so với các thuật toán học sâu hiện đại.
  • Mô hình dựa trên nhiều giả định, ví dụ như gia tốc của đối tượng không đổi.
  • Thuật toán không hoạt động tốt trong các tình huống chuyển động ngẫu nhiên.

2.2. KCF (Kernelized Correlation Filters)

KCF là một mô hình toán học được thiết kế để nhận diện đặc trưng của đối tượng và học cách phân biệt nó với bối cảnh xung quanh. Thuật toán bắt đầu bằng cách người dùng cung cấp một hộp giới hạn (bounding box) quanh đối tượng trong khung hình đầu tiên.

Sau khi quá trình học đặc trưng hoàn tất, KCF sử dụng các bộ lọc tương quan (correlation filters) dựa trên kỹ thuật kernel trick để xây dựng mối quan hệ ở không gian đặc trưng với chiều cao của đặc trưng của đối tượng và bản thân đối tượng thật. Ở các khung hình tiếp theo, thuật toán sẽ sử dụng những đặc trưng tương quan này để quét xung quanh vị trí cuối cùng của đối tượng. Khu vực có mức độ tương quan cao nhất được dự đoán là vị trí hiện tại của đối tượng.

Ưu điểm

  • Tốc độ xử lý nhanh.
  • Yêu cầu bộ nhớ thấp.
  • Đạt kết quả cạnh tranh trong nhiều trường hợp phổ biến.

Nhược điểm

  • Mô hình KCF truyền thống gặp khó khăn khi đối tượng thay đổi kích thước, hoặc khi đối tượng chạm vào mép khung hình.

2.3. DeepSORT

Thuật toán Deep Simple Online Realtime Tracking (DeepSORT) là phiên bản mở rộng của thuật toán SORT. Thuật toán SORT ban đầu sử dụng bộ lọc Kalman để dự đoán chuyển động của đối tượng và thuật toán Hungarian để liên kết dữ liệu giữa các khung hình. Tuy nhiên, phương pháp này gặp nhiều hạn chế khi đối tượng bị che khuất (occlusion) hoặc góc nhìn camera thay đổi, dẫn đến mất khả năng theo dõi trong các tình huống phức tạp.

Kiến trúc DeepSORT
Kiến trúc DeepSORT

DeepSORT sử dụng thêm một mạng nơ-ron tích chập (CNN – Convolutional Neural Network) để trích xuất đặc trưng. Những đặc trưng này được gọi là đặc trưng ngoại hình vì chúng giúp mô hình học cách nhận diện đặc điểm của đối tượng trong nhiều tình huống khác nhau, nhờ đó thuật toán có thể phân biệt chính xác các đối tượng đang di chuyển. DeepSORT kết hợp thông tin từ quá trình lọc và các đặc trưng do mạng nơ-ron tích chập tạo ra để xây dựng thước đo liên kết sâu (deep association metric), nhằm phát hiện và theo dõi đối tượng chính xác hơn.

Ưu điểm

  • DeepSORT có cách triển khai đơn giản nhưng hiệu quả, xử lý theo thời gian thực.
  • Mô hình được thiết kế theo dạng mô-đun, có thể tích hợp với bất kỳ mạng phát hiện đối tượng nào mà người dùng lựa chọn, chẳng hạn như YOLO hoặc SSD.
  • Thuật toán vẫn duy trì khả năng nhận diện ngay cả khi đối tượng bị che khuất và có thể phân biệt nhiều đối tượng khác nhau trong các tình huống phức tạp.

Nhược điểm

  • Việc huấn luyện riêng một mạng phát hiện đối tượng khá phức tạp và đòi hỏi một bộ dữ liệu khổng lồ để đạt độ chính xác cao.

2.4 FairMOT

Thuật toán Fair Multi-Object Tracking (FairMOT) sử dụng một mô hình đã được huấn luyện sẵn, chẳng hạn như Faster R-CNN, để phát hiện các đối tượng trong chuỗi video. Sau đó, nó sử dụng một mạng nơ-ron để trích xuất đặc trưng từ đối tượng đã phát hiện.

Những đặc trưng này sẽ được dùng để theo dõi đối tượng xuyên suốt các khung hình tiếp theo. Các nhánh của mô hình chia sẻ cùng một kiến trúc nền và được gán trọng số ngang nhau trong quá trình huấn luyện. Thuật toán FairMOT đối xử công bằng với tất cả các lớp đối tượng và mang lại hiệu suất cân bằng giữa hai nhiệm vụ: phát hiện và theo dõi.

Kiến trúc FairMOT
Kiến trúc FairMOT

Ưu điểm

  • Cung cấp hiệu suất ổn định, cân bằng giữa nhiệm vụ phát hiện và nhiệm vụ theo dõi.
  • Tăng độ chính xác trong quá trình theo dõi nhờ nhánh nhỏ tái nhận dạng đối tượng (nhánh trích xuất đặc trưng).

Nhược điểm

  • Đòi hỏi nhiều tài nguyên tính toán vì phải huấn luyện đồng thời hai nhánh mạng nơ-ron.

2.5. MDNet

Mạng đa miền (MDNet – Multi-Domain Network) là một phương pháp phổ biến nhờ khả năng học trên nhiều miền dữ liệu khác nhau. Mô hình này gồm hai thành phần chính. Phần đầu tiên là kiến trúc mạng nơ-ron tích chập (CNN) được dùng chung cho tất cả chuỗi video, tức là nó không phụ thuộc vào miền cụ thể và học từ toàn bộ tập dữ liệu. 

Theo dõi đối tượng trong video
Kiến trúc MDNet

Phần thứ hai gồm các lớp kết nối đầy đủ (fully connected) hoạt động song song, mỗi lớp xử lý thông tin riêng biệt của từng miền dữ liệu. Ví dụ, nếu dữ liệu chứa thông tin từ 5 miền khác nhau, phần này sẽ có 5 lớp kết nối đầy đủ tương ứng. Mỗi lớp sẽ được cập nhật độc lập trong quá trình lan truyền ngược (back-propagation), tùy thuộc vào miền của hình ảnh mục tiêu.

Ưu điểm

  • Hiệu suất tốt trên nhiều miền dữ liệu khác nhau.
  • Các nhánh chuyên biệt theo từng miền có thể được tinh chỉnh ngay lập tức khi phát hiện sự thay đổi lớn về miền dữ liệu.

Nhược điểm

  • Nếu dữ liệu phân bổ không đồng đều, hiệu suất mô hình sẽ không nhất quán giữa các miền khác nhau.

2.6. YOLOv8 

YOLOv8 là một thuật toán phát hiện đối tượng trong một giai đoạn (single-stage detector), được xếp vào nhóm những phương pháp theo dõi đối tượng phổ biến nhất hiện nay. Các mô hình thuộc họ YOLO được xây dựng dựa trên kiến trúc mạng nơ-ron tích chập (CNN), có khả năng học để dự đoán nhãn và vị trí của đối tượng chỉ qua một lần quét duy nhất.

Theo dõi đối tượng trong video
Các nhiệm vụ của YOLOv8

Phiên bản v8 sử dụng kiến trúc tương tự các phiên bản trước đó, gồm nhiều lớp nơ-ron tích chập và các lớp kết nối đầy đủ. Đây là thuật toán không cần điểm neo (anchor-free), nghĩa là nó dự đoán trực tiếp tọa độ trung tâm của đối tượng thay vì tính toán độ lệch so với điểm neo được xác định trước đó.

Bên cạnh đó, YOLOv8 còn có thể được sử dụng cho nhiều nhiệm vụ khác như phân loại (classification), phân đoạn (segmentation), áng chừng tư thế (pose estimation), phát hiện và theo dõi đối tượng (object detection and tracking).

YOLOv8 mở rộng khả năng phát hiện bằng cách tích hợp sẵn nhiều bộ theo dõi (tracker). Hai lựa chọn phổ biến nhất là Bot-SORT và ByteTrack. Tất cả đều có thể tuỳ chỉnh, cho phép người dùng điều chỉnh các tham số như ngưỡng tin cậy (confidence threshold) và vùng theo dõi (tracking area).

Ưu điểm

  • Hỗ trợ nhiều trường hợp sử dụng khác nhau, bao gồm theo dõi và phân đoạn.
  • Độ chính xác và hiệu suất cao.
  • Giao diện Python dễ sử dụng.

Nhược điểm

  • Khó phát hiện các đối tượng nhỏ.
  • YOLOv8 cung cấp nhiều kích thước mô hình, mỗi loại có sự đánh đổi riêng giữa hiệu suất và độ chính xác.

2.7. Mạng nơ-ron Siamese 

Các thuật toán theo dõi dựa trên mạng nơ-ron Siamese (Siamese Neural Network – SNN) bao gồm hai nhánh mạng nơ-ron chạy song song. Một nhánh là nhánh mẫu, chứa ảnh mẫu (cùng thông tin về hộp giới hạn của đối tượng) và khung hình tiếp theo – nơi cần tìm đối tượng. Nhánh này gồm các lớp mạng nơ-ron tích chập (CNN) và các lớp tổng hợp (pooling layer), có nhiệm vụ trích xuất đặc trưng từ cả hai ảnh, bao gồm: cạnh, kết cấu và hình dạng.

Theo dõi đối tượng trong video
Mạng Siamese tích chập toàn phần dùng cho theo dõi đối tượng

Nhánh còn lại là nhánh đo độ tương đồng (similarity branch), nhận các đặc trưng từ ảnh mẫu và ảnh tìm kiếm. Nó tính toán độ tương đồng giữa hai ảnh bằng hàm mất mát đối chứng (contrastive loss). Kết quả đầu ra cho biết xác suất đối tượng xuất hiện tại từng vị trí khác nhau trong ảnh. Các kiến trúc hiện đại của mạng nơ-ron Siamese tích hợp thêm cơ chế Attention và mạng đề xuất vùng (Region Proposal Network – RPN) để nâng cao hiệu quả.

Ưu điểm

  • Nhiều cải tiến đã được phát triển, bao gồm các phương pháp như SiamFC, SiamRPN,…

Nhược điểm

  • Việc huấn luyện hai mạng song song dẫn đến thời gian huấn luyện kéo dài.

2.8. GOTURN

Theo dõi đối tượng tổng quát bằng mạng hồi quy (Generic Object Tracking Using Regression Networks – GOTURN) là một thuật toán học sâu sử dụng phương pháp học ngoại tuyến. Mô hình này nhận hai đầu vào: khung hình trước và khung hình hiện tại. Trong khung hình trước, đối tượng được đặt ở chính giữa, và hình ảnh sẽ được cắt đi với kích thước gấp đôi kích thước hộp giới hạn ban đầu. Khung hình hiện tại cũng được cắt tại đúng vị trí đó, nhưng lúc này đối tượng lệch khỏi vị trí trung tâm bởi nó đã di chuyển ra khỏi vị trí gốc.

Theo dõi đối tượng trong video
Kiến trúc GOTURN

Cấu trúc bên trong của mô hình bao gồm các lớp tích chập (convolutional layers) được lấy từ kiến trúc CaffeNet. Mỗi khung hình trong hai khung hình đầu vào sẽ đi qua các lớp này, sau đó kết hợp để tạo ra đầu ra và xử lý qua một chuỗi các lớp kết nối đầy đủ.

Ưu điểm

  • Hiệu suất tốt, ngay cả khi chạy trên CPU.

Nhược điểm

  • Gặp khó khăn khi đối tượng chỉ xuất hiện một phần.
  • Việc theo dõi đối tượng bị ảnh hưởng đáng kể nếu dữ liệu huấn luyện không cân bằng.

Nguồn: Encord

Bình luận

Địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC
    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý
    Thông tin đã được xử lý
    Mức độ tin cậy: 0%
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.