Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 1

Trang 1

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 2

Trang 2

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 3

Trang 3

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 4

Trang 4

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 5

Trang 5

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 6

Trang 6

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 7

Trang 7

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 8

Trang 8

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 9

Trang 9

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 136 trang nguyenduy 09/05/2024 1210
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video
u kiểm thử 
 Hiện tại, không có nhiều tập dữ liệu phổ biến trong cộng đồng thị giác 
máy tính dùng để huấn luyện và kiểm thử cho bài toán dò tìm đối tượng quảng 
cáo. Một trong số đó là tập dữ liệu METU [78] với số lượng mẫu rất lớn gồm 
923.343 thể hiện của 687,842 trademark khác nhau. Tuy nhiên tập dữ liệu này 
chủ yếu được xây dựng cho bài toán truy vấn trademark trong ảnh và không 
mở rộng cho bài toán dò tìm, phát hiện trademark. Nó chỉ cung cấp các chú 
thích mức ảnh và không chứa các ảnh trong thế giới thực. Mỗi ảnh thường gồm 
một hình logo trên nền màu trắng đồng nhất. Một tập dữ liệu lớn khác hướng 
tới các đối tượng hình ảnh quảng bá thương hiệu là Logos in the Wild [79]. Tập 
dữ liệu này bao gồm 32.850 thể hiện logo đã được đánh dấu của 871 nhãn hiệu 
khác nhau. Với chất lượng của các thể hiện logo và chú thích cho tập dữ liệu 
này tương đối tốt nhưng lại tồn tại một số trở ngại lớn ảnh hưởng đến việc áp 
dụng là thiếu một script ước lượng chuẩn, các ảnh không sẵn có để tải về và 
cũng chỉ tập trung cho bài toán truy vấn logo. Ngoài ra còn có một số tập dữ 
liệu về logo nhưng không được sử dụng nhiều ngay cả cho bài toán truy vấn 
đối tượng quảng cáo như BelgaLogos [40] và LOGONet [33] do hạn chế về số 
lượng cũng như mức chú thích về đối tượng. Vì vậy các bộ dữ liệu này không 
 50 
được sử dụng trong luận án. Để huấn luyện và kiểm thử mô hình dò tìm đối 
tượng quảng cáo trong video, luận án sử dụng bộ dữ liệu Flickrlogos-47 mới 
được phát triển gần đây có các chú thích ở mức đối tượng rất chi tiết, đầy đủ 
phù hợp cho bài toán dò tìm đối tượng quảng cáo. Chi tiết về bộ dữ liệu 
Flickrlogos-47 được trình bày trong phụ lục A. 
 2.1.3.2. Độ đo ước lượng 
 Độ đo Precision và Recall [43] là các độ đo thông dụng thường được sử 
dụng để ước lượng mô hình dò tìm đối tượng đơn lớp, tức là phát hiện ra nhãn 
một lớp của đối tượng so với nền và được tổng quát hóa cho các bài toán dò 
tìm đa lớp – phát hiện một số lớp đối tượng trong ảnh. 
 Mô hình dò tìm đối tượng đưa ra một danh sách các kết quả phát hiện 
được. Mỗi phát hiện được phân loại vào một trong hai nhóm: true positives 
(TP) và false positives (FP). 
 TP là dự đoán sự xuất hiện của một đối tượng tại đúng vị trí với độ tin 
cậy cao hơn ngưỡng 휃. Trong khi đó với dự đoán cho kết quả FP có thể xảy ra 
trong hai tình huống: (1) Một phát hiện với độ tin cậy cao hơn ngưỡng 휃 nhưng 
dự đoán sai vị trí so với grounth truth. (2) Một phát hiện với độ chính xác cao 
hơn ngưỡng 휃 và dự đoán chính xác vị trí xuất hiện so với grounth truth, tuy 
nhiên lại tồn tại một phát hiện khác cũng tại đúng vị trí này như với độ tin cậy 
còn cao hơn. 
 Một đại lượng đo quan trọng khác là false negative (FN) được định nghĩa 
là những trường hợp mà chưa được phát hiện với độ tin cậy cao hơn ngưỡng 휃. 
Do các số tuyệt đối thường không dễ diễn giải, nên TP, FP và FN thường được 
thể hiện dưới dạng chỉ số tương đối là Precision và Recall. Precision là tỷ lệ 
giữa số lượng phát hiện chính xác trên tất cả các phát hiện có độ tin cậy cao 
hơn ngưỡng 휃. Recall là tỷ lệ giữa số lượng phát hiện chính xác trên tất cả các 
 51 
phát hiện. mà tất các các thể hiện của đối tượng đã được phát hiện thành công. 
Giá trị của Precision và Recall được tính theo công thức (2.6) và (2.7) sau: 
 
 푃 푒 푖푠푖표푛 = (2.6) 
 
 
 푅푒 푙푙 = (2.7) 
 
 Ngoài độ đo ước lượng khả năng dò tìm đối tượng, vấn đề khác là ước 
lượng về độ chính xác vị trí xuất hiện cũng cần được xem xét. Để ước lượng 
độ chính xác vị trí xuất hiện, độ đo IoU được sử dụng để đo độ chồng lấp giữa 
vùng tìm thấy và vùng grouth truth trong ảnh huấn luyện được tính theo công 
thức trong hình 2.2. 
 Với một số tập dữ liệu, một ngưỡng tin cậy cho hệ số 표푈 có thể được 
đặt mặc định trước (ví dụ 0.5) trong khi phân lớp để xác định phát hiện tìm thấy 
là TP hay FN. 
 Chúng ta có thể vẽ các điểm giá trị Precision và Recall tương ứng với tất 
cả các ngưỡng tin cậy trên hệ trục tọa độ không gian hai chiều tạo ra đường 
cong Precision-Recall (PR). Để đưa ra một con số duy nhất đo chất lượng tổng 
thể của mô hình phát hiện đối tượng, độ chính xác trung bình (Average 
Precision-AP) là diện tích vùng nằm dưới đường cong PR được sử dụng. Giá 
trị AP được tính từ Precision và Recall theo quy tắc hình thang. 
 Đối với mô hình dò tìm đa lớp, định nghĩa về TP và FP có một số điều 
chỉnh: TP lúc này được định nghĩa là số phát hiện đúng lớp, thỏa mãn ngưỡng 
tin cậy và chính xác về vị trí. Với FP là các phát hiện thỏa mãn một trong ba 
điều kiện thay vì hai như được định nghĩa cho mô hình nhận dạng đơn lớp gồm: 
(1) phát hiện thỏa mãn ngưỡng tin cậy nhưng sai vị trí. (2) phát hiện đúng lớp, 
thỏa mãn ngưỡng tin cậy và tại đúng vị trí, nhưng tồn tại một phát hiện khác có 
độ tin cậy cao hơn khi xem xét cùng một grounth-truth tương ứng. (3) phát hiện 
thỏa mãn ngưỡng tin cậy, chính xác về vị trí nhưng với sai lớp. 
 52 
 Ước lượng, đánh giá cho mô hình dò tìm đa lớp có thể được mở rộng từ 
phương pháp ước lượng, đánh giá cho mô hình dò tìm đơn lớp theo cách khá 
đơn giản nếu xem xét bài toán dò tìm đa lớp như là một chuỗi phát hiện đơn 
lớp. Có nghĩa là chúng ta thực hiện lần lượt mô hình để dò tìm một lớp đối 
tượng cụ thể trong các grounth truth của lớp đối tượng này mà không cần xem 
xét đến grounth truth của đối tượng khác. Áp dụng độ đo ước lượng cho các 
lần rời rạc này và có được AP cho mỗi lớp. Chỉ số cuối cùng để đo độ chính 
xác của mô hình được thực hiện thông qua độ chính xác trung bình (mean 
Average Precision - mAP), lúc này đơn giản là giá trị trung bình trên tất cả các 
AP. 
 2.1.3.3. Môi trường cài đặt 
 Môi trường phần cứng thực nghiệm cho bài toán dò tìm đối tượng trong 
video được minh họa cụ thể trong bảng 2.1. Các kết luận được rút ra từ thực 
nghiệm trên máy chủ GPU. GPU được sử dụng là Nvidia Tesla K80, bộ nhớ 
video 24GB, và chạy hệ điều hành Ubuntu 14 với bộ nhớ trong 64GB. 
 Bảng 2.1. Thông số phần cứng thực nghiệm mô hình YOLO-Adv 
 Phần cứng Môi trường 
 Máy tính GPU server 
 CPU Intel(R) Xeon(R) CPU E5-2683 v3 @ 2.00 GHz 
 GPU Nvidia Tesla K80 × 4 
 Bộ nhớ trong 64 GB 
 2.1.3.4. Ước lượng, đánh giá 
 Trong phần thực nghiệm, để đánh giá mức độ hiệu quả của từng cải tiến 
so với mô hình gốc, luận án thực nghiệm trên 3 mô hình: mô hình YOLOv3 
nguyên bản, mô hình YOLO-Loss có kiến trúc mạng giống như trong mô hình 
YOLOv3 nhưng sử dụng hàm loss cải tiến trong phương trình (2.5) và mô hình 
 53 
YOLO-Adv có sử dụng hàm loss mới cùng với kiến trúc mạng cải tiến. Trong 
quá trình huấn luyện, các thông số của cả 3 mô hình YOLOv3, YOLO-Loss và 
YOLO-Adv cùng được thiết lập tương tự nhau, tỷ lệ học khởi tạo là 0,0001. 
Epoch lớn nhất, kích thước batch, momentum được đặt lần lượt là 1000, 64 và 
0,9. Sau mỗi 10 epoch, kích thước đầu vào được chọn ngẫu nhiên để đưa vào 
huấn luyện. Vì hệ số giảm kích thước là 32 nên tất cả ảnh đầu vào ngẫu nhiên 
này phải được điều chỉnh kích thước về số là bội của 32, với kích thước bé nhất 
là 353x352 và lớn nhất là 606x608. Số vòng lặp được sử dụng trong pha huấn 
luyện là 25.000 vòng lặp, trong đó một vòng lặp tương ứng với 1 nhóm 64 ảnh. 
Cấu hình này làm cho phương pháp huấn luyện có thể cho ra mô hình cuối cùng 
dự đoán tốt hơn với nhiều kích thước khác nhau, trong khi các ảnh đầu vào có 
độ phân giải khác nhau cũng làm gia tăng tính bền vững của mô hình. 
 Ước lượng pha huấn luyện 
 Mức độ hiệu quả của cả 3 mô hình YOLOv3, YOLO-Loss và YOLO-
Adv trong pha huấn luyện được đánh giá, ước lượng dựa trên các chỉ số về giá 
trị hàm loss trung bình và giá trị IoU trong khi tập dữ liệu Flicrklogo-47 được 
dùng để huấn luyện. 
 Hình 2.5. Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47 
 54 
 Với giá trị hàm loss trung bình, đồ thị biến thiên của nó cho cả 3 mô hình 
theo số vòng lặp trong quá trình huấn luyện được minh hoạ trong biểu đồ hình 
2.5. Đồ thị này chứng tỏ giá trị hàm loss trung bình của cả 3 mô hình đều có 
khuynh hướng giảm nhanh trong 5000 vòng lặp đầu tiên, giảm từ từ trong 1000 
vòng lặp tiếp theo và giữ ổn định tại giá trị rất nhỏ sau khoảng 15000 vòng lặp. 
Tuy nhiên, trong ba mô hình thì YOLO-Adv có giá trị hàm loss trung bình giảm 
nhanh nhất tại thời điểm bắt đầu theo sau bởi mô hình YOLO-Loss. Nguyên 
nhân chính đẩy mạnh tốc độ hội tụ của mô hình YOLO-Adv là do chiến lược 
hợp nhất đặc trưng đa tầng để nhận dạng đối tượng ở một mức tỷ lệ thay vì 3 
tỷ lệ như trong kiến trúc mạng của YOLOv3 và YOLO-Loss. Bên cạnh đó, giá 
trị hàm loss trung bình của mô hình YOLO-Adv mặc dù dao động trong suốt 
quá trình huấn luyện, nhưng đạt giá trị nhỏ nhất đầu tiên trong ba mô hình và 
đạt giá trị rất nhỏ và nhỏ nhất trong tất cả. Điều này chứng tỏ kiến trúc mạng 
YOLO-Adv cho phù hợp với tập dữ liệu FlicrkLogos-47 và dự đoán cho kết 
quả khả quan trong dò tìm đối tượng quảng cáo. 
 (a) YOLOv3 (b) YOLO-Loss (c) YOLO-Adv 
 Hình 2.6. Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47 
 Bên cạnh giá trị hàm loss trung bình, kết quả sự biến thiên về giá trị IoU 
– đại lượng thể hiện độ chính xác trong việc định vị các bounding box của 3 
mô hình huấn luyện trên tập dữ liệu flicrkLogos-47 được thể hiện trong hình 
 55 
2.6. Với cả ba mô hình giá trị IoU đều có khuynh hướng tăng mạnh trong 5000 
vòng lặp đầu tiên, sau đó tăng đều và có giá trị ổn định trong khoảng [0.7;1.0]. 
Như vậy, cả 3 mô hình đều cho độ chính xác cao khi định vị đối tượng. Mặc dù 
YOLO-Adv không cho kết quả vượt trội nhưng kết quả so sánh cho thấy giá trị 
IoU của mô hình YOLO-Adv có khuynh hướng tăng nhanh nhất trong ba mô 
hình, tức là tốc độ huấn luyện nhanh nhất và cũng giữ giá trị ổn định ở mức cao 
nhất, nghĩa là độ chính xác trong dò tìm đối tượng cao nhất. 
 Bảng 2.2. Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47 
 Adidas Adidas Becks Beck 
 Aldi Apple BMW 
 symbol text symbol text 
 YOLOv3 62.0 33.5 72.0 84.1 76.1 64.0 85.2 
 YOLO-Loss 70.0 39.5 88.5 93.0 81.1 66.1 83.2 
 YOLO-Adv 69.4 54.9 85.3 92.4 81.8 68.9 84.0 
 Carlberg Carlberg Chimay Chimay Corona Corona 
 Cocacola 
 symbol text Symbol text symbol text 
 YOLOv3 69.2 60.0 92.4 79.1 61.7 82.3 84.6 
 YOLO-Loss 73.5 62.4 92.9 81.6 64.2 90.9 87.4 
 YOLO-Adv 71.1 68.5 93.2 78.4 68.2 94.9 89.1 
 Erdinger Erdinger Esso Esso 
 DHL Fedex Ferrari 
 symbol Text symbol text 
 YOLOv3 62.2 92.2 91.6 92.9 19.7 84.1 94.9 
 YOLO-Loss 69.0 95.3 90.6 93.1 23.8 86.6 95.4 
 YOLO-Adv 85.0 95.7 93.9 95.9 35.5 87.7 95 
 Fosters Fosters Guiness Guiness 
 Ford Google Heineken 
 symbol Text symbol text 
 YOLOv3 87.6 82.2 77.5 80.9 84.8 64.9 54.7 
 YOLO-Loss 90.4 84.5 72.8 81.5 92.9 67.0 66.1 
 YOLO-Adv 93.2 88.3 80.6 73.4 86.5 68.7 76.6 
 nVidia nVidia Paulaner Paulaner Pepsi 
 HP Mika 
 symbol text symbol text symbol 
 YOLOv3 83.9 57.1 64.1 26.1 88.2 46.7 42.1 
 YOLO-Loss 81.1 65.5 74.3 32.8 91.2 42.0 44.2 
 YOLO-Adv 82.3 72.7 68.5 42.5 92.6 53.8 58.9 
 Pepsi Singha Singha Stellart 
 Rittersport Shell Starbucks 
 text symbol text symbol 
 YOLOv3 27.1 71.2 87.3 97.5 90.8 84.2 92.6 
 YOLO-Loss 22.7 83.3 98.8 98.1 90.5 83.8 91.3 
 YOLO-Adv 36.2 81.4 94.1 98.4 83.5 93.9 95.8 
 56 
 Stellart Tsingt. Tsingt. 
 Texaco UPS mAP s/Img 
 text Symbol text 
 YOLOv3 97.0 89.7 82 78.7 93.1 74.0 0.038 
 YOLO-Loss 95.8 95.7 89.5 79.3 95.3 77.4 0.032 
 YOLO-Adv 97.9 93.3 86.7 81.0 97.4 80.2 0.028 
 Từ những phân tích trên pha huấn luyện cho thấy những cải tiến trong 
hàm loss và kiến trúc mạng của mô hình YOLO-Adv làm cho nó thích hợp với 
tập dữ liệu huấn luyện Flickrlogos-47. Những cải tiến không những làm thúc 
đẩy nhanh quá trình hội tụ của mạng mà còn cho độ chính xác cao trong định 
vị các bounding box chứa đối tượng. 
 Ước lượng pha kiểm thử 
 Độ chính xác trong phân lớp của mô hình YOLO-Adv cũng lần lượt được 
so sánh với các mô hình YOLOv3 và YOLO-Loss trên tập dữ liệu huấn luyện 
Flickrlogos-47 với ngưỡng  = 0.5, sử dụng các độ đo ước lượng được trình 
bày trong phần 2.2.3.2. Bảng 2.2 thống kế giá trị AP cho từng lớp cụ thể kèm 
theo giá trị mAP tổng hợp và thời gian thực thi trung bình trên mỗi ảnh. Kết 
quả cho thấy, hiệu năng thực thi tổng thể trong pha phân lớp đối tượng của mô 
hình YOLO-Loss và YOLO-Adv được cải thiện lần lượt thêm 3.4 điểm (tương 
ứng 4.6%) và 6.2 điểm (tương ứng 8.38%) so với mô hình YOLOv3 nguyên 
bản. Trong khi đó, hiệu năng của mô hình YOLO-Adv được tăng thêm 2.8 điểm 
(tương ứng 3.62%) so với mô hình chỉ sử dụng hàm loss cải tiến mà không cần 
đến chiến lược hợp nhất đa tầng, loại bỏ các tầng lặp ở mức cao là YOLO-Loss. 
 Ngoài ra, thời gian thực thi trong khi dò tìm đối tượng trung bình trên 
một ảnh của mô hình cải tiến cuối cùng YOLO-Adv có tốc độ nhanh nhất đạt 
0.028s (tương ứng với tốc độ xử lý 35 ảnh trong 1 giây (FPS)). Tốc độ này được 
cải thiện đáng kể so với 2 mô hình YOLO-Loss và YOLOv3 có tốc độ dò tìm 
lần lượt là 0.032s và 0.038s. Thời gian thực thi của mô hình cải tiến thu được 
đã thỏa mãn tiêu chí đặt ra ban đầu khi phát triển mô hình, một nhân tố quan 
trọng để ứng dụng cho bài toán phát hiện và thay thế đối tượng trong video 
đang được nghiên cứu giải quyết. 
 57 
 Hình 2.7. Một số hình ảnh dò tìm đối tượng quảng cáo 
Một số kết quả trực quan trong dò tìm đối tượng của mô hình cải tiến được thể 
hiện trong hình 2.7. Các kết quả trực quan một lần nữa khẳng định mô hình cải 
tiến cho hiệu quả tốt với cả dò tìm đơn và đa đối tượng trong một frame ảnh. 
Bất kể là trong điều kiện ánh sáng bất lợi, khả năng định vị các logo trong ảnh 
và khả năng phân lớp của mô hình cải tiến rất ít bị ảnh hưởng. Nghĩa là mô hình 
cải tiến có khả năng thích nghi cao với nhiễu và sự thay đổi về cường độ sáng. 
Hơn nữa, các kết quả nhận dạng ở hàng thứ 3 trong hình 2.7 cho thấy logo mặc 
dù bị che khuất một phần nhưng mô hình vẫn nhận dạng tương đối chính xác. 
Kết quả trực quan này phản ánh giá trị của các đặc trưng cục bộ ở tầng thấp khi 
được kết hợp cùng với các đặc trưng mức cao. Điều này một lần nữa minh 
chứng cho độ hiệu quả của chiến lược hợp nhất đặc trưng đa tầng. 
 58 
Bảng 2.3. So sánh mAP của các mô hình dò tìm đối tượng trên tập dữ liệu 
 Flickrlogos-32 
 YOLO-Adv Fast-M DeepLogo SCL DB-FRCN-M 
 82.4 84.2 74.4 81.1 73.5 
 So sánh với các cách tiếp cận khác trên tập Flickrlogos-32 
 Trong nghiên cứu này, mô hình cải tiến cũng đã được thực nghiệm huấn 
luyện trên tập dữ liệu Flickrlogos-32 nhằm so sánh mô hình cải tiến với các 
cách tiếp cận nổi bật khác cho bài toán nhận dạng logo đã được thực nghiệm 
trên tập dữ liệu này. Những cách tiếp cận gần đây nhất gồm: (1) DeepLogo [35] 
là một trong các mô hình nhận dạng logo đầu tiên sử dụng bộ dò tìm đối tượng 
xây dựng trên nền Fast R-CNN cho bài toán nhận dạng logo. (2) BD-FRCN-M 
[63] có cách tiếp cận khác dựa trên Fast R-CNN với tập dữ liệu gia tăng bằng 
các phép biến đổi hình học. (3) SCL [75] dựa trên Faster R-CNN với tập dữ 
liệu Flickrlogos-32 mà trong đó tập huấn luyện được mở rộng bằng cách thêm 
các ảnh tổng hợp. (4) Fast-M [5] là cách tiếp cận đa tỷ lệ với Fast R-CNN. 
 Tất cả các nghiên cứu đề cập trên đều sử dụng tập dữ liệu Flickrlogos-
32 được thiết kế chủ yếu cho bài toán truy vấn ảnh để ước lượng mô hình. Do 
đó các tác giả không đưa ra các script cho việc dò tìm đối tượng, mà chỉ đưa ra 
các script phân loại ảnh, tức là đưa ra ảnh có chứa hay không chứa các logo và 
được phân loại dựa trên nội dung của chúng. Trong khi đó vị trí của logo không 
đòi hỏi phải xác định. Điều này gây ra khó khăn trong việc thông dịch các kết 
quả do các tác giả trên đưa ra. Duy chỉ có một ngoại lệ là DeepLogo được 
nghiên cứu trong [35], tác giả đã ước lượng cách tiếp cận của mình trên 
Flickrlogos-32 với sự phân biệt rõ ràng giữa việc dò tìm logo kèm theo vị trí và 
dò tìm không kèm theo vị trí. 
 Kết quả so sánh của mô hình cải tiến với các cách tiếp cận đề cập bên 
trên cho bài toán dò tìm logo trên tập dữ liệu Flickrlogos-32 được thể hiện trong 
bảng 2.3. Vì Flickrlogos-32 là tập dữ liệu cho bài toán thu nhận ảnh, phương 
 59 
thức ước lượng mà các tác giả sử dụng cho bài toán dò tìm không rõ ràng. Do 
đó, sự so sánh giữa các giá trị này chỉ mang tính tương đối. Tuy nhiên kết quả 
vẫn cho thấy mô hình YOLO-Adv cho kết quả tốt nhất so với tất cả các cách 
tiếp cận khác ngoại trừ Fast-M [5]. Fast-M là cách tiếp cận dựa trên Fast R-
CNN đa tỉ lệ cho phép tăng tỷ lệ của ảnh đầu vào để cải tiến hiệu năng dò tìm. 
Fast-M không chỉ thay đổi tỷ lệ của ảnh một lần mà là 5 lần. Kết quả về thời 
gian không được tác giả đưa ra, nhưng chắc chắn thời gian chạy mô hình Fast-
M là rất chậm khi so sánh với cách tiếp cận YOLO-Adv. 
2.2. Nhận dạng hình dạng đối tượng 
 Trong phần 2.1, luận án đã trình bày chi tiết mô hình YOLO-Adv được 
sử dụng để dò tìm và trích chọn được vector đặc trưng D chiều (D = 4096) của 
đối tượng xuất hiện trong video. Mô hình này cũng được sử dụng để tạo lập 
một tập dữ liệu các vector đặc trưng D của tập ảnh hình dạng đối tượng. Dựa 
trên tập dữ liệu vector đặc trưng này để nhận diện hình dạng của đối tượng 
trong video, luận án đề xuất giải pháp tìm kiếm một hình dáng tương đồng nhất 
với đối tượng truy vấn trong tập dữ liệu các loại hình dạng của đối tượng này. 
Tức là tìm kiếm một vector đặc trưng trong tập mẫu gần nhất với vector đặc 
trưng truy vấn. 
 Tuy nhiên, do tập vector đặc trưng của tập dữ liệu hình ảnh mẫu rất lớn 
(có thể lên đến hàng triệu bản ghi) và số chiều khá lớn (4096 chiều) nên việc 
đối sánh, tìm kiếm chính xác là không khả thi. Vì vậy, tập dữ liệu vector đặc 
trưng của hình ảnh mẫu cần được tổ chức, lập chỉ mục một cách hợp lý, hiệu 
quả trước khi kỹ thuật tìm kiếm ANN được áp dụng để tìm ra vector đặc trưng 
tương đồng nhất (hình ảnh tương đồng nhất) với vector đặc trưng (hình ảnh) 
truy vấn. PQ đã được trình bày tổng quan là kỹ thuật hiệu quả nhất để xử lý vấn 
đề lập chỉ mục này, tuy nhiên tốc độ và độ chính xác vẫn chưa được mong đợi. 
Trong phần này, luận án trình bày phương pháp đề xuất PSVQ (product sub-
vector quatization) được cải tiến từ phương pháp PQ cho độ chính xác và tốc 
 60 
độ xử lý vượt trội so với PQ gốc và các cải tiến khác quả PQ. Sau đó kỹ thuật 
tìm kiếm ANN luận án kế thừa từ nghiên cứu [2] dựa trên cấu trúc cây phân 
cấp thứ bậc được áp dụng trên tập chỉ mục sinh ra bởi PSVQ để tìm ra hình 
dạng tương đồng nhất với đối tượng truy vấn. 
 Tương tự như kỹ thuật dò tìm đối tượng được trình bày trong chương 
trước đó, mục tiêu cốt lõi cần đạt được khi phát triển kỹ thuật nhận dạng hình 
thể của đối tượng là tốc độ tìm khi xem xét độ chính xác trung bình ở mức cao 
(> 90%). Để đạt được mục tiêu này chất lượng mã hóa và cách thức tổ chức tìm 
kiếm là các vấn đề cần phải giải quyết trong luận án này. Chi tiết về kỹ thuật 
PSVQ và kỹ thuật tìm kiếm dựa trên cây phân cụm thứ bậc được trình bày trong 
các mục 2.2.1 và 2.2.2. Cuối cùng, các ước lượng thực nghiệm về chất lượng 
mã hóa dữ liệu và tốc độ tìm kiếm cũng như các kết quả so sánh với các kỹ 
thuật phổ biến khác được trình bày trong phần 2.2.3. 
2.2.1. Mô hình lập chỉ mục PSVQ 
 Tập ảnh tư thế huấn luyện của một đối tượng sau khi truyền qua mạng 
YOLO-Adv cho ra một tập dữ liệu gồm vector đặc trưng trong không gian 
vector đặc trưng D (D=4096) chiều 푅() được ký hiệu là tập X. Ký hiệu ∈ 
là một vector hay điểm dữ liệu trong tập dữ liệu X. Ngoài ra, ký hiệu () ∈
 
 ( )
푅  là vector con thứ j của x với j=1,2,  m. 
 Như đã được trình bày chi tiết trong mục 1.2, với phương pháp lượng tử 
hóa tích đề các (PQ), không gian dữ liệu gốc X trước hết được chia thành m 
không gian con phân biệt tách rời nhau. Như vậy, một vector ∈ được chia 
thành m vector con: (), (), (), mỗi vector con này có số chiều là D/m. 
Tiếp theo VQ được áp dụng cho các vector con trong từng không gian con này 
một cách rời rạc để tạo ra cho mỗi không gian con này một codebook. Gọi  
là codeboo

File đính kèm:

  • pdfluan_an_nghien_cuu_cai_tien_ky_thuat_nhan_dang_va_thay_the_d.pdf
  • pdftom tat luan an NCS Le Dinh Nghiep 8_2020.pdf
  • docxtrang thong tin luan an - Le Dinh Nghiep.docx