Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video
u kiểm thử
Hiện tại, không có nhiều tập dữ liệu phổ biến trong cộng đồng thị giác
máy tính dùng để huấn luyện và kiểm thử cho bài toán dò tìm đối tượng quảng
cáo. Một trong số đó là tập dữ liệu METU [78] với số lượng mẫu rất lớn gồm
923.343 thể hiện của 687,842 trademark khác nhau. Tuy nhiên tập dữ liệu này
chủ yếu được xây dựng cho bài toán truy vấn trademark trong ảnh và không
mở rộng cho bài toán dò tìm, phát hiện trademark. Nó chỉ cung cấp các chú
thích mức ảnh và không chứa các ảnh trong thế giới thực. Mỗi ảnh thường gồm
một hình logo trên nền màu trắng đồng nhất. Một tập dữ liệu lớn khác hướng
tới các đối tượng hình ảnh quảng bá thương hiệu là Logos in the Wild [79]. Tập
dữ liệu này bao gồm 32.850 thể hiện logo đã được đánh dấu của 871 nhãn hiệu
khác nhau. Với chất lượng của các thể hiện logo và chú thích cho tập dữ liệu
này tương đối tốt nhưng lại tồn tại một số trở ngại lớn ảnh hưởng đến việc áp
dụng là thiếu một script ước lượng chuẩn, các ảnh không sẵn có để tải về và
cũng chỉ tập trung cho bài toán truy vấn logo. Ngoài ra còn có một số tập dữ
liệu về logo nhưng không được sử dụng nhiều ngay cả cho bài toán truy vấn
đối tượng quảng cáo như BelgaLogos [40] và LOGONet [33] do hạn chế về số
lượng cũng như mức chú thích về đối tượng. Vì vậy các bộ dữ liệu này không
50
được sử dụng trong luận án. Để huấn luyện và kiểm thử mô hình dò tìm đối
tượng quảng cáo trong video, luận án sử dụng bộ dữ liệu Flickrlogos-47 mới
được phát triển gần đây có các chú thích ở mức đối tượng rất chi tiết, đầy đủ
phù hợp cho bài toán dò tìm đối tượng quảng cáo. Chi tiết về bộ dữ liệu
Flickrlogos-47 được trình bày trong phụ lục A.
2.1.3.2. Độ đo ước lượng
Độ đo Precision và Recall [43] là các độ đo thông dụng thường được sử
dụng để ước lượng mô hình dò tìm đối tượng đơn lớp, tức là phát hiện ra nhãn
một lớp của đối tượng so với nền và được tổng quát hóa cho các bài toán dò
tìm đa lớp – phát hiện một số lớp đối tượng trong ảnh.
Mô hình dò tìm đối tượng đưa ra một danh sách các kết quả phát hiện
được. Mỗi phát hiện được phân loại vào một trong hai nhóm: true positives
(TP) và false positives (FP).
TP là dự đoán sự xuất hiện của một đối tượng tại đúng vị trí với độ tin
cậy cao hơn ngưỡng 휃. Trong khi đó với dự đoán cho kết quả FP có thể xảy ra
trong hai tình huống: (1) Một phát hiện với độ tin cậy cao hơn ngưỡng 휃 nhưng
dự đoán sai vị trí so với grounth truth. (2) Một phát hiện với độ chính xác cao
hơn ngưỡng 휃 và dự đoán chính xác vị trí xuất hiện so với grounth truth, tuy
nhiên lại tồn tại một phát hiện khác cũng tại đúng vị trí này như với độ tin cậy
còn cao hơn.
Một đại lượng đo quan trọng khác là false negative (FN) được định nghĩa
là những trường hợp mà chưa được phát hiện với độ tin cậy cao hơn ngưỡng 휃.
Do các số tuyệt đối thường không dễ diễn giải, nên TP, FP và FN thường được
thể hiện dưới dạng chỉ số tương đối là Precision và Recall. Precision là tỷ lệ
giữa số lượng phát hiện chính xác trên tất cả các phát hiện có độ tin cậy cao
hơn ngưỡng 휃. Recall là tỷ lệ giữa số lượng phát hiện chính xác trên tất cả các
51
phát hiện. mà tất các các thể hiện của đối tượng đã được phát hiện thành công.
Giá trị của Precision và Recall được tính theo công thức (2.6) và (2.7) sau:
푃 푒 푖푠푖표푛 = (2.6)
푅푒 푙푙 = (2.7)
Ngoài độ đo ước lượng khả năng dò tìm đối tượng, vấn đề khác là ước
lượng về độ chính xác vị trí xuất hiện cũng cần được xem xét. Để ước lượng
độ chính xác vị trí xuất hiện, độ đo IoU được sử dụng để đo độ chồng lấp giữa
vùng tìm thấy và vùng grouth truth trong ảnh huấn luyện được tính theo công
thức trong hình 2.2.
Với một số tập dữ liệu, một ngưỡng tin cậy cho hệ số 표푈 có thể được
đặt mặc định trước (ví dụ 0.5) trong khi phân lớp để xác định phát hiện tìm thấy
là TP hay FN.
Chúng ta có thể vẽ các điểm giá trị Precision và Recall tương ứng với tất
cả các ngưỡng tin cậy trên hệ trục tọa độ không gian hai chiều tạo ra đường
cong Precision-Recall (PR). Để đưa ra một con số duy nhất đo chất lượng tổng
thể của mô hình phát hiện đối tượng, độ chính xác trung bình (Average
Precision-AP) là diện tích vùng nằm dưới đường cong PR được sử dụng. Giá
trị AP được tính từ Precision và Recall theo quy tắc hình thang.
Đối với mô hình dò tìm đa lớp, định nghĩa về TP và FP có một số điều
chỉnh: TP lúc này được định nghĩa là số phát hiện đúng lớp, thỏa mãn ngưỡng
tin cậy và chính xác về vị trí. Với FP là các phát hiện thỏa mãn một trong ba
điều kiện thay vì hai như được định nghĩa cho mô hình nhận dạng đơn lớp gồm:
(1) phát hiện thỏa mãn ngưỡng tin cậy nhưng sai vị trí. (2) phát hiện đúng lớp,
thỏa mãn ngưỡng tin cậy và tại đúng vị trí, nhưng tồn tại một phát hiện khác có
độ tin cậy cao hơn khi xem xét cùng một grounth-truth tương ứng. (3) phát hiện
thỏa mãn ngưỡng tin cậy, chính xác về vị trí nhưng với sai lớp.
52
Ước lượng, đánh giá cho mô hình dò tìm đa lớp có thể được mở rộng từ
phương pháp ước lượng, đánh giá cho mô hình dò tìm đơn lớp theo cách khá
đơn giản nếu xem xét bài toán dò tìm đa lớp như là một chuỗi phát hiện đơn
lớp. Có nghĩa là chúng ta thực hiện lần lượt mô hình để dò tìm một lớp đối
tượng cụ thể trong các grounth truth của lớp đối tượng này mà không cần xem
xét đến grounth truth của đối tượng khác. Áp dụng độ đo ước lượng cho các
lần rời rạc này và có được AP cho mỗi lớp. Chỉ số cuối cùng để đo độ chính
xác của mô hình được thực hiện thông qua độ chính xác trung bình (mean
Average Precision - mAP), lúc này đơn giản là giá trị trung bình trên tất cả các
AP.
2.1.3.3. Môi trường cài đặt
Môi trường phần cứng thực nghiệm cho bài toán dò tìm đối tượng trong
video được minh họa cụ thể trong bảng 2.1. Các kết luận được rút ra từ thực
nghiệm trên máy chủ GPU. GPU được sử dụng là Nvidia Tesla K80, bộ nhớ
video 24GB, và chạy hệ điều hành Ubuntu 14 với bộ nhớ trong 64GB.
Bảng 2.1. Thông số phần cứng thực nghiệm mô hình YOLO-Adv
Phần cứng Môi trường
Máy tính GPU server
CPU Intel(R) Xeon(R) CPU E5-2683 v3 @ 2.00 GHz
GPU Nvidia Tesla K80 × 4
Bộ nhớ trong 64 GB
2.1.3.4. Ước lượng, đánh giá
Trong phần thực nghiệm, để đánh giá mức độ hiệu quả của từng cải tiến
so với mô hình gốc, luận án thực nghiệm trên 3 mô hình: mô hình YOLOv3
nguyên bản, mô hình YOLO-Loss có kiến trúc mạng giống như trong mô hình
YOLOv3 nhưng sử dụng hàm loss cải tiến trong phương trình (2.5) và mô hình
53
YOLO-Adv có sử dụng hàm loss mới cùng với kiến trúc mạng cải tiến. Trong
quá trình huấn luyện, các thông số của cả 3 mô hình YOLOv3, YOLO-Loss và
YOLO-Adv cùng được thiết lập tương tự nhau, tỷ lệ học khởi tạo là 0,0001.
Epoch lớn nhất, kích thước batch, momentum được đặt lần lượt là 1000, 64 và
0,9. Sau mỗi 10 epoch, kích thước đầu vào được chọn ngẫu nhiên để đưa vào
huấn luyện. Vì hệ số giảm kích thước là 32 nên tất cả ảnh đầu vào ngẫu nhiên
này phải được điều chỉnh kích thước về số là bội của 32, với kích thước bé nhất
là 353x352 và lớn nhất là 606x608. Số vòng lặp được sử dụng trong pha huấn
luyện là 25.000 vòng lặp, trong đó một vòng lặp tương ứng với 1 nhóm 64 ảnh.
Cấu hình này làm cho phương pháp huấn luyện có thể cho ra mô hình cuối cùng
dự đoán tốt hơn với nhiều kích thước khác nhau, trong khi các ảnh đầu vào có
độ phân giải khác nhau cũng làm gia tăng tính bền vững của mô hình.
Ước lượng pha huấn luyện
Mức độ hiệu quả của cả 3 mô hình YOLOv3, YOLO-Loss và YOLO-
Adv trong pha huấn luyện được đánh giá, ước lượng dựa trên các chỉ số về giá
trị hàm loss trung bình và giá trị IoU trong khi tập dữ liệu Flicrklogo-47 được
dùng để huấn luyện.
Hình 2.5. Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47
54
Với giá trị hàm loss trung bình, đồ thị biến thiên của nó cho cả 3 mô hình
theo số vòng lặp trong quá trình huấn luyện được minh hoạ trong biểu đồ hình
2.5. Đồ thị này chứng tỏ giá trị hàm loss trung bình của cả 3 mô hình đều có
khuynh hướng giảm nhanh trong 5000 vòng lặp đầu tiên, giảm từ từ trong 1000
vòng lặp tiếp theo và giữ ổn định tại giá trị rất nhỏ sau khoảng 15000 vòng lặp.
Tuy nhiên, trong ba mô hình thì YOLO-Adv có giá trị hàm loss trung bình giảm
nhanh nhất tại thời điểm bắt đầu theo sau bởi mô hình YOLO-Loss. Nguyên
nhân chính đẩy mạnh tốc độ hội tụ của mô hình YOLO-Adv là do chiến lược
hợp nhất đặc trưng đa tầng để nhận dạng đối tượng ở một mức tỷ lệ thay vì 3
tỷ lệ như trong kiến trúc mạng của YOLOv3 và YOLO-Loss. Bên cạnh đó, giá
trị hàm loss trung bình của mô hình YOLO-Adv mặc dù dao động trong suốt
quá trình huấn luyện, nhưng đạt giá trị nhỏ nhất đầu tiên trong ba mô hình và
đạt giá trị rất nhỏ và nhỏ nhất trong tất cả. Điều này chứng tỏ kiến trúc mạng
YOLO-Adv cho phù hợp với tập dữ liệu FlicrkLogos-47 và dự đoán cho kết
quả khả quan trong dò tìm đối tượng quảng cáo.
(a) YOLOv3 (b) YOLO-Loss (c) YOLO-Adv
Hình 2.6. Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47
Bên cạnh giá trị hàm loss trung bình, kết quả sự biến thiên về giá trị IoU
– đại lượng thể hiện độ chính xác trong việc định vị các bounding box của 3
mô hình huấn luyện trên tập dữ liệu flicrkLogos-47 được thể hiện trong hình
55
2.6. Với cả ba mô hình giá trị IoU đều có khuynh hướng tăng mạnh trong 5000
vòng lặp đầu tiên, sau đó tăng đều và có giá trị ổn định trong khoảng [0.7;1.0].
Như vậy, cả 3 mô hình đều cho độ chính xác cao khi định vị đối tượng. Mặc dù
YOLO-Adv không cho kết quả vượt trội nhưng kết quả so sánh cho thấy giá trị
IoU của mô hình YOLO-Adv có khuynh hướng tăng nhanh nhất trong ba mô
hình, tức là tốc độ huấn luyện nhanh nhất và cũng giữ giá trị ổn định ở mức cao
nhất, nghĩa là độ chính xác trong dò tìm đối tượng cao nhất.
Bảng 2.2. Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47
Adidas Adidas Becks Beck
Aldi Apple BMW
symbol text symbol text
YOLOv3 62.0 33.5 72.0 84.1 76.1 64.0 85.2
YOLO-Loss 70.0 39.5 88.5 93.0 81.1 66.1 83.2
YOLO-Adv 69.4 54.9 85.3 92.4 81.8 68.9 84.0
Carlberg Carlberg Chimay Chimay Corona Corona
Cocacola
symbol text Symbol text symbol text
YOLOv3 69.2 60.0 92.4 79.1 61.7 82.3 84.6
YOLO-Loss 73.5 62.4 92.9 81.6 64.2 90.9 87.4
YOLO-Adv 71.1 68.5 93.2 78.4 68.2 94.9 89.1
Erdinger Erdinger Esso Esso
DHL Fedex Ferrari
symbol Text symbol text
YOLOv3 62.2 92.2 91.6 92.9 19.7 84.1 94.9
YOLO-Loss 69.0 95.3 90.6 93.1 23.8 86.6 95.4
YOLO-Adv 85.0 95.7 93.9 95.9 35.5 87.7 95
Fosters Fosters Guiness Guiness
Ford Google Heineken
symbol Text symbol text
YOLOv3 87.6 82.2 77.5 80.9 84.8 64.9 54.7
YOLO-Loss 90.4 84.5 72.8 81.5 92.9 67.0 66.1
YOLO-Adv 93.2 88.3 80.6 73.4 86.5 68.7 76.6
nVidia nVidia Paulaner Paulaner Pepsi
HP Mika
symbol text symbol text symbol
YOLOv3 83.9 57.1 64.1 26.1 88.2 46.7 42.1
YOLO-Loss 81.1 65.5 74.3 32.8 91.2 42.0 44.2
YOLO-Adv 82.3 72.7 68.5 42.5 92.6 53.8 58.9
Pepsi Singha Singha Stellart
Rittersport Shell Starbucks
text symbol text symbol
YOLOv3 27.1 71.2 87.3 97.5 90.8 84.2 92.6
YOLO-Loss 22.7 83.3 98.8 98.1 90.5 83.8 91.3
YOLO-Adv 36.2 81.4 94.1 98.4 83.5 93.9 95.8
56
Stellart Tsingt. Tsingt.
Texaco UPS mAP s/Img
text Symbol text
YOLOv3 97.0 89.7 82 78.7 93.1 74.0 0.038
YOLO-Loss 95.8 95.7 89.5 79.3 95.3 77.4 0.032
YOLO-Adv 97.9 93.3 86.7 81.0 97.4 80.2 0.028
Từ những phân tích trên pha huấn luyện cho thấy những cải tiến trong
hàm loss và kiến trúc mạng của mô hình YOLO-Adv làm cho nó thích hợp với
tập dữ liệu huấn luyện Flickrlogos-47. Những cải tiến không những làm thúc
đẩy nhanh quá trình hội tụ của mạng mà còn cho độ chính xác cao trong định
vị các bounding box chứa đối tượng.
Ước lượng pha kiểm thử
Độ chính xác trong phân lớp của mô hình YOLO-Adv cũng lần lượt được
so sánh với các mô hình YOLOv3 và YOLO-Loss trên tập dữ liệu huấn luyện
Flickrlogos-47 với ngưỡng = 0.5, sử dụng các độ đo ước lượng được trình
bày trong phần 2.2.3.2. Bảng 2.2 thống kế giá trị AP cho từng lớp cụ thể kèm
theo giá trị mAP tổng hợp và thời gian thực thi trung bình trên mỗi ảnh. Kết
quả cho thấy, hiệu năng thực thi tổng thể trong pha phân lớp đối tượng của mô
hình YOLO-Loss và YOLO-Adv được cải thiện lần lượt thêm 3.4 điểm (tương
ứng 4.6%) và 6.2 điểm (tương ứng 8.38%) so với mô hình YOLOv3 nguyên
bản. Trong khi đó, hiệu năng của mô hình YOLO-Adv được tăng thêm 2.8 điểm
(tương ứng 3.62%) so với mô hình chỉ sử dụng hàm loss cải tiến mà không cần
đến chiến lược hợp nhất đa tầng, loại bỏ các tầng lặp ở mức cao là YOLO-Loss.
Ngoài ra, thời gian thực thi trong khi dò tìm đối tượng trung bình trên
một ảnh của mô hình cải tiến cuối cùng YOLO-Adv có tốc độ nhanh nhất đạt
0.028s (tương ứng với tốc độ xử lý 35 ảnh trong 1 giây (FPS)). Tốc độ này được
cải thiện đáng kể so với 2 mô hình YOLO-Loss và YOLOv3 có tốc độ dò tìm
lần lượt là 0.032s và 0.038s. Thời gian thực thi của mô hình cải tiến thu được
đã thỏa mãn tiêu chí đặt ra ban đầu khi phát triển mô hình, một nhân tố quan
trọng để ứng dụng cho bài toán phát hiện và thay thế đối tượng trong video
đang được nghiên cứu giải quyết.
57
Hình 2.7. Một số hình ảnh dò tìm đối tượng quảng cáo
Một số kết quả trực quan trong dò tìm đối tượng của mô hình cải tiến được thể
hiện trong hình 2.7. Các kết quả trực quan một lần nữa khẳng định mô hình cải
tiến cho hiệu quả tốt với cả dò tìm đơn và đa đối tượng trong một frame ảnh.
Bất kể là trong điều kiện ánh sáng bất lợi, khả năng định vị các logo trong ảnh
và khả năng phân lớp của mô hình cải tiến rất ít bị ảnh hưởng. Nghĩa là mô hình
cải tiến có khả năng thích nghi cao với nhiễu và sự thay đổi về cường độ sáng.
Hơn nữa, các kết quả nhận dạng ở hàng thứ 3 trong hình 2.7 cho thấy logo mặc
dù bị che khuất một phần nhưng mô hình vẫn nhận dạng tương đối chính xác.
Kết quả trực quan này phản ánh giá trị của các đặc trưng cục bộ ở tầng thấp khi
được kết hợp cùng với các đặc trưng mức cao. Điều này một lần nữa minh
chứng cho độ hiệu quả của chiến lược hợp nhất đặc trưng đa tầng.
58
Bảng 2.3. So sánh mAP của các mô hình dò tìm đối tượng trên tập dữ liệu
Flickrlogos-32
YOLO-Adv Fast-M DeepLogo SCL DB-FRCN-M
82.4 84.2 74.4 81.1 73.5
So sánh với các cách tiếp cận khác trên tập Flickrlogos-32
Trong nghiên cứu này, mô hình cải tiến cũng đã được thực nghiệm huấn
luyện trên tập dữ liệu Flickrlogos-32 nhằm so sánh mô hình cải tiến với các
cách tiếp cận nổi bật khác cho bài toán nhận dạng logo đã được thực nghiệm
trên tập dữ liệu này. Những cách tiếp cận gần đây nhất gồm: (1) DeepLogo [35]
là một trong các mô hình nhận dạng logo đầu tiên sử dụng bộ dò tìm đối tượng
xây dựng trên nền Fast R-CNN cho bài toán nhận dạng logo. (2) BD-FRCN-M
[63] có cách tiếp cận khác dựa trên Fast R-CNN với tập dữ liệu gia tăng bằng
các phép biến đổi hình học. (3) SCL [75] dựa trên Faster R-CNN với tập dữ
liệu Flickrlogos-32 mà trong đó tập huấn luyện được mở rộng bằng cách thêm
các ảnh tổng hợp. (4) Fast-M [5] là cách tiếp cận đa tỷ lệ với Fast R-CNN.
Tất cả các nghiên cứu đề cập trên đều sử dụng tập dữ liệu Flickrlogos-
32 được thiết kế chủ yếu cho bài toán truy vấn ảnh để ước lượng mô hình. Do
đó các tác giả không đưa ra các script cho việc dò tìm đối tượng, mà chỉ đưa ra
các script phân loại ảnh, tức là đưa ra ảnh có chứa hay không chứa các logo và
được phân loại dựa trên nội dung của chúng. Trong khi đó vị trí của logo không
đòi hỏi phải xác định. Điều này gây ra khó khăn trong việc thông dịch các kết
quả do các tác giả trên đưa ra. Duy chỉ có một ngoại lệ là DeepLogo được
nghiên cứu trong [35], tác giả đã ước lượng cách tiếp cận của mình trên
Flickrlogos-32 với sự phân biệt rõ ràng giữa việc dò tìm logo kèm theo vị trí và
dò tìm không kèm theo vị trí.
Kết quả so sánh của mô hình cải tiến với các cách tiếp cận đề cập bên
trên cho bài toán dò tìm logo trên tập dữ liệu Flickrlogos-32 được thể hiện trong
bảng 2.3. Vì Flickrlogos-32 là tập dữ liệu cho bài toán thu nhận ảnh, phương
59
thức ước lượng mà các tác giả sử dụng cho bài toán dò tìm không rõ ràng. Do
đó, sự so sánh giữa các giá trị này chỉ mang tính tương đối. Tuy nhiên kết quả
vẫn cho thấy mô hình YOLO-Adv cho kết quả tốt nhất so với tất cả các cách
tiếp cận khác ngoại trừ Fast-M [5]. Fast-M là cách tiếp cận dựa trên Fast R-
CNN đa tỉ lệ cho phép tăng tỷ lệ của ảnh đầu vào để cải tiến hiệu năng dò tìm.
Fast-M không chỉ thay đổi tỷ lệ của ảnh một lần mà là 5 lần. Kết quả về thời
gian không được tác giả đưa ra, nhưng chắc chắn thời gian chạy mô hình Fast-
M là rất chậm khi so sánh với cách tiếp cận YOLO-Adv.
2.2. Nhận dạng hình dạng đối tượng
Trong phần 2.1, luận án đã trình bày chi tiết mô hình YOLO-Adv được
sử dụng để dò tìm và trích chọn được vector đặc trưng D chiều (D = 4096) của
đối tượng xuất hiện trong video. Mô hình này cũng được sử dụng để tạo lập
một tập dữ liệu các vector đặc trưng D của tập ảnh hình dạng đối tượng. Dựa
trên tập dữ liệu vector đặc trưng này để nhận diện hình dạng của đối tượng
trong video, luận án đề xuất giải pháp tìm kiếm một hình dáng tương đồng nhất
với đối tượng truy vấn trong tập dữ liệu các loại hình dạng của đối tượng này.
Tức là tìm kiếm một vector đặc trưng trong tập mẫu gần nhất với vector đặc
trưng truy vấn.
Tuy nhiên, do tập vector đặc trưng của tập dữ liệu hình ảnh mẫu rất lớn
(có thể lên đến hàng triệu bản ghi) và số chiều khá lớn (4096 chiều) nên việc
đối sánh, tìm kiếm chính xác là không khả thi. Vì vậy, tập dữ liệu vector đặc
trưng của hình ảnh mẫu cần được tổ chức, lập chỉ mục một cách hợp lý, hiệu
quả trước khi kỹ thuật tìm kiếm ANN được áp dụng để tìm ra vector đặc trưng
tương đồng nhất (hình ảnh tương đồng nhất) với vector đặc trưng (hình ảnh)
truy vấn. PQ đã được trình bày tổng quan là kỹ thuật hiệu quả nhất để xử lý vấn
đề lập chỉ mục này, tuy nhiên tốc độ và độ chính xác vẫn chưa được mong đợi.
Trong phần này, luận án trình bày phương pháp đề xuất PSVQ (product sub-
vector quatization) được cải tiến từ phương pháp PQ cho độ chính xác và tốc
60
độ xử lý vượt trội so với PQ gốc và các cải tiến khác quả PQ. Sau đó kỹ thuật
tìm kiếm ANN luận án kế thừa từ nghiên cứu [2] dựa trên cấu trúc cây phân
cấp thứ bậc được áp dụng trên tập chỉ mục sinh ra bởi PSVQ để tìm ra hình
dạng tương đồng nhất với đối tượng truy vấn.
Tương tự như kỹ thuật dò tìm đối tượng được trình bày trong chương
trước đó, mục tiêu cốt lõi cần đạt được khi phát triển kỹ thuật nhận dạng hình
thể của đối tượng là tốc độ tìm khi xem xét độ chính xác trung bình ở mức cao
(> 90%). Để đạt được mục tiêu này chất lượng mã hóa và cách thức tổ chức tìm
kiếm là các vấn đề cần phải giải quyết trong luận án này. Chi tiết về kỹ thuật
PSVQ và kỹ thuật tìm kiếm dựa trên cây phân cụm thứ bậc được trình bày trong
các mục 2.2.1 và 2.2.2. Cuối cùng, các ước lượng thực nghiệm về chất lượng
mã hóa dữ liệu và tốc độ tìm kiếm cũng như các kết quả so sánh với các kỹ
thuật phổ biến khác được trình bày trong phần 2.2.3.
2.2.1. Mô hình lập chỉ mục PSVQ
Tập ảnh tư thế huấn luyện của một đối tượng sau khi truyền qua mạng
YOLO-Adv cho ra một tập dữ liệu gồm vector đặc trưng trong không gian
vector đặc trưng D (D=4096) chiều 푅( ) được ký hiệu là tập X. Ký hiệu ∈
là một vector hay điểm dữ liệu trong tập dữ liệu X. Ngoài ra, ký hiệu ( ) ∈
( )
푅 là vector con thứ j của x với j=1,2, m.
Như đã được trình bày chi tiết trong mục 1.2, với phương pháp lượng tử
hóa tích đề các (PQ), không gian dữ liệu gốc X trước hết được chia thành m
không gian con phân biệt tách rời nhau. Như vậy, một vector ∈ được chia
thành m vector con: ( ), ( ), ( ), mỗi vector con này có số chiều là D/m.
Tiếp theo VQ được áp dụng cho các vector con trong từng không gian con này
một cách rời rạc để tạo ra cho mỗi không gian con này một codebook. Gọi
là codebooFile đính kèm:
luan_an_nghien_cuu_cai_tien_ky_thuat_nhan_dang_va_thay_the_d.pdf
tom tat luan an NCS Le Dinh Nghiep 8_2020.pdf
trang thong tin luan an - Le Dinh Nghiep.docx

