Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video
u kiểm thử Hiện tại, không có nhiều tập dữ liệu phổ biến trong cộng đồng thị giác máy tính dùng để huấn luyện và kiểm thử cho bài toán dò tìm đối tượng quảng cáo. Một trong số đó là tập dữ liệu METU [78] với số lượng mẫu rất lớn gồm 923.343 thể hiện của 687,842 trademark khác nhau. Tuy nhiên tập dữ liệu này chủ yếu được xây dựng cho bài toán truy vấn trademark trong ảnh và không mở rộng cho bài toán dò tìm, phát hiện trademark. Nó chỉ cung cấp các chú thích mức ảnh và không chứa các ảnh trong thế giới thực. Mỗi ảnh thường gồm một hình logo trên nền màu trắng đồng nhất. Một tập dữ liệu lớn khác hướng tới các đối tượng hình ảnh quảng bá thương hiệu là Logos in the Wild [79]. Tập dữ liệu này bao gồm 32.850 thể hiện logo đã được đánh dấu của 871 nhãn hiệu khác nhau. Với chất lượng của các thể hiện logo và chú thích cho tập dữ liệu này tương đối tốt nhưng lại tồn tại một số trở ngại lớn ảnh hưởng đến việc áp dụng là thiếu một script ước lượng chuẩn, các ảnh không sẵn có để tải về và cũng chỉ tập trung cho bài toán truy vấn logo. Ngoài ra còn có một số tập dữ liệu về logo nhưng không được sử dụng nhiều ngay cả cho bài toán truy vấn đối tượng quảng cáo như BelgaLogos [40] và LOGONet [33] do hạn chế về số lượng cũng như mức chú thích về đối tượng. Vì vậy các bộ dữ liệu này không 50 được sử dụng trong luận án. Để huấn luyện và kiểm thử mô hình dò tìm đối tượng quảng cáo trong video, luận án sử dụng bộ dữ liệu Flickrlogos-47 mới được phát triển gần đây có các chú thích ở mức đối tượng rất chi tiết, đầy đủ phù hợp cho bài toán dò tìm đối tượng quảng cáo. Chi tiết về bộ dữ liệu Flickrlogos-47 được trình bày trong phụ lục A. 2.1.3.2. Độ đo ước lượng Độ đo Precision và Recall [43] là các độ đo thông dụng thường được sử dụng để ước lượng mô hình dò tìm đối tượng đơn lớp, tức là phát hiện ra nhãn một lớp của đối tượng so với nền và được tổng quát hóa cho các bài toán dò tìm đa lớp – phát hiện một số lớp đối tượng trong ảnh. Mô hình dò tìm đối tượng đưa ra một danh sách các kết quả phát hiện được. Mỗi phát hiện được phân loại vào một trong hai nhóm: true positives (TP) và false positives (FP). TP là dự đoán sự xuất hiện của một đối tượng tại đúng vị trí với độ tin cậy cao hơn ngưỡng 휃. Trong khi đó với dự đoán cho kết quả FP có thể xảy ra trong hai tình huống: (1) Một phát hiện với độ tin cậy cao hơn ngưỡng 휃 nhưng dự đoán sai vị trí so với grounth truth. (2) Một phát hiện với độ chính xác cao hơn ngưỡng 휃 và dự đoán chính xác vị trí xuất hiện so với grounth truth, tuy nhiên lại tồn tại một phát hiện khác cũng tại đúng vị trí này như với độ tin cậy còn cao hơn. Một đại lượng đo quan trọng khác là false negative (FN) được định nghĩa là những trường hợp mà chưa được phát hiện với độ tin cậy cao hơn ngưỡng 휃. Do các số tuyệt đối thường không dễ diễn giải, nên TP, FP và FN thường được thể hiện dưới dạng chỉ số tương đối là Precision và Recall. Precision là tỷ lệ giữa số lượng phát hiện chính xác trên tất cả các phát hiện có độ tin cậy cao hơn ngưỡng 휃. Recall là tỷ lệ giữa số lượng phát hiện chính xác trên tất cả các 51 phát hiện. mà tất các các thể hiện của đối tượng đã được phát hiện thành công. Giá trị của Precision và Recall được tính theo công thức (2.6) và (2.7) sau: 푃 푒 푖푠푖표푛 = (2.6) 푅푒 푙푙 = (2.7) Ngoài độ đo ước lượng khả năng dò tìm đối tượng, vấn đề khác là ước lượng về độ chính xác vị trí xuất hiện cũng cần được xem xét. Để ước lượng độ chính xác vị trí xuất hiện, độ đo IoU được sử dụng để đo độ chồng lấp giữa vùng tìm thấy và vùng grouth truth trong ảnh huấn luyện được tính theo công thức trong hình 2.2. Với một số tập dữ liệu, một ngưỡng tin cậy cho hệ số 표푈 có thể được đặt mặc định trước (ví dụ 0.5) trong khi phân lớp để xác định phát hiện tìm thấy là TP hay FN. Chúng ta có thể vẽ các điểm giá trị Precision và Recall tương ứng với tất cả các ngưỡng tin cậy trên hệ trục tọa độ không gian hai chiều tạo ra đường cong Precision-Recall (PR). Để đưa ra một con số duy nhất đo chất lượng tổng thể của mô hình phát hiện đối tượng, độ chính xác trung bình (Average Precision-AP) là diện tích vùng nằm dưới đường cong PR được sử dụng. Giá trị AP được tính từ Precision và Recall theo quy tắc hình thang. Đối với mô hình dò tìm đa lớp, định nghĩa về TP và FP có một số điều chỉnh: TP lúc này được định nghĩa là số phát hiện đúng lớp, thỏa mãn ngưỡng tin cậy và chính xác về vị trí. Với FP là các phát hiện thỏa mãn một trong ba điều kiện thay vì hai như được định nghĩa cho mô hình nhận dạng đơn lớp gồm: (1) phát hiện thỏa mãn ngưỡng tin cậy nhưng sai vị trí. (2) phát hiện đúng lớp, thỏa mãn ngưỡng tin cậy và tại đúng vị trí, nhưng tồn tại một phát hiện khác có độ tin cậy cao hơn khi xem xét cùng một grounth-truth tương ứng. (3) phát hiện thỏa mãn ngưỡng tin cậy, chính xác về vị trí nhưng với sai lớp. 52 Ước lượng, đánh giá cho mô hình dò tìm đa lớp có thể được mở rộng từ phương pháp ước lượng, đánh giá cho mô hình dò tìm đơn lớp theo cách khá đơn giản nếu xem xét bài toán dò tìm đa lớp như là một chuỗi phát hiện đơn lớp. Có nghĩa là chúng ta thực hiện lần lượt mô hình để dò tìm một lớp đối tượng cụ thể trong các grounth truth của lớp đối tượng này mà không cần xem xét đến grounth truth của đối tượng khác. Áp dụng độ đo ước lượng cho các lần rời rạc này và có được AP cho mỗi lớp. Chỉ số cuối cùng để đo độ chính xác của mô hình được thực hiện thông qua độ chính xác trung bình (mean Average Precision - mAP), lúc này đơn giản là giá trị trung bình trên tất cả các AP. 2.1.3.3. Môi trường cài đặt Môi trường phần cứng thực nghiệm cho bài toán dò tìm đối tượng trong video được minh họa cụ thể trong bảng 2.1. Các kết luận được rút ra từ thực nghiệm trên máy chủ GPU. GPU được sử dụng là Nvidia Tesla K80, bộ nhớ video 24GB, và chạy hệ điều hành Ubuntu 14 với bộ nhớ trong 64GB. Bảng 2.1. Thông số phần cứng thực nghiệm mô hình YOLO-Adv Phần cứng Môi trường Máy tính GPU server CPU Intel(R) Xeon(R) CPU E5-2683 v3 @ 2.00 GHz GPU Nvidia Tesla K80 × 4 Bộ nhớ trong 64 GB 2.1.3.4. Ước lượng, đánh giá Trong phần thực nghiệm, để đánh giá mức độ hiệu quả của từng cải tiến so với mô hình gốc, luận án thực nghiệm trên 3 mô hình: mô hình YOLOv3 nguyên bản, mô hình YOLO-Loss có kiến trúc mạng giống như trong mô hình YOLOv3 nhưng sử dụng hàm loss cải tiến trong phương trình (2.5) và mô hình 53 YOLO-Adv có sử dụng hàm loss mới cùng với kiến trúc mạng cải tiến. Trong quá trình huấn luyện, các thông số của cả 3 mô hình YOLOv3, YOLO-Loss và YOLO-Adv cùng được thiết lập tương tự nhau, tỷ lệ học khởi tạo là 0,0001. Epoch lớn nhất, kích thước batch, momentum được đặt lần lượt là 1000, 64 và 0,9. Sau mỗi 10 epoch, kích thước đầu vào được chọn ngẫu nhiên để đưa vào huấn luyện. Vì hệ số giảm kích thước là 32 nên tất cả ảnh đầu vào ngẫu nhiên này phải được điều chỉnh kích thước về số là bội của 32, với kích thước bé nhất là 353x352 và lớn nhất là 606x608. Số vòng lặp được sử dụng trong pha huấn luyện là 25.000 vòng lặp, trong đó một vòng lặp tương ứng với 1 nhóm 64 ảnh. Cấu hình này làm cho phương pháp huấn luyện có thể cho ra mô hình cuối cùng dự đoán tốt hơn với nhiều kích thước khác nhau, trong khi các ảnh đầu vào có độ phân giải khác nhau cũng làm gia tăng tính bền vững của mô hình. Ước lượng pha huấn luyện Mức độ hiệu quả của cả 3 mô hình YOLOv3, YOLO-Loss và YOLO- Adv trong pha huấn luyện được đánh giá, ước lượng dựa trên các chỉ số về giá trị hàm loss trung bình và giá trị IoU trong khi tập dữ liệu Flicrklogo-47 được dùng để huấn luyện. Hình 2.5. Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47 54 Với giá trị hàm loss trung bình, đồ thị biến thiên của nó cho cả 3 mô hình theo số vòng lặp trong quá trình huấn luyện được minh hoạ trong biểu đồ hình 2.5. Đồ thị này chứng tỏ giá trị hàm loss trung bình của cả 3 mô hình đều có khuynh hướng giảm nhanh trong 5000 vòng lặp đầu tiên, giảm từ từ trong 1000 vòng lặp tiếp theo và giữ ổn định tại giá trị rất nhỏ sau khoảng 15000 vòng lặp. Tuy nhiên, trong ba mô hình thì YOLO-Adv có giá trị hàm loss trung bình giảm nhanh nhất tại thời điểm bắt đầu theo sau bởi mô hình YOLO-Loss. Nguyên nhân chính đẩy mạnh tốc độ hội tụ của mô hình YOLO-Adv là do chiến lược hợp nhất đặc trưng đa tầng để nhận dạng đối tượng ở một mức tỷ lệ thay vì 3 tỷ lệ như trong kiến trúc mạng của YOLOv3 và YOLO-Loss. Bên cạnh đó, giá trị hàm loss trung bình của mô hình YOLO-Adv mặc dù dao động trong suốt quá trình huấn luyện, nhưng đạt giá trị nhỏ nhất đầu tiên trong ba mô hình và đạt giá trị rất nhỏ và nhỏ nhất trong tất cả. Điều này chứng tỏ kiến trúc mạng YOLO-Adv cho phù hợp với tập dữ liệu FlicrkLogos-47 và dự đoán cho kết quả khả quan trong dò tìm đối tượng quảng cáo. (a) YOLOv3 (b) YOLO-Loss (c) YOLO-Adv Hình 2.6. Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47 Bên cạnh giá trị hàm loss trung bình, kết quả sự biến thiên về giá trị IoU – đại lượng thể hiện độ chính xác trong việc định vị các bounding box của 3 mô hình huấn luyện trên tập dữ liệu flicrkLogos-47 được thể hiện trong hình 55 2.6. Với cả ba mô hình giá trị IoU đều có khuynh hướng tăng mạnh trong 5000 vòng lặp đầu tiên, sau đó tăng đều và có giá trị ổn định trong khoảng [0.7;1.0]. Như vậy, cả 3 mô hình đều cho độ chính xác cao khi định vị đối tượng. Mặc dù YOLO-Adv không cho kết quả vượt trội nhưng kết quả so sánh cho thấy giá trị IoU của mô hình YOLO-Adv có khuynh hướng tăng nhanh nhất trong ba mô hình, tức là tốc độ huấn luyện nhanh nhất và cũng giữ giá trị ổn định ở mức cao nhất, nghĩa là độ chính xác trong dò tìm đối tượng cao nhất. Bảng 2.2. Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47 Adidas Adidas Becks Beck Aldi Apple BMW symbol text symbol text YOLOv3 62.0 33.5 72.0 84.1 76.1 64.0 85.2 YOLO-Loss 70.0 39.5 88.5 93.0 81.1 66.1 83.2 YOLO-Adv 69.4 54.9 85.3 92.4 81.8 68.9 84.0 Carlberg Carlberg Chimay Chimay Corona Corona Cocacola symbol text Symbol text symbol text YOLOv3 69.2 60.0 92.4 79.1 61.7 82.3 84.6 YOLO-Loss 73.5 62.4 92.9 81.6 64.2 90.9 87.4 YOLO-Adv 71.1 68.5 93.2 78.4 68.2 94.9 89.1 Erdinger Erdinger Esso Esso DHL Fedex Ferrari symbol Text symbol text YOLOv3 62.2 92.2 91.6 92.9 19.7 84.1 94.9 YOLO-Loss 69.0 95.3 90.6 93.1 23.8 86.6 95.4 YOLO-Adv 85.0 95.7 93.9 95.9 35.5 87.7 95 Fosters Fosters Guiness Guiness Ford Google Heineken symbol Text symbol text YOLOv3 87.6 82.2 77.5 80.9 84.8 64.9 54.7 YOLO-Loss 90.4 84.5 72.8 81.5 92.9 67.0 66.1 YOLO-Adv 93.2 88.3 80.6 73.4 86.5 68.7 76.6 nVidia nVidia Paulaner Paulaner Pepsi HP Mika symbol text symbol text symbol YOLOv3 83.9 57.1 64.1 26.1 88.2 46.7 42.1 YOLO-Loss 81.1 65.5 74.3 32.8 91.2 42.0 44.2 YOLO-Adv 82.3 72.7 68.5 42.5 92.6 53.8 58.9 Pepsi Singha Singha Stellart Rittersport Shell Starbucks text symbol text symbol YOLOv3 27.1 71.2 87.3 97.5 90.8 84.2 92.6 YOLO-Loss 22.7 83.3 98.8 98.1 90.5 83.8 91.3 YOLO-Adv 36.2 81.4 94.1 98.4 83.5 93.9 95.8 56 Stellart Tsingt. Tsingt. Texaco UPS mAP s/Img text Symbol text YOLOv3 97.0 89.7 82 78.7 93.1 74.0 0.038 YOLO-Loss 95.8 95.7 89.5 79.3 95.3 77.4 0.032 YOLO-Adv 97.9 93.3 86.7 81.0 97.4 80.2 0.028 Từ những phân tích trên pha huấn luyện cho thấy những cải tiến trong hàm loss và kiến trúc mạng của mô hình YOLO-Adv làm cho nó thích hợp với tập dữ liệu huấn luyện Flickrlogos-47. Những cải tiến không những làm thúc đẩy nhanh quá trình hội tụ của mạng mà còn cho độ chính xác cao trong định vị các bounding box chứa đối tượng. Ước lượng pha kiểm thử Độ chính xác trong phân lớp của mô hình YOLO-Adv cũng lần lượt được so sánh với các mô hình YOLOv3 và YOLO-Loss trên tập dữ liệu huấn luyện Flickrlogos-47 với ngưỡng = 0.5, sử dụng các độ đo ước lượng được trình bày trong phần 2.2.3.2. Bảng 2.2 thống kế giá trị AP cho từng lớp cụ thể kèm theo giá trị mAP tổng hợp và thời gian thực thi trung bình trên mỗi ảnh. Kết quả cho thấy, hiệu năng thực thi tổng thể trong pha phân lớp đối tượng của mô hình YOLO-Loss và YOLO-Adv được cải thiện lần lượt thêm 3.4 điểm (tương ứng 4.6%) và 6.2 điểm (tương ứng 8.38%) so với mô hình YOLOv3 nguyên bản. Trong khi đó, hiệu năng của mô hình YOLO-Adv được tăng thêm 2.8 điểm (tương ứng 3.62%) so với mô hình chỉ sử dụng hàm loss cải tiến mà không cần đến chiến lược hợp nhất đa tầng, loại bỏ các tầng lặp ở mức cao là YOLO-Loss. Ngoài ra, thời gian thực thi trong khi dò tìm đối tượng trung bình trên một ảnh của mô hình cải tiến cuối cùng YOLO-Adv có tốc độ nhanh nhất đạt 0.028s (tương ứng với tốc độ xử lý 35 ảnh trong 1 giây (FPS)). Tốc độ này được cải thiện đáng kể so với 2 mô hình YOLO-Loss và YOLOv3 có tốc độ dò tìm lần lượt là 0.032s và 0.038s. Thời gian thực thi của mô hình cải tiến thu được đã thỏa mãn tiêu chí đặt ra ban đầu khi phát triển mô hình, một nhân tố quan trọng để ứng dụng cho bài toán phát hiện và thay thế đối tượng trong video đang được nghiên cứu giải quyết. 57 Hình 2.7. Một số hình ảnh dò tìm đối tượng quảng cáo Một số kết quả trực quan trong dò tìm đối tượng của mô hình cải tiến được thể hiện trong hình 2.7. Các kết quả trực quan một lần nữa khẳng định mô hình cải tiến cho hiệu quả tốt với cả dò tìm đơn và đa đối tượng trong một frame ảnh. Bất kể là trong điều kiện ánh sáng bất lợi, khả năng định vị các logo trong ảnh và khả năng phân lớp của mô hình cải tiến rất ít bị ảnh hưởng. Nghĩa là mô hình cải tiến có khả năng thích nghi cao với nhiễu và sự thay đổi về cường độ sáng. Hơn nữa, các kết quả nhận dạng ở hàng thứ 3 trong hình 2.7 cho thấy logo mặc dù bị che khuất một phần nhưng mô hình vẫn nhận dạng tương đối chính xác. Kết quả trực quan này phản ánh giá trị của các đặc trưng cục bộ ở tầng thấp khi được kết hợp cùng với các đặc trưng mức cao. Điều này một lần nữa minh chứng cho độ hiệu quả của chiến lược hợp nhất đặc trưng đa tầng. 58 Bảng 2.3. So sánh mAP của các mô hình dò tìm đối tượng trên tập dữ liệu Flickrlogos-32 YOLO-Adv Fast-M DeepLogo SCL DB-FRCN-M 82.4 84.2 74.4 81.1 73.5 So sánh với các cách tiếp cận khác trên tập Flickrlogos-32 Trong nghiên cứu này, mô hình cải tiến cũng đã được thực nghiệm huấn luyện trên tập dữ liệu Flickrlogos-32 nhằm so sánh mô hình cải tiến với các cách tiếp cận nổi bật khác cho bài toán nhận dạng logo đã được thực nghiệm trên tập dữ liệu này. Những cách tiếp cận gần đây nhất gồm: (1) DeepLogo [35] là một trong các mô hình nhận dạng logo đầu tiên sử dụng bộ dò tìm đối tượng xây dựng trên nền Fast R-CNN cho bài toán nhận dạng logo. (2) BD-FRCN-M [63] có cách tiếp cận khác dựa trên Fast R-CNN với tập dữ liệu gia tăng bằng các phép biến đổi hình học. (3) SCL [75] dựa trên Faster R-CNN với tập dữ liệu Flickrlogos-32 mà trong đó tập huấn luyện được mở rộng bằng cách thêm các ảnh tổng hợp. (4) Fast-M [5] là cách tiếp cận đa tỷ lệ với Fast R-CNN. Tất cả các nghiên cứu đề cập trên đều sử dụng tập dữ liệu Flickrlogos- 32 được thiết kế chủ yếu cho bài toán truy vấn ảnh để ước lượng mô hình. Do đó các tác giả không đưa ra các script cho việc dò tìm đối tượng, mà chỉ đưa ra các script phân loại ảnh, tức là đưa ra ảnh có chứa hay không chứa các logo và được phân loại dựa trên nội dung của chúng. Trong khi đó vị trí của logo không đòi hỏi phải xác định. Điều này gây ra khó khăn trong việc thông dịch các kết quả do các tác giả trên đưa ra. Duy chỉ có một ngoại lệ là DeepLogo được nghiên cứu trong [35], tác giả đã ước lượng cách tiếp cận của mình trên Flickrlogos-32 với sự phân biệt rõ ràng giữa việc dò tìm logo kèm theo vị trí và dò tìm không kèm theo vị trí. Kết quả so sánh của mô hình cải tiến với các cách tiếp cận đề cập bên trên cho bài toán dò tìm logo trên tập dữ liệu Flickrlogos-32 được thể hiện trong bảng 2.3. Vì Flickrlogos-32 là tập dữ liệu cho bài toán thu nhận ảnh, phương 59 thức ước lượng mà các tác giả sử dụng cho bài toán dò tìm không rõ ràng. Do đó, sự so sánh giữa các giá trị này chỉ mang tính tương đối. Tuy nhiên kết quả vẫn cho thấy mô hình YOLO-Adv cho kết quả tốt nhất so với tất cả các cách tiếp cận khác ngoại trừ Fast-M [5]. Fast-M là cách tiếp cận dựa trên Fast R- CNN đa tỉ lệ cho phép tăng tỷ lệ của ảnh đầu vào để cải tiến hiệu năng dò tìm. Fast-M không chỉ thay đổi tỷ lệ của ảnh một lần mà là 5 lần. Kết quả về thời gian không được tác giả đưa ra, nhưng chắc chắn thời gian chạy mô hình Fast- M là rất chậm khi so sánh với cách tiếp cận YOLO-Adv. 2.2. Nhận dạng hình dạng đối tượng Trong phần 2.1, luận án đã trình bày chi tiết mô hình YOLO-Adv được sử dụng để dò tìm và trích chọn được vector đặc trưng D chiều (D = 4096) của đối tượng xuất hiện trong video. Mô hình này cũng được sử dụng để tạo lập một tập dữ liệu các vector đặc trưng D của tập ảnh hình dạng đối tượng. Dựa trên tập dữ liệu vector đặc trưng này để nhận diện hình dạng của đối tượng trong video, luận án đề xuất giải pháp tìm kiếm một hình dáng tương đồng nhất với đối tượng truy vấn trong tập dữ liệu các loại hình dạng của đối tượng này. Tức là tìm kiếm một vector đặc trưng trong tập mẫu gần nhất với vector đặc trưng truy vấn. Tuy nhiên, do tập vector đặc trưng của tập dữ liệu hình ảnh mẫu rất lớn (có thể lên đến hàng triệu bản ghi) và số chiều khá lớn (4096 chiều) nên việc đối sánh, tìm kiếm chính xác là không khả thi. Vì vậy, tập dữ liệu vector đặc trưng của hình ảnh mẫu cần được tổ chức, lập chỉ mục một cách hợp lý, hiệu quả trước khi kỹ thuật tìm kiếm ANN được áp dụng để tìm ra vector đặc trưng tương đồng nhất (hình ảnh tương đồng nhất) với vector đặc trưng (hình ảnh) truy vấn. PQ đã được trình bày tổng quan là kỹ thuật hiệu quả nhất để xử lý vấn đề lập chỉ mục này, tuy nhiên tốc độ và độ chính xác vẫn chưa được mong đợi. Trong phần này, luận án trình bày phương pháp đề xuất PSVQ (product sub- vector quatization) được cải tiến từ phương pháp PQ cho độ chính xác và tốc 60 độ xử lý vượt trội so với PQ gốc và các cải tiến khác quả PQ. Sau đó kỹ thuật tìm kiếm ANN luận án kế thừa từ nghiên cứu [2] dựa trên cấu trúc cây phân cấp thứ bậc được áp dụng trên tập chỉ mục sinh ra bởi PSVQ để tìm ra hình dạng tương đồng nhất với đối tượng truy vấn. Tương tự như kỹ thuật dò tìm đối tượng được trình bày trong chương trước đó, mục tiêu cốt lõi cần đạt được khi phát triển kỹ thuật nhận dạng hình thể của đối tượng là tốc độ tìm khi xem xét độ chính xác trung bình ở mức cao (> 90%). Để đạt được mục tiêu này chất lượng mã hóa và cách thức tổ chức tìm kiếm là các vấn đề cần phải giải quyết trong luận án này. Chi tiết về kỹ thuật PSVQ và kỹ thuật tìm kiếm dựa trên cây phân cụm thứ bậc được trình bày trong các mục 2.2.1 và 2.2.2. Cuối cùng, các ước lượng thực nghiệm về chất lượng mã hóa dữ liệu và tốc độ tìm kiếm cũng như các kết quả so sánh với các kỹ thuật phổ biến khác được trình bày trong phần 2.2.3. 2.2.1. Mô hình lập chỉ mục PSVQ Tập ảnh tư thế huấn luyện của một đối tượng sau khi truyền qua mạng YOLO-Adv cho ra một tập dữ liệu gồm vector đặc trưng trong không gian vector đặc trưng D (D=4096) chiều 푅( ) được ký hiệu là tập X. Ký hiệu ∈ là một vector hay điểm dữ liệu trong tập dữ liệu X. Ngoài ra, ký hiệu ( ) ∈ ( ) 푅 là vector con thứ j của x với j=1,2, m. Như đã được trình bày chi tiết trong mục 1.2, với phương pháp lượng tử hóa tích đề các (PQ), không gian dữ liệu gốc X trước hết được chia thành m không gian con phân biệt tách rời nhau. Như vậy, một vector ∈ được chia thành m vector con: ( ), ( ), ( ), mỗi vector con này có số chiều là D/m. Tiếp theo VQ được áp dụng cho các vector con trong từng không gian con này một cách rời rạc để tạo ra cho mỗi không gian con này một codebook. Gọi là codeboo
File đính kèm:
- luan_an_nghien_cuu_cai_tien_ky_thuat_nhan_dang_va_thay_the_d.pdf
- tom tat luan an NCS Le Dinh Nghiep 8_2020.pdf
- trang thong tin luan an - Le Dinh Nghiep.docx