Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 1

Trang 1

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 2

Trang 2

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 3

Trang 3

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 4

Trang 4

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 5

Trang 5

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 6

Trang 6

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 7

Trang 7

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 8

Trang 8

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 9

Trang 9

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 150 trang nguyenduy 11/07/2024 760
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu

Luận án Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu
hư thể hiện trong Hình 2.8.
Sự hợp nhất nhiều quy mô được lặp đi lặp lại được thực hiện bằng cách trao đổi
thông tin qua các mạng con đa độ phân giải song song qua toàn bộ quá trình. Một vấn
đề khác của HRNet là kiến trúc này không sử dụng giám sát bản đồ các vùng nổi bật
trung gian, không giống như mô hình đồng hồ cát xếp chồng (Stacked Hourglass). Bản
đồ các vùng nổi bật được hồi quy bằng cách sử dụng hàm sai số toàn phương trung
bình MSE (Mean squared error).
Toàn bộ quá trình cài đặc và thực hiện mạng HRnet được thể hiện trong đường dẫn
sau: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch. Tuy nhiên
một vấn đề đặc biệt của mạng này là chạy song song tối thiểu trên 4 GPU nên yêu
cầu về phần cứng của mạng này là rất lớn. Nên trong nghiên cứu này chúng tôi không
chạy thực tế được hiệu năng của mạng này cho việc ước lượng khung xương, tư thế
của người trên ảnh.
Để trực quan hóa các kết quả ước lượng khung xương ở từng bước trong quá trình
ước tính tư thế con người 3-D, chúng tôi đề xuất một nghiên cứu so sánh về ước lượng
tư thế, khung xương người trong không gian 2-D (Nghiên cứu so sánh 2-D), nó
được hiển thị trong Hình. 2.9.
Trong Hình 2.9, luận án đánh giá theo hai phương thức: Phương thức đầu tiên
(Phương thức 1 - Method 1) sử dụng mạng CNN CPM được huấn luyện trên trên
cơ sở dữ liệu COCO [23]; Phương thức thứ hai (Phương thức 2 - Method 2) sử
dụng mạng CNN CPM được huấn luyện trên trên cơ sở dữ liệu Human 3.6M [86]. Kết
quả ước lượng khung xương, tư thế người trong không gian 2-D với tọa độ của từng
46
Hình 2.7 Minh họa kết quả ước lượng khung xương trên ảnh của mô hình đã được
huấn luyện trên bộ cơ sở dữ liệu 2016 MSCOCO Keypoints Challenge [23].
điểm đại diện ước lượng được (xi, yi) trên hình ảnh màu, sau đó chúng được kết hợp
với điểm ảnh có tọa độ (xi, yi) trên hình độ sâu theo phương trình (1.3) để tạo ra điểm
đại diện (Xp, Yp, Zp) trong không gian 3-D.
2.1.3.2 Cơ sở dữ liệu các bài võ cổ truyền
Võ cổ truyền là một môn thể thao rất quan trọng giúp con người rèn luyện sức
khỏe và tự vệ. Ở rất nhiều quốc gia trên thế giới, đặc biệt là Châu Á có rất nhiều môn
võ cổ truyền được lưu truyền từ đời này sang đời khác. Với sự phát triển của công nghệ
thì việc lưu trữ và bảo tồn, cũng như dạy các thế võ này là rất quan trọng [15], [16].
Hiện nay cũng có rất nhiều loại cảm biến hình ảnh khác nhau có thể thu thập được
thông tin về việc dạy và học võ của các võ đường. Trong đó cảm biến Kinect phiên bản
1 là lại cảm biến rẻ tiền nhất hiện nay. Đây là loại cảm biến có thể thu thập được nhiều
thông tin như ảnh màu, ảnh độ sâu, khung xương, gia tốc trọng trường, âm thanh, vv.
Để thu thập và đồng bộ dữ liệu từ cảm biến MS Kinect phiên bản 1, chúng tôi sử dụng
công cụ thu thập dữ liệu đã được phát triển tại viện nghiên cứu quốc tế MICA, Đại
học Bách khoa Hà Nội [19]. Bộ công cụ được phát triển dựa trên môi trường lập trình
MS Visual Studio bản từ 2010 trở lại đây với sự hỗ trợ của bộ thư viện OpenCV và bộ
47
Hình 2.8 Minh họa kiến trúc mạng HRnet [115]. Trong đó chiều ngang và chiều dọc
lần lượt thể hiện độ sâu và biến đổi kích thước cửa sổ của bản đồ đặc trưng.
thư viện Nui của MS Kinect SDK 1.8 với ngôn ngữ lập trình C++. Bộ công cụ này sử
dụng bộ tham số đã được công bố của Nicolas [31] để hiệu chỉnh ảnh màu và ảnh độ
sâu về cùng một tâm. Đồng thời bộ tham số này cũng được sử dụng để chiếu các điểm
ảnh của ảnh màu và ảnh độ sâu vào không gian 3-D. Từ các dữ liệu thu thập này có
thể tái hiện lại môi trường trong không gian 3-D về việc dạy học võ tại các võ đường.
Do trên cảm biến Kinect phiên bản 1 có gắn một số cảm biến như cảm biến ảnh
màu, ảnh độ sâu, vv. Để thu được dữ liệu từ môi trường cảm biến sử dụng bộ công cụ
MS Kinect SDK 1.8 để kết nối máy tính và cảm biến [17]. Công cụ thu thập dữ liệu,
môi trường, thiết bị, hiệu chỉnh dữ liệu sử dụng trong nghiên cứu này như đã được
trình bày trong phần ngữ cảnh. Môi trường, thiết bị được thể hiện trong Hình 5. Môi
trường mà võ sư và các học viên biểu diễn võ thuật có kích thước là 3×3m. Thiết bị
thu dữ liệu chỉ có một cảm biến MS Kinect được gắn trên giá và được đặt cố định.
Bộ dữ liệu thu được bao gồm 24 cảnh và được gọi tên là "VNMA - VietNam Martial
Arts" với 24 video tương ứng được dẫn link trong Phụ lục. Trong đó, được thu thập
từ 24 người (12 người có giới tính là Nam, 12 người có giới tính là Nữ). 24 người này
có độ tuổi từ 13 đến 20 tuổi (là học viên lớp võ cổ truyền). Luận án thu thập dữ liệu
trên 24 người vì trong lớp võ mà nghiên cứu sinh kết nối xin hợp tác có 24 học viên.
Trong đó, các học viên của lớp võ đã được truyền dạy các bài võ trong thời gian 1
tháng (tức là các học viên của lớp đã có kinh nghiệm cơ bản trong võ thuật). Trong
lớp võ thì các học viên thường mặc quần áo màu xẫm, không bị bóng, chiều cao của
các học viên là từ 1.4-1.7m. Cơ sở dữ liệu này được thu thập tại lớp dạy võ thuật cổ
truyền tại Tỉnh Bình Định, Việt Nam. Bình Định là một một tỉnh mà được coi là miền
đất võ nổi tiếng nhất của Việt Nam. Trong mỗi video, mỗi học viên biểu diễn một bài
48
Huấn luyện CPM
trên cơ sở dữ liệu 
COCO
(Method 1) 
Huấn luyện CPM
trên cơ sở dữ liệu
Human 3.6M
(Method 2)
Mô hình CNN 
cho ước lượng 
các điểm đại 
diện 2-D 
Kết quả ước 
lượng khung 
xương
Ảnh đầu vào Khung xương 2-D
Kết quả trong 
không gian 3-D
Ảnh đầu vào 
(RGB)
Ảnh độ sâu
Chiếu kết quả 2-D 
sang không gian 
3-D
Nghiên cứu so sánh 2-D
Hình 2.9 Nghiên cứu so sánh cho đánh giá ước lượng khung xương, tư thế trong không
gian 2-D.
võ, do đó mỗi khung hình trong video sẽ có một tư thế khác nhau. Cơ sở dữ liệu này
chỉ bao gồm các ảnh có người trong ảnh.
Trong bộ cơ sở dữ liệu này luận án cũng cung cấp dữ liệu gốc về khung xương,
tư thế người trong không gian 3-D cho việc đánh giá ước lượng khung xương, tư thế
người trong không gian 3-D. Dữ liệu gốc của các khớp xương được đánh dấu trên dữ
liệu trong không gian 3-D. Để làm được việc này nghiên cứu hiển thị dữ liệu 3-D (dữ
liệu đám mây điểm) của cảnh trên cửa sổ của một chương trình do nghiên cứu phát
triển dựa trên môi trường lập trình Visual Studio và sự hỗ trợ của bộ thư viện PCL
[35] với ngôn ngữ lập trình C++. Hình 2.10 minh họa việc làm dữ liệu gốc cho việc
đánh giá ước lượng khung xương, tư thế người trong không gian 3-D. Trong đó nghiên
cứu đánh dấu 17 đại diện (điểm xương) trên cơ thể người. Các điểm xương được đánh
theo thứ tư như trong Hình 2.10. Trong đó, luận án không chọn điểm trên xương sống
mà chỉ chọn điểm ở "Cổ" và "Giữa Hông" vì các điểm trên giữa xương sống gần như
không thay đổi vị trí (xoay và dịch) ra khỏi hai điểm đầu của xương sống là "Cổ" và
"Giữa Hông". Trong một số trường hợp khi dữ liệu bị che khuất nghiên cứu giả sử tay
hoặc chân của người thường nằm sát với cơ thể người và được chọn như trong trường
hợp dữ liệu của tay hoặc chân là nhìn thấy. Hiện tại việc đánh dấu các điểm trong
không gian 3-D là được thực hiện bằng tay và chỉ trên dữ liệu của một phía của cảm
biến MS Kinect. Còn lại khi dữ liệu bị che khuất mà hành động của người là phức tạp
thì trong nghiên cứu này nghiên cứu chưa thực hiện được. Để đánh dấu được dữ liệu
trong không gian 3-D khi bị che khuất người ta thường dùng hệ thống MOCAP [102]
49
cho việc tính toán tọa độ thực tế của tay và chân người trong các trường hợp này.
(1)
(2) (3) 
(4) 
(5) 
(6)
(7)
(8) (9)
(11) 
(12)
(13)(17)
(16)
(15)
(10)(14)
Cửa sổ chạy chương 
trình .exe
Cửa sổ hiển thị
trong không gian 3-D
Hình 2.10 Minh họa việc đánh dấu dữ liệu gốc về khung xương, tư thế người trong
không gian 3-D. Trong đó thứ tự đánh dấu của các điểm như sau: (1) Đầu, (2) Cổ, (3)
Vai phải, (4) khuyủ tay phải, (5) cổ tay phải, (6) Vai trái, (7) khuyủ tay trái, (8) cổ
tay trái, (9) Giữa hông, (10) Hông phải, (11) Đầu gối phải, (12) Cổ chân phải, (13)
Ngón chân cái phải, (14) Hông trái, (15) Đầu gối trái, (16) Cổ chân trái, (17) Ngón
chân cái trái
Trong bộ cơ sở dữ liệu này nghiên cứu cũng cấp cấp dữ liệu đám mây điểm của
từng cảnh tương ứng với từng khung hình thu được. Số khung hình ở mỗi video trong
bộ cơ sở dữ liệu này được thể hiện trong Bảng 2.1. Toàn bộ cơ sở dữ liệu có thể tải về
theo đường dẫn trong Phụ lục.
Bảng 2.1 Số khung hình trong các tư thế võ của cơ sở dữ liệu VNMA.
Video 1 2 3 4 5 6 7 8 9 10 11 12
Số khung
hình
50 89 71 77 98 109 87 79 89 76 79 95
Video 13 14 15 16 17 18 19 20 21 22 23 24
Số khung
hình
131 71 95 101 108 117 109 112 80 110 96 105
Ngoài ra, nghiên cứu cũng thu thập một tập dữ liệu nhỏ dựa trên cấu hình và
thiết lập môi trường như trong bộ cơ sở dữ liệu VNMA. Tuy nhiên, trong tập dữ liệu
này nghiên cứu thu thập chỉ trên một người có giới tính là Nam, 26 tuổi, quần màu
nâu xẫm, áo màu xanh nước biển. Người này biểu diễn 14 thế võ khác nhau tương ứng
với 14 đoạn video ngắn mà có số khung hình được thể hiện như trong Bảng 2.2. Tập cơ
sở dữ liệu này được gọi là "SVNMA - Small VietNam Martial Arts". Trong đó, nghiên
cứu thực hiện việc đánh nhãn (ground truth) các điểm đại diện của cơ thể người bằng
50
tay trong trên ảnh (không gian 2-D) như minh họa trong Hình 2.3 và Hình 2.11, với
18 điểm xương trên ảnh. Cơ sử dữ liệu này chỉ bao gồm các ảnh có người trong ảnh.
Số khung hình trong bộ cơ sở dữ liệu này được thể hiện như trong Bảng 2.2.
Hình 2.11 Các điểm đại diện (Key points) trên cơ thể người và nhãn.
Bảng 2.2 Số khung hình trong các tư thế võ của cơ sở dữ liệu SVNMA.
Video 1 2 3 4 5 6 7 8 9 10 11 12 13 14
#Khung
hình
120 74 100 87 80 88 87 74 71 90 100 97 65 68
Cơ sở dữ liệu thứ hai mà luận án dùng đánh giá việc ước lượng khung xương, tư
thế người là MADS- the Martial Arts, Dancing and Sports. [32]. Cơ sở dữ liệu này bao
gồm các video thu thập ở nhiều hướng nhìn (multi-view RGB videos) và một hướng
nhìn (depth videos). Nó bao gồm 5 kiểu hành động thách thức: Tai-chi, Karate, nhảy
Hip-hop (Hip-hop dance), Khiêu vũ và thể thao (Jazz dance and sports). Tốc độ thu
thập dữ liệu là trên các video là (10 khung hình/giây cho võ Tai-chi và Karate; 20
khung hình/giây cho khiêu vũ, nhảy hip-hop và các hành động trong thể thao). Độ
phân giải của ảnh màu và ảnh độ sâu thu được là 1024 × 768 điểm ảnh. Tuy nhiên,
trong cơ sở dữ liệu lưu trữ ảnh có độ phân giải là 512× 384 điểm ảnh. Dữ liệu gốc của
bộ cơ sở dữ liệu này được chuẩn bị (đánh dấu) trong không gian 3-D thông qua việc
sử dụng hệ thống MOCAP (MOtion CAPture) [33]. Hệ thống MOCAP sử dụng bảy
cảm biến hình ảnh được đặt trên tường xung quanh không gian thu thập dữ liệu của
không gian thu thập dữ liệu và các cảm biến xác định vị trí trên các khớp trên người
biểu diễn võ thuật, khiêu vũ, hành động thể thao.
Hệ thống MOCAP làm việc với tốc độ 60 khung hình/giây. Dữ liệu gốc (đánh dấu)
về vị trí các điểm đại diện với 19 điểm theo thứ tự như sau: "cổ", "xương chậu", "hông
trái", "đầu gối trái", "mắt cá chân trái", "ngón cái chân trái", "hông phải", "đầu gối
phải", "mắt cá chân phải", "ngón chân cái phải", "vai trái", "khuỷu tay trái", "cổ tay
trái", "tay trái", "vai phải", "khuỷu tay phải", "cổ tay phải", "tay phải", "đầu".
51
Trong nghiên cứu này, luận án chỉ đánh giá các video võ thuật cổ truyền theo một
hướng nhìn trong bộ cơ sở dữ liệu này, chúng bao gồm các video võ Tai-chi và Karate.
Các video này bao gồm 11200 khung hình. Trong đó, bộ tham số trong của cảm biến
hình ảnh để hiệu chỉnh ảnh màu và ảnh độ sâu được thể hiện như sau:
Hm =

331 0 254.097
0 331 180.032
0 0 1
 (2.1)
Hình 2.12 minh họa dữ liệu đám mây điểm của cảnh khi một người biểu diễn võ
thuật Karate.
−1000 −800 −600
−400 −200 0
200 400 600
800
−500
0
500
1000
1500
2000
−6000
−4000
−2000
0
x − axis 
y − axis 
z 
−
 a
xi
s 
Hình 2.12 Minh họa dữ liệu đám mây điểm của một cảnh. Các điểm màu xanh nước
biển là dữ liệu của người trong môi trường 3-D.
Cơ sở dữ liệu huấn luyện:
Như đã trình bày ở trên, phương thức 1 là sử dụng mô hình ước lượng đã được huấn
luyên trên cơ sở dữ liệu COCO [23]. Cơ sở dữ liệu này bao gồm hơn 200k ảnh và 250k
người trên ảnh, trong đó dữ liệu đánh dấu của tập huấn luyện và xác nhận là từ 150k
người với 1.7 triệu nhãn của các điểm đại diện. Mỗi người được đánh dấu bởi 17 điểm
đại diện, được sắp xếp theo theo thứ tự như sau: Mũi, mắt trái, mắt phải, tai trái, tai
phải vai trái, vai phải, khuỷu tay trái, khuỷu tay phải, cổ tay trái, cổ tay phải, hông
trái, hông phải, đầu gối trái, đầu gối phải, mắt cá chân trái, mắt cá chân phải. Phương
thức 2 là sử dụng mô hình ước lượng đã được huấn luyện trên cơ sở dữ liệu Human
3.6M [86]. Cơ sở dữ liệu này bao gồm 3.6 triệu ảnh, được thu thập từ 11 người (6 nam,
5 nữ) trong 17 ngữ cảnh khác nhau (thảo luận, hút thuốc, chụp ảnh, nói chuyện điện
thoại, vv). Human 3.6M được thu thập và tính toán trên 15 cảm biến (4 máy quay
video kỹ thuật số, 1 cảm biến thời gian, 10 camera theo vết). Cơ sở dữ liệu này cung
cấp dữ liệu gốc khung xương cả 2-D và 3-D. Số khung hình của dữ liệu huấn luyện
52
và xác thực theo thứ tự là 35832/19312. Dữ liệu khung xương được đánh dấu với 17
điểm đại diện theo thứ tự như sau: "Xương chậu", "Hông phải", "Đầu gối phải", "Mắt
cá chân phải", "Hông trái", "Đầu gối trái", "Mắt cá chân trái", "Cổ", "Đầu", "Giữa
hông", "Vai trái", "Khuỷu tay trái", "Cổ tay trái", "Vai phải", "Khuỷu tay phải", "Cổ
tay phải".
2.1.3.3 Phương thức đánh giá
+ Đánh giá trong không gian 2-D:
Để thực hiện và đánh giá kết quả ước lượng bản đồ các điểm đại diện và các vector
tương ứng của các bộ phận trên cơ thể người trong không gian 2-D (trên ảnh). Nghiên
cứu thay đổi kích thước của ảnh đầu vào từ 640× 480 điểm ảnh sang 654× 368 điểm
ảnh, để phù hợp với bộ nhớ trên GPU, như theo yêu cầu của mạng nơ ron tích chập.
Quá trình đánh giá được thực hiện trên máy chủ có cấu hình đã trình bày ở trên. Quá
trình chạy bao gồm hai phần chính: Thứ nhất là thời gian chạy của mạng nơ ron tích
chập để ước lượng các bản đồ các điểm nổi bật và dự đoán vị trí các điểm, thứ hai là
thời gian chạy dự đoán các khớp tương ứng trên nhiều người [24]. Hai phần này được
đánh giá về độ phức tạp lần lượt là O(1) và O(N2), trong đó N là số người trong ảnh.
Cũng giống như trong [24], nghiên cứu đánh giá độ tương tự của các điểm đại
diện (object key point similarity (OKS)) và sử dụng độ chính xác trung bình (average
precision (AP)) với ngưỡng OKS = 0.5. OKS được tính từ sự thay đổi kích thước
của cơ thể người so với khoảng cách giữa các điểm đại diện ước lượng được và các điểm
được đánh nhãn (ground truth). Việc tính toán tỷ lệ OKS được thực hiện trên từng
khớp được tạo ra từ các điểm đại diện ước lượng được và được tính toán theo công
thức trong [23], minh họa trong hình 2.13. Công thức trong hình 2.13 được chi tiết hóa
như trong công thức (2.2).
OKS =
abs(| Gground −Rresult |)
Gground
(2.2)
trong đó Gground là độ dài của véc tơ khớp xương gốc, Rresult là độ dài véc tơ khớp
xương ước lượng được tương ứng theo chỉ số đã định nghĩa trước.
Nếu OKS > 0.5, tức là sai khác lớn hơn 50% độ dài thì là một ước lượng sai ngược
lại là một ước lượng đúng. Đồng thời luận án cũng thực hiện đánh giá góc lệch giữa
khớp xương được gán nhãn (VG) và khớp xương ước lượng được (VE) từ các điểm đại
diện được ước lượng (AD(%)). Trong đó, góc giữa 2 vec tơ (A= argcos(VG, VE)).
Nếu (A ≤ 10o) là một ước lượng đúng, ngược lại là một ước lượng sai. Tỷ lệ (AD)
được tính bằng số ước lượng đúng chia cho tổng số khớp.
Ngoài ra nghiên cứu cũng tính khoảng cách trung bình của các điểm đại diện ước
53
Hình 2.13 Minh họa ma trận đánh giá độ tương tự độ dài của các khớp được tạo ra
từ các điểm đại diện [28]
lượng được với các điểm đại diện gốc đã được đánh dấu theo chỉ số đã được định nghĩa
sẵn như trong công thức (2.3).
D(pg, pe) =
√
(xg − xe)2 + (yg − ye)2 (2.3)
trong đó D là khoảng cách giữa hai điểm (pg, pe), pe là điểm đại diện ước lượng
được mà có tọa độ là (xe, ye), pg là điểm đại diện được đánh dấu mà có tọa độ (xg, yg)
trong không gian ảnh. Trong nghiên cứu này, luận án đánh giá độ đo (AD) vì trong
thực tế có nhiều trường hợp khớp xương ước lượng có độ dài tương đồng với khớp
xương gốc, nhưng nó bị lệch lên hoặc lệch xuống. Ví dụ: khớp xương khuỷa tay của dữ
liệu gốc là thẳng sang ngang, nhưng khớp xương khuỷa tay ước lượng được là bị gấp
lên trên. Hay khi khớp xương khuỷa tay gốc và khớp xương khuỷa tay ước lượng được
là song song với nhau nên luận án cần đánh giá thêm độ đo (D) về khoảng cách giữa
các điểm đại diện ước lượng được và dữ liệu gốc.
Với dữ liệu đầu vào của hệ thống là ảnh màu, video. Dữ liệu đầu ra là kết quả
ước lượng các điểm đại diện trên ảnh, đồng thời các khớp nối giữa các điểm đại diện
cũng được thể hiện. Dữ liệu về nhãn và vị trí của các điểm đại diện ước lượng cũng
được nghiên cứu lưu trữ ra file theo cấu trúc đã được định nghĩa trước như Hình 2.14.
Trong nghiên cứu này, nghiên cứu đánh giá việc ước lượng khung xương, tư thế người
theo các phương thức như trong Hình 2.15.
54
Hình 2.14 Minh họa thứ tự các điểm đại diện ước lượng được. Trong đó, các điểm
màu xanh là các điểm quan tâm và đánh giá trong bài báo này. Hình bên phải thể hiện
các khớp nối của các điểm đại diện quan tâm.
Như vậy các độ đánh giá trên là sử dụng để đánh giá kết quả ước lượng trong
không gian 2-D. Do đó, các độ đo này sử dụng để đánh giá kết quả ước lượng trên tập
cơ sở dữ liệu SVNMA. Các kết quả được thể hiện trong Phần 2.1.3.5.
+ Đánh giá trong không gian 3-D:
Việc đánh giá kết quả ước lượng trong không gian 3-D là rất quan trọng, vì trong
môi trường này gần với môi trường thực. Để đánh giá kết quả ước lượng khung xương
trong không gian 3-D, nghiên cứu sử dụng một độ do như sau:
ˆ Cũng giống như trong nghiên cứu của Tome và các cộng sự [85], nghiên cứu sử
dụng độ đo MPJPE (Mean Per Joint Position Error), độ đo này có nghĩa là trung
bình lỗi về vị trí của các khớp, được tính như công thức (2.4).
MPJPEk =
∑NP
i=1
√
(xgi − xei)2 + (ygi − yei)2 + (zgi − zei)2
NP
(2.4)
trong đó, (xgi, ygi, zgi) là tọa độ của điểm xương của dữ liệu gốc (ground truth)
trong không gian 3-D; (xei, yei, zei) là tọa độ của điểm xương thứ i
th của dữ liệu
ước lượng được (estimation) trong không gian 3-D; NP là số điểm xương thứ
ith trên mỗi khung xương; k là chỉ số khớp xương người của khung hình thứ kth
trong mỗi video.
55
Openpose_COCO 
được huấn luyện 
trên COCO 
dataset
(Method 1) 
Openpose_Human 
3.6M được huấn 
luyện trên Human 
3.6M dataset 
(Method 2)
Bộ ước lượng 
khung xương, tư 
thế người 
Kết quả ước 
lượng khung 
xương, tư thế 
người
Ảnh đầu vào Stacked Hourglass Networks 
for Human Pose Estimation 
(Alejandro et al. ECCV 2016)
Kết quả trên 2-D
Kết quả chiếu 
sang 3-D
Hình 2.15 Minh họa các phương thức cho việc đánh giá ước lượng khung xương, tư
thế người trong không gian ảnh.
Với độ đo này có thể sử dụng để đánh giá kết quả ước lượng khung xương trong không
gian 3-D với hai cơ sở dữ liệu: VNMA, MADS.
2.1.3.4 Xoay và dịch dữ liệu trong không gian 3-D
Trên thực tế thì kết quả ước lượng, khôi phục khung xương trong không gian 3-D
được chiếu từ không gian 2-D sang hay được huấn luyện và lựa chọn mô hình khung
xương tốt nhất phù hợp với dữ liệu 2-D thì kết quả ước lượng, khôi phục khung xương
trong không gian 3-D có hệ trục tọa độ khác với dữ liệu gốc. Điều này xảy ra do khi
ước lượng khung xương trên ảnh 2-D thì các mạng nơ ron tích chập thay đổi kích thước
của ảnh đầu vào để phù hợp với dữ liệu đầu vào của mạng CNN đã được định nghĩa
sẵn nên làm cho kết quả ước lượng thay đổi hệ trục tọa độ so với dữ liệu gốc. Hay do
dữ liệu bộ thư viện khung xương gốc để huấn luyện ước lượng, khôi phục khung xương
trong không gian 3-D với dữ liệu gốc của cơ sở dữ liệu kiểm tra là thuộc hai hệ trục tọa
độ khác nhau. Nên để đánh giá được các kết quả ước lượng, khôi phục khung xương
trong không gian 3-D thì kết quả ước lượng, khôi phục khung xương trong không gian
3-D và dữ liệu gốc cần được đồng bộ hóa về cùng một hệ trục tọa độ. Để thực hiện
được v

File đính kèm:

  • pdfluan_an_ve_mo_hinh_nhan_dang_tu_the_vo_dua_tren_anh_chieu_sa.pdf
  • pdf6_ThongTinTomTat_Viet_NTT.pdf
  • pdf7_ThongTinTomTat_English_NTT.pdf
  • pdfluanvan_abstract_vietnamesedangbao.pdf
  • pdfTRÍCH YẾU LUẬN ÁN_NTT.pdf