Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 1

Trang 1

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 2

Trang 2

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 3

Trang 3

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 4

Trang 4

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 5

Trang 5

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 6

Trang 6

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 7

Trang 7

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 8

Trang 8

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 9

Trang 9

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 26 trang nguyenduy 06/06/2024 850
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người

Luận án Nghiên cứu phương pháp học máy cho nhận dạng hoạt động sử dụng cảm biến mang trên người
 Chương 3. Trình bày phương pháp trích xuất tự động 
MPF nhờ học đặc trưng. Nội dung trình bày trong chương này 
được tổng hợp từ kết quả cơng trình nghiên cứu số 7 của tác giả. 
 Chương 4. Trình bày hai ứng dụng nhận dạng hoạt 
động người. Nội dung trình bày được tổng hợp dựa trên kết quả 
các cơng trình nghiên cứu số 4, số 5 và số 6 của tác giả. 
 Cuối cùng là một số kết luận về luận án. 
 CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG HOẠT 
 ĐỘNG SỬ DỤNG CẢM BIẾN MANG TRÊN NGƯỜI 
1.1. Kiến trúc hệ thống nhận dạng hoạt động người 
 Nhận dạng hoạt động người là quá trình giám sát và 
phân tích hành vi người dùng và trạng thái mơi trường xung 
quanh nhằm suy diễn/nhận dạng các hoạt động đang xảy ra. Một 
trong những mục tiêu của nhận dạng hoạt động là cung cấp 
thơng tin về hành vi của người dùng, từ đĩ cho phép hệ thống 
tính tốn chủ động hỗ trợ người dùng trong cơng việc. 
 Một hệ thống nhận dạng hoạt động người nĩi chung nhận 
dữ liệu đầu vào là dữ liệu thơ lấy ra từ các cảm biến và thơng 
thường gồm các bước như sau: tiền xử lý, phân đoạn, trích chọn 
 6 
 đặc trưng (gồm trích xuất đặc trưng và lựa chọn đặc trưng), huấn 
 luyện và phân lớp hoạt động (xem hình 1.1). 
Dữ liệu Huấn 
 Tiền Phân Trích / 
 cảm xử chọn đặc luyện Hoạt 
 đoạn 
 biến lý trưng /Phân lớp động 
 Hình 1.1. Kiến trúc hệ thống nhận dạng hoạt động người 
 1.2. Các phương pháp trích xuất đặc trưng 
 1.2.1. Trích xuất đặc trưng theo tri thức chuyên gia 
 Tín hiệu gia tốc là tín hiệu cĩ mức độ dao động lớn, do 
 đĩ rất khĩ cĩ thể nhận dạng những mẫu cơ bản khi chỉ sử dụng 
 các giá trị thơ của tín hiệu chưa xử lý. Hầu hết các hệ thống 
 HAR hiện thời sử dụng các đặc trưng theo miền thời gian hoặc 
 tần số. Phương pháp trích chọn đặc trưng thường được sử dụng 
 là tính tốn các đại lượng thống kê trực tiếp trên dữ liệu thơ đầu 
 vào của cảm biến, độc lập trên từng khung dữ liệu được phân 
 đoạn bởi cửa sổ trượt. Các đại lượng thống kê phổ biến nhất bao 
 gồm: trung bình, độ lệch chuẩn, phương sai, năng lượng, trung 
 bình đạo hàm, khoảng tứ phân vị, entropy, tương quan giữa các 
 trục, skewness, độ nhọn (kurtosis). Trong miền tần số, các 
 phương pháp như biến đổi Cơ-sin rời rạc (Discrete Cosine 
 Transform) và biến đổi Fourier (Fourier Transform) được áp 
 dụng và mang lại những kết quả khả quan. Các đặc trưng thống 
 kê được sử dụng nhiều nhất trong các nghiên cứu do tính tốn 
 đơn giản và hiệu năng cao trong rất nhiều bài tốn nhận dạng 
 hoạt động người. 
 7 
 Trong trường hợp bài tốn phân biệt ngã và các hoạt 
động khác thì các đặc trưng thống kê nêu trên lại khơng hiệu 
quả. Lý do là ngã và một số hoạt động tương tự ngã khác như 
đứng ngồi, ngồi nằm, nhảy, cĩ tín hiệu với tính chất tương tự 
nhau và dễ gây nhầm lẫn. Cách tiếp cận truyền thống dựa trên 
ngưỡng cĩ khả năng phát hiện ngã nhanh, đơn giản và tương 
đối chính xác, tuy vậy lại thường bị tỉ lệ cảnh báo giả cao và 
trong nhiều tình huống lại khơng hiệu quả, dẫn tới khả năng 
khái quát hĩa thấp. Để tăng tính khái quát hĩa và hiệu quả phân 
biệt ngã thì các cách tiếp cận dựa trên học máy gần đây như đề 
xuất sử dụng các tập gồm nhiều đặc trưng thống kê phức tạp 
hơn. Tuy vậy, độ phức tạp của tập đặc trưng lớn dẫn tới tính khả 
thi của các phương pháp này bị hạn chế do khĩ cĩ thể tính tốn 
nhanh trên hệ thống cĩ năng lực xử lý thấp và thời lượng pin 
ngắn như đa số các thiết bị trợ giúp cá nhân di động thơng minh 
mang theo người, đặc biệt là các hệ thống địi hỏi thời gian thực. 
Do đĩ, chúng khĩ cĩ thể ứng dụng được trong thực tế hiện nay, 
khi người dùng cần sự thuận tiện cao với các thiết bị di động trợ 
giúp cá nhân thơng minh, nhỏ gọn. Đây chính là một vấn đề tồn 
tại trong nghiên cứu nhận dạng hoạt động sử dụng cảm biến 
mang trên người, đĩ là cần phải cĩ các phương pháp biểu diễn 
đặc trưng mới, hiệu quả cĩ thể phân biệt tốt ngã và các hoạt 
động khác cĩ đặc tính dữ liệu tương tự, cĩ khả năng tính tốn 
nhanh để chạy được trên các hệ thống yêu cầu xử lý theo thời 
gian thực và bị hạn chế về tài nguyên . Vấn đề tồn tại này sẽ 
được bàn luận và giải quyết trong chương 2. 
1.4.2. Trích xuất đặc trưng tự động bằng học đặc trưng 
 8 
 Các đặc trưng dựa trên tri thức chuyên gia như thống 
kê thường được sử dụng trong các hệ thống nhận dạng hoạt 
động do tính đơn giản và hiệu quả. Tuy nhiên, chúng chỉ hoạt 
động hiệu quả khi ứng dụng để phân biệt một số hoạt động đơn 
giản, cụ thể mà khơng đáp ứng được khi cần phân biệt tập các 
hoạt động sống hàng ngày (ADL -Activities of Daily Living) 
nhiều và đa dạng hơn. Một cách tiếp cận cho vấn đề này là sử 
dụng một tổ hợp các đặc trưng thống kê phức tạp hơn. Tuy nhiên 
cách tiếp cận này làm tăng chi phí và gây khĩ khăn cho việc xây 
dựng hệ thống nhận dạng hoạt động người. 
 Một phương pháp khác hiệu quả là sử dụng học đặc 
trưng, nghĩa là tìm cách tối ưu hĩa một hàm mục tiêu để “bắt 
được” sự phù hợp của các đặc trưng cho mọi dữ liệu. Cách tiếp 
cận này cĩ thể tìm được một biểu diễn đặc trưng chung cho mọi 
dữ liệu, đồng thời rất khả quan trong việc cải thiện độ chính xác 
nhận dạng. Các phương pháp khác được thử nghiệm và cĩ kết 
quả tốt trong nhận dạng hoạt động người như: PCA, ECDF dựa 
trên PCA, học đặc trưng sử dụng các kỹ thuật học sâu với CNN 
và học đặc trưng dựa vào phương pháp túi từ (BoW – Bag of 
Word). Học đặc trưng dựa vào BoW tạo ra các đặc trưng đa 
mức. Cĩ thể hiểu rằng các đặc trưng này được xác định bằng tổ 
hợp của các đặc trưng cơ sở của chuyển động cơ thể người. Đặc 
trưng đa mức khơng quá địi hỏi năng lực xử lý cao như các đặc 
trưng dựa trên học sâu. Đặc trưng đa mức được tính thơng qua 
các bước: phân cụm dữ liệu sử dụng một phương pháp phân 
cụm để tính các thống kê sự xuất hiện của nhĩm trên một cửa 
sổ trượt, sau đĩ các đặc trưng cĩ ý nghĩa được tạo nên thơng 
 9 
qua các tính tốn về quãng thời gian, tần số và sự kiện đồng xảy 
ra từ dữ liệu. Các mơ hình BoW cho nhận dạng hoạt động 
thường được xây dựng theo ba bước sau: trích xuất đặc trưng, 
học từ vựng (vocabulary hay codebook) và cuối cùng là xây 
dựng phân phối tần suất (histogram) của các từ (chuyển động). 
Các đặc trưng được trích xuất thường là các đặc trưng cục bộ, 
được tính tốn từ các phân đoạn nhỏ của cửa sổ thời gian. Từ 
vựng cĩ thể được học bằng cách sử dụng thuật tốn phân cụm 
khơng giám sát để nhĩm các đặc trưng thành các cụm (cluster). 
Từng trung tâm của cụm tạo thành một từ (hay véc-tơ mã/code 
vector), và một tập các từ tạo ra từ tập dữ liệu tạo thành từ vựng. 
Tần suất xuất hiện của các từ cĩ trong từ vựng tạo nên biểu đồ 
tần suất của các từ. 
 Các đặc trưng đa mức cĩ được thơng qua học đặc trưng 
dựa trên mơ hình BoW dựa trên các phương pháp phân cụm 
khơng giám sát như k-means cĩ các hạn chế về độ phức tạp tốc 
độ tính tốn khi dữ liệu đầu vào cĩ số chiều lớn, gây ra khĩ khăn 
cho việc áp dụng trong thực tế. Vấn đề này sẽ được phân tích 
và giải quyết trong chương 3, với đề xuất của tác giả về sử dụng 
các đặc trưng MPF để tăng tốc độ tính tốn và độ chính xác. 
 CHƯƠNG 2: NHẬN DẠNG HOẠT ĐỘNG VỚI CÁC 
 ĐẶC TRƯNG HALF 
2.1. Thống kê về phân phối tần suất gĩc của các hoạt động 
 Xem xét các phân phối xác suất gĩc cho nhiều loại hoạt 
động với dữ liệu lấy từ 3 tập dữ liệu sử dụng trong phần thử 
nghiệm cho thấy: (1) Ba kiểu ngã là ngã trước, ngã sau và ngã 
 10 
sang bên về cơ bản cĩ phân phối xác suất tương tự nhau. (2) So 
sánh ngã với 6 hoạt động khác là đứng, đi bộ, chạy bộ, nhảy, 
ngồi, đi cầu thang , phân phối xác suất theo gĩc của các hoạt 
động này khác hẳn nhau, trừ ngã và ngồi . Điều này cho thấy 
việc sử dụng phân phối tần suất gĩc của các mảnh tín hiệu nối 
hai điểm cĩ thể giúp phân biệt được nhiều hoạt động. Ngồi và 
ngã cĩ phân phối xác suất gần giống nhau do cĩ tính chất tín 
hiệu gia tốc tương tự nhau. 
2.2. Các đặc trưng HALF 
 Đặc trưng HALF (Histograms of Angles of Line 
Fragments between Two Consecutive Points) được đề xuất với 
ý tưởng là với các loại chuyển động khác nhau, biểu đồ tín hiệu 
gia tốc sẽ cĩ hình dạng thay đổi khác nhau. Đặc trưng về sự thay 
đổi gia tốc trong một cửa sổ thời gian của tín hiệu gia tốc cĩ thể 
được nắm bắt thơng qua thống kê, phân phối về tần suất gĩc của 
các đoạn nối hai điểm dữ liệu liên tiếp. 
 Thuật tốn trích xuất đặc trưng như sau. Đầu tiên, mỗi 
khung tín hiệu được chia thành các mảnh nhỏ hơn (quantum ) cĩ 
độ dài l. Gĩc của mảnh được tạo bởi véc-tơ nối giữa điểm dữ 
liệu đầu và cuối của mảnh với trục ngang thời gian x như trên 
hình 2.6. Sau khi tính tốn gĩc của mỗi mảnh, cần thực hiện tính 
một phân phối tần suất ( histogram ) của các gĩc nhờ việc chia 
tồn bộ khoảng giá trị gĩc sang dạng khoảng, được gọi là các 
ngăn , và đếm số các mảnh cĩ gĩc thuộc từng ngăn . Khoảng giá 
trị của ngăn được học thơng qua việc sử dụng các phương pháp 
phân cụm như k-means để nhĩm các gĩc của mảnh trong các 
 11 
khung trong tập huấn luyện thành M cụm. Phân phối tần suất đã 
tạo cĩ thể được sử dụng làm đặc trưng cho khung đang xét. 
Hình 2.6. Ví dụ về một mảnh (quantum) và hướng của nĩ 
 Để nắm được thơng tin về vị trí tương đối của mảnh 
trong một cửa sổ, cần áp dụng thuật tốn đã trình bày cho K 
đoạn dữ liệu nhỏ hơn liên tiếp nhau trên khung dữ liệu để tạo ra 
các véc-tơ đặc trưng cục bộ. Véc-tơ đặc trưng của cả khung 
được tạo ra bằng cách nối K véc-tơ đặc trưng cục bộ từ K đoạn 
trong khung. 
 Do tốc độ lấy mẫu cho các hoạt động sử dụng cảm biến 
gia tốc thường từ 50 Hz đến 100 Hz, nghiên cứu này chỉ sử dụng 
mảnh với độ dài bằng l = 1. Hai tham số cịn lại cĩ thể xác định 
được thơng qua thực nghiệm hay tối ưu hĩa. 
 Trong trường hợp gán nhãn dữ liệu đầu vào, độ phức 
tạp thuật tốn bằng tổng độ phức tạp thuật tốn của tất cả các 
 12 
bước trừ bước phân cụm. Độ phức tạp cho tìm kiếm gán cụm 
chỉ mất O(log M) và thực tế số cụm M nhỏ hơn 100 nên độ phức 
tạp sẽ là O( N). 
2.3. Thử nghiệm 
2.3.1. Phương pháp phát hiện người ngã 
 Thuật tốn đề xuất thực hiện phát hiện ngã bằng cách 
phân loại một cửa sổ tín hiệu hoạt động thành “ngã” hoặc 
“khơng ngã”. Dữ liệu đầu vào là 3 luồng tín hiệu gia tốc theo ba 
trục x, y, z. Thuật tốn phát hiện ngã gồm 3 bước: phân đoạn dữ 
liệu, trích xuất đặc trưng và phân lớp. Trong bước phân đoạn dữ 
liệu, cần thử nghiệm các khung cửa sổ trượt với các kích thước 
khác nhau để tìm ra giá trị tối ưu. Các đặc trưng HALF từ mỗi 
khung được trích xuất và sau đĩ được dùng làm dữ liệu đầu vào 
cho bộ phân lớp SVM dùng cho phát hiện ngã. 
 Do các dữ liệu huấn luyện cho mơ hình phát hiện ngã 
mất cân bằng và dễ gây ra hiện tượng quá vừa dữ liệu, nghiên 
cứu này sử dụng phương pháp SDC của tác giả Akbani, giúp 
SVM cĩ thể hoạt động hiệu quả hơn. 
 Các độ đo được sử dụng gồm độ chính xác (accuracy), 
độ nhạy (sensitivity), độ đặc hiệu (specificity). 
 TP+ TN
 Accuracy = (2.1) 
 TP+ FP + TN + FN
 TP
 Sensitivity = (2.2) 
 TP+ FN
 TN
 Specificity = (2.3) 
 TN+ FP
2.3.2. Tập dữ liệu thử nghiệm 
 Phương pháp đề xuất được đánh giá thử nghiệm trên 3 
tập dữ liệu ngã cơng khai, được sử dụng nhiều trong các nghiên 
 13 
cứu về ngã, bao gồm: tập dữ liệu DLR, MobiFall2, tFall. Các 
tập dữ liệu trên chứa nhiều dữ liệu cảm biến về các sự kiện ngã 
và hoạt động thường ngày khác. Sau quá trình tiền xử lý, thu 
được 2771 khung ADL và 36 khung dữ liệu ngã từ tập dữ liệu 
DLR, 1832 khung ADL và 288 khung dữ liệu ngã từ MobiFall2, 
và 7816 khung ADL và 503 khung dữ liệu ngã từ tFall. 
2.3.3. Kết quả thử nghiệm và đánh giá 
 Phương pháp đã đề xuất (pp3) được so sánh với ba 
phương pháp khác được đề xuất bởi Pham và cộng sự (pp1), 
Jantaraprim và cộng sự (pp2) và Ưzdemir (pp4), trên cả 3 tập 
dữ liệu. Các kết quả được mơ tả trong bảng 2.3 và được trình 
bày với cấu trúc độ chính xác trung bình ± độ lệch chuẩn. 
 Bảng 2.3. Các kết quả phát hiện ngã trên 3 tập dữ liệu 
 Phương pháp DLR MobiFall2 tFall 
 98,11% ± 96,51% ± 95,62% ± 
 (pp1) 
 0,20% 0,41% 0,53% 
 98,83% ± 96,22% ± 96,18% ± 
 (pp2) 
 0,50% 0,34% 0,46% 
 99,93% ± 99,20% ± 98,70% ± 
 (pp3) 
 0,08% 0,45% 0,32% 
 99,27% ± 98,76% ± 97,92% ± 
 (pp4) 
 0,19% 0,23% 0,41% 
 Kết quả chỉ ra rằng phương pháp đã đề xuất cĩ kết quả 
cao nhất trên cả 3 tập dữ liệu. Mức tăng của độ chính xác với 
phương pháp đề xuất so với (pp1) và (pp2) là đáng kể trên cả 3 
tập dữ liệu, cịn so với (pp4) là xấp xỉ. Đồng thời, theo số liệu 
tốc độ như bảng 2.4 và phân tích về độ phức tạp thuật tốn, cĩ 
 14 
thể thấy được rằng phương pháp trích xuất đặc trưng HALF cĩ 
khả năng tính tốn nhanh do độ phức tạp thấp, phù hợp với các 
thiết bị trợ giúp cá nhân thơng minh, cĩ yêu cầu xử lý thời gian 
thực. 
 Bảng 2.4. Tốc độ phát hiện ngã trên tập dữ liệu tFall 
 Phương pháp Tập dữ liệu tFall (1000 mẫu) 
 (pp1) 2,86 giây 
 (pp2) 1,15 giây 
 (pp3) 3,01 giây 
 (pp4) 15,02 giây 
 CHƯƠNG 3: HỌC CÁC ĐẶC TRƯNG ĐA MỨC MPF 
3.1. Giới thiệu 
 Chương này đề xuất một phương pháp thay thế để xây 
dựng tập từ vựng chuyển động (motion vocabulary) và thực 
hiện gán các biểu diễn đặc trưng bằng cách sử dụng một kết hợp 
lượng nhỏ các cây quyết định hay được gọi là motion primitive 
forests (MPF). MPF hoạt động giống như các cây phân nhĩm 
thơng qua việc nhĩm các mơ tả cục bộ tương tự trong các nút 
lá. Quá trình này được định hướng bởi các nhãn của hoạt động 
và nhanh hơn nhiều so với k-means. Lợi thế của việc sử dụng 
cụm cây quyết định trong việc học từ vựng 
(vocabulary/codebook) đã được minh chứng trong các nghiên 
cứu xử lý ảnh, nhưng đây là lần đầu tiên được áp dụng cho nhận 
dạng hoạt động dựa trên cảm biến. Đề xuất thứ hai là xây dựng 
các đặc trưng cục bộ mới đơn giản, phù hợp khi sử dụng với 
MPF. Các đặc trưng này là các giá trị bao gồm những giá trị thơ 
 15 
chưa xử lý của các điểm dữ liệu hoặc các giá trị tổng, hiệu của 
2 điểm dữ liệu. Những giá trị này cĩ thể tính tốn nhanh, đồng 
thời cĩ thể giúp cho nhận dạng hoạt động chính xác như các đặc 
trưng cục bộ phức tạp khác. 
3.2. Phương pháp học đặc trưng MPF 
 Hình 3.1. (a) 3 lát tín hiệu (slice) được phân đoạn từ một 
khung hoạt động (frame) với độ chồng lấn là 50%, (b) các 
đặc trưng được trích xuất từ mỗi lát tín hiệu, (c) MPF với 
vai trị là từ vựng chuyển động, (d) phân phối tần suất của 
 chuyển động gốc (motion primitive histogram) 
 Đầu vào là chuỗi dữ liệu cảm biến liên tục 3 chiều. 
Bằng cách sử dụng một cửa sổ trượt, chuỗi dữ liệu cảm biến 
liên tục được phân đoạn thành các khung cĩ kích thước bằng 
nhau, trong đĩ chiều dài của chúng cĩ thời lượng dài hơn 
khoảng thời gian cho một hoạt động bất kỳ. Mỗi khung sau đĩ 
sẽ được phân chia thành các lát tín hiệu (hay các slice) bằng 
nhau (cĩ thể chồng lấn) để mỗi lát tín hiệu nhỏ hơn nhiều so với 
 16 
khung (frame) của nĩ (hình 3.1(a)). Từ mỗi lát tín hiệu, trích 
xuất các đặc trưng để tạo thành một véc-tơ đặc trưng cục bộ. 
Trong giai đoạn huấn luyện, nếu một khung chứa một hoạt động 
thì nhãn của hoạt động đĩ sẽ được gán cho tồn bộ khung cũng 
như các lát tín hiệu của nĩ. Trong pha dự đốn, bài tốn trở 
thành dự đốn nhãn lớp hoạt động cho mỗi khung. 
 Các véc-tơ đặc trưng cục bộ từ tất cả các lớp hoạt động 
(và lớp nền) được huấn luyện, sau đĩ được gộp lại với nhau và 
lượng tử hĩa để tạo thành từ vựng chuyển động gốc (motion 
primitive vocabulary) hay là bộ mã (codebook). Đây là quá trình 
gán một chỉ số cho mỗi véc-tơ đặc trưng cục bộ để các véc-tơ 
đặc trưng tương tự nhau sẽ cĩ xác suất cao cĩ cùng chung chỉ 
số. Phương pháp được đề xuất ở đây sử dụng MPF (motion 
primitive forests), là rừng ngẫu nhiên được sử dụng để phân 
cụm và ánh xạ các véc-tơ đặc trưng cục bộ thành chuyển động 
gốc (hình 3.1(c)). 
 Rừng ngẫu nhiên MPF sẽ xử lý mỗi nút lá từ mỗi cây 
như là một chuyển động gốc riêng biệt. Nĩi cách khác, các nút 
lá xác định một phân vùng, và mỗi nút lá tương ứng với một 
cụm các véc-tơ đặc trưng cục bộ tương tự nhau. Đối với mỗi 
véc-tơ đặc trưng cục bộ đầu vào, MPF trả về một tập các chỉ số 
của các nút lá, mỗi chỉ số nằm trong một cây. Các chỉ số nút lá 
này được dùng để tạo thành véc-tơ mã (code vector) như minh 
họa trong hình 3.3, trong đĩ “1” là véc-tơ đầu vào đã được ánh 
xạ tương ứng với chuyển động gốc. 
 17 
Hình 3.3. Véc-tơ mã (code vector) tạo ra từ một rừng ngẫu 
 nhiên với 3 cây cho một véc-tơ đặc trưng cục bộ. Đường 
 dẫn đến các nút lá kết quả được hiển thị bằng màu vàng. 
 Các rừng ngẫu nhiên MPF, cĩ tốc độ phân cụm nhanh 
hơn k-means và phương pháp gán theo hàng xĩm gần nhất. 
Đồng thời cĩ khả năng sinh ra các chuyển động gốc cĩ độ phân 
biệt cao hơn kể cả khi cĩ số lượng lớn các lát tín hiệu khơng 
nằm trong các khung cĩ chứa hoạt động (background slice). Kết 
quả này cĩ được chủ yếu là do các nhãn hoạt động được dùng 
trong việc định hướng xây dựng các cây quyết định. Trong bước 
tiếp theo, các chuyển động gốc được học bởi MPF được kết hợp 
với mơ hình túi từ thơng qua tổng hợp các véc-tơ mã của tất cả 
các lát tín hiệu thuộc về một khung để tạo thành véc-tơ phân 
phối tần suất các chuyển động gốc cho mỗi khung này (Hình 
3.1(d)). Véc-tơ phân phối tần suất sau khi đã chuẩn hĩa được sử 
dụng làm đặc trưng của khung trong bộ phân lớp cuối cùng. 
 Đặc trưng cục bộ đề xuất yêu cầu rất ít hoặc khơng cần 
tính tốn bởi vì chúng là giá trị thơ chưa xử lý của các điểm dữ 
 18 
liệu hoặc là các tổng hay hiệu của giá trị của 2 điểm dữ liệu. Các 
đặc trưng đơn giản này, khi được kết hợp với MPF, sẽ cung cấp 
độ chính xác cĩ thể so sánh được với các đặc trưng phức tạp 
hơn, trong khi chi phí tính tốn lại thấp hơn nhiều. 
 Độ phức tạp về thời gian chạy cho việc gán nhãn một 
đặc trưng cục bộ của một rừng với T cây là O(T log N). Trong 
trường hợp ở đây số cây nhỏ hơn 10 (xem thực nghiệm) nên cĩ 
thể bỏ qua, dẫn tới độ phức tạp yêu cầu là O(log N), nhanh hơn 
nhiều so với k-means với độ phức tạp thuật tốn là O(kp ). 
3.3. Tập dữ liệu thử nghiệm 
 Các tập dữ liệu thử nghiệm bao gồm Activity Prediction 
(AP), Oppotunity (OP) và Skoda (SK), chứa dữ liệu gia tốc cho 
các hoạt động hàng ngày và trong sản xuất, được sử dụng rộng 
rãi trong nhiều nghiên cứu về nhận dạng hoạt động người. 
3.4. Thử nghiệm và kết quả 
 Độ đo được dùng là độ chính xác tổng thể, được tính 
bằng tỷ lệ số khung được phân loại đúng trên tổng số khung. 
a) So sánh với phương pháp học đặc trưng sử dụng k-means 
 Thử nghiệm này để so sánh MPF với phương pháp học 
đặc trưng dựa trên k-means, trong việc xây dựng từ vựng và tìm 
kiếm hàng xĩm gần nhất để gán chuyển động gốc. Kết quả so 
sánh cho thấy mức cải thiện về độ chính xác tăng lên khá nhiều 
khi dùng phương pháp MPF. Đồng thời, kết quả cũng cho thấy 
rằng trong khi MPF cĩ thời gian chạy tăng khơng đáng kể khi 
kích thước từ vựng tăng lên, thì thời gian chạy của k-means lại 
tăng tuyến tính. Với kích thước là 200, thời gian chạy của k-
 19 
means đã lớn hơn nhiều so với MPF (580 giây so với 54 giây, 
trên tập dữ liệu SK). 
d) So sánh với các phương pháp khác 
 Thử nghiệm này so sánh độ chính xác nhận dạng của 
MPF khi sử dụng các đặc trưng cục bộ đơn giản với 2 phương 
pháp được cho là tốt nhất hiện nay. Phương pháp thứ nhất là 
học đặc trưng sử dụng PCA và ECDF. Phương pháp thứ hai sử 
dụng CNN với partial weight sharing cho cả việc học đặc trưng 
và phân lớp. 
 Bảng 3.2. So sánh độ chính xác trong phân lớp 
 AP OP SK 
 MPF + 1-NN 97,93% 84,17% 92,58% 
 MPF + SVM 98,48% 85,68% 95,08% 
 PCA + ECDF 95,75% 79,39% 90,48% 
 CNN 96,21% 77,34% 86,73% 
 Bảng 3.2 cho thấy cả hai biến thể của MPF (với 1-NN 
và SVM), luơn đạt được độ chính xác cao hơn PCA+ECDF và 
CNN trong cả ba tập dữ liệu. SVM cho kết quả tốt hơn so với 
1-NN, điều này là hợp lý vì số chiều của dữ liệu đầu vào (số 
chiều các véc-tơ phân phối tần suất) là khá cao. Những cải tiến 
về độ chính xác của MPF so với PCA+ECDF và CNN là đặc 
biệt đáng chú ý trên các tập dữ liệu OP và SK (khác biệt giữa 
MPF và

File đính kèm:

  • pdfluan_an_nghien_cuu_phuong_phap_hoc_may_cho_nhan_dang_hoat_do.pdf