Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 1

Trang 1

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 2

Trang 2

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 3

Trang 3

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 4

Trang 4

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 5

Trang 5

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 6

Trang 6

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 7

Trang 7

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 8

Trang 8

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 9

Trang 9

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ trang 10

Trang 10

Tải về để xem bản đầy đủ

docx 133 trang nguyenduy 06/05/2024 1230
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ

Luận án Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
m tập rút gọn đã được đề xuất trong trường hợp bổ sung, loại bỏ tập đối tượng, bổ sung, loại bỏ tập thuộc tính. Với trường hợp bổ sung, loại bỏ tập đối tượng, một số thuật toán gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24, 25, 26, 27], ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc [36], quan hệ không phân biệt được [37], entropy thông tin [38], độ đo không nhất quán [39], lựa chọn mẫu kích hoạt [40]. Với trường hợp bổ sung, loại bỏ tập thuộc tính, một số thuật toán gia tăng tìm tập rút gọn đã được đề xuất sử dụng miền dương [41], entropy thông tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt [46, 47], khoảng cách [48], độ phụ thuộc của thuộc tính [49], hạt tri thức [50, 51], ngoài ra còn một số phương pháp khác[80, 81,82, 83, 84, 90, 98, 102, 105, 106, 107, 108, 109, 110]
Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây đã có một số nghiên cứu đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi. Với trường hợp bổ sung và loại bỏ tập thuộc tính, Zeng và cộng sự [16] đã giới thiệu mô hình tập thô mờ mở rộng dựa trên các hệ thống thông tin lai (HIS) và đề xuất hai thuật toán gia tăng (FRSA-IFS-HIS-AA và FRSA-IFS-HIS-AD) tìm ra tập rút gọn dựa trên hàm phụ thuộc mờ. Với trường hợp bổ sung tập đối tượng, Liu và cộng sự [17] đã xây dựng các công thức gia tăng tính hàm thành viên mờ và đề xuất thuật toán gia tăng FIAR tìm tập rút gọn. Yang và cộng sự [18] đã xây dựng cơ chế gia tăng tính quan hệ không phân biệt mờ và đề xuất thuật toán gia tăng IARM tìm tập rút gọn. Yang và cộng sự [20] đề xuất hai thuật toán gia tăng (V-FS-FRS-1 và V-FS-FRS-2) tìm tập rút gọn dựa trên ma trận phân biệt mờ. Theo tiếp cận tập thô mờ [1], trong mấy năm gần đây một số thuật toán gia tăng tìm tập rút gọn của bảng quyết định đã được đề xuất với các trường hợp: bổ sung và loại bỏ tập đối tượng [52, 53, 54, 55, 56], bổ sung và loại bỏ tập thuộc tính [57], và một số phương pháp khác [86, 87, 88, 89 ,93 ,94 ,95 ,96 ,97]. Với trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các cộng sự [52] xây dựng công thức gia tăng tính độ phụ thuộc mờ và đề xuất thuật toán giăng FIAT tìm tập rút gọn khi bổ sung tập đối tượng. Yang và các cộng sự [53] xây dựng công thức gia tăng tính quan hệ phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng IARM tìm tập rút gọn khi bổ sung tập đối tượng. Yang và các cộng sự [54] xây dựng cơ chế cập nhật quan hệ phân biệt và đề xuất hai thuật toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tập rút gọn trong trường hợp bổ sung tập đối tượng. Zhang và các cộng sự [56] đề xuất thuật toán gia tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trong trường hợp bổ sung tập đối tượng. Ni và các cộng sự [57] đưa ra khái niệm tập đối tượng chính (key instance set), trên cơ sở đó xây dựng hai thuật toán gia tăng tìm tập rút gọn dựa trên tập đối tượng chính trong trường hợp bổ sung tập đối tượng: thuật toán DIAR sử dụng hàm thuộc mờ và thuật toán PIAR sử dụng miền dương mờ. Với trường hợp bổ sung, loại bỏ tập thuộc tính, các kết quả nghiên cứu về các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ còn hạn chế. Zeng và các cộng sự [58] xây dựng các công thức gia tăng cập nhật độ phụ thuộc mờ trong hệ thông tin hỗn hợp (HIS), trên cơ sở đó đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán FRSA-IFS-HIS(AA) trong trường hợp bổ sung tập thuộc tính và thuật toán FRSA-IFS-HIS(AD) trong trường hợp loại bỏ tập thuộc tính. Kết quả thực nghiệm trong các công trình nêu trên cho thấy, các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện so với các thuật toán không gia tăng. Do đó, chúng có thể thực thi hiệu quả trên các bảng quyết định có kích thước lớn và thay đổi, cập nhật.Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận lọc truyền thống (filter). Trong đó, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa (hàm thuộc mờ, quan hệ phân biệt), việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn. Vì vậy, tập rút gọn tìm được của các thuật toán nêu trên chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp, nghĩa là tập rút gọn tìm được chưa chắc có độ chính xác phân lớp tốt nhất.
Từ những vấn đề phân tích nêu trên, trong chương này, trước hết luận án trình bày các công thức gia tăng cập nhật khoảng cách mờ (được đề xuất ở Chương 2) trong trường hợp bổ sung, loại bỏ tập đối tượng. Dựa trên các công thức tính toán gia tăng khoảng cách mờ được xây dựng, luận án trình bày 02 thuật toán gia tăng tìm tập rút gọn của bảng quyết định theo tiếp cận kết hợp filter-wrapper:
Thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn trong trường hợp bổ sung tập đối tượng.
Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn trong trường hợp loại bỏ tập đối tượng.
Hai thuật toán đề xuất nêu trên đều theo tiếp cận kết hợp filter-wrapper, hai thuật toán này nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác mô hình phân lớp.
Kết quả nghiên cứu ở chương này được công bố ở công trình số 1, 3 phần “Danh mục các công trình của tác giả”.
3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng
Trong phần này, luận án trình bày thuật toán gia tăng filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ khi bổ sung tập đối tượng vào bảng quyết định. Trước hết, luận án xây dựng các công thức gia tăng tính khoảng cách mờ khi bổ sung một đối tượng và một tập đối tượng.
3.2.1. Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng
Cho bảng quyết định với và là quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Theo Mệnh đề 2.3 của Chương 2 , khoảng cách mờ sinh bởi và trên là:
Mệnh đề 3.1. Cho bảng quyết định với và R là quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giá sử đối tượng được bổ sung vào . Khi đó, công thức tính gia tăng khoảng cách mờ là:
Chứng minh: Giả sử , tương ứng là ma trận tương đương mờ của trên U và , với . Ma trận tương đương của D trên U và là , .
Khi đó ta có: 
Mặt khác
Từ đó ta có:
Ví dụ 3.1
Cho bảng quyết định , với và 
Bảng 3.1 Bảng quyết định của Ví dụ 3.1
U
c1
c2
c3
c4
D
u1
0.8
0.2
0.6
0.4
0
u2
0
0.4
0.6
0.4
1
u3
0
0.6
0.6
0.4
1
Luận án sử dụng quan hệ tương đương mờ Ra trên thuộc tính như sau:
 với 
Từ đó, tính các ma trận tương đương mờ lần lượt là:
Áp dụng công thức tính khoảng cách mờ sinh bởi C và trên U là:
Tiếp theo tiến hành bổ sung một đối tượng 
Bảng 3.2 Bảng quyết định sau khi thêm đối tượng u4 của Ví dụ 3.1
U
c1
c2
c3
c4
D
u1
0.8
0.2
0.6
0.4
0
u2
0
0.4
0.6
0.4
1
u3
0
0.6
0.6
0.4
1
x1
0
0.6
0
1
0

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.1
Các ma trận tương đương mờ sau khi bổ sung một đối tượng x1
Ta có: =
2)Tính khoảng cách trên toàn bộ bảng quyết định theo công thức không gia tăng
Với n= 4
Như vậy, kết quả tính toán khoảng cách mờ bởi công thức gia tăng của Mệnh đề 3.1 và công thức không gia tăng khi bổ sung thêm một đối tượng trên toàn bộ bảng quyết định là như nhau, điều này chứng minh tính đúng đắn của công thức gia tăng.
3.2.2. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng
Từ Mệnh đề 3.1, chúng tôi giới thiệu công thức gia tăng tính khoảng cách mờ khi thêm một tập đối tượng ở Mệnh đề 3.2
Mệnh đề 3.2. Cho bảng quyết định với và là quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giả sử tập đối tượng gồm s phần tử được bổ sung vào U, mà s³2. Với là ma trận tương đương mờ tương ứng trên C và D. Khi đó, công thức gia tăng khoảng cách mờ như sau: 
mà 
Chứng minh: Ký hiệu tương ứng là công thức tính khoảng cách mờ khi thêm lần lượt các đối tượng vào U, và là khoảng cách mờ trên tập đối tượng ban đầu U.
Khi bổ sung đối tượng vào U, ta có:
 (2.1)
Ở đây, lớp tương đương mờ tính trên đối tượng. Để tính toán trên đối tượng sau khi bổ sung (tương ứng với ma trận quan hệ , công thức (2.1) trở thành:
Với
Tính tương tự như vậy, ta được:
Với 
 Ví dụ 3.2 Cho bảng quyết định , với 
Bảng 3.3 Bảng quyết định của Ví dụ 3.2
U
c1
c2
c3
c4
c5
c6
D
u1
0.8
0.2
0.6
0.4
1
0
0
u2
0.8
0.2
0
0.6
0.2
0.8
1
u3
0.6
0.4
0.8
0.2
0.6
0.4
0
Luận án sử dụng quan hệ tương đương mờ trên thuộc tính như sau:
 với 
Từ đó, tính các ma trận tương đương mờ lần lượt:
 Khoảng cách mờ giữa hai tập thuộc tính C và D của bảng quyết định được tính bằng công thức không gia tăng:
Tiếp theo, tiến hành bổ sung tập đối tượng vào bảng quyết định .
Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng
U
c1
c2
c3
c4
c5
c6
D
u1
0.8
0.2
0.6
0.4
1
0
0
u2
0.8
0.2
0
0.6
0.2
0.8
1
u3
0.6
0.4
0.8
0.2
0.6
0.4
0

0
0.4
0.6
0.4
0
1
1

0
0.6
0.6
0.4
0
1
1

0
0.6
0
1
0
1
0
1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.2
Các ma trận tương đương mờ khi bổ sung tập đối tượng , 
 Ta có: 
2) Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia tăng
Với n= 3, s=3, ta có:
 Với 
Như vậy, kết quả tính toán khoảng cách mờ bởi công thức gia tăng của Mệnh đề 3.2 và công thức không gia tăng khi bổ sung thêm tập đối tượng trên toàn bộ bảng quyết định là như nhau, điều này chứng minh tính đúng đắn của công thức gia tăng.
3.2.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn sau khi bổ sung tập đối tượng
Mệnh đề 3.3. Cho bảng quyết định với và là quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, là tập rút gọn dựa trên khoảng cách mờ. Giả sử tập đối tượng gồm s phần tử được bổ sung vào . Khi đó ta có:
Nếu với mọi thì:
Nếu với mọi thì .
Chứng minh: Giả sử tương ứng là ma trận tương đương mờ trên C và B.
1) Nếu với mọi thì với mọi và ta có . Do đó, , từ Mệnh đề 3.2 ta có công thức trong trường hợp đầu tiên. 
2) Nếu với mọi thì . Khi đó, ta có và . Do đó ,,, .
Hơn nữa, với . Từ Mệnh đề 3.2 ta có: (3.1)
 (3.2)
Từ B là tập rút gọn của C nên ta có: . Từ (3.1) và (3.2) ta có: 
Từ kết quả của Mệnh đề 3.3, thuật toán gia tăng filter-wrapper rút gọn thuộc tính sử dụng khoảng cách mờ IFW_FDAR_AdObj gồm 3 bước chính:
Algorithm IFW_FDAR_AdObj 
Đầu vào: 
Bảng quyết định với , quan hệ tương đương mờ , tập rút gọn.
 Các ma trận tương đương mờ 
Tập đối tượng bổ sung 
Đầu ra: Tập rút gọn xấp xỉ của với độ chính xác phân loại cao nhất.
Bước 1: Khởi tạo
 // T chứa ứng của viên tập rút gọn tốt nhất
Tính các ma trận tương đương mờ trên tập đối tượng 
;
Bước 2: Kiểm tra tập đối tượng thêm vào
Đặt ;
For to s do
 If then ;
 If then Return ; // Tập xấp xỉ không thay đổi
Đặt ; //Gán lại tập đối tượng
Bước 3: Tìm tập rút gọn tốt nhất
Tính các khoảng cách mờ ban đầu
; 
Tính khoảng cách mờ bởi công thức gia tăng:
 // Giai đoạn fifter: tìm các ứng viên cho tập rút gọn
While do
Begin
For each do
Begin
Tính bởi công thức gia tăng; 
Tính 
End; 
Select satisfying ; 
;
;
;
End;
//Giai đoạn Wrapper: tìm tập rút gọn với độ chính xác phân loại cao nhất
Đặt //t là số phần tử của T, ;
Đặt ;
For j:= 1 to t do
Tính độ chính xác phân lớp trên bằng một bộ phân lớp sử dụng phương pháp 10-fold;
 với có độ chính xác phân lớp cao nhất;
Return ;
3.2.4. Đánh giá độ phức tạp của thuật toán
Trong phần này, Luận án sẽ đánh giá độ phức tạp của thuật toán IFW_FDAR_AdObj . Giả sử , tương ứng là số thuộc tính điều kiện, số đối tượng và số đối tượng bổ sung từ tập ban đầu. Độ phức tạp của thuật toán được tính dựa trên thuật toán trên.
Độ phức tạp của ma trận tương đương mờ ở câu lệnh 2 trên là và độ phức tạp của vòng for ở câu lệnh 4, 5 là . Trong trường hợp tốt nhất, thuật toán kết thúc ở câu lệnh 6 (tập rút gọn không thay đổi). Khi đó, độ phức tạp của thuật toán IFW_FDAR_AdObj là. Ngược lại, độ phức tạp của khoảng cách mờ ở câu lệnh 9 là, độ phức tạp tính gia tăng là . Bằng cách tính độ phức tạp tương tự như thuật toán FW_FDBAR ở trong phần 2.4, độ phức tạp của vòng lặp While (từ câu lệnh 10 đến câu lệnh 21) là . Kết quả độ phức tạp của giai đoạn fifter trong trường hợp xấu nhất là. Độ phức tạp của giai đoạn wrapper phụ thuộc vào độ phức tạp của bộ phân lớp được sử dụng. Giả sử độ phức tạp của bộ phân lớp là, khi đó độ phức tạp của giai đoạn wrapper là .
Từ những phân tích trên độ phức tạp của thuật toán IFW_FDAR_AdObj là:
Nếu thực hiện thuật toán không gia tăng FW_FDBAR trực tiếp trên bảng quyết định có số đối tượng , theo mục 2.4 của Chương 2, độ phức tạp của FW_FDBAR là . Dựa trên kết quả này chúng ta thấy rằng thuật toán IFW_FDAR_AdObj giảm thiểu đáng kể thời gian thực hiện, đặc biệt trong trường hợp tập đối tượng lớn hoặc tập điều kiện lớn và nhỏ.
3.2.5. Thực nghiệm thuật toán 
3.2.5.1 Mục tiêu thực nghiệm
1) Đánh giá về thời gian thực hiện của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với hai thuật toán gia tăng theo tiếp cận filter trên tập thô mờ IV-FS-FRS-2 [54], IARM [18]) và hai thuật toán filter trên tập thô (ASS-IAR [40], IFSA [36])). Đặc biệt, thuật toán IV-FS-FRS-2 là một thuật toán filter dựa trên ma trận phân biệt mờ, trong khi IARM là một thuật toán filter dựa trên quan hệ phân biệt. ASS-IAR là thuật toán filter dựa trên lựa chọn mẫu hoạt động, trong khi IFSA là thuật toán filter dựa trên chức năng phụ thuộc. 
2) Đánh giá tính hiệu quả về độ chính xác phân lớp và số lượng thuộc tính của tập rút gọn của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj so với bốn thuật toán filter nêu trên.
3.2.5.2 Dữ liệu thực nghiệm
 Việc thực nghiệm được triển khai trên 8 tập dữ liệu mẫu lấy từ kho dữ liệu UCI[59] trong Bảng 3.5.
Với thuật toán IV-FS-FRS-2 và IARM bằng cách tiếp cận tập thô mờ, tất cả các thuộc tính giá trị thực được chuẩn hóa thành giá trị trong khoảng [0, 1] trên mỗi tập dữ liệu [54]:
 	 (3.3)
Với , tương ứng là giá trị lớn nhất và nhỏ nhất của thuộc tính . Quan hệ tương đương mờ [9,54] trên thuộc tính được xác định như sau:
 với (3.4)
với mỗi thuộc tính có giá trị định danh hoặc nhị phân, quan hệ tương đương mờ trong (3.5) với : 
 (3.5)
Trên thuộc tính quyết định , Luận án sử dụng quan hệ tương đương . Với 
 (3.6)
Phân hoạch , với và là một lớp tương đương. Khi đó, lớp tương đương được xem là lớp tương đương mờ, ký hiệu bởi . Hàm thành viên được định nghĩa là nếu và nếu . 
Với thuật toán ASS-IAR và IFSA được tiếp cận theo tập thô truyền thống, luận án dùng thuật toán phân cụm C-mean mờ (FCM) để phân biệt dữ liệu có giá trị thực trước khi rút gọn thuộc tính.
Mỗi tập dữ liệu được chia thành 2 phần xấp xỉ nhau: dữ liệu ban đầu (Cột 5 trong Bảng 3.5) và dữ liệu gia tăng (Cột 6 trong Bảng 3.5). Dữ liệu ban đầu được ký hiệu là U0. Tập dữ liệu gia tăng được tách ngẫu nhiên thành 5 phần bằng nhau, mỗi phần được ký hiệu tương ứng là U1, U2, U3, U4, U5.
Để áp dụng thuật toán gia tăng IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA, đầu tiên chúng tôi thực hiện thuật toán này trên bộ dữ liệu gốc. Tiếp đến, thuật toán này sẽ được bổ sung lần lượt từ phần đầu tiên đến phần thứ năm của bộ dữ liệu gia tăng. 
Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng
Stt
Bộ dữ liệu
Mô tả
Số đối tượng
Số đối tượng ban đầu
Số đối tượng gia tăng
Số thuộc tính điều kiện
Số lớp quyết định
Tổng số
Giá trị định danh
Giá trị thực
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
1
Libra
Libras movement
360
180
180
90
0
90
15
2
WDBC
Wisconsin diagnostic breast cancer
569
284
285
30
0
30
2
3
Horse
Horse colic
368
183
185
22
15
7
2
4
Heart
Statlog (heart)
270
135
135
13
7
6
2
5
Credit
Credit approval
690
345
345
15
9
6
2
6
German
German credit data
1000
500
500
20
13
7
2
7
Cmc
Contraceptive Method Choice
1473
733
740
9
7
2
3
8
Wave
Waveform
5000
2500
2500
21
0
21
3

3.2.5.3 Phương pháp, công cụ và môi trường thử nghiệm
Chúng tôi dùng bộ phân lớp CART (CART – Classification And Regression Tree) để tính độ chính xác phân lớp trong giai đoạn wrapper của thuật toán IFW_FDAR_AdObj. Đồng thời dùng bộ phân lớp CART để tính độ chính xác phân lớp cho các thuật toán IFW_FDAR_AdObj , IV-FS-FRS-2, IARM, ASS-IAR sau khi rút gọn tập thuộc tính. Chúng tôi sử dụng phương pháp kiểm tra chéo 10-fold và chia bộ dữ liệu thành 10 phần xấp xỉ bằng nhau. Lấy ngẫu nhiên một phần làm bộ dữ liệu kiểm tra, các phần còn lại làm dữ liệu huấn luyện. Quá trình được lặp lại 10 lần. Độ chính xác được biểu diễn bởi v±σ với v là giá trị độ chính xác trung bình của 10 lần lặp và σ là sai số chuẩn (standard error). Tất cả các thử nghiệm được cài đặt trên PC Core(TM) Intel (R) i7-3770CPU, 3.40 GHz, Windows 7 sử dụng Matlab. 
3.2.5.4 Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán IV-FS-FRS-2, IARM, ASS-IAR, IFSA 
Bảng 3.6 và Hình 3.1 trình bày thể hiện kết quả so sánh về thời gian thực hiện của thuật toán IFW_FDAR_AdObj với các thuật toán IV-FS-FRS-2, IARM, ASS-IAR, IFSA với các cột T0, T1, T2, T3, T4 tương ứng là tổng thời gian tính toán của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR, IFSA. Cột DS là dữ liệu gia tăng ban đầu. 
Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA (tính bằng giây)
Stt
Bộ dữ liệu
DS
T0
T1
T2
T3
T4
1
Libra
U0
4.26
3.12
3.04
3.82
3.02
U1
4.84
3.98
3.86
3.86
3.16
U2
5.22
4.46
4.24
3.94
3.49
U3
5.68
4.98
4.56
4.12
3.98
U4
6.28
5.24
4.86
4.48
4.54
U5
6.78
5.76
5.08
4.86
5.06
2
WDBC
U0
2.86
2.12
2.10
2.63
2.06
U1
3.04
2.46
2.42
2.72
2.18
U2
3.28
2.72
2.68
2.80
2.34
U3
3.56
2.91
2.85
2.89
2.61
U4
3.85
3.24
3.02
2.98
2.88
U5
4.08
3.35
3.12
3.04
3.19
3
Horse
U0
0.68
0.54
0.52
0.58
0.50
U1
0.76
0.59
0.58
0.63
0.54
U2
0.85
0.66
0.67
0.69
0.59
U3
0.94
0.74
0.75
0.72
0.66
U4
0.99
0.78
0.79
0.75
0.75
U5
1.08
0.82
0.86
0.78
0.84
4
Heart
U0
0.68
0.11
0.11
0.14
0.10
U1
0.72
0.13
0.14
0.15
0.12
U2
0.86
0.18
0.18
0.17
0.14
U3
0.92
0.19
0.20
0.18
0.17
U4
1.08
0.20
0.21
0.19
0.20
U5
1.26
0.22
0.22
0.20
0.24
5
Credit
U0
0.74
0.52
0.52
0.56
0.48
U1
0.96
0.68
0.66
0.62
0.56
U2
1.29
0.82
0.81
0.69
0.68
U3
1.54
0.94
0.92
0.78
0.79
U4
1.75
1.05
1.04
0.88
0.94
U5
1.86
1.18
1.15
1.12
1.18
6
German
U0
2.36
2.04
2.02
2.86
2.04
U1
2.58
2.25
2.21
2.92
2.12
U2
2.94
2.62
2.58
2.98
2.26
U3
3.28
2.98
2.92
3.06
2.48
U4
3.68
3.36
3.28
3.12
2.96
U5
4.26
3.84
3.46
3.18
3.42
7
Cmc
U0
1.92
1.54
1.55
1.86
1.58
U1
2.12
1.76
1.78
1.98
1.72
U2
2.48
1.98
2.01
2.12
1.96
U3
2.74
2.25
2.28
2.28
2.32
U4
2.98
2.34
242
2.45
2.58
U5
3.22
2.72
2.96
2.64
2.82
8
Wave
U0
182.26
164.26
160.68
172.58
154.28
U1
198.64
182.98
175.48
176.12
162.18
U2
210.12
198.24
189.28
182.64
173.69
U3
228.84
209.17
202.85
189.25
188.26
U4
252.26
223.89
219.46
192.46
202.17
U5
274.48
238.64
226.26
198.16
220.46

Hình 3.1a. Thời gian thực hiện các thuật toán trên bộ dữ liệu Libra
Hình 3.1b. Thời gian thực hiện các thuật toán trên bộ dữ liệu WDBC
Hình 3.1c. Thời gian thực hiện các thuật toán trên bộ dữ liệu Horse
Hình 3.1d. Thời gian thực hiện các thuật toán trên bộ dữ liệu Heart
Hình 3.1.e Thời gian thực hiện các thuật toán trên bộ dữ liệu Credit
Hình 3.1.f Thời gian thực hiện các thuật toán trên bộ dữ liệu German
Hình 3.1.g Thời gian thực hiện các thuật toán trên bộ dữ liệu Cmc
Hình 3.1.h Thời gian thực hiện các thuật toán trên bộ dữ liệu Wave
Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR và IFSA
Bảng 3.6 và Hình 3.1 chỉ ra rằng thời gian thực hiện của thuật toán IFW_FDAR_AdObj cao hơn thời gian thực hiện của các thuật toán IV-FS-FRS-2 và IARM trên tất cả các bộ dữ liệu. Mặc dù việc tính toán khoảng cách mờ trong thuật toán IFW_FDAR_AdObj đơn giản hơn việc tính toán độ đo trong các thuật toán IV-FS-FRS-2, IARM, ASS-IAR và IFSA, thuật toán IFW_FDAR_AdObj cần nhiều thời gian hơn để thực hiện phân lớp. Thời gian thực hiện của thuật toán ASS-IAR là nhỏ nhất vì loại bỏ các dữ liệu nhiễu trong tính toán gia tăng.
3.2.5.5 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính của tập rút gọn của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán IV-FS-FRS-2, IARM, ASS-IAR, IFSA 
Kết quả của độ chính xác phân lớp và số lượng thuộc tính của tập rút gọn được trình bày trong Bảng 3.7. Theo kết quả này, số lượng thuộc tính của tập rú

File đính kèm:

  • docxluan_an_phuong_phap_gia_tang_rut_gon_thuoc_tinh_trong_bang_q.docx
  • docxDongGopMoi_TiengAnh.docx
  • pdfDongGopMoi_TiengAnh.pdf
  • docDongGopMoi_TiengViet.doc
  • pdfDongGopMoi_TiengViet.pdf
  • pdfLuanAn_FINAL CO SO PBFINAL.pdf
  • pdfQĐ cấp học viện_Hồ Thị Phượng.pdf
  • docxTomTatLuanAn_HoThiPhuong.docx
  • pdfTomTatLuanAn_HoThiPhuong.pdf
  • docxTrichYeuLuanAn.docx
  • pdfTrichYeuLuanAn.pdf