Luận án Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ
đó, bất đẳng thức (2.11) được chứng minh. Tiếp theo, luận án xây dựng khoảng cách Jaccard mờ giữa hai phân hoạch dựa trên ma trận tương đương mờ, áp dụng rút gọn thuộc tính của bảng quyết định miền giá trị thực. Cho bảng quyết định DT U, C D với U u,..., u và PC , giả sử u là một lớp tương đương chứa u trong 1 n i P i phân hoạch UP/ . Khi đó, khoảng cách giữa tập thuộc tính C và CD trong công trình [4] được xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn như sau: 50 U u u 1 iCCD i dJ C, C D 1 (2.19) U i 1 u u iCCD i Sử dụng các phép toán trong [4] biến đổi độ đo khoảng cách trong công thức (2.19) tương đương công thức (2.20) như sau: UUu u u u u 1 iCCDCD i i 1 i i dJ C, C D 1 1 (2.20) UUi 1u() u u i 1 u iCCDC i i i Độ đo khoảng cách trong công thức (2.20) đặc trưng cho độ “gần nhau” giữa tập thuộc tính điều kiện C và tập thuộc tính quyết định D và được tác giả trong công trình [4] sử dụng để xây dựng phương pháp rút gọn thuộc tính trong bảng quyết định. Sử dụng độ đo khoảng cách trong công thức (2.20) kết hợp với công thức (2.9), luận án xây dựng độ đo khoảng cách Jaccard mờ giữa hai phân hoạch mờ dựa trên ma trận tương đương mờ theo hướng tiếp cận tập thô mờ. Định nghĩa 2.4. Cho bảng quyết định mờ DT U, C D , giả sử hai quan hệ tương đương mờ RC và RD xác định trên hai tập thuộc tính C và D tương C D ứng. Gọi rij là các phần tử của ma trận tương đương mờ MR C và rij là các phần tử của ma trận tương đương mờ MR D với 1 i , j n . Dựa trên công thức (2.20) và (2.9), luận án xây dựng độ đo khoảng cách Jaccard mờ giữa hai tập thuộc tính C và CD dựa trên ma trận quan hệ tương đương mờ như sau: n CD U min rij , r ij 1 j 1 dFJ C, C D 1 n (2.21) U i 1 C rij j 1 Mệnh đề 2.1. Cho bảng quyết định mờ DT U, C D và RC , RD là hai quan hệ tương đương mờ xác định trên tập thuộc tính C, D. Khi đó ta có: 51 1) 0 dFJ C , C D 1 (2.22) 2) dFJ C, C D 0 khi RRCD (2.23) Chứng minh: 1) Theo công thức tính khoảng cách mờ (2.21), dễ dàng nhận thấy 0 dFJ C , C D 1. 2) Theo tính chất của quan hệ tương đương mờ [40], [72] ta có: CD RRCD RCD x,, y R x y rij r ij i, j [1..n] . Thay vào công thức (2.21) ta có dFJ C, C D 0 . Mệnh đề 2.2. Cho bảng quyết định mờ DT U, C D và BC , khi đó ta có dFJ B,, B D d FJ C C D . Chứng minh: Theo [40], [72] ta có BC UCUB// (phân hoạch UC/ mịn hơn phân hoạch UB/ ) khi và chỉ khi [][]uCB u . Theo tính chất của quan hệ tương đương mờ [40], [72] và công thức n n (2.21) ta có [][]u u [][]u u CB CB iRCRB ()() i rij r ij i, j 1 i , j 1 n n DD DD CB r r r r r r . Do rCB, r [0,1] nên ij ij ij ij . ij ij ij ij CB (1 CB ) (1 ) i, j 1 i , j 1 rij r ij rij r ij Thay vào công thức tính khoảng cách mờ (2.21) có dFJFJ(,)(,) B B D d C C D . Khoảng cách Jaccard giữa hai phân hoạch mờ theo công thức (2.21) được gọi là khoảng cách Jaccard mờ dựa trên ma trận tương đương mờ. 52 2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ Trong phần này, luận án trình bày phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng độ đo khoảng cách Jaccard mờ dựa trên ma trận quan hệ tương đương mờ ở công thức (2.21). Cho bảng quyết định miền giá trị thực DT U, C D với U x1, x 2 ,..., xn . Trên tập thuộc tính điều kiện luận án sử dụng một quan hệ tương đương mờ xác định trên miền giá trị thuộc tính như ở công thức (1.11). Trên tập thuộc tính quyết định luận án sử dụng quan hệ tương đương IND D với ma trận tương đương M IND D d , d 1 nếu ij n n ij x x và d 0 nếu x x . Nói cách khác, lớp tương đương x có j i D ij j i D i D thể xem là lớp đương đương mờ, ký hiệu là xi , với hàm thuộc x x j 1 D i D nếu xj x i và x x j 0 nếu xj x i . Khi đó, ký hiệu phân hoạch mờ D i D D n D x x ,..., x . iDDDi 1 1 n Tương tự phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard trong lý thuyết tập thô truyền thống, phương pháp đề xuất bao gồm các bước: Định nghĩa tập rút gọn dựa trên khoảng cách Jaccard mờ, định nghĩa độ quan trọng của thuộc tính và xây dựng thuật toán heuristic tìm một tập rút gọn không dư thừa dựa trên tiêu chuẩn độ quan trọng của thuộc tính. Định nghĩa 2.5. Cho bảng quyết định có miền giá trị thực DT U, C D và tập thuộc tính PC . Nếu 1) dFJFJ P,, P D d C C D (2.24) 2) pPdPpPp ,(,)(,)FJ DdCCD FJ (2.25) thì P là một tập rút gọn của C dựa trên khoảng cách Jaccard mờ. 53 Định nghĩa 2.6. Cho bảng quyết định DT U, C D , PC và b C P . Độ quan trọng của thuộc tính b đối với P được định nghĩa bởi SIGbPFJFJ d PPDd,, P bP b D (2.26) Độ quan trọng của thuộc tính đặc trưng cho sự phụ thuộc của thuộc tính điều kiện vào thuộc tính quyết định và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm tập rút gọn sau đây. Thuật toán FJ_DBAR (Fuzzy Jaccard Distance based Attribute Reduction): Thuật toán heuristic tìm một tập rút gọn sử dụng khoảng cách Jaccard mờ. Đầu vào: Bảng quyết định miền giá trị thực DT U, C D , quan hệ tương đương mờ R . Đầu ra: Một tập rút gọn P . // Khởi tạo tập rút gọn bằng rỗng 1. P ; MR(P ) 0 ; dFJ , D 1; 2. Tính MR()C , M (IND(D)) ; 3. Tính dFJ C, C D ; // Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất 4. While dFJ P,, P D d FJ C C D Do 5. Begin 6. For each a C P Do 7. Begin 8. Tính dFJ P a, P a D ; 9. Tính SIGaPFJFJ d PPDd,, P aP a D ; // Tính độ quan trọng của từng thuộc tính điều kiện còn lại với tập thuộc tính quyết định 10. End; 54 11. Chọn am C P sao cho SIGP a m Max SIG P a ; a C P // Chọn thuộc tính có độ quan trọng lớn nhất theo khoảng cách Jaccard mờ kết nạp vào tập rút gọn 12. P P am ; 13. Tính dFJ P, P D ; 14. End; //Loại bỏ các thuộc tính dư thừa trong P nếu có 15. For each a P 16. Begin 17. Tính dFJ P a, P a D ; 18. If dFJ P a,, P a D d FJ C C D then P P a; // Loại bỏ những thuộc tính không cần thiết đến điều kiện xây dựng tập rút gọn 19. End; 20. Return P ; Ví dụ 2.3. Cho bảng quyết định miền giá trị thực DT U, C D (Bảng 2.1) với U u1,,,,, u 2 u 3 u 4 u 5 u 6 , C c1,,,,, c 2 c 3 c 4 c 5 c 6 . Bảng 2.1. Bảng quyết định miền giá trị thực U c1 c2 c3 c4 c5 c6 D u1 0.8 0.2 0.6 0.4 1 0 0 u2 0.8 0.2 0 0.6 0.2 0.8 1 u3 0.6 0.4 0.8 0.2 0.6 0.4 0 u4 0 0.4 0.6 0.4 0 1 1 u5 0 0.6 0.6 0.4 0 1 1 u6 0 0.6 0 1 0 1 0 55 Áp dụng các bước của thuật toán FJ_DBAR, sử dụng quan hệ tương đương mờ theo công thức (1.11). P , MR(P ) 0 , dFJ , D 1, tính các ma trận tương đương mờ MR(c1 ),( MR c 2 ),( MR c 3 ),( MR c 4 ),( MR c 5 ),( MR c 6 ),( MR C ),( MINDD ) . 1 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 c MR()1 , M (Rc2 ) 0 0 0 1 1 1 0 0 1 1 0 0 0 0 0 1 1 1 0 0 0 0 1 1 0 0 0 1 1 1 00 0 0 1 1 1 0 0 1 1 0 1 0 0 1 1 0 0 1 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 c MR()3 , M (Rc4 ) 1 0 0 1 1 0 1 0 0 1 1 0 1 0 0 1 1 0 1 0 0 1 1 0 0 1 0 0 0 1 00 0 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0.2 0.2 0.2 0 1 0 0.2 0.2 0.2 0 0 1 0 0 0 0 0 1 0 0 0 M ()Rc5 , M ()Rc6 0 0.2 0 1 1 1 0 0.2 0 1 1 1 0 0.2 0 1 1 1 0 0.2 0 1 1 1 0 0.2 0 1 1 1 0 0.2 0 1 1 1 1 0 0 0 0 0 1 0 1 0 0 1 0 1 0 0 0 0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 1 0 0 1 MR(),C M() IND D . 0 0 0 1 0 0 0 1 0 1 1 0 0 0 0 0 1 0 0 1 0 1 1 0 0 0 0 0 0 1 1 0 1 0 0 1 Tính: dFJ C, C D 0, dFJ { c1 },{ c 1 } { D } 0.38889; 56 dFJ { c2 },{ c 2 } {} D 0.5; dFJ { c3 },{ c 3 } { D } 0.389; dFJ { c4 },{ c 4 } { D } 0.222; dFJ { c5 },{ c 5 } { D } 0.23958; dFJ { c6 },{ c 6 } { D } 0.23958. SIGP { c1} 0.6111 1; SIGP { c2} 0. 5 ; SIGP {} c3 0.611 ; SIGP {} c4 0.778 ; SIGP {} c5 0.76042 ; SIGP {} c6 0.76042 . Thuộc tính c4 được chọn và P c4 . Tính tương tự, ta có: dFJ {,} c4 c 1,{ c 4 , c 1 } { D } 0 , kiểm tra dFJ { c4 , c 1 },{ c 4 , c 1 } D d FJ C , C D 0 , thuật toán dừng và kết luận P c4, c 1 . Sau khi kiểm tra tính dư thừa, kết luận P c4, c 1 là tập rút gọn của DT. Thuật toán FJ_DBAR tìm được một tập rút gọn và kiểm tra tính dư thừa của tập rút gọn. Độ phức tạp tính toán ma trận tương đương mờ của một 2 thuộc tính là OU() với U số lượng đối tượng, C là số lượng thuộc tính điều 2 kiện; độ phức tạp tính toán của MR()C là OCU() . Thuật toán có hai vòng lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ phức tạp tính toán của FJ_DBAR là OCU()3 2 . 2.3.3. Thử nghiệm và đánh giá kết quả Luận án lựa chọn thuật toán heuristic tìm một tập rút gọn dựa trên lượng thông tin tăng thêm GAIN_RATIO_AS_FRS [24] (gọi là GRAF) khi thêm một thuộc tính vào tập rút gọn để so sánh với thuật toán FJ_DBAR về thời gian thực hiện, tập rút gọn và độ chính xác phân lớp dữ liệu. Thuật toán GRAF tính toán độ quan trọng của thuộc tính dựa trên entropy mờ. Để tiến hành thực nghiệm, luận án thực hiện các công việc sau: 1) Cài đặt thuật toán GRAF [24] và thuật toán FJ_DBAR bởi ngôn ngữ C#. Cả hai thuật toán đều sử dụng quan hệ tương đương mờ định nghĩa ở 57 công thức (1.11) ở các thuộc tính điều kiện, trên tập thuộc tính quyết định sử dụng quan hệ tương đương mờ như ở công thức (1.12). 2) Trên máy tính PC với cấu hình: Bộ xử lý Pentium Core i3, 2.4 GHz CPU, 2 GB RAM, sử dụng hệ điều hành Windows 10, chạy thử nghiệm các thuật toán trên sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] như ở Bảng 2.2. Với mỗi bộ dữ liệu, ký hiệu U là số lượng các đối tượng, R là số lượng thuộc tính của tập rút gọn, C là số lượng các thuộc tính điều kiện, t là thời gian thực hiện của thuật toán (tính bằng giây), các thuộc tính điều kiện ký hiệu là 1, 2, ..., C . Bảng 2.2. Bộ dữ liệu thử nghiệm Số thuộc tính Số đối TT Bộ dữ liệu Số lớp điều kiện tượng 1 Fisher_Order 35 47 4 2 Iris 4 150 3 3 Glass 10 214 7 4 Sonar 60 208 2 5 Sensor_Readings_24 24 5456 4 6 EEG_Eye_State 14 14980 2 Thời gian thực hiện và tập rút gọn thu được của hai thuật toán được miêu tả trong Bảng 2.6 và Bảng 2.7. Bảng 2.6. Kết quả thực nghiệm của FJ_DBAR và GRAF FJ_DBAR GRAF TT Tập dữ liệu |U| |C| |R| t |R| t 1 Fisher_Order 47 35 18 0.095 21 0.107 2 Iris 150 4 1 0.002 2 0.003 3 Glass 214 10 6 0.46 8 0.48 4 Sonar 208 60 26 2.053 23 1.980 58 5 Sensor_Readings_24 5456 24 14 2.095 12 1.986 6 EEG_Eye_State 14980 14 7 2.580 7 2.790 Kết quả thực nghiệm ở Bảng 2.6 cho thấy số lượng thuộc tính của tập rút gọn thu được của FJ_DBAR và GRAF phụ thuộc vào từng bộ dữ liệu cụ thể. Thuật toán FJ_DBAR tìm được tập rút gọn có số lượng thuộc tính nhỏ hơn GRAF tại 3/6 bộ dữ liệu thử nghiệm (Fisher_Order, Iris, Glass), bằng nhau ở tại 1/6 bộ dữ liệu thử nghiệm (EEG_Eye_State), lớn hơn GRAF tại 2/6 bộ dữ liệu (Sonar, Sensor_Readings_24). Thời gian thực hiện của FJ_DBAR nhanh hơn GRAF tại 4/6 bộ dữ liệu (Fisher_Order, Iris, Glass, EEG_Eye_State). Trên một số bộ dữ liệu thử nghiệm, thuật toán nào tìm được tập rút gọn có số lượng thuộc tính ít hơn thì có thời gian thực hiện nhanh hơn. Tại bộ dữ liệu (EEG_Eye_State) tìm được tập rút gọn giống nhau theo hai thuật toán thì FJ_DBAR có thời gian thực hiện nhanh hơn, điều này phù hợp với lý thuyết bởi có cùng độ phức tạp tính là OCU()3 2 nhưng công thức tính độ quan trọng của thuộc tính của GRAF [24] tiếp cận theo hướng entropy mờ có sử dụng biểu thức Logarit sẽ mất thời gian tính toán hơn so với FJ_DBAR. Biểu đồ so sánh thời gian thực hiện của FJ_DBAR và GRAF được thể hiện như Hình 2.3 3 2.5 2 1.5 1 FJ_DBAR 0.5 GRAF 0 Hình 2.3. Thời gian thực hiện của FJ_DBAR và GRAF 59 Các tập rút gọn cụ thể của FJ_DBAR và GRAF trên sáu bộ số liệu thực nghiệm thể hiện ở Bảng 2.7. Bảng 2.7. Tập rút gọn thu được bởi FJ_DBAR và GRAF TT Bộ dữ liệu FJ_DBAR GRAF {22,11,13,14,15,16,17,18,19 {11,13,14,15,16,17,18,19,29,3 1 Fisher_Order ,29,30,31,32,33,34,9,20,5,2 0,31,32,33,34,28,24,12,2} 5,10,3} 2 Iris {3} {3,4} 3 Glass {2,1,3,4,5,10} {2,1,3,4,6,10,8,7} {21,36,27,12,31,54,24,22,33,2 {21,36,30,12,27,54,41,22,32 4 Sonar 9,57,48,39,34,6,46,20,16,7,11, ,57,39,16,46,34,6,11,10,31, 26,50,8,10,56,58} 8,26,56,48,58} {4,3,7,2,15,5,10,23,8,6,14,11, {3,7,12,15,5,21,24,8,14,17,1 5 Sensor_Readings_24 1,9} ,16} 6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5} Tiếp theo, luận án thực hiện việc so sánh độ chính xác phân lớp dữ liệu của tập rút gọn thu được bởi FJ_DBAR và GRAF. Độ chính xác phân lớp dữ liệu của các tập rút gọn được đánh giá bằng thuật toán C4.5 trong công cụ J48 của WEKA [100]. Để thực hiện việc đánh giá độ chính xác phân lớp dữ liệu, luận án chia tập dữ liệu thử nghiệm thành mười phần bằng nhau; chín phần mười tập dữ liệu được dùng làm dữ liệu huấn luyện, một phần mười dùng làm dữ liệu kiểm tra. Kết quả thực nghiệm được thể hiện ở Bảng 2.8. Bảng 2.8. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF FJ_DBAR GRAF Độ chính Độ chính TT Tập dữ liệu |U| |C| |R| xác phân |R| xác phân lớp (%) lớp (%) 1 Fisher_Order 47 35 18 78.72 21 76.59 60 2 Iris 150 4 1 94.00 2 94.00 3 Glass 214 10 6 80.15 8 81.70 4 Sonar 208 60 26 71.63 23 70.67 5 Sensor_Readings_24 5456 24 14 94.84 12 91.25 6 EEG_Eye_State 14980 14 7 81.25 7 81.25 Kết quả thực nghiệm trên sáu bộ dữ liệu ở Bảng 2.8 chỉ ra rằng độ chính xác phân lớp dữ liệu theo thuật toán C4.5 của FJ_DBAR cao hơn GRAF tại 3/6 bộ dữ liệu (Fisher_Order, Sonar, Sensor_Readings_24), bằng nhau tại 2/6 bộ dữ liệu (Iris, EEG_Eye_State), thấp hơn tại 1/6 bộ dữ liệu (Glass). Do vậy, luận án kết luận FJ_DBAR có độ chính xác phân lớp cao hơn GRAF trên một số bộ dữ liệu thử nghiệm, với những bộ dữ liệu có tập rút gọn giống nhau thì độ chính xác phân lớp theo thuật toán C4.5 của hai thuật toán là như nhau. Độ chính xác phân lớp này phụ thuộc vào tập rút gọn thu được theo các phương pháp với những bộ dữ liệu cụ thể, không phụ thuộc vào số lượng thuộc tính của tập rút gọn. Có những bộ dữ liệu có số lượng thuộc tính của tập rút gọn giống nhau nhưng các thuộc tính cụ thể khác nhau thì độ chính xác phân lớp theo thuật toán C4.5 có thể cũng khác nhau. Ví dụ bộ Iris với tập rút gọn thu được theo thuật toán FJ_DBAR là thuộc tính {3} thì độ chính xác phân lớp là 94%, với tập rút gọn thu được theo thuật toán F_RSAR2 là thuộc tính {4} thì độ chính xác 94.67%. Ngoài ra, độ chính xác phân lớp của các tập rút gọn theo thuật toán C4.5 còn phụ thuộc vào tỷ lệ phân chia tập dữ liệu giữa phần huấn luyện và phần kiểm tra. Thông thường, các phương pháp hay lựa chọn chia tập dữ liệu thành mười phần hoặc ba phần bằng nhau; một phần sử dụng làm dữ liệu huấn luyện, các phần còn lại sử dụng làm dữ liệu kiểm tra. Biểu đồ so sánh độ chính xác phân lớp của FJ_DBAR và GRAF theo C4.5 được thể hiện như Hình 2.4. 61 100.00 94 94.84 90.00 78.72 80.15 81.25 80.00 71.63 70.00 60.00 50.00 40.00 FJ_DBAR 30.00 GRAF 20.00 10.00 0.00 Hình 2.4. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF Bằng thực nghiệm, luận án kết luận thuật toán toán FJ_DBAR có khả năng cho kết quả tốt hơn GRAF về thời gian thực hiện và độ chính xác phân lớp dữ liệu trên một số bộ dữ liệu thử nghiệm. 2.4. Kết luận chương 2 Một trong những mục tiêu của rút gọn thuộc tính trong bảng quyết định là nâng cao độ chính xác phân lớp của dữ liệu. Trên lớp bài toán rút gọn thuộc tính trong bảng quyết định miền giá trị thực, các nghiên cứu liên quan cho thấy các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ chính xác phân lớp cao hơn phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống [24], [39], [44], [47], [72], [80]. Chương 2 của luận án cải tiến phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực sử dụng miền dương mờ trong công trình của Hu, Q., [38] để tìm một tập rút gọn không dư thừa thuộc tính, bảo toàn miền dương mờ dựa trên quan hệ tương đương mờ. Bên cạnh đó, phương pháp đề xuất cũng cải tiến công thức tính độ quan trọng của thuộc tính sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho tập rút gọn để giảm bớt thời gian tính toán độ quan trọng của thuộc tính. 62 Đóng góp chính của Chương 2 là đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách Jaccard mờ. Khoảng cách Jaccard mờ được xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp và chứng minh đầy đủ các tính chất của khoảng cách. Kết quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI [99] cho thấy, độ chính xác phân lớp của phương pháp sử dụng khoảng cách Jaccard mờ tốt hơn độ chính xác phân lớp của phương pháp sử dụng entropy mờ trên một số bộ dữ liệu thực nghiệm, thời gian thực hiện của phương pháp khoảng cách nhanh hơn entropy trên đa số bộ dữ liệu thử nghiệm. 63 CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ Tiếp nối sự thành công của kỹ thuật sử dụng khoảng cách Jaccard mờ trong phần trước, Chương 3 của luận án đề xuất một độ đo khoảng cách giữa hai phân hoạch mờ, gọi là khoảng cách phân hoạch mờ. Dựa trên khoảng cách phân hoạch mờ đề xuất, chương này xây dựng phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực. Thử nghiệm trên một số bộ dữ liệu cho thấy, phương pháp đề xuất hiệu quả hơn phương pháp sử dụng entropy thông tin mờ và phương pháp sử dụng miền dương mờ theo tiêu chí đánh giá độ chính xác phân lớp dữ liệu và thời gian thực hiện của thuật toán. 3.1. Đặt vấn đề Chương 2 của luận án cho thấy sự hiệu quả của phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách Jaccard mờ. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI [99] thấy rằng kỹ thuật sử dụng khoảng cách Jaccard mờ tỏ ra hiệu quả so với phương pháp sử dụng entropy mờ dựa trên các tiêu chí đánh giá về thời gian thực hiện và độ chính xác phân lớp dữ liệu. Với mục tiêu nghiên cứu các phương pháp hiệu quả để rút gọn thuộc tính của bảng quyết định miền giá trị thực, bổ sung làm phong phú thêm bộ sưu tập các phương pháp, nhằm đánh giá một cách khái quát hơn về nhóm phương pháp sử dụng khoảng cách mờ theo tiếp cận tập thô mờ. Chương 3 của luận án đề xuất độ đo khoảng cách giữa hai phân hoạch mờ và ứng dụng rút gọn thuộc tính của bảng quyết định miền giá trị thực. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI [99] chỉ ra rằng, phương pháp sử dụng khoảng cách phân hoạch mờ tỏ ra hiệu quả hơn phương pháp sử dụng pháp sử dụng entropy thông tin mờ [24], [38]-[40], [88], [89] và miền dương mờ [9], [38]-[40], [72] trên một số bộ dữ 64 liệu thử nghiệm theo tiêu chí đánh giá thời gian thực hiện thuật toán và độ chính xác phân lớp dữ liệu. Qua đó, khẳng định được sự thành công của phương pháp sử dụng khoảng cách mờ trong rút gọn thuộc tính của bảng quyết định miền giá trị thực, là sự tiếp nối của phương pháp sử dụng khoảng cách trong tập thô truyền thống. Các kết quả chính trong chương này được công bố trong công trình [CCN4]. 3.2. Khoảng cách phân hoạch mờ và các tính chất Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các đối tượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay một khối. Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương đương) giữa các tri thức, nghĩa là khoảng cách giữa hai tri thức càng nhỏ thì hai tri thức đó càng gần nhau, hay càng tương đương nhau và ngược lạ
File đính kèm:
- luan_an_nghien_cuu_cac_phuong_phap_rut_gon_thuoc_tinh_va_sin.pdf
- TOMTAT_LUANAN_CCNGHIA.pdf
- Trang thong tin LATS tieng Anh_CCNGHIA.pdf
- Trang thong tin LATS tieng Viet_CCNGHIA.pdf