Luận án Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ

Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
137 trang nguyenduy 02/05/2024 3760
Download
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ

đó, bất đẳng thức (2.11) được chứng minh. 
 Tiếp theo, luận án xây dựng khoảng cách Jaccard mờ giữa hai phân 
hoạch dựa trên ma trận tương đương mờ, áp dụng rút gọn thuộc tính của 
bảng quyết định miền giá trị thực. Cho bảng quyết định DT U, C  D với 
U u,..., u và PC , giả sử u là một lớp tương đương chứa u trong 
 1 n   i P i
phân hoạch UP/ . Khi đó, khoảng cách giữa tập thuộc tính C và CD 
trong công trình [4] được xây dựng dựa trên khoảng cách Jaccard giữa hai 
tập hợp hữu hạn như sau: 
 50 
 U u u
 1  iCCD i  
 dJ C, C D 1  (2.19) 
 U i 1 u u
  iCCD i  
 Sử dụng các phép toán trong [4] biến đổi độ đo khoảng cách trong công 
thức (2.19) tương đương công thức (2.20) như sau: 
 UUu u  u u  u
 1 iCCDCD i  i 1  i  i 
 dJ C, C D 1  1  (2.20) 
 UUi 1u() u  u i 1 u
  iCCDC i  i  i 
 Độ đo khoảng cách trong công thức (2.20) đặc trưng cho độ “gần 
nhau” giữa tập thuộc tính điều kiện C và tập thuộc tính quyết định D và 
được tác giả trong công trình [4] sử dụng để xây dựng phương pháp rút gọn 
thuộc tính trong bảng quyết định. Sử dụng độ đo khoảng cách trong công 
thức (2.20) kết hợp với công thức (2.9), luận án xây dựng độ đo khoảng cách 
Jaccard mờ giữa hai phân hoạch mờ dựa trên ma trận tương đương mờ theo 
hướng tiếp cận tập thô mờ. 
Định nghĩa 2.4. Cho bảng quyết định mờ DT U, C  D , giả sử hai quan 
  
hệ tương đương mờ RC và RD xác định trên hai tập thuộc tính C và D tương 
 C  D
ứng. Gọi rij là các phần tử của ma trận tương đương mờ MR C và rij là 
 
các phần tử của ma trận tương đương mờ MR D với 1 i , j n . Dựa trên 
công thức (2.20) và (2.9), luận án xây dựng độ đo khoảng cách Jaccard mờ 
giữa hai tập thuộc tính C và CD dựa trên ma trận quan hệ tương đương 
mờ như sau: 
 n
 CD 
 U min rij , r ij 
 1 j 1
 dFJ C, C D 1  n (2.21) 
 U i 1 C
 rij
 j 1
  
Mệnh đề 2.1. Cho bảng quyết định mờ DT U, C  D và RC , RD là hai quan 
hệ tương đương mờ xác định trên tập thuộc tính C, D. Khi đó ta có: 
 51 
 1) 0 dFJ C , C  D 1 (2.22) 
  
 2) dFJ C, C D 0 khi RRCD (2.23) 
 Chứng minh: 
 1) Theo công thức tính khoảng cách mờ (2.21), dễ dàng nhận thấy 
0 dFJ C , C  D 1. 
 2) Theo tính chất của quan hệ tương đương mờ [40], [72] ta có: 
    CD
RRCD RCD x,, y R x y  rij r ij  i, j [1..n] . Thay vào công thức 
(2.21) ta có dFJ C, C D 0 . 
Mệnh đề 2.2. Cho bảng quyết định mờ DT U, C  D và BC , khi đó ta 
có dFJ B,, B D d FJ C C  D . 
 Chứng minh: Theo [40], [72] ta có BC UCUB// (phân hoạch 
UC/ mịn hơn phân hoạch UB/ ) khi và chỉ khi [][]uCB u . 
 Theo tính chất của quan hệ tương đương mờ [40], [72] và công thức 
 n n
(2.21) ta có [][]u u  [][]u u  CB  
 CB iRCRB ()() i  rij  r ij
 i, j 1 i , j 1
 n n DD DD
 CB r r r r
 r r . Do rCB, r [0,1] nên ij ij  ij ij . 
ij  ij ij ij CB (1 CB ) (1 )
i, j 1 i , j 1 rij r ij rij r ij
 Thay vào công thức tính khoảng cách mờ (2.21) có 
dFJFJ(,)(,) B B D d C C  D . 
 Khoảng cách Jaccard giữa hai phân hoạch mờ theo công thức (2.21) 
được gọi là khoảng cách Jaccard mờ dựa trên ma trận tương đương mờ. 
 52 
2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách 
Jaccard mờ 
 Trong phần này, luận án trình bày phương pháp rút gọn thuộc tính của 
bảng quyết định miền giá trị thực sử dụng độ đo khoảng cách Jaccard mờ 
dựa trên ma trận quan hệ tương đương mờ ở công thức (2.21). Cho bảng 
quyết định miền giá trị thực DT U, C  D với U x1, x 2 ,..., xn . Trên tập 
thuộc tính điều kiện luận án sử dụng một quan hệ tương đương mờ xác định 
trên miền giá trị thuộc tính như ở công thức (1.11). 
 Trên tập thuộc tính quyết định luận án sử dụng quan hệ tương đương 
IND D với ma trận tương đương M IND D d , d 1 nếu 
 ij n n ij
x x và d 0 nếu x x . Nói cách khác, lớp tương đương x có 
 j i D ij j i D  i D
thể xem là lớp đương đương mờ, ký hiệu là xi  , với hàm thuộc  x x j 1 
 D  i D
nếu xj  x i  và  x x j 0 nếu xj  x i  . Khi đó, ký hiệu phân hoạch mờ 
 D  i D D
  n
 D x x ,..., x  . 
  iDDDi 1  1  n  
 Tương tự phương pháp rút gọn thuộc tính sử dụng khoảng cách 
Jaccard trong lý thuyết tập thô truyền thống, phương pháp đề xuất bao gồm 
các bước: Định nghĩa tập rút gọn dựa trên khoảng cách Jaccard mờ, định 
nghĩa độ quan trọng của thuộc tính và xây dựng thuật toán heuristic tìm một 
tập rút gọn không dư thừa dựa trên tiêu chuẩn độ quan trọng của thuộc tính. 
Định nghĩa 2.5. Cho bảng quyết định có miền giá trị thực DT U, C  D và 
tập thuộc tính PC . Nếu 
 1) dFJFJ P,, P D d C C  D (2.24) 
 2) pPdPpPp ,(,)(,)FJ    DdCCD FJ  (2.25) 
thì P là một tập rút gọn của C dựa trên khoảng cách Jaccard mờ. 
 53 
Định nghĩa 2.6. Cho bảng quyết định DT U, C  D , PC và b C P . 
Độ quan trọng của thuộc tính b đối với P được định nghĩa bởi 
 SIGbPFJFJ d PPDd,,  P  bP  b  D (2.26) 
 Độ quan trọng của thuộc tính đặc trưng cho sự phụ thuộc của thuộc 
tính điều kiện vào thuộc tính quyết định và được sử dụng làm tiêu chuẩn lựa 
chọn thuộc tính cho thuật toán heuristic tìm tập rút gọn sau đây. 
 Thuật toán FJ_DBAR (Fuzzy Jaccard Distance based Attribute 
Reduction): Thuật toán heuristic tìm một tập rút gọn sử dụng khoảng cách 
Jaccard mờ. 
 Đầu vào: Bảng quyết định miền giá trị thực DT U, C  D , quan hệ 
tương đương mờ R . 
 Đầu ra: Một tập rút gọn P . 
 // Khởi tạo tập rút gọn bằng rỗng 
 
 1. P ; MR(P ) 0 ; dFJ ,   D 1; 
 
 2. Tính MR()C , M (IND(D)) ; 
 3. Tính dFJ C, C D ; 
 // Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất 
 4. While dFJ P,, P D d FJ C C  D Do 
 5. Begin 
 6. For each a C P Do 
 7. Begin 
 8. Tính dFJ P a, P  a  D ; 
 9. Tính SIGaPFJFJ d PPDd,,  P  aP  a  D ; 
 // Tính độ quan trọng của từng thuộc tính điều kiện còn 
 lại với tập thuộc tính quyết định 
 10. End; 
 54 
 11. Chọn am C P sao cho SIGP a m Max SIG P a ; 
 a C P 
 // Chọn thuộc tính có độ quan trọng lớn nhất theo khoảng cách 
 Jaccard mờ kết nạp vào tập rút gọn 
 12. P P  am  ; 
 13. Tính dFJ P, P D ; 
 14. End; 
 //Loại bỏ các thuộc tính dư thừa trong P nếu có 
 15. For each a P 
 16. Begin 
 17. Tính dFJ P a, P a  D ; 
 18. If dFJ P a,, P a  D d FJ C C  D then P P a; 
 // Loại bỏ những thuộc tính không cần thiết đến điều kiện xây 
 dựng tập rút gọn 
 19. End; 
 20. Return P ; 
Ví dụ 2.3. Cho bảng quyết định miền giá trị thực DT U, C  D (Bảng 2.1) 
với U u1,,,,, u 2 u 3 u 4 u 5 u 6  , C c1,,,,, c 2 c 3 c 4 c 5 c 6 . 
 Bảng 2.1. Bảng quyết định miền giá trị thực 
 U c1 c2 c3 c4 c5 c6 D 
 u1 0.8 0.2 0.6 0.4 1 0 0 
 u2 0.8 0.2 0 0.6 0.2 0.8 1 
 u3 0.6 0.4 0.8 0.2 0.6 0.4 0 
 u4 0 0.4 0.6 0.4 0 1 1 
 u5 0 0.6 0.6 0.4 0 1 1 
 u6 0 0.6 0 1 0 1 0 
 55 
 Áp dụng các bước của thuật toán FJ_DBAR, sử dụng quan hệ tương 
đương mờ theo công thức (1.11). 
 
 P , MR(P ) 0 , dFJ ,   D 1, tính các ma trận tương đương 
       
mờ MR(c1 ),( MR c 2 ),( MR c 3 ),( MR c 4 ),( MR c 5 ),( MR c 6 ),( MR C ),( MINDD ) . 
 1 1 0 0 0 0 1 1 0 0 0 0 
 1 1 0 0 0 0 
 1 1 0 0 0 0 
 0 0 1 0 0 0 0 0 1 1 0 0 
  c 
MR()1 , M (Rc2 ) 
 0 0 0 1 1 1 0 0 1 1 0 0 
 0 0 0 1 1 1 0 0 0 0 1 1 
 0 0 0 1 1 1 00 0 0 1 1 
 1 0 0 1 1 0 1 0 0 1 1 0 
 0 1 0 0 0 1 
 0 1 0 0 0 0 
 0 0 1 0 0 0 0 0 1 0 0 0 
  c 
MR()3 , M (Rc4 ) 
 1 0 0 1 1 0 1 0 0 1 1 0 
 1 0 0 1 1 0 1 0 0 1 1 0 
 0 1 0 0 0 1 00 0 0 0 1 
 1 0 0 0 0 0 1 0 0 0 0 0 
 0 1 0 0.2 0.2 0.2 0 1 0 0.2 0.2 0.2 
  0 0 1 0 0 0  0 0 1 0 0 0 
M ()Rc5 , M ()Rc6 
 0 0.2 0 1 1 1 0 0.2 0 1 1 1 
 0 0.2 0 1 1 1 0 0.2 0 1 1 1 
 0 0.2 0 1 1 1 0 0.2 0 1 1 1 
 1 0 0 0 0 0 1 0 1 0 0 1 
 0 1 0 0 0 0 0 1 0 1 1 0 
  0 0 1 0 0 0 1 0 1 0 0 1 
MR(),C M() IND D . 
 0 0 0 1 0 0 0 1 0 1 1 0 
 0 0 0 0 1 0 0 1 0 1 1 0 
 0 0 0 0 0 1 1 0 1 0 0 1 
Tính: 
 dFJ C, C D 0, dFJ { c1 },{ c 1 } { D } 0.38889; 
 56 
dFJ { c2 },{ c 2 } {} D 0.5; dFJ { c3 },{ c 3 } { D } 0.389; 
dFJ { c4 },{ c 4 } { D } 0.222; dFJ { c5 },{ c 5 } { D } 0.23958;
dFJ { c6 },{ c 6 } { D } 0.23958. 
 SIGP { c1} 0.6111 1; SIGP { c2} 0. 5 ; SIGP {} c3 0.611 ; 
SIGP {} c4 0.778 ; SIGP {} c5 0.76042 ; SIGP {} c6 0.76042 . 
 Thuộc tính c4  được chọn và P c4 . 
 Tính tương tự, ta có: dFJ {,} c4 c 1,{ c 4 , c 1 } { D } 0 , kiểm tra
dFJ { c4 , c 1 },{ c 4 , c 1 } D d FJ C , C  D 0 , thuật toán dừng và kết luận 
P c4, c 1 . Sau khi kiểm tra tính dư thừa, kết luận P c4, c 1 là tập rút gọn 
của DT. 
 Thuật toán FJ_DBAR tìm được một tập rút gọn và kiểm tra tính dư 
thừa của tập rút gọn. Độ phức tạp tính toán ma trận tương đương mờ của một 
 2
thuộc tính là OU() với U số lượng đối tượng, C là số lượng thuộc tính điều 
  2
kiện; độ phức tạp tính toán của MR()C là OCU() . Thuật toán có hai vòng 
lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ phức tạp 
tính toán của FJ_DBAR là OCU()3 2 . 
2.3.3. Thử nghiệm và đánh giá kết quả 
 Luận án lựa chọn thuật toán heuristic tìm một tập rút gọn dựa trên 
lượng thông tin tăng thêm GAIN_RATIO_AS_FRS [24] (gọi là GRAF) khi 
thêm một thuộc tính vào tập rút gọn để so sánh với thuật toán FJ_DBAR về 
thời gian thực hiện, tập rút gọn và độ chính xác phân lớp dữ liệu. Thuật toán 
GRAF tính toán độ quan trọng của thuộc tính dựa trên entropy mờ. Để tiến 
hành thực nghiệm, luận án thực hiện các công việc sau: 
 1) Cài đặt thuật toán GRAF [24] và thuật toán FJ_DBAR bởi ngôn ngữ 
C#. Cả hai thuật toán đều sử dụng quan hệ tương đương mờ định nghĩa ở 
 57 
công thức (1.11) ở các thuộc tính điều kiện, trên tập thuộc tính quyết định sử 
dụng quan hệ tương đương mờ như ở công thức (1.12). 
 2) Trên máy tính PC với cấu hình: Bộ xử lý Pentium Core i3, 2.4 GHz 
CPU, 2 GB RAM, sử dụng hệ điều hành Windows 10, chạy thử nghiệm các 
thuật toán trên sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] như ở Bảng 2.2. 
Với mỗi bộ dữ liệu, ký hiệu U là số lượng các đối tượng, R là số lượng 
thuộc tính của tập rút gọn, C là số lượng các thuộc tính điều kiện, t là thời 
gian thực hiện của thuật toán (tính bằng giây), các thuộc tính điều kiện ký 
hiệu là 1, 2, ..., C . 
 Bảng 2.2. Bộ dữ liệu thử nghiệm 
 Số thuộc tính Số đối 
 TT Bộ dữ liệu Số lớp 
 điều kiện tượng 
 1 Fisher_Order 35 47 4 
 2 Iris 4 150 3 
 3 Glass 10 214 7 
 4 Sonar 60 208 2 
 5 Sensor_Readings_24 24 5456 4 
 6 EEG_Eye_State 14 14980 2 
 Thời gian thực hiện và tập rút gọn thu được của hai thuật toán được 
miêu tả trong Bảng 2.6 và Bảng 2.7. 
 Bảng 2.6. Kết quả thực nghiệm của FJ_DBAR và GRAF 
 FJ_DBAR GRAF 
 TT Tập dữ liệu |U| |C| 
 |R| t |R| t 
 1 Fisher_Order 47 35 18 0.095 21 0.107 
 2 Iris 150 4 1 0.002 2 0.003 
 3 Glass 214 10 6 0.46 8 0.48 
 4 Sonar 208 60 26 2.053 23 1.980 
 58 
 5 Sensor_Readings_24 5456 24 14 2.095 12 1.986 
 6 EEG_Eye_State 14980 14 7 2.580 7 2.790 
 Kết quả thực nghiệm ở Bảng 2.6 cho thấy số lượng thuộc tính của tập 
rút gọn thu được của FJ_DBAR và GRAF phụ thuộc vào từng bộ dữ liệu cụ 
thể. Thuật toán FJ_DBAR tìm được tập rút gọn có số lượng thuộc tính nhỏ 
hơn GRAF tại 3/6 bộ dữ liệu thử nghiệm (Fisher_Order, Iris, Glass), bằng 
nhau ở tại 1/6 bộ dữ liệu thử nghiệm (EEG_Eye_State), lớn hơn GRAF tại 
2/6 bộ dữ liệu (Sonar, Sensor_Readings_24). Thời gian thực hiện của 
FJ_DBAR nhanh hơn GRAF tại 4/6 bộ dữ liệu (Fisher_Order, Iris, Glass, 
EEG_Eye_State). Trên một số bộ dữ liệu thử nghiệm, thuật toán nào tìm 
được tập rút gọn có số lượng thuộc tính ít hơn thì có thời gian thực hiện 
nhanh hơn. Tại bộ dữ liệu (EEG_Eye_State) tìm được tập rút gọn giống nhau 
theo hai thuật toán thì FJ_DBAR có thời gian thực hiện nhanh hơn, điều này 
phù hợp với lý thuyết bởi có cùng độ phức tạp tính là OCU()3 2 nhưng công 
thức tính độ quan trọng của thuộc tính của GRAF [24] tiếp cận theo hướng 
entropy mờ có sử dụng biểu thức Logarit sẽ mất thời gian tính toán hơn so 
với FJ_DBAR. Biểu đồ so sánh thời gian thực hiện của FJ_DBAR và GRAF 
được thể hiện như Hình 2.3 
 3
 2.5
 2
 1.5
 1 FJ_DBAR
 0.5 GRAF
 0
 Hình 2.3. Thời gian thực hiện của FJ_DBAR và GRAF 
 59 
 Các tập rút gọn cụ thể của FJ_DBAR và GRAF trên sáu bộ số liệu thực 
nghiệm thể hiện ở Bảng 2.7. 
 Bảng 2.7. Tập rút gọn thu được bởi FJ_DBAR và GRAF 
 TT Bộ dữ liệu FJ_DBAR GRAF 
 {22,11,13,14,15,16,17,18,19
 {11,13,14,15,16,17,18,19,29,3
 1 Fisher_Order ,29,30,31,32,33,34,9,20,5,2
 0,31,32,33,34,28,24,12,2} 
 5,10,3} 
 2 Iris {3} {3,4} 
 3 Glass {2,1,3,4,5,10} {2,1,3,4,6,10,8,7} 
 {21,36,27,12,31,54,24,22,33,2 {21,36,30,12,27,54,41,22,32
 4 Sonar 9,57,48,39,34,6,46,20,16,7,11, ,57,39,16,46,34,6,11,10,31,
 26,50,8,10,56,58} 8,26,56,48,58} 
 {4,3,7,2,15,5,10,23,8,6,14,11, {3,7,12,15,5,21,24,8,14,17,1
 5 Sensor_Readings_24 
 1,9} ,16} 
 6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5} 
 Tiếp theo, luận án thực hiện việc so sánh độ chính xác phân lớp dữ 
liệu của tập rút gọn thu được bởi FJ_DBAR và GRAF. Độ chính xác phân 
lớp dữ liệu của các tập rút gọn được đánh giá bằng thuật toán C4.5 trong 
công cụ J48 của WEKA [100]. Để thực hiện việc đánh giá độ chính xác phân 
lớp dữ liệu, luận án chia tập dữ liệu thử nghiệm thành mười phần bằng nhau; 
chín phần mười tập dữ liệu được dùng làm dữ liệu huấn luyện, một phần 
mười dùng làm dữ liệu kiểm tra. Kết quả thực nghiệm được thể hiện ở Bảng 
2.8. 
 Bảng 2.8. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF 
 FJ_DBAR GRAF 
 Độ chính Độ chính 
 TT Tập dữ liệu |U| |C| 
 |R| xác phân |R| xác phân 
 lớp (%) lớp (%) 
 1 Fisher_Order 47 35 18 78.72 21 76.59 
 60 
 2 Iris 150 4 1 94.00 2 94.00 
 3 Glass 214 10 6 80.15 8 81.70 
 4 Sonar 208 60 26 71.63 23 70.67 
 5 Sensor_Readings_24 5456 24 14 94.84 12 91.25 
 6 EEG_Eye_State 14980 14 7 81.25 7 81.25 
 Kết quả thực nghiệm trên sáu bộ dữ liệu ở Bảng 2.8 chỉ ra rằng độ 
chính xác phân lớp dữ liệu theo thuật toán C4.5 của FJ_DBAR cao hơn 
GRAF tại 3/6 bộ dữ liệu (Fisher_Order, Sonar, Sensor_Readings_24), bằng 
nhau tại 2/6 bộ dữ liệu (Iris, EEG_Eye_State), thấp hơn tại 1/6 bộ dữ liệu 
(Glass). Do vậy, luận án kết luận FJ_DBAR có độ chính xác phân lớp cao 
hơn GRAF trên một số bộ dữ liệu thử nghiệm, với những bộ dữ liệu có tập 
rút gọn giống nhau thì độ chính xác phân lớp theo thuật toán C4.5 của hai 
thuật toán là như nhau. Độ chính xác phân lớp này phụ thuộc vào tập rút gọn 
thu được theo các phương pháp với những bộ dữ liệu cụ thể, không phụ 
thuộc vào số lượng thuộc tính của tập rút gọn. Có những bộ dữ liệu có số 
lượng thuộc tính của tập rút gọn giống nhau nhưng các thuộc tính cụ thể khác 
nhau thì độ chính xác phân lớp theo thuật toán C4.5 có thể cũng khác nhau. 
Ví dụ bộ Iris với tập rút gọn thu được theo thuật toán FJ_DBAR là thuộc tính 
{3} thì độ chính xác phân lớp là 94%, với tập rút gọn thu được theo thuật 
toán F_RSAR2 là thuộc tính {4} thì độ chính xác 94.67%. Ngoài ra, độ chính 
xác phân lớp của các tập rút gọn theo thuật toán C4.5 còn phụ thuộc vào tỷ lệ 
phân chia tập dữ liệu giữa phần huấn luyện và phần kiểm tra. Thông thường, 
các phương pháp hay lựa chọn chia tập dữ liệu thành mười phần hoặc ba 
phần bằng nhau; một phần sử dụng làm dữ liệu huấn luyện, các phần còn lại 
sử dụng làm dữ liệu kiểm tra. Biểu đồ so sánh độ chính xác phân lớp của 
FJ_DBAR và GRAF theo C4.5 được thể hiện như Hình 2.4. 
 61 
 100.00 94 94.84
 90.00
 78.72 80.15 81.25
 80.00 71.63
 70.00
 60.00
 50.00
 40.00 FJ_DBAR
 30.00
 GRAF
 20.00
 10.00
 0.00
 Hình 2.4. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF 
 Bằng thực nghiệm, luận án kết luận thuật toán toán FJ_DBAR có khả 
năng cho kết quả tốt hơn GRAF về thời gian thực hiện và độ chính xác phân 
lớp dữ liệu trên một số bộ dữ liệu thử nghiệm. 
2.4. Kết luận chương 2 
 Một trong những mục tiêu của rút gọn thuộc tính trong bảng quyết 
định là nâng cao độ chính xác phân lớp của dữ liệu. Trên lớp bài toán rút gọn 
thuộc tính trong bảng quyết định miền giá trị thực, các nghiên cứu liên quan 
cho thấy các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ 
chính xác phân lớp cao hơn phương pháp rút gọn thuộc tính theo tiếp cận tập 
thô truyền thống [24], [39], [44], [47], [72], [80]. Chương 2 của luận án cải 
tiến phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực sử 
dụng miền dương mờ trong công trình của Hu, Q., [38] để tìm một tập rút 
gọn không dư thừa thuộc tính, bảo toàn miền dương mờ dựa trên quan hệ 
tương đương mờ. Bên cạnh đó, phương pháp đề xuất cũng cải tiến công thức 
tính độ quan trọng của thuộc tính sử dụng làm tiêu chuẩn lựa chọn thuộc tính 
cho tập rút gọn để giảm bớt thời gian tính toán độ quan trọng của thuộc tính. 
 62 
Đóng góp chính của Chương 2 là đề xuất phương pháp rút gọn thuộc tính 
trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách Jaccard 
mờ. Khoảng cách Jaccard mờ được xây dựng dựa trên khoảng cách Jaccard 
giữa hai tập hợp và chứng minh đầy đủ các tính chất của khoảng cách. Kết 
quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI [99] cho thấy, 
độ chính xác phân lớp của phương pháp sử dụng khoảng cách Jaccard mờ tốt 
hơn độ chính xác phân lớp của phương pháp sử dụng entropy mờ trên một số 
bộ dữ liệu thực nghiệm, thời gian thực hiện của phương pháp khoảng cách 
nhanh hơn entropy trên đa số bộ dữ liệu thử nghiệm. 
 63 
 CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT 
ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN 
 HOẠCH MỜ 
 Tiếp nối sự thành công của kỹ thuật sử dụng khoảng cách Jaccard mờ 
trong phần trước, Chương 3 của luận án đề xuất một độ đo khoảng cách 
giữa hai phân hoạch mờ, gọi là khoảng cách phân hoạch mờ. Dựa trên 
khoảng cách phân hoạch mờ đề xuất, chương này xây dựng phương pháp rút 
gọn thuộc tính của bảng quyết định miền giá trị thực. Thử nghiệm trên một 
số bộ dữ liệu cho thấy, phương pháp đề xuất hiệu quả hơn phương pháp sử 
dụng entropy thông tin mờ và phương pháp sử dụng miền dương mờ theo 
tiêu chí đánh giá độ chính xác phân lớp dữ liệu và thời gian thực hiện của 
thuật toán. 
3.1. Đặt vấn đề 
 Chương 2 của luận án cho thấy sự hiệu quả của phương pháp rút gọn 
thuộc tính trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng 
cách Jaccard mờ. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI 
[99] thấy rằng kỹ thuật sử dụng khoảng cách Jaccard mờ tỏ ra hiệu quả so 
với phương pháp sử dụng entropy mờ dựa trên các tiêu chí đánh giá về thời 
gian thực hiện và độ chính xác phân lớp dữ liệu. Với mục tiêu nghiên cứu 
các phương pháp hiệu quả để rút gọn thuộc tính của bảng quyết định miền 
giá trị thực, bổ sung làm phong phú thêm bộ sưu tập các phương pháp, nhằm 
đánh giá một cách khái quát hơn về nhóm phương pháp sử dụng khoảng cách 
mờ theo tiếp cận tập thô mờ. Chương 3 của luận án đề xuất độ đo khoảng 
cách giữa hai phân hoạch mờ và ứng dụng rút gọn thuộc tính của bảng quyết 
định miền giá trị thực. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu 
UCI [99] chỉ ra rằng, phương pháp sử dụng khoảng cách phân hoạch mờ tỏ ra 
hiệu quả hơn phương pháp sử dụng pháp sử dụng entropy thông tin mờ [24], 
[38]-[40], [88], [89] và miền dương mờ [9], [38]-[40], [72] trên một số bộ dữ 
 64 
liệu thử nghiệm theo tiêu chí đánh giá thời gian thực hiện thuật toán và độ 
chính xác phân lớp dữ liệu. Qua đó, khẳng định được sự thành công của 
phương pháp sử dụng khoảng cách mờ trong rút gọn thuộc tính của bảng 
quyết định miền giá trị thực, là sự tiếp nối của phương pháp sử dụng khoảng 
cách trong tập thô truyền thống. 
 Các kết quả chính trong chương này được công bố trong công trình 
[CCN4]. 
3.2. Khoảng cách phân hoạch mờ và các tính chất 
 Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các 
đối tượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay 
một khối. Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương 
đương) giữa các tri thức, nghĩa là khoảng cách giữa hai tri thức càng nhỏ 
thì hai tri thức đó càng gần nhau, hay càng tương đương nhau và ngược lạ
File đính kèm:
luan_an_nghien_cuu_cac_phuong_phap_rut_gon_thuoc_tinh_va_sin.pdf
TOMTAT_LUANAN_CCNGHIA.pdf
Trang thong tin LATS tieng Anh_CCNGHIA.pdf
Trang thong tin LATS tieng Viet_CCNGHIA.pdf