Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
luyện là vấn đề đầu tiên phải quan tâm. Thông qua việc phân loại các thuộc tính rời rạc, luận án nhằm cung cấp sự lựa chọn xác đáng cho việc lựa chọn tập mẫu trong quá trình huấn luyện. Trong tập mẫu huấn luyện có m thuộc tính, chiều cao tối đa của cây kết quả là m – 1, theo Định nghĩa 1.19, các thuộc tính rời rạc có lực lượng lớn hơn m rất có khả năng làm xuất hiện cây dàn trải theo chiều ngang tại nút đó vì có chiều rộng của nhánh lớn hơn chiều sâu của cây. Tuy vậy, sự phân nhánh của cây còn phụ thuộc vào lực lượng của thuộc tính huấn luyện Y tức là phụ thuộc vào giá trị |Y|, vì chúng ta cần phân chia đến các lớp thuần nhất theo mỗi giá trị của Y. Do vậy, khi xét tính dàn trải theo chiều ngang của cây, ta cần phải xét đến số lớp phân chia trên Y cùng với chiều cao của cây. Định nghĩa sau nhằm xác định ngưỡng có thể cho phép dàn trải đối với mỗi nút trên cây. Định nghĩa 2.1. Thuộc tính Ai D được gọi là thuộc tính có giá trị riêng biệt (gọi tắt là thuộc tính riêng biệt) nếu như nó là thuộc tính rời rạc và |Ai| > (m - 1) × |Y|. Tập các thuộc tính có giá trị riêng biệt trong D ký hiệu là D*. Mệnh đề 2.1. Trong cây quyết định, nếu có một nút được tạo là ứng với một thuộc tính riêng biệt trong quá trình huấn luyện thì đó là một cây dàn trải. Chứng minh: thật vậy, mẫu D có m thuộc tính nên có chiều cao tối đa có thể của cây sau khi huấn luyện là m - 1. Do vậy, tính đúng của mệnh đề được suy ra từ Định nghĩa 2.1. Như chúng ta đã biết, trong các kho dữ liệu nghiệp vụ, do cần phải lưu trữ thông tin phản ảnh thế giới thực nên nhiều thuộc tính được lưu trữ không có khả năng dự đoán mà chỉ có ý nghĩa lưu trữ nhằm mục đính diễn giải thông tin. Các định nhĩa sau nhằm để phân loại các thuộc tính có khả năng tham gia trong quá trình huấn luyện hay không. 40 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử Định nghĩa 2.2. Cho tập mẫu D. Thuộc tính 푖 D mà giữa các phần tử 푖푗 , 푖 với j ≠ k là không sánh được thì ta gọi Ai là thuộc tính ghi nhớ trong tập mẫu. Tập các thuộc tính này trong D ký hiệu là DG. Mệnh đề 2.2. Cho tập mẫu D. Nếu thuộc tính Ai D là thuộc tính ghi nhớ thì ta loại Ai ra khỏi mẫu D mà không làm thay đổi cây quyết định thu được. Chứng minh: hiển nhiên, bởi ta không thể so sánh giữa các phần tử 푖푗 với 푖 của Ai để tính hàm Gain(Ai, D) nên không tồn tại lợi ích thông tin của mỗi bộ trên Ai. Vì thế Ai không thể xuất hiện trên cây kết quả nên ta loại Ai ra khỏi D mà không làm thay đổi cây quyết định thu được. Mệnh đề 2.3. Nếu trong tập mẫu huấn luyện chứa thuộc tính Ai là khoá của tập D thì cây quyết định thu được là quá khớp tại nút Ai. Chứng minh: thật vậy, với thuộc tính Ai có Dom( 푖) = { 푖1 , 푖2 , , 푖푛 }, do Ai là khoá nên ta có 푖푗 ≠ 푖 , i ≠ k. Như thế, mẫu D được phân ra làm n phân hoạch, mà mỗi phân hoạch chỉ có 1 bộ nên 푖푗 Ai, hàm E(Ai, D) = 0. Hàm xác định lợi ích thông tin nhận được trên thuộc tính Ai ở Công thức 1.9 đạt giá trị cực đại, vì thế Ai được chọn làm điểm phân tách cây. Tại đây, cây được phân chia làm n nút, mỗi cạnh tương ứng được gán nhãn 푖푗 , đây là một cây dàn trải theo chiều ngang tại nút ứng với Ai. Do tính duy nhất của khoá nên không có giá trị trùng khớp khi so sánh tại nút này trong quá trình dự đoán. Vậy cây kết quả thu được là quá khớp tại nút Ai, theo Định nghĩa 1.19. Với dữ liệu xét ở Bảng 2.1, các thuộc tính sau là không hiệu quả khi chọn nó trong các tập mẫu huấn luyện: - Thuộc tính ID, PhiếuĐT là thuộc tính khoá. - Thuộc tính HọVàTên là thuộc tính có giá trị riêng biệt. 2.2.2. Ảnh hƣởng từ phụ thuộc hàm giữa các thuộc tính trong tập huấn luyện Mệnh đề 2.4. Cho mẫu D với thuộc tính quyết định Y. Nếu có phụ thuộc hàm Ai Aj và ta đã chọn Ai làm nút phân tách trên cây thì mọi nút con của nó sẽ không 41 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử nhận Aj làm nút phân tách. Chứng minh: thật vậy, giả sử |Ai| = k, khi chọn Ai làm nút phân tách trên cây thì tại nút này ta có k nhánh. Không mất tính tổng quát, các nhánh của cây lần lượt được gán các giá trị là 푖푗 , j = 1, , k. Do Ai Aj nên tại nhánh bất kỳ thì trên mẫu huấn luyện tương ứng D’, lúc này trên thuộc tính Aj sẽ có cùng 1 giá trị. Như thế Gain(Aj, D’) = 0 là nhỏ nhất nên Aj không thể chọn để làm nút phân tách cây. Mệnh đề 2.5. Trên mẫu D với thuộc tính quyết định Y, nếu có phụ thuộc hàm Ai Aj thì lượng thông tin nhận được trên Ai không nhỏ hơn lượng thông tin nhận được trên Aj. Chứng minh: thật vậy, giả sử thuộc tính quyết định Y có k giá trị. Do A1 A2 nên |A1| |A2|. Theo công thức (1.9), lượng thông tin nhận được trên thuộc tính Ai là Gain(Ai, D). Nên nếu |A1| = |A2| thì trên A1 hay A2 đều có k phân hoạch như nhau nên Gain(A1, D) = Gain(A2, D). Ngược lại nếu |A1| > |A2| tức tồn tại 1푖 , 1푗 A1, 1푖 1푗 mà trên tương ứng trên A2 thì 2푖 = 2푖 . Lúc này 2 phân hoạch trên A1 được gộp thành 1 phân hoạch trên A2 nên Entropy tương ứng trên A2 lớn hơn. Vậy Gain(A1, D) > Gain(A2, D). Từ Mệnh đề 2.5, ta dễ dàng suy ra hệ quả nhằm giới hạn các thuộc tính trong tập huấn luyện như sau: Hệ quả 2.1. Nếu có phụ thuộc hàm A1 A2 mà A1 không phải là thuộc tính khóa của mẫu D thì thuộc tính A2 không được chọn làm nút phân tách cây. Với dữ liệu được xét ở Bảng 2.1, thuộc tính PhụCấp là phụ thuộc hàm vào thuộc tính không khóa Lương nên không hiệu quả khi chọn trong các tập mẫu huấn luyện cây. Như vậy, với các kho dữ liệu nghiệp vụ được lưu trữ bao gồm các thông tin mô tả về phân loại dữ liệu các thuộc tính và các phụ thuộc hàm của chúng, chúng ta có thể chọn được tập mẫu huấn luyện phù hợp thông qua thuật toán “chọn mẫu đặc trưng” cho quá trình huấn luyện cây như sau: 42 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử Thuật toán tìm tập huấn luyện đặc trƣng từ dữ liệu mẫu. Vào : Tập mẫu huấn luyện D được chọn từ dữ liệu mẫu; Ra : Tập mẫu huấn luyện đặc trưng D*; Mô tả thuật toán: Begin For each i = 1 to m do Begin If (Ai {Khoá, Ghi nhớ}) then D = D - Ai ; End; i = 1; While (i < m) do Begin j = i +1; While (j ≤ m) do Begin If (Ai Aj and (Ai không phải thuộc tính khóa trong D)) then D = D – Aj Else If (Aj Ai and (Aj không phải thuộc tính khóa trong D)) then D = D – Ai; j = j+1; End; i = i + 1; End; End; Tính đúng đắn của thuật toán được suy ra từ các mệnh đề ở trên. Với tập dữ liệu nghiệp vụ được chọn có m thuộc tính, do chúng ta phải duyệt qua 2 lần lồng nhau các thuộc tính hiện có nên thuật toán có độ phức tạp O(m2). 43 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 2.3. Phân lớp dữ liệu bằng cây quyết định dựa trên ngƣỡng miền trị thuộc tính 2.3.1. Cơ sở của việc xác định ngƣỡng cho quá trình học phân lớp Như chúng ta đã xét, các thuật toán học quy nạp cây quyết định đều dựa vào việc chọn thuộc tính có lượng thông tin tốt nhất để phân tách cây và sự phân chia tại mỗi nút phụ thuộc vào kiểu của thuộc tính là liên tục hay rời rạc. Tất cả các thuật toán đều cố định cách phân chia cho mọi thuộc tính rời rạc của tập huấn luyện theo nhị phân hoặc k-phân. - Đối với cách chia k-phân, một điều dễ thấy là nếu thuộc tính A có lực lượng lớn sẽ làm cho số nút của cây tại một cấp tăng lên nhanh. Điều này làm tăng chiều rộng của cây nên cây sẽ dàn trải theo chiều ngang. Hơn nữa, cách chia này có khả năng dẫn đến lỗi khi dữ liệu không thể đoán nhận được lớp. Mặc dù vậy chia k-phân theo thuộc tính rời rạc có ưu điểm là độ phức tạp thấp, bởi vì sau khi phân thì thuộc tính đó không cần phải sử dụng lại nữa. - Cách chia nhị phân theo giá trị tại điểm phân chia [48] [87] không làm tăng chiều rộng của cây, bởi cho dù k có lớn bao nhiêu cũng chỉ chia theo 2 nút, một nút là giá trị được chọn và một nút là tập còn lại. Tuy nhiên, điều này lại làm tăng nhanh chiều sâu của cây. Cách chia nhị phân theo tập hợp tại điểm phân chia [47] [52] luôn tách thuộc tính rời rạc làm 2 tập con nên và chi phí tính toán rất lớn và khó khăn trong việc duyệt cây kết quả cho quá trình dự đoán. Từ những nhận định trên, ta nhận thấy cần phải xây dựng một thuật toán học với cách chia hỗn hợp nhị phân, k-phân theo từng thuộc tính nhằm có được cây với chiều rộng và chiều sâu hợp lý cho quá tình huấn luyện. 2.3.2. Thuật toán MixC4.5 dựa trên ngƣỡng miền trị thuộc tính Với tập mẫu huấn luyện D với m thuộc tính A1, A2, Am có lực lượng tương ứng của mỗi thuộc tính là |A1|, |A2|, |Am|. Ta gọi k là ngưỡng giới hạn sự phân chia tại mỗi thuộc tính theo nhị phân, tức là nếu lực lượng của thuộc tính nhỏ hơn một giá trị được lựa chọn k cho trước thì sẽ phân theo k-phân, ngược lại phân theo nhị phân. Do tính chất dàn trải của cây chỉ xảy ra trên thuộc tính rời rạc nên khi Ai không phải là thuộc tính riêng biệt (theo Định nghĩa 2.1) thì |Ai| < (m - 1) × |Y|. 44 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử Với thuộc tính Ai có |Ai| < (m - 1) × |Y| thì các nhánh của cây không lớn hơn chiều cao nên cây kết quả không dàn trải theo chiều ngang. Khi |Ai| ≥ (m - 1) × |Y|, ta có sự phân chia theo chiều ngang của nút tương ứng lớn hơn chiều rộng của cây. Tuy vậy, vì tính chất thuần nhất của sự phân lớp nên ta cần phân chia các nhánh của cây theo các giá trị riêng biệt của thuộc tính dự đoán Y. Do vậy, giá trị (m - 1) × |Y| sẽ được chọn để xác định ngưỡng phân chia. Khi |Ai| < (m - 1) × |Y| thì ta sẽ phân chia theo k-phân như C4.5. Ngược lại thì |Ai| ≥ (m - 1) × |Y| nên có thể xảy ra tình trạng quá khớp tại nút này, vì vậy ta phân chia thuộc tính này theo nhị phân của SPRINT. Với tập mẫu dữ liệu nghiệp vụ huấn luyện D có m thuộc tính, ta có thuật toán MixC4.5 xây dựng cây quyết định S như sau: Thuật toán MixC4.5 Vào: mẫu huấn luyện D có n bộ, m thuộc tính dự đoán, thuộc tính quyết định Y. Ra: Cây quyết định S. Mô tả thuật toán: ChonMauDacTrung(D); //theo Mục 2.2.2 Tính ngưỡng k cho các thuộc tính; Khởi tạo tập các nút lá S = D; For each (nút lá L thuộc S) do If (L thuần nhất) or (L là rỗng) then Gán nhãn cho nút tương ứng với giá trị thuần nhất của L; Else Begin X = Thuộc tính tương ứng có GainRatio lớn nhất; Gán nhãn cho nút tương ứng với tên thuộc tính X; If (L là thuộc tính liên tục) then //Phân chia theo C4.5 Begin Chọn ngưỡng T tương ứng có Gain lớn nhất trên X; S1= {xi| xi Dom(L), xi ≤ T}; S2= {xi| xi Dom(L), xi > T}; Tạo 2 nút con cho nút hiện tại tương ứng với hai tập S1 và S2; 45 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử Đánh dấu nút L đã xét; End Else //L là thuộc tính rời rạc //phân chia k-phân theo C4.5 khi |L| không vượt qua ngưỡng k If |L| < k then Begin P = {xi| xi K, xi đơn nhất}; For each (xi P) do Begin Si = {xj| xj Dom(L), xj = xi}; Tạo nút con thứ i cho nút hiện tại tương ứng với Si; End; End Else //phân chia nhị phân theo SPRINT tại giá trị tương ứng khi //có |L| vượt ngưỡng k Begin Lập ma trận đếm cho các giá trị trong L; T = Giá trị trong L có Gain lớn nhất; S1= {xi| xi Dom(L), xi = T};S2= {xi| xi Dom(L), xi ≠ T}; Tạo 2 nút con cho nút hiện tại ứng với hai tập S1 và S2; End; Đánh dấu nút L đã xét; End; End; Với m là số thuộc tính, n là số thể hiện của tập huấn luyện. Tuần tự, chúng ta mất O(m × n) vì phải duyệt qua toàn bộ mẫu để xác định ngưỡng k cho m thuộc tính, là ngưỡng xác định sẽ chia tách theo nhị phân hay k-phân và tuần tự. Sau đó chúng ta mất chi phí O(m2 × n) để lựa chọn các thuộc tính đặc trưng cho tập mẫu huấn luyện nhằm tránh tình trạng quá khớp trên cây. 46 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử Trong quá trình huấn luyện, với thuộc tính liên tục MixC4.5 hoàn toàn trùng khớp với C4.5 và SPRINT. Đối với thuộc tính rời rạc, MixC4.5 được thiết kế dựa trên sự tổng hợp của C4.5 và SPRINT, khi lực lượng của thuộc tính đang xét chưa vượt ngưỡng k, do chúng ta sử dụng k-phân theo C4.5 nên độ phức tạp lúc này là O(m × n × log n). Ngược lại, khi vượt quá ngưỡng k, chúng ta phân chia nhị phân theo giá trị theo SPRINT nên độ phức tạp lúc này là O(m × n2 × log n). Vậy độ phức tạp của thuật toán MixC4.5 là O(m × n2 × log n). Tính đúng và tính dừng của thuật toán được rút ra từ các thuật toán C4.5 và SPRINT do MixC4.5 được kết hợp từ hai thuật toán này. 2.3.3. Cài đặt thử nghiệm và đánh giá thuật toán MixC4.5 Chương trình thực nghiệm được cài đặt bằng ngôn ngữ Java Eclipse Mars Release 4.50 trên máy tính có cấu hình: Processor: Intel® Core™i5-2450 CPU @ 2.50GHz (4CPUs), ~ 2.50 GHz, RAM4GB, System type 64bit. a. Với tập mẫu huấn luyện gồm 1500 bảng ghi và 500 bộ giá trị kiểm tra được lấy từ 2155 bộ dữ liệu từ các bảng Customers, Details, OrderDetails, Products của cơ sở dữ liệu Northwind, các thông số cụ thể như Bảng 2.2. Kết quả thực nghiệm đo được ở các Bảng 2.3 và Bảng 2.4. Bảng 2.2. Thông số thuộc tính tập huấn luyện chọn từ cơ sở dữ liệu Northwind STT Tên trƣờng Lực lƣợng Kiểu thuộc tính Miền trị 1 Customers.CompanyName 91 Rời rạc 2 Customers.ContactName 91 Rời rạc 3 Customers.ContactTitle 12 Rời rạc 4 Customers.City 69 Rời rạc 5 Customers.Region 19 Rời rạc 6 Customers.Phone 91 Rời rạc 7 Products.ProductName 77 Rời rạc 8 Products.SupplierID 29 Rời rạc 9 Products.CategoryID 8 Rời rạc 47 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 10 Products.QuantityPerUnit 70 Rời rạc 11 Products.UnitPrice 62 Liên tục [2.50, 265.0] 12 Products.UnitsInStock 51 Liên tục [0, 125] 13 Products.UnitsOnOrder 10 Liên tục [0, 100] 14 Products.ReorderLevel 7 Liên tục [0, 30] 15 Products.Discontinued 2 Logic 16 Orders.CustomerID 89 Rời rạc 17 Orders.EmployeeID 9 Liên tục [1, 9] 18 Orders.OrderDate 480 Rời rạc 19 Orders.RequiredDate 454 Rời rạc 20 Orders.ShippedDate 388 Rời rạc 21 Orders.Freight 79 Liên tục [0.02, 1007.6] 22 Orders.ShipCity 70 Rời rạc 23 Orders.ShipRegion 20 Rời rạc 24 OrderDetails.ProductID 77 Liên tục [1, 77] 25 OrderDetails.UnitPrice 116 Liên tục [2.0, 263.5] 26 OrderDetails.Quantity 55 Liên tục [1, 130] 27 OrderDetails.Discount 11 Liên tục [0.0, 0.25] Bảng 2.3. Bảng so sánh kết quả huấn luyện của thuật toán MixC4.5 với 1000 mẫu trên cơ sở dữ liệu Northwind Thuật toán Thời gian (s) Tổng số nút Độ chính xác (%) C4.5 11.2 389 69.2 SLIQ 220.2 89 76.4 SPRINT 89.2 122 79.8 MixC4.5 73.3 130 78.2 48 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử Bảng 2.4. Bảng so sánh kết quả huấn luyện của thuật toán MixC4.5 với 1500 mẫu trên cơ sở dữ liệu Northwind Thuật toán Thời gian (s) Tổng số nút Độ chính xác (%) C4.5 20.4 552 76.4 SLIQ 523.3 162 82.4 SPRINT 184.0 171 83.2 MixC4.5 186.6 172 86.6 b. Với tập mẫu huấn luyện gồm 5000 bảng ghi và các bộ dữ liệu kiểm tra gồm 500 và 1000 mẫu được lấy từ 8000 bộ dữ liệu của cơ sở dữ liệu Mushroom, các thông số cụ thể như Bảng 2.5. Kết quả thực nghiệm của quá trình huấn luyện và kiểm tra được trình bày ở Bảng 2.6. Bảng 2.5. Thông số thuộc tính tập huấn luyện từ cơ sở dữ liệu Mushroom STT Tên trƣờng Lực lƣợng Kiểu thuộc tính Miền trị 1 Bruises 2 Rời rạc 2 Capshape 6 Rời rạc 3 CapSurface 4 Rời rạc 4 CapColor 10 Rời rạc 5 Bruises 2 Rời rạc 6 Odor 9 Rời rạc 7 GillAttachment 2 Rời rạc 8 GillSpacing 2 Rời rạc 9 GillSize 2 Rời rạc 10 GillColor 12 Rời rạc 11 StalkShape 2 Rời rạc 12 StalkRoot 5 Rời rạc 13 StalkSurfaceAboveRing 4 Rời rạc 14 StalkSurfaceBelowRing 4 Rời rạc 49 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 15 StalkColorAboveRing 9 Logic 16 StalkColorBelowRing 9 Rời rạc 17 VeilType 9 Rời rạc 18 VeilColor 4 Rời rạc 19 RingNumber 3 Rời rạc 20 RingType 5 Rời rạc 21 SporePrintColor 9 Rời rạc 22 Population 62 Mờ Rõ: [1, 50] 23 Habitat 126 Mờ Rõ: [20, 90] 24 Classes 2 Logic Bảng 2.6. Bảng so sánh kết quả của thuật toán MixC4.5 với 5000 mẫu huấn luyện trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom Thời gian Độ chính xác (%) Độ chính xác (%) Thuật toán huấn luyện (s) 500 mẫu kiểm tra 1000 mẫu kiểm tra C4.5 18.9 54.8 51.2 SLIQ 152.3 51.8 52.2 SPRINT 60.1 54.2 54.6 MixC4.5 50.2 54.8 54.6 c. Từ kết quả thu được, chúng ta có các nhận xét, đánh giá như sau: Thời gian huấn luyện: Thuật toán C4.5 luôn thực hiện k-phân tại các thuộc tính rời rạc và loại bỏ các thuộc tính của tập huấn luyện ở mỗi bước phân chia, nên C4.5 luôn đạt tốc độ thực hiện nhanh nhất. Thời gian xử lý của SLIQ là lớn nhất do phải thực hiện các phép tính Gini trên mỗi giá trị rời rạc của thuộc tính rời rạc. Do cách phân chia của MixC4.5 trộn lẫn giữa C4.5 và SPRINT và C4.5 nhanh hơn SPRINT nên thời gian huấn luyện của MixC4.5 khá tương đồng tốt với SPRINT, thể hiện ở Hình 2.3. 50 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 600 500 400 300 200 Thời giánThời huấn luyện (s) 100 0 1000 mẫu (Northwind) 1500 mẫu (Northwind) 5000 mẫu (Mushroom) C45 SLIQ SPRINT MixC4.5 Hình 2.3. So sánh thời gian huấn luyện của MixC4.5 với các thuật toán khác. Kích thƣớc cây kết quả: SLIQ do thực hiện cách chia nhị phân theo tập hợp nên số nút của nó luôn nhỏ nhất và C4.5 luôn phân chia k-phân nên số nút luôn lớn nhất. Thuật toán MixC4.5 tương đồng kém với SPRINT do số lượng nút của thuật toán SPRINT ít hơn C4.5, Hình 2.4. 600 500 Số lƣợng Sốnút 400 1000 mẫu (Northwind) 300 1500 mẫu 200 (Northwind) 100 0 C45 SLIQ SPRINT MixC4.5 Hình 2.4. So sánh số nút trên cây kết quả của MixC4.5 với các thuật toán khác. 51 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 100% 90% 80% Tỷ lệ đúng (%) đúng lệ Tỷ 70% 60% 50% 40% 30% 20% 10% 0% 500/1000 mẫu 500/1500 mẫu 500/5000 mẫu 1000/5000 mẫu (Northwind) (Northwind) (Mushroom) (Mushroom) C45 SLIQ SPRINT MixC4.5 Hình 2.5. So sánh tỷ lệ đúng trên kết quả của MixC4.5 với các thuật toán khác. Hiệu quả dự đoán: Thuật toán MixC4.5 cải tiến từ sự kết hợp các thuật toán C4.5 và SPRINT nên cho cây kết quả có khả năng dự đoán khả quan hơn các thuật toán kinh điển. Trong tất cả các trường hợp dự đoán trên cả dữ liệu rõ và dữ liệu có chứa giá trị mờ, MixC4.5 luôn cho kết quả dự đoán phù hợp hơn C4.5, SLIQ và SPRINT do chúng ta đã hạn chế được tình huống “quá khớp” trên cây kết quả. Tuy nhiên, đối sánh giữa các tập huấn luyện không có thuộc tính mờ (Northwind) và các tập huấn luyện có chứa thuộc tính mờ (Mushroom) thì khả năng dự đoán của MixC4.5 còn có sự chênh lệch lớn, khả năng dự đoán khi dữ liệu có chứa giá trị mờ chưa cao. Trong tất cả các trường hợp, các thuật toán kinh điển và thuật toán đề xuất MixC4.5 đều cho kết quả dự đoán đúng có tỷ lệ nhỏ hơn 60%, Hình 2.5. Điều này hoàn toàn hợp lý vì trong quá trình học các thuật toán đang xét không thể xử lý nên chọn giải pháp bỏ qua các giá trị mờ, vì thế kết quả dự đoán có sai số lớn. 52 Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử 2.4. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đối sánh điểm mờ 2.4.1. Xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định mờ Như chúng ta đã biết, bài toán phân lớp mờ đã và đang được nhiều tác giả nghiên cứu và ứng dụng, các phương pháp được biết đến như lập luận xấp xỉ mờ [5], hệ nơ-ron mờ [9], [12], [23], luật kết hợp mờ [8], [22], cây quyết định mờ [16], [17], [45], Các phương pháp này sử dụng các phép toán truyền thống trên tập mờ để lập luận cho kết quả đầu ra. Mô hình thể hiện cho quá trình phân lớp mờ này bao gồm 2 giai đoạn, thể hiện như ở Hình 2.6. - Giai đoạn 1: xác định hệ mờ bao gồm việc lựa chọn các biến vào, các tham số mờ, phân hoạch các khoảng mờ của các biến vào, lập luận đầu ra cho hệ mờ.
File đính kèm:
- luan_an_phan_lop_du_lieu_bang_cay_quyet_dinh_mo_dua_tren_dai.pdf
- 1. ThongtinMoiCuaLuanAn-TiengViet.pdf
- 2. ThongTinMoiCuaLuanAn-TiengAnh.pdf
- 3. TomTat LuanAn TiengViet.pdf
- 4. TomTat LuanAn TiengAnh.pdf
- 6. TrichYeuLuanAn-TiengViet.pdf
- 7. TrichYeuLuanAn-TiengAnh.pdf