Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
luyện là vấn đề đầu tiên phải quan tâm. Thông qua việc phân loại các thuộc tính
rời rạc, luận án nhằm cung cấp sự lựa chọn xác đáng cho việc lựa chọn tập mẫu
trong quá trình huấn luyện.
Trong tập mẫu huấn luyện có m thuộc tính, chiều cao tối đa của cây kết
quả là m – 1, theo Định nghĩa 1.19, các thuộc tính rời rạc có lực lượng lớn hơn m
rất có khả năng làm xuất hiện cây dàn trải theo chiều ngang tại nút đó vì có chiều
rộng của nhánh lớn hơn chiều sâu của cây. Tuy vậy, sự phân nhánh của cây còn
phụ thuộc vào lực lượng của thuộc tính huấn luyện Y tức là phụ thuộc vào giá trị
|Y|, vì chúng ta cần phân chia đến các lớp thuần nhất theo mỗi giá trị của Y. Do
vậy, khi xét tính dàn trải theo chiều ngang của cây, ta cần phải xét đến số lớp
phân chia trên Y cùng với chiều cao của cây. Định nghĩa sau nhằm xác định
ngưỡng có thể cho phép dàn trải đối với mỗi nút trên cây.
Định nghĩa 2.1. Thuộc tính Ai D được gọi là thuộc tính có giá trị riêng biệt
(gọi tắt là thuộc tính riêng biệt) nếu như nó là thuộc tính rời rạc và |Ai| > (m - 1)
× |Y|. Tập các thuộc tính có giá trị riêng biệt trong D ký hiệu là D*.
Mệnh đề 2.1. Trong cây quyết định, nếu có một nút được tạo là ứng với một
thuộc tính riêng biệt trong quá trình huấn luyện thì đó là một cây dàn trải.
Chứng minh: thật vậy, mẫu D có m thuộc tính nên có chiều cao tối đa có
thể của cây sau khi huấn luyện là m - 1. Do vậy, tính đúng của mệnh đề được suy
ra từ Định nghĩa 2.1.
Như chúng ta đã biết, trong các kho dữ liệu nghiệp vụ, do cần phải lưu trữ
thông tin phản ảnh thế giới thực nên nhiều thuộc tính được lưu trữ không có khả
năng dự đoán mà chỉ có ý nghĩa lưu trữ nhằm mục đính diễn giải thông tin. Các
định nhĩa sau nhằm để phân loại các thuộc tính có khả năng tham gia trong quá
trình huấn luyện hay không.
40
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Định nghĩa 2.2. Cho tập mẫu D. Thuộc tính 푖 D mà giữa các phần tử 푖푗 , 푖
với j ≠ k là không sánh được thì ta gọi Ai là thuộc tính ghi nhớ trong tập mẫu.
Tập các thuộc tính này trong D ký hiệu là DG.
Mệnh đề 2.2. Cho tập mẫu D. Nếu thuộc tính Ai D là thuộc tính ghi nhớ thì ta
loại Ai ra khỏi mẫu D mà không làm thay đổi cây quyết định thu được.
Chứng minh: hiển nhiên, bởi ta không thể so sánh giữa các phần tử
푖푗 với 푖 của Ai để tính hàm Gain(Ai, D) nên không tồn tại lợi ích thông tin của
mỗi bộ trên Ai. Vì thế Ai không thể xuất hiện trên cây kết quả nên ta loại Ai ra
khỏi D mà không làm thay đổi cây quyết định thu được.
Mệnh đề 2.3. Nếu trong tập mẫu huấn luyện chứa thuộc tính Ai là khoá của tập
D thì cây quyết định thu được là quá khớp tại nút Ai.
Chứng minh: thật vậy, với thuộc tính Ai có Dom( 푖) = { 푖1 , 푖2 , , 푖푛 },
do Ai là khoá nên ta có 푖푗 ≠ 푖 , i ≠ k. Như thế, mẫu D được phân ra làm n
phân hoạch, mà mỗi phân hoạch chỉ có 1 bộ nên 푖푗 Ai, hàm E(Ai, D) = 0.
Hàm xác định lợi ích thông tin nhận được trên thuộc tính Ai ở Công thức 1.9 đạt
giá trị cực đại, vì thế Ai được chọn làm điểm phân tách cây. Tại đây, cây được
phân chia làm n nút, mỗi cạnh tương ứng được gán nhãn 푖푗 , đây là một cây dàn
trải theo chiều ngang tại nút ứng với Ai. Do tính duy nhất của khoá nên không có
giá trị trùng khớp khi so sánh tại nút này trong quá trình dự đoán. Vậy cây kết
quả thu được là quá khớp tại nút Ai, theo Định nghĩa 1.19.
Với dữ liệu xét ở Bảng 2.1, các thuộc tính sau là không hiệu quả khi chọn
nó trong các tập mẫu huấn luyện:
- Thuộc tính ID, PhiếuĐT là thuộc tính khoá.
- Thuộc tính HọVàTên là thuộc tính có giá trị riêng biệt.
2.2.2. Ảnh hƣởng từ phụ thuộc hàm giữa các thuộc tính trong tập huấn
luyện
Mệnh đề 2.4. Cho mẫu D với thuộc tính quyết định Y. Nếu có phụ thuộc hàm Ai
Aj và ta đã chọn Ai làm nút phân tách trên cây thì mọi nút con của nó sẽ không
41
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
nhận Aj làm nút phân tách.
Chứng minh: thật vậy, giả sử |Ai| = k, khi chọn Ai làm nút phân tách trên
cây thì tại nút này ta có k nhánh. Không mất tính tổng quát, các nhánh của cây
lần lượt được gán các giá trị là 푖푗 , j = 1, , k. Do Ai Aj nên tại nhánh bất kỳ
thì trên mẫu huấn luyện tương ứng D’, lúc này trên thuộc tính Aj sẽ có cùng 1 giá
trị. Như thế Gain(Aj, D’) = 0 là nhỏ nhất nên Aj không thể chọn để làm nút phân
tách cây.
Mệnh đề 2.5. Trên mẫu D với thuộc tính quyết định Y, nếu có phụ thuộc hàm Ai
Aj thì lượng thông tin nhận được trên Ai không nhỏ hơn lượng thông tin nhận
được trên Aj.
Chứng minh: thật vậy, giả sử thuộc tính quyết định Y có k giá trị. Do A1
A2 nên |A1| |A2|. Theo công thức (1.9), lượng thông tin nhận được trên thuộc
tính Ai là Gain(Ai, D). Nên nếu |A1| = |A2| thì trên A1 hay A2 đều có k phân hoạch
như nhau nên Gain(A1, D) = Gain(A2, D). Ngược lại nếu |A1| > |A2| tức tồn tại
1푖 , 1푗 A1, 1푖 1푗 mà trên tương ứng trên A2 thì 2푖 = 2푖 . Lúc này 2 phân
hoạch trên A1 được gộp thành 1 phân hoạch trên A2 nên Entropy tương ứng trên
A2 lớn hơn. Vậy Gain(A1, D) > Gain(A2, D).
Từ Mệnh đề 2.5, ta dễ dàng suy ra hệ quả nhằm giới hạn các thuộc tính
trong tập huấn luyện như sau:
Hệ quả 2.1. Nếu có phụ thuộc hàm A1 A2 mà A1 không phải là thuộc tính khóa
của mẫu D thì thuộc tính A2 không được chọn làm nút phân tách cây.
Với dữ liệu được xét ở Bảng 2.1, thuộc tính PhụCấp là phụ thuộc hàm vào
thuộc tính không khóa Lương nên không hiệu quả khi chọn trong các tập mẫu
huấn luyện cây.
Như vậy, với các kho dữ liệu nghiệp vụ được lưu trữ bao gồm các thông tin
mô tả về phân loại dữ liệu các thuộc tính và các phụ thuộc hàm của chúng, chúng
ta có thể chọn được tập mẫu huấn luyện phù hợp thông qua thuật toán “chọn mẫu
đặc trưng” cho quá trình huấn luyện cây như sau:
42
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Thuật toán tìm tập huấn luyện đặc trƣng từ dữ liệu mẫu.
Vào : Tập mẫu huấn luyện D được chọn từ dữ liệu mẫu;
Ra : Tập mẫu huấn luyện đặc trưng D*;
Mô tả thuật toán:
Begin
For each i = 1 to m do
Begin
If (Ai {Khoá, Ghi nhớ}) then D = D - Ai ;
End;
i = 1;
While (i < m) do
Begin
j = i +1;
While (j ≤ m) do
Begin
If (Ai Aj and (Ai không phải thuộc tính khóa trong D))
then D = D – Aj
Else
If (Aj Ai and (Aj không phải thuộc tính khóa trong D))
then D = D – Ai;
j = j+1;
End;
i = i + 1;
End;
End;
Tính đúng đắn của thuật toán được suy ra từ các mệnh đề ở trên. Với tập
dữ liệu nghiệp vụ được chọn có m thuộc tính, do chúng ta phải duyệt qua 2 lần
lồng nhau các thuộc tính hiện có nên thuật toán có độ phức tạp O(m2).
43
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
2.3. Phân lớp dữ liệu bằng cây quyết định dựa trên ngƣỡng miền trị
thuộc tính
2.3.1. Cơ sở của việc xác định ngƣỡng cho quá trình học phân lớp
Như chúng ta đã xét, các thuật toán học quy nạp cây quyết định đều dựa
vào việc chọn thuộc tính có lượng thông tin tốt nhất để phân tách cây và sự phân
chia tại mỗi nút phụ thuộc vào kiểu của thuộc tính là liên tục hay rời rạc. Tất cả
các thuật toán đều cố định cách phân chia cho mọi thuộc tính rời rạc của tập
huấn luyện theo nhị phân hoặc k-phân.
- Đối với cách chia k-phân, một điều dễ thấy là nếu thuộc tính A có lực
lượng lớn sẽ làm cho số nút của cây tại một cấp tăng lên nhanh. Điều này làm
tăng chiều rộng của cây nên cây sẽ dàn trải theo chiều ngang. Hơn nữa, cách chia
này có khả năng dẫn đến lỗi khi dữ liệu không thể đoán nhận được lớp. Mặc dù
vậy chia k-phân theo thuộc tính rời rạc có ưu điểm là độ phức tạp thấp, bởi vì
sau khi phân thì thuộc tính đó không cần phải sử dụng lại nữa.
- Cách chia nhị phân theo giá trị tại điểm phân chia [48] [87] không làm
tăng chiều rộng của cây, bởi cho dù k có lớn bao nhiêu cũng chỉ chia theo 2 nút,
một nút là giá trị được chọn và một nút là tập còn lại. Tuy nhiên, điều này lại làm
tăng nhanh chiều sâu của cây. Cách chia nhị phân theo tập hợp tại điểm phân
chia [47] [52] luôn tách thuộc tính rời rạc làm 2 tập con nên và chi phí tính toán
rất lớn và khó khăn trong việc duyệt cây kết quả cho quá trình dự đoán.
Từ những nhận định trên, ta nhận thấy cần phải xây dựng một thuật toán
học với cách chia hỗn hợp nhị phân, k-phân theo từng thuộc tính nhằm có được
cây với chiều rộng và chiều sâu hợp lý cho quá tình huấn luyện.
2.3.2. Thuật toán MixC4.5 dựa trên ngƣỡng miền trị thuộc tính
Với tập mẫu huấn luyện D với m thuộc tính A1, A2, Am có lực lượng
tương ứng của mỗi thuộc tính là |A1|, |A2|, |Am|. Ta gọi k là ngưỡng giới hạn sự
phân chia tại mỗi thuộc tính theo nhị phân, tức là nếu lực lượng của thuộc tính
nhỏ hơn một giá trị được lựa chọn k cho trước thì sẽ phân theo k-phân, ngược lại
phân theo nhị phân.
Do tính chất dàn trải của cây chỉ xảy ra trên thuộc tính rời rạc nên khi Ai
không phải là thuộc tính riêng biệt (theo Định nghĩa 2.1) thì |Ai| < (m - 1) × |Y|.
44
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Với thuộc tính Ai có |Ai| < (m - 1) × |Y| thì các nhánh của cây không lớn hơn
chiều cao nên cây kết quả không dàn trải theo chiều ngang. Khi |Ai| ≥ (m - 1) ×
|Y|, ta có sự phân chia theo chiều ngang của nút tương ứng lớn hơn chiều rộng
của cây. Tuy vậy, vì tính chất thuần nhất của sự phân lớp nên ta cần phân chia
các nhánh của cây theo các giá trị riêng biệt của thuộc tính dự đoán Y. Do vậy,
giá trị (m - 1) × |Y| sẽ được chọn để xác định ngưỡng phân chia. Khi |Ai| < (m -
1) × |Y| thì ta sẽ phân chia theo k-phân như C4.5. Ngược lại thì |Ai| ≥ (m - 1) ×
|Y| nên có thể xảy ra tình trạng quá khớp tại nút này, vì vậy ta phân chia thuộc
tính này theo nhị phân của SPRINT.
Với tập mẫu dữ liệu nghiệp vụ huấn luyện D có m thuộc tính, ta có thuật
toán MixC4.5 xây dựng cây quyết định S như sau:
Thuật toán MixC4.5
Vào: mẫu huấn luyện D có n bộ, m thuộc tính dự đoán, thuộc tính quyết định Y.
Ra: Cây quyết định S.
Mô tả thuật toán:
ChonMauDacTrung(D); //theo Mục 2.2.2
Tính ngưỡng k cho các thuộc tính;
Khởi tạo tập các nút lá S = D;
For each (nút lá L thuộc S) do
If (L thuần nhất) or (L là rỗng) then
Gán nhãn cho nút tương ứng với giá trị thuần nhất của L;
Else
Begin
X = Thuộc tính tương ứng có GainRatio lớn nhất;
Gán nhãn cho nút tương ứng với tên thuộc tính X;
If (L là thuộc tính liên tục) then //Phân chia theo C4.5
Begin
Chọn ngưỡng T tương ứng có Gain lớn nhất trên X;
S1= {xi| xi Dom(L), xi ≤ T}; S2= {xi| xi Dom(L), xi > T};
Tạo 2 nút con cho nút hiện tại tương ứng với hai tập S1 và S2;
45
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Đánh dấu nút L đã xét;
End
Else //L là thuộc tính rời rạc
//phân chia k-phân theo C4.5 khi |L| không vượt qua ngưỡng k
If |L| < k then
Begin
P = {xi| xi K, xi đơn nhất};
For each (xi P) do
Begin
Si = {xj| xj Dom(L), xj = xi};
Tạo nút con thứ i cho nút hiện tại tương ứng với Si;
End;
End
Else
//phân chia nhị phân theo SPRINT tại giá trị tương ứng khi
//có |L| vượt ngưỡng k
Begin
Lập ma trận đếm cho các giá trị trong L;
T = Giá trị trong L có Gain lớn nhất;
S1= {xi| xi Dom(L), xi = T};S2= {xi| xi Dom(L), xi ≠ T};
Tạo 2 nút con cho nút hiện tại ứng với hai tập S1 và S2;
End;
Đánh dấu nút L đã xét;
End;
End;
Với m là số thuộc tính, n là số thể hiện của tập huấn luyện. Tuần tự, chúng
ta mất O(m × n) vì phải duyệt qua toàn bộ mẫu để xác định ngưỡng k cho m
thuộc tính, là ngưỡng xác định sẽ chia tách theo nhị phân hay k-phân và tuần tự.
Sau đó chúng ta mất chi phí O(m2 × n) để lựa chọn các thuộc tính đặc trưng cho
tập mẫu huấn luyện nhằm tránh tình trạng quá khớp trên cây.
46
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Trong quá trình huấn luyện, với thuộc tính liên tục MixC4.5 hoàn toàn
trùng khớp với C4.5 và SPRINT. Đối với thuộc tính rời rạc, MixC4.5 được thiết
kế dựa trên sự tổng hợp của C4.5 và SPRINT, khi lực lượng của thuộc tính đang
xét chưa vượt ngưỡng k, do chúng ta sử dụng k-phân theo C4.5 nên độ phức tạp
lúc này là O(m × n × log n). Ngược lại, khi vượt quá ngưỡng k, chúng ta phân
chia nhị phân theo giá trị theo SPRINT nên độ phức tạp lúc này là O(m × n2 ×
log n). Vậy độ phức tạp của thuật toán MixC4.5 là O(m × n2 × log n).
Tính đúng và tính dừng của thuật toán được rút ra từ các thuật toán C4.5
và SPRINT do MixC4.5 được kết hợp từ hai thuật toán này.
2.3.3. Cài đặt thử nghiệm và đánh giá thuật toán MixC4.5
Chương trình thực nghiệm được cài đặt bằng ngôn ngữ Java Eclipse Mars
Release 4.50 trên máy tính có cấu hình: Processor: Intel® Core™i5-2450 CPU
@ 2.50GHz (4CPUs), ~ 2.50 GHz, RAM4GB, System type 64bit.
a. Với tập mẫu huấn luyện gồm 1500 bảng ghi và 500 bộ giá trị kiểm tra
được lấy từ 2155 bộ dữ liệu từ các bảng Customers, Details, OrderDetails,
Products của cơ sở dữ liệu Northwind, các thông số cụ thể như Bảng 2.2. Kết
quả thực nghiệm đo được ở các Bảng 2.3 và Bảng 2.4.
Bảng 2.2. Thông số thuộc tính tập huấn luyện chọn từ cơ sở dữ liệu Northwind
STT Tên trƣờng Lực lƣợng Kiểu thuộc tính Miền trị
1 Customers.CompanyName 91 Rời rạc
2 Customers.ContactName 91 Rời rạc
3 Customers.ContactTitle 12 Rời rạc
4 Customers.City 69 Rời rạc
5 Customers.Region 19 Rời rạc
6 Customers.Phone 91 Rời rạc
7 Products.ProductName 77 Rời rạc
8 Products.SupplierID 29 Rời rạc
9 Products.CategoryID 8 Rời rạc
47
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
10 Products.QuantityPerUnit 70 Rời rạc
11 Products.UnitPrice 62 Liên tục [2.50, 265.0]
12 Products.UnitsInStock 51 Liên tục [0, 125]
13 Products.UnitsOnOrder 10 Liên tục [0, 100]
14 Products.ReorderLevel 7 Liên tục [0, 30]
15 Products.Discontinued 2 Logic
16 Orders.CustomerID 89 Rời rạc
17 Orders.EmployeeID 9 Liên tục [1, 9]
18 Orders.OrderDate 480 Rời rạc
19 Orders.RequiredDate 454 Rời rạc
20 Orders.ShippedDate 388 Rời rạc
21 Orders.Freight 79 Liên tục [0.02, 1007.6]
22 Orders.ShipCity 70 Rời rạc
23 Orders.ShipRegion 20 Rời rạc
24 OrderDetails.ProductID 77 Liên tục [1, 77]
25 OrderDetails.UnitPrice 116 Liên tục [2.0, 263.5]
26 OrderDetails.Quantity 55 Liên tục [1, 130]
27 OrderDetails.Discount 11 Liên tục [0.0, 0.25]
Bảng 2.3. Bảng so sánh kết quả huấn luyện của thuật toán MixC4.5 với 1000
mẫu trên cơ sở dữ liệu Northwind
Thuật toán Thời gian (s) Tổng số nút Độ chính xác (%)
C4.5 11.2 389 69.2
SLIQ 220.2 89 76.4
SPRINT 89.2 122 79.8
MixC4.5 73.3 130 78.2
48
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Bảng 2.4. Bảng so sánh kết quả huấn luyện của thuật toán MixC4.5 với 1500
mẫu trên cơ sở dữ liệu Northwind
Thuật toán Thời gian (s) Tổng số nút Độ chính xác (%)
C4.5 20.4 552 76.4
SLIQ 523.3 162 82.4
SPRINT 184.0 171 83.2
MixC4.5 186.6 172 86.6
b. Với tập mẫu huấn luyện gồm 5000 bảng ghi và các bộ dữ liệu kiểm tra
gồm 500 và 1000 mẫu được lấy từ 8000 bộ dữ liệu của cơ sở dữ liệu Mushroom,
các thông số cụ thể như Bảng 2.5. Kết quả thực nghiệm của quá trình huấn luyện
và kiểm tra được trình bày ở Bảng 2.6.
Bảng 2.5. Thông số thuộc tính tập huấn luyện từ cơ sở dữ liệu Mushroom
STT Tên trƣờng Lực lƣợng Kiểu thuộc tính Miền trị
1 Bruises 2 Rời rạc
2 Capshape 6 Rời rạc
3 CapSurface 4 Rời rạc
4 CapColor 10 Rời rạc
5 Bruises 2 Rời rạc
6 Odor 9 Rời rạc
7 GillAttachment 2 Rời rạc
8 GillSpacing 2 Rời rạc
9 GillSize 2 Rời rạc
10 GillColor 12 Rời rạc
11 StalkShape 2 Rời rạc
12 StalkRoot 5 Rời rạc
13 StalkSurfaceAboveRing 4 Rời rạc
14 StalkSurfaceBelowRing 4 Rời rạc
49
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
15 StalkColorAboveRing 9 Logic
16 StalkColorBelowRing 9 Rời rạc
17 VeilType 9 Rời rạc
18 VeilColor 4 Rời rạc
19 RingNumber 3 Rời rạc
20 RingType 5 Rời rạc
21 SporePrintColor 9 Rời rạc
22 Population 62 Mờ Rõ: [1, 50]
23 Habitat 126 Mờ Rõ: [20, 90]
24 Classes 2 Logic
Bảng 2.6. Bảng so sánh kết quả của thuật toán MixC4.5 với 5000 mẫu huấn
luyện trên cơ sở dữ liệu có chứa thuộc tính mờ Mushroom
Thời gian Độ chính xác (%) Độ chính xác (%)
Thuật toán
huấn luyện (s) 500 mẫu kiểm tra 1000 mẫu kiểm tra
C4.5 18.9 54.8 51.2
SLIQ 152.3 51.8 52.2
SPRINT 60.1 54.2 54.6
MixC4.5 50.2 54.8 54.6
c. Từ kết quả thu được, chúng ta có các nhận xét, đánh giá như sau:
Thời gian huấn luyện: Thuật toán C4.5 luôn thực hiện k-phân tại các
thuộc tính rời rạc và loại bỏ các thuộc tính của tập huấn luyện ở mỗi bước phân
chia, nên C4.5 luôn đạt tốc độ thực hiện nhanh nhất. Thời gian xử lý của SLIQ là
lớn nhất do phải thực hiện các phép tính Gini trên mỗi giá trị rời rạc của thuộc
tính rời rạc. Do cách phân chia của MixC4.5 trộn lẫn giữa C4.5 và SPRINT và
C4.5 nhanh hơn SPRINT nên thời gian huấn luyện của MixC4.5 khá tương đồng
tốt với SPRINT, thể hiện ở Hình 2.3.
50
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
600
500
400
300
200
Thời giánThời huấn luyện (s)
100
0
1000 mẫu (Northwind) 1500 mẫu (Northwind) 5000 mẫu (Mushroom)
C45 SLIQ SPRINT MixC4.5
Hình 2.3. So sánh thời gian huấn luyện của MixC4.5 với các thuật toán khác.
Kích thƣớc cây kết quả: SLIQ do thực hiện cách chia nhị phân theo
tập hợp nên số nút của nó luôn nhỏ nhất và C4.5 luôn phân chia k-phân nên số
nút luôn lớn nhất. Thuật toán MixC4.5 tương đồng kém với SPRINT do số lượng
nút của thuật toán SPRINT ít hơn C4.5, Hình 2.4.
600
500
Số lƣợng Sốnút 400 1000 mẫu
(Northwind)
300
1500 mẫu
200 (Northwind)
100
0
C45 SLIQ SPRINT MixC4.5
Hình 2.4. So sánh số nút trên cây kết quả của MixC4.5 với các thuật toán khác.
51
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
100%
90%
80%
Tỷ lệ đúng (%) đúng lệ Tỷ 70%
60%
50%
40%
30%
20%
10%
0%
500/1000 mẫu 500/1500 mẫu 500/5000 mẫu 1000/5000 mẫu
(Northwind) (Northwind) (Mushroom) (Mushroom)
C45 SLIQ SPRINT MixC4.5
Hình 2.5. So sánh tỷ lệ đúng trên kết quả của MixC4.5 với các thuật toán khác.
Hiệu quả dự đoán: Thuật toán MixC4.5 cải tiến từ sự kết hợp các
thuật toán C4.5 và SPRINT nên cho cây kết quả có khả năng dự đoán khả quan
hơn các thuật toán kinh điển. Trong tất cả các trường hợp dự đoán trên cả dữ liệu
rõ và dữ liệu có chứa giá trị mờ, MixC4.5 luôn cho kết quả dự đoán phù hợp hơn
C4.5, SLIQ và SPRINT do chúng ta đã hạn chế được tình huống “quá khớp” trên
cây kết quả.
Tuy nhiên, đối sánh giữa các tập huấn luyện không có thuộc tính mờ
(Northwind) và các tập huấn luyện có chứa thuộc tính mờ (Mushroom) thì khả
năng dự đoán của MixC4.5 còn có sự chênh lệch lớn, khả năng dự đoán khi dữ
liệu có chứa giá trị mờ chưa cao. Trong tất cả các trường hợp, các thuật toán
kinh điển và thuật toán đề xuất MixC4.5 đều cho kết quả dự đoán đúng có tỷ lệ
nhỏ hơn 60%, Hình 2.5. Điều này hoàn toàn hợp lý vì trong quá trình học các
thuật toán đang xét không thể xử lý nên chọn giải pháp bỏ qua các giá trị mờ, vì
thế kết quả dự đoán có sai số lớn.
52
Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
2.4. Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đối sánh điểm mờ
2.4.1. Xây dựng mô hình học phân lớp dữ liệu bằng cây quyết định mờ
Như chúng ta đã biết, bài toán phân lớp mờ đã và đang được nhiều tác giả
nghiên cứu và ứng dụng, các phương pháp được biết đến như lập luận xấp xỉ mờ
[5], hệ nơ-ron mờ [9], [12], [23], luật kết hợp mờ [8], [22], cây quyết định mờ
[16], [17], [45], Các phương pháp này sử dụng các phép toán truyền thống
trên tập mờ để lập luận cho kết quả đầu ra. Mô hình thể hiện cho quá trình phân
lớp mờ này bao gồm 2 giai đoạn, thể hiện như ở Hình 2.6.
- Giai đoạn 1: xác định hệ mờ bao gồm việc lựa chọn các biến vào, các
tham số mờ, phân hoạch các khoảng mờ của các biến vào, lập luận đầu ra cho hệ
mờ.File đính kèm:
luan_an_phan_lop_du_lieu_bang_cay_quyet_dinh_mo_dua_tren_dai.pdf
1. ThongtinMoiCuaLuanAn-TiengViet.pdf
2. ThongTinMoiCuaLuanAn-TiengAnh.pdf
3. TomTat LuanAn TiengViet.pdf
4. TomTat LuanAn TiengAnh.pdf
6. TrichYeuLuanAn-TiengViet.pdf
7. TrichYeuLuanAn-TiengAnh.pdf

