Luận án Hệ tư vấn dựa trên phân tích hàm ý thống kê

Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
141 trang nguyenduy 14/05/2024 7020 Free
Download
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Hệ tư vấn dựa trên phân tích hàm ý thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Hệ tư vấn dựa trên phân tích hàm ý thống kê

Causal-Confidence Collective 
equilibrium Causal-Confirmed confidence strength 
(IPEE), Indice Loevinger, Certainty Factor, Satisfaction Directed 
Probabiliste Conﬁdence Information 
d’Ecart Causal Conﬁrm ratio (DIR) 
d’Equilibre Conviction 
Leverage, Coverage 
Leverage 1 Descriptive Confirmed-Confidence, Ganascia Index 
 Descriptive-Confirm 
 Entropic Implication Intensity 1 
 Entropic Implication Intensity 2 
 Examples and counter-examples rate 
 Gain, Fukuda 
 Gini index 
 Goodman–Kruskal 
 Implication Intensity 
 MGK, Ion 
 J-measures 
 Klosgen 
 K-measures 
 Kulczynski index 
 Laplace 
 Least contradiction 
 Mutual Information MI, 2-way Support Variation 
 Putative Causal Dependency 
 Recall, Completeness 
 Sebag and Schoenauer 
 Speciﬁcity 1, Negative Reliability 
 Zhang Zhang 
 46 
 Từ kết quả phân lớp trong Bảng 2.3 cho thấy lớp các độ đo hấp dẫn khách 
quan bất đối xứng biến thiên tăng theo tham số chiếm tỷ lệ rất cao trong tổng số 
các độ đo đƣợc khảo sát (31/39). Điều này có thể thấy rằng giá trị hấp dẫn của các 
độ đo dựa trên luật kết hợp phụ thuộc vào số phần tử thỏa vế trái của luật kết 
hợp ( ). Khi tham số tăng thì giá trị hấp dẫn của các độ đo thuộc lớp này tăng. 
Trong đó, nhóm các độ đo có nguồn gốc từ độ đo Confidence đều thuộc lớp các độ 
đo tăng theo tham số . Điều này phù hợp với nguyên tắc xác định độ tin cậy của 
một luật kết . Ngƣợc lại, lớp các độ đo biến thiên giảm theo tham số chiếm 
tỷ lệ rất nhỏ (3/39). Nó bao gồm ba độ đo thỏa tính chất thống kê: Implication index, 
IPEE, Leverage. Các độ đo Relative Risk, Collective strength, Directed Information 
ratio (DIR) thuộc lớp các độ đo có sự biến thiên phụ thuộc vào giá trị cụ thể của 
tham số . Khi giá trị của tham số tăng thì giá trị hấp dẫn của các độ đo này thể 
hiện ở ba trạng thái khác nhau: biến thiên tăng, ổn định và biến thiên giảm. Lớp 
cuối cùng chỉ chứa duy nhất một độ đo là Prevalence. Độ đo này hoàn toàn độc lập 
với tham số . 
Hình 2.3.6Biểu diễn sự biến thiên giảm của độ đo Implication index theo tham 
 số ̅ 
 47 
 Độ đo Implication index là một độ đo biến thiên giảm theo tham số . Sự 
biến thiên giảm của độ đo này đƣợc biểu diễn trong Hình 2.3. Đây là độ đo đại diện 
cho lớp các độ đo có khuynh hƣớng biến thiên giảm theo tham số . 
2.4.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo 
 Dựa trên dữ liệu khảo sát giá trị đạo hàm riêng theo tham , các độ đo đƣợc 
phân lớp theo các quy tắc đã trình bày trong phần 2.3.2. Kết quả phân lớp các độ đo 
theo tham số đƣợc trình bày trong Bảng 2.4. 
Bảng 2.4.5Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo 
 Giảm Độc lập Tăng Khác 
1-way Support Conﬁdence Implication Directed 
Added value, Pavillon, Centred Coverage index Information 
Conﬁdence, Dependency Descriptive Confirmed- K-measures ratio (DIR) 
Bayes factor, Odd multiplier Confidence , Ganascia Prevalence MGK, Ion 
Causal-Confidence Index 
Causal-Confirmed confidence Descriptive-Confirm 
Loevinger, Certainty Factor, Examples and counter-
Satisfaction examples rate 
Relative Risk , Class correlation ratio Gain, Fukuda 
Collective strength Probabilistic measures of 
Causal Conﬁrm deviation from equilibrium 
Conviction (IPEE), Indice Probabiliste 
Entropic Implication Intensity 1 d’Ecart d’Equilibre 
Entropic Implication Intensity 2 Laplace 
Gini index Sebag and Schoenauer 
Goodman–Kruskal 
Implication Intensity 
J-measures 
Klosgen 
Kulczynski index 
Least contradiction 
Leverage, Leverage 1 
Mutual Information MI, 2-way 
Support Variation 
Putative Causal Dependency 
Recall, Completeness 
Speciﬁcity 1, Negative Reliability 
Zhang Zhang 
 Từ kết quả phân lớp trong Bảng 2.4 cho thấy lớp các độ đo hấp dẫn khách 
quan biến thiên giảm theo tham số chiếm tỷ lệ khá lớn trong tổng số các độ đo 
đƣợc khảo sát (24/39). Kết quả này hoàn toàn phù hợp với các quy tắc dùng để xác 
 48 
định giá trị hấp dẫn của luật kết hợp do các độ đo đƣợc khảo sát là các độ đo 
thỏa tính chất bất đối xứng. Khi giá trị của tham số tăng thì giá trị hấp dẫn của 
các độ đo này có khuynh hƣớng giảm. Tƣơng tƣ nhƣ trƣờng hợp phân lớp dựa trên 
đạo hàm riêng theo tham số n, các độ đo thỏa tính chất mô tả nhƣ Conﬁdence, 
Coverage, Descriptive Confirmed-Confidence, Descriptive-Confirm, Examples and 
counter-examples rate, Gain, IPEE, Laplace, Sebag and Schoenauer đƣợc xếp vào 
lớp các độ đo độc lập với tham số . Lớp các độ đo biến thiên tăng theo tham số 
 gồm hai độ đo: Implication index, K-measures và Prevalence. Ba độ đo này có 
khuynh hƣớng tăng khi số phần tử thỏa vế phải của luật kết hợp tăng ( ). Kết quả 
này phản ánh chính xác ý nghĩa thống kê của ba độ đo này. Cuối cùng, lớp các độ 
đo có sự biến thiên phụ thuộc vào giá trị cụ thể của tham số gồm hai độ đo 
Directed Information ratio (DIR) và MGK. Kết quả này hoàn toàn giống với kết quả 
phân lớp với tham số n đã thực hiện ở phần trên. 
 Hình 2.4.7Biểu diễn sự độc lập của độ đo Laplace theo tham số 
 ̅ 
 Độ đo Laplace là một độ đo độc lập với tham số . Sự độc lập với giá trị 
tham số của độ đo này đƣợc biểu diễn trong Hình 2.4. Đây là một độ đo đại diện 
cho lớp các độ đo độc lập theo tham số . 
2.4.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo 
 Dựa trên dữ liệu khảo sát giá trị đạo hàm riêng theo tham ̅ , các độ đo 
đƣợc phân lớp theo các quy tắc đã trình bày trong phần 2.3.2. Kết quả phân lớp các 
độ đo theo tham số ̅ đƣợc trình bày trong Bảng 2.5. 
 49 
Bảng 2.5.6Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo 
 Giảm Độc lập Tăng Khác 
 1-way Support Coverage Implication Directed 
 Added value, Pavillon, Centred Probabilistic index Information ratio 
 Conﬁdence, Dependency measures of (DIR) 
 Bayes factor, Odd multiplier deviation from Gini index 
 Causal-Confidence equilibrium (IPEE), Goodman–Kruskal 
 Causal-Confirmed confidence Indice Probabiliste J-measures 
 Loevinger, Certainty Factor, d’Ecart d’Equilibre Mutual Information 
 Satisfaction Prevalence MI, 2-way Support 
 Relative Risk , Class correlation Variation 
 ratio 
 Collective strength 
 Conﬁdence 
 Causal Conﬁrm 
 Conviction 
 Descriptive Confirmed-Confidence , 
 Ganascia Index 
 Descriptive-Confirm 
 Entropic Implication Intensity 1 
 Entropic Implication Intensity 2 
 Examples and counter-examples 
 rate 
 Gain, Fukuda 
 Implication Intensity 
 MGK, Ion 
 Klosgen 
 K-measures 
 Kulczynski index 
 Laplace 
 Least contradiction 
 Leverage, Leverage 1 
 Putative Causal Dependency 
 Recall, Completeness 
 Sebag and Schoenauer 
 Speciﬁcity 1, Negative Reliability 
 Zhang Zhang 
 Bảng 2.5 cho thấy lớp các độ đo hấp dẫn khách quan biến thiên giảm theo 
tham số ̅ chiếm tỷ lệ 71%. Điều này phản ánh đúng vai trò của tham số ̅ 
trong việc xác định giá trị hấp dẫn của luật kết hợp khi số lƣợng phản ví dụ 
càng tăng thì giá trị hấp dẫn của luật kết hợp càng giảm. Trong lớp này, có nhiều độ 
đo có nguồn gốc từ độ đo Confidence. Một độ đo rất phổ biến đƣợc dùng để xác 
 ̅
định độ tin cập của luật kết hợp theo công thức: . Từ công thức 
 50 
này ta thấy rằng tham số ̅ luôn tỷ lệ nghịch với độ tin cậy của luật kết hợp. Lớp 
các độ đo độc lập với tham số ̅ chiếm tỷ lệ khá nhỏ trong tổng số các độ đo đƣợc 
khảo sát. Nó bao gồm ba độ đo: Coverage, IPEE và Prevalence. Lớp các độ đo biến 
thiên tăng theo tham số ̅ chỉ có duy nhất một độ đo (implication index). Kết quả 
phân lớp này cho thấy tính đặc trƣng của độ đo Implication index so với các độ đo 
hấp dẫn khách quan khác trong việc xác định độ hấp dẫn của luật kết hợp. Thay vì 
quan tâm đến số lƣợng các ví dụ hỗ trợ việc hình thành của luật kết hợp, thì độ đo 
này quan tâm đến số lƣợng các phản ví dụ có khuynh hƣớng không hỗ trợ việc hình 
thành của luật kết hợp. Khi đó, một luật kết hợp sẽ bị bác bỏ nếu số lƣợng phản ví 
dụ vƣợt ngƣỡng cho phép. Lớp cuối cùng bao gồm 5 độ đo: Directed Information 
ratio (DIR), Gini index, Goodman–Kruskal, J-measures, Mutual Information MI. 
Trong đó, giá trị biến thiên của độ đo DIR phụ thuộc vào điều kiện ràng buộc của 
hai biểu thức ̅ và , các độ đo còn lại có giá trị biến thiên phụ thuộc vào giá 
trị cụ thể của tham số ̅ . 
 Hình 2.5.8Biểu diễn sự phụ thuộc giá trị của độ đo J-measures theo tham số 
 ̅ ̅ 
 Giá trị biến thiên của độ đo J-measures phụ thuộc giá trị chi tiết của tham số 
 ̅ . Giá trị biến thiên của độ đo này đƣợc biểu diễn trong Hình 2.5. Độ đo này đại 
 51 
diện cho lớp các độ đo có giá trị biến thiên phụ thuộc vào giá trị cụ thể của tham số 
 ̅ . 
2.5. So sánh và đánh giá kết quả phân lớp theo tham số hàm ý thống kê 
 Từ kết quả phân lớp các độ đo hấp dẫn khách quan theo tham số hàm ý thống 
kê cho thấy có một số điểm tƣơng đồng so với kết quả phân lớp các độ đo dựa trên 
các thuộc tính [35]: 
 - Lớp các độ đo độc lập với tham số n theo phƣơng pháp phân lớp theo tham 
số hàm ý thống kê đƣợc xếp vào lớp các độ đo thỏa tính chất mô tả (descriptive) 
theo phƣơng pháp phân lớp dựa trên thuộc tính của độ đo. Điều này chứng minh 
rằng kết quả phân lớp các độ đo theo tham số hàm ý thống kê có kết quả đáng 
tin cậy. 
 - Phần lớn các độ đo thỏa tính chất bất đối xứng đều tăng theo tham số và 
giảm theo tham số khi tính giá trị dựa trên luật kết hợp. Điều này có thể thấy 
rằng giá trị hấp dẫn của các độ đo dựa trên luật kết hợp tăng theo số phần tử 
thỏa vế trái của luật kết hợp ( ) và giảm theo số phần tử thỏa vế phải của luật kết 
hợp ( ). 
 - Lớp các độ đo thỏa tính chất thống kê (statistical) luôn biến thiên tăng hoặc 
giảm với các tham số hàm ý thống kê. Ví dụ, trong phân lớp dựa trên tham số hàm ý 
thống kê, độ đo chỉ số hàm ý thống kê và cƣờng độ hàm ý thống kê biến thiên theo 
tham số ̅ , trong phân lớp dựa trên thuộc tính thì hai độ đo này thuộc lớp các độ 
đo thỏa tính chất thống kê. 
 Dựa trên kết quả phân lớp, luận án đề xuất một số hƣớng sử dụng kết quả 
phân lớp độ đo cho các mô hình tƣ vấn nhƣ sau: 
 - Các độ đo độc lập với tham số n có thể ứng dụng tốt trong các hệ thống có 
tổng số ngƣời dùng không ổn định. Khi đó, việc xác định giá trị hấp dẫn của luật kết 
hợp trong hệ thống chỉ quan tâm đến ba tham số ̅ 
 - Các độ đo bất đối xứng biến thiên tăng theo tham số và biến thiên giảm 
theo tham số có thể ứng dụng tốt trong các mô hình tƣ vấn dựa trên luật kết hợp 
do phần lớn các độ đo thuộc nhóm này là các độ đo dành cho luật kết hợp. 
 52 
 - Trong kết quả phân lớp với tham số ̅ , độ đo chỉ số hàm ý thống kê 
(implication index) và độ đo cƣờng độ hàm ý thống kê (implication intensity) có 
khuynh hƣớng biến thiên trái ngƣợc nhau khi số lƣợng phản ví dụ tăng lên (tham số 
 ̅ ). Kết quả trên cho thấy một điểm đặc biệt của hai độ đo đƣợc đề xuất từ 
phƣơng pháp phân tích hàm ý thống kê trong việc xác định giá trị hấp dẫn của luật 
kết hợp trong các mô hình tƣ vấn. 
2.6. Kết luận chƣơng 2 
 Trong chƣơng này, thông qua việc khảo sát giá trị đạo hàm riêng của hàm 
tính giá trị hấp dẫn của độ đo theo các tham số hàm ý thống kê, luận án đề xuất 
phƣơng pháp phân lớp các độ đo hấp dẫn khách quan dựa trên tiếp cận bất đối xứng 
sử dụng các tham số hàm ý thống kê và triển khai phân lớp 39 độ đo hấp dẫn khách 
quan bất đối xứng. Kết quả phân lớp của 39 độ đo hấp dẫn khách quan bất đối xứng 
theo phƣơng pháp phân lớp độ đo do luận án đề xuất có nhiều điểm tƣơng đồng so 
với phƣơng pháp phân lớp các độ đo dựa trên thuộc tính. Từ kết quả này luận án đã 
đƣa ra định hƣớng sử dụng các độ đo trong các mô hình tƣ vấn cho phép lựa chọn 
độ đo hấp dẫn khách quan phù hợp khi biết đƣợc tính biến thiên tăng, giảm của từng 
độ đo theo các tham số hàm ý ‎thống kê. 
 53 
CHƢƠNG 3. MÔ HÌNH TƢ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý 
 THỐNG KÊ 
 Kết quả phân lớp các độ đo hấp dẫn khách quan bất đối xứng trong chƣơng 2 
cho thấy độ đo chỉ số hàm ý thống kê là độ đo duy nhất có khuynh hƣớng biến thiên 
tăng theo tham số ̅ (số lƣợng phản ví dụ). Điều này phản ánh chỉ số hàm ý thống 
kê có ý nghĩa rất đặc biệt trong việc đánh giá chất lƣợng tri thức dƣới dạng luật kết 
hợp. Xuất phát từ nhận định trên, trong chƣơng này, luận án đề xuất mô hình tƣ vấn 
dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp, độ đo chỉ số hàm ý thống kê và 
đạo hàm riêng theo các tham số hàm ý thống kê. Để khắc phục các nhƣợc điểm của 
mô hình tƣ vấn truyền thống, mô hình này đặc biệt quan tâm đến tỷ lệ hay mối quan 
hệ bất đối xứng giữa các thuộc tính điều kiện và các thuộc tính quyết định trên cùng 
một đối tƣợng ngƣời dùng. Từ giá trị hấp dẫn của độ đo chỉ số hàm ý thống kê và 
giá trị đạo hàm riêng theo các tham số hàm ý thống kê trên tập luật kết hợp đã chọn, 
mô hình đƣa ra kết quả tƣ vấn giúp ngƣời dùng lựa chọn giá trị cho các thuộc tính 
quyết định. 
 Kết quả nghiên cứu của chƣơng này đƣợc công bố tại Hội nghị Quốc gia lần 
thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ Thông tin (FAIR’8) năm 
2015 (1) và Hội thảo quốc gia lần thứ XVIII: Một số vấn đề chọn lọc của Công 
nghệ thông tin và truyền thông, chủ đề: xử lý dữ liệu lớn năm 2015 (2). 
3.1. Luật kết hợp dựa trên thuộc tính quyết định 
3.1.1. Định nghĩa luật kết hợp dựa trên thuộc tính quyết định 
 Gọi { } là tập n ngƣời dùng, trong đó mỗi ngƣời dùng đƣợc 
lƣu trữ nhƣ một giao dịch, đƣợc xem là cơ sở dữ liệu giao dịch; 
 { } là tập m thuộc tính của mỗi ngƣời dùng, trong đó 
 { } là tập các thuộc tính điều kiện, { } là tập các 
thuộc tính quyết định. 
 Một luật kết hợp dựa trên tập thuộc tính quyết định đƣợc sinh từ cơ sở dữ 
liệu giao dịch là một biểu thức hàm ý có dạng: 
 54 
 { | | | | | } 
3.1.2. Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định 
 Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định hoàn toàn dựa 
trên thuật toán sinh luật kết hợp Apriori [70], nhƣng chỉ quan tâm đến các luật kết 
hợp có vế phải chứa các thuộc tính quyết định. Thuật toán gồm 2 giai đoạn: 
 Giai đoạn 1: Dựa trên ngƣỡng độ đo Support (min_sup) để tìm các tập thuộc 
tính phổ biến: Đầu tiên tìm tập 1 thuộc tính (ký hiệu ). đƣợc dùng để tìm tập 2 
thuộc tính (ký hiệu ). đƣợc dùng để tìm tập 3 thuộc tính (k‎ý hiệu ) và tiếp 
tục cho đến khi không còn tìm thấy tập k thuộc tính (ký hiệu ). 
 Giai đoạn 2: Dựa trên ngƣỡng độ đo Confidence (min_conf) để sinh ra các 
luật kết hợp mạnh có vế phải là thuộc tính quyết định cho mô hình tƣ vấn từ các tập 
thuộc tính phổ biến. 
Thuật toán sinh luật k t h p dựa trên thuộc tính quy t ịnh 
 Input: Tập dữ li u giao dị n ời dùng . 
 Output: Tập luật k t h p o mô ìn t vấn. 
Begin 
 c 1: Duy t toàn bộ tập ể x ịnh support của mỗi ứng viên trong tập 1 
thuộc tính, so sánh v m n_sup ể ó c tập 1 thuộc tính ( ). 
 c 2: Sử dụng n i (join) ể sinh ra phần tử ứng viên của tập thuộc 
tính. Loại bỏ các tập không ph i là tập ph bi n t t u c tập thuộc tính. 
 c 3: Duy t toàn bộ tập ể x ịnh Support của mỗi ứng viên trong tập 
thuộc tính, so sánh v m n_sup ể t u c tập k thuộc tính ph bi n ( ). 
 c 4: Lặp lại từ o n khi tập ứng viên sinh ra là rỗng. 
 c 5: V i mỗi tập ph bi n , sinh các tập con không rỗng của . 
 c 6: V i mỗi tập con không rỗng của , sinh ra các luật: { 
 | { } on n m n_ on } 
End. 
 Ví dụ 3.1. Giả sử ta có tập dữ liệu dùng để phân nhóm thí sinh gồm 3 thuộc 
tính: { }; tập thuộc tính điều kiện { }; tập thuộc tính quyết 
 55 
định { } ; trong đó, { }; { }; { } đƣợc trình 
bày trong Bảng 3.1. 
 Bảng 3.1.7Tập dữ liệu phân nhóm thí sinh 
 2 1.0 A 1 1.5 A 
 1 1.5 A 1 1.5 A 
 3 0.5 B 2 1.0 A 
 3 0.5 B 3 0.5 B 
 2 1.0 A 2 1.0 A 
 Áp dụng thuật toán sinh luật kết hợp dựa thuộc tính quyết định với MinSupp 
= 0.01 và MinConf = 0.5 gồm các bƣớc sau: 
 Tìm tập phổ biến 1 phần tử: Duyệt tập dữ liệu để tính Support cho tập 1 phần 
tử và so sánh với MinSupp để xác định tập phổ biến 1 phần tử. Kết quả đƣợc trình 
bày trong Bảng 3.2. 
 Bảng 3.2.8Kết quả sinh tập phổ biến 1 phần tử 
 1-items Support 1-items Support 
 {i1=1} 0.3 {i1=1} 0.3 
 {i1=2} 0.4 {i1=2} 0.4 
 {i1=3} 0.3 Support 0.01 {i1=3} 0.3 
 {i2=1.0} 0.4 {i2=1.0} 0.4 
 {i2=1.5} 0.3 {i2=1.5} 0.3 
 {i2=0.5} 0.3 {i2=0.5} 0.3 
 {i3=A} 0.7 {i3=A} 0.7 
 {i3=B} 0.3 {i3=B} 0.3 
 Tìm tập phổ biến 2 phần tử: Từ tập phổ biến 1 phần tử sinh tập 2 phần tử, 
duyệt tập dữ liệu để tính Support cho tập 2 phần tử, so sánh với MinSupp để xác 
định tập phổ biến 2 phần tử. Kết quả đƣợc trình bày trong Bảng 3.3. 
 Bảng 3.3.9Kết quả sinh tập phổ biến 2 phần tử 
 2-items Support 2-items Support 
{i1=1, i1=2} 0.0 {i1=3, i2=1.5} 0.0 
{i1=1, i1=3} 0.0 {i1=3, i2=0.5} 0.3 2-items Support 
{i1=1, i2=1.0} 0.0 {i1=3, i3=A} 0.0 {i1=1, i2=1.5} 0.3 
{i1=1, i2=1.5} 0.3 {i1=3, i3=B} 0.3 {i1=1, i3=A} 0.3 
{i1=1, i2=0.5} 0.0 {i2=1.0, i2=1.5} 0.0 {i1=2, i2=1.0} 0.4 
{i1=1, i3=A} 0.3 {i2=1.0, i2=0.5} 0.0 Support 0.01 {i1=2, i3=A} 0.4 
{i1=1, i3=B} 0.0 {i2=1.0, i3=A} 0.4 {i1=3, i2=0.5} 0.3 
{i1=2, i1=3} 0.0 {i2=1.0, i3=B} 0.0 {i1=3, i3=B} 0.3 
{i1=2, i2=1.0} 0.4 {i2=1.5, i2=0.5} 0.0 {i2=1.0, i3=A} 0.4 
{i1=2, i2=1.5} 0.0 {i2=1.5, i3=A} 0.3 {i2=1.5, i3=A} 0.3 
{i1=2, i2=0.5} 0.0 {i2=1.5, i3=B} 0.0 {i2=0.5, i3=B} 0.3 
{i1=2, i3=A} 0.4 {i2=0.5, i3=A} 0.0 
{i1=2, i3=B} 0.0 {i2=0.5, i3=B} 0.3 
{i1=3, i2=1.0} 0.0 {i3=A, i3=B } 0.0 
 56 
 Tìm tập phổ biến 3 phần tử: Từ tập phổ biến 2 phần tử sinh tập 3 phần tử, 
duyệt tập dữ liệu để tính Support cho tập 3 phần tử, so sánh với MinSupp để xác 
định tập phổ biến 3 phần tử. Kết quả đƣợc trình bày trong Bảng 3.4. 
 Bảng 3.4.10Kết quả sinh tập phổ biến 3 phần tử 
 3-items Support 3-items Support 
{i1=1, i2=1.5, i3=A} 0.3 {i1=2, i2=1.5, i3=B} 0.0 
{i1=1, i2=1.5, i3=B} 0.0 {i1=2, i2=0.5, i3=A} 0.0 
{i1=1, i2=1.0, i3=A} 0.0 {i1=2, i2=0.5, i3=B} 0.0 3-items Support 
{i1=1, i2=1.0, i3=B} 0.0 {i1=3, i2=0.5, i3=A} 0.0 Support 0.01 {i1=1, i2=1.5, i3=A} 0.3 
{i1=1, i2=0.5, i3=A} 0.0 {i1=3, i2=0.5, i3=B} 0.3 {i1=2, i2=1.0, i3=A} 0.3 
{i1=1, i2=0.5, i3=B} 0.0 {i1=3, i2=1.5, i3=A} 0.0 {i1=3, i2=0.5, i3=B} 0.3 
{i1=2, i2=1.0, i3=A} 0.3 {i1=3, i2=1.5, i3=B} 0.0 
{i1=2, i2=1.0, i3=B} 0.0 {i1=3, i2=1.0, i3=A} 0.0 
{i1=2, i2=1.5, i3=A} 0.0 {i1=3, i2=1.0, i3=B} 0.0 
 Sinh Luật kết hợp dựa trên thuộc tính quyết định Từ các tập phổ biến ta sinh 
tập luật kết hợp dựa trên thuộc tính quyết định gồm 9 luật đƣợc trình bày trong 
Bảng 3.5. 
 Bảng 3.5.11Kết quả sinh luật kết hợp dựa trên thuộc tính quyết định 
 Luật kết hợp dựa trên 
 TT Support Confidence 
 thuộc tính quyết định 
 1 {i1=1} => {i3=A} 0.3 1.0 
 2 {i2=1.5} => {i3=A} 0.3 1.0 
 3 {i1=3} => {i3=B} 0.3 1.0 
 4 {i2=0.5} => {i3=B} 0.3 1.0 
 5 {i2=1} => {i3=A} 0.4 1.0 
 6 {i1=2} => {i3=A} 0.4 1.0 
 7 {i1=1,i2=1.5} => {i3=A} 0.3 1.0 
 8 {i1=3,i2=0.5} => {i3=B} 0.3 1.0 
 9 {i1=2,i2=1} => {i3=A} 0.4 1.0 
3.2. Tham số hàm ý thống kê của luật kết hợp 
3.2.1. Tham số hàm ý thống kê 
 Giá trị hấp dẫn của một luật kết hợp dựa trên thuộc tính quyết định 
theo một độ đo hấp dẫn khách quan sẽ đƣợc tính dựa trên bộ các thành phần 
 ̅ của luật kết hợp [35]: 
 ̅ 
 Các tham số ̅ đƣợc gọi là các tham số hàm ý thống kê. Trong đó, 
 là tổng số giao dịch trong hệ thống; là số giao dịch có chứa ; là số giao 
dịch có chứa ; và ̅ là số giao dịch có chứa nhƣng không chứa . 
 57 
3.2.2. Tham số hàm ý thống kê dựa trên ma trận nhị phân 
 Để xác định giá trị các tham số ̅ của từng luật kết hợp, luận án 
đề xuất phƣơng pháp chuyển đổi tập dữ liệu giao dịch và tập luật kết hợp sang dạng 
ma trận thƣa nhị phân (binary sparse matrix) [10]. Việc chuyển đổi này có hai mục 
tiêu chính. Thứ nhất là phần lớn thuật toán sinh luật kết hợp đều dựa trên dữ liệu nhị 
phân. Điều này sẽ thuận lợi khi triển khai thực nghiệm. Thứ hai là với cấu trúc ma 
trận thƣa nhị phận có thể giải quyết đƣợc vấn đề không gian lƣu trữ cho các tập dữ 
liệu lớn và tăng tốc độ xử lý của các thuật toán của mô hình. Do, các thuật toán chỉ 
xử lý dữ liệu trong bộ nhớ trong thay vì phải truy xuất bộ nhớ ngoài. 
3.2.2.1. Chuyển tập dữ liệu giao dịch sang ma trận thưa nhị phân 
 Cấu ma
File đính kèm:
luan_an_he_tu_van_dua_tren_phan_tich_ham_y_thong_ke.pdf
Phan Quoc Nghia - Tom tat luan an Tieng Anh.pdf
Phan Quoc Nghia - Tom tat luan an Tieng Viet.pdf
Phan Quoc Nghia - Trich yeu luan an.pdf
Phan Quoc Nghia -Nhung dong gop moi cua luan an.pdf