Luận án Hệ tư vấn dựa trên phân tích hàm ý thống kê

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Hệ tư vấn dựa trên phân tích hàm ý thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Hệ tư vấn dựa trên phân tích hàm ý thống kê
Causal-Confidence Collective
equilibrium Causal-Confirmed confidence strength
(IPEE), Indice Loevinger, Certainty Factor, Satisfaction Directed
Probabiliste Confidence Information
d’Ecart Causal Confirm ratio (DIR)
d’Equilibre Conviction
Leverage, Coverage
Leverage 1 Descriptive Confirmed-Confidence, Ganascia Index
Descriptive-Confirm
Entropic Implication Intensity 1
Entropic Implication Intensity 2
Examples and counter-examples rate
Gain, Fukuda
Gini index
Goodman–Kruskal
Implication Intensity
MGK, Ion
J-measures
Klosgen
K-measures
Kulczynski index
Laplace
Least contradiction
Mutual Information MI, 2-way Support Variation
Putative Causal Dependency
Recall, Completeness
Sebag and Schoenauer
Specificity 1, Negative Reliability
Zhang Zhang
46
Từ kết quả phân lớp trong Bảng 2.3 cho thấy lớp các độ đo hấp dẫn khách
quan bất đối xứng biến thiên tăng theo tham số chiếm tỷ lệ rất cao trong tổng số
các độ đo đƣợc khảo sát (31/39). Điều này có thể thấy rằng giá trị hấp dẫn của các
độ đo dựa trên luật kết hợp phụ thuộc vào số phần tử thỏa vế trái của luật kết
hợp ( ). Khi tham số tăng thì giá trị hấp dẫn của các độ đo thuộc lớp này tăng.
Trong đó, nhóm các độ đo có nguồn gốc từ độ đo Confidence đều thuộc lớp các độ
đo tăng theo tham số . Điều này phù hợp với nguyên tắc xác định độ tin cậy của
một luật kết . Ngƣợc lại, lớp các độ đo biến thiên giảm theo tham số chiếm
tỷ lệ rất nhỏ (3/39). Nó bao gồm ba độ đo thỏa tính chất thống kê: Implication index,
IPEE, Leverage. Các độ đo Relative Risk, Collective strength, Directed Information
ratio (DIR) thuộc lớp các độ đo có sự biến thiên phụ thuộc vào giá trị cụ thể của
tham số . Khi giá trị của tham số tăng thì giá trị hấp dẫn của các độ đo này thể
hiện ở ba trạng thái khác nhau: biến thiên tăng, ổn định và biến thiên giảm. Lớp
cuối cùng chỉ chứa duy nhất một độ đo là Prevalence. Độ đo này hoàn toàn độc lập
với tham số .
Hình 2.3.6Biểu diễn sự biến thiên giảm của độ đo Implication index theo tham
số ̅
47
Độ đo Implication index là một độ đo biến thiên giảm theo tham số . Sự
biến thiên giảm của độ đo này đƣợc biểu diễn trong Hình 2.3. Đây là độ đo đại diện
cho lớp các độ đo có khuynh hƣớng biến thiên giảm theo tham số .
2.4.3. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo
Dựa trên dữ liệu khảo sát giá trị đạo hàm riêng theo tham , các độ đo đƣợc
phân lớp theo các quy tắc đã trình bày trong phần 2.3.2. Kết quả phân lớp các độ đo
theo tham số đƣợc trình bày trong Bảng 2.4.
Bảng 2.4.5Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo
Giảm Độc lập Tăng Khác
1-way Support Confidence Implication Directed
Added value, Pavillon, Centred Coverage index Information
Confidence, Dependency Descriptive Confirmed- K-measures ratio (DIR)
Bayes factor, Odd multiplier Confidence , Ganascia Prevalence MGK, Ion
Causal-Confidence Index
Causal-Confirmed confidence Descriptive-Confirm
Loevinger, Certainty Factor, Examples and counter-
Satisfaction examples rate
Relative Risk , Class correlation ratio Gain, Fukuda
Collective strength Probabilistic measures of
Causal Confirm deviation from equilibrium
Conviction (IPEE), Indice Probabiliste
Entropic Implication Intensity 1 d’Ecart d’Equilibre
Entropic Implication Intensity 2 Laplace
Gini index Sebag and Schoenauer
Goodman–Kruskal
Implication Intensity
J-measures
Klosgen
Kulczynski index
Least contradiction
Leverage, Leverage 1
Mutual Information MI, 2-way
Support Variation
Putative Causal Dependency
Recall, Completeness
Specificity 1, Negative Reliability
Zhang Zhang
Từ kết quả phân lớp trong Bảng 2.4 cho thấy lớp các độ đo hấp dẫn khách
quan biến thiên giảm theo tham số chiếm tỷ lệ khá lớn trong tổng số các độ đo
đƣợc khảo sát (24/39). Kết quả này hoàn toàn phù hợp với các quy tắc dùng để xác
48
định giá trị hấp dẫn của luật kết hợp do các độ đo đƣợc khảo sát là các độ đo
thỏa tính chất bất đối xứng. Khi giá trị của tham số tăng thì giá trị hấp dẫn của
các độ đo này có khuynh hƣớng giảm. Tƣơng tƣ nhƣ trƣờng hợp phân lớp dựa trên
đạo hàm riêng theo tham số n, các độ đo thỏa tính chất mô tả nhƣ Confidence,
Coverage, Descriptive Confirmed-Confidence, Descriptive-Confirm, Examples and
counter-examples rate, Gain, IPEE, Laplace, Sebag and Schoenauer đƣợc xếp vào
lớp các độ đo độc lập với tham số . Lớp các độ đo biến thiên tăng theo tham số
gồm hai độ đo: Implication index, K-measures và Prevalence. Ba độ đo này có
khuynh hƣớng tăng khi số phần tử thỏa vế phải của luật kết hợp tăng ( ). Kết quả
này phản ánh chính xác ý nghĩa thống kê của ba độ đo này. Cuối cùng, lớp các độ
đo có sự biến thiên phụ thuộc vào giá trị cụ thể của tham số gồm hai độ đo
Directed Information ratio (DIR) và MGK. Kết quả này hoàn toàn giống với kết quả
phân lớp với tham số n đã thực hiện ở phần trên.
Hình 2.4.7Biểu diễn sự độc lập của độ đo Laplace theo tham số
̅
Độ đo Laplace là một độ đo độc lập với tham số . Sự độc lập với giá trị
tham số của độ đo này đƣợc biểu diễn trong Hình 2.4. Đây là một độ đo đại diện
cho lớp các độ đo độc lập theo tham số .
2.4.4. Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo
Dựa trên dữ liệu khảo sát giá trị đạo hàm riêng theo tham ̅ , các độ đo
đƣợc phân lớp theo các quy tắc đã trình bày trong phần 2.3.2. Kết quả phân lớp các
độ đo theo tham số ̅ đƣợc trình bày trong Bảng 2.5.
49
Bảng 2.5.6Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo
Giảm Độc lập Tăng Khác
1-way Support Coverage Implication Directed
Added value, Pavillon, Centred Probabilistic index Information ratio
Confidence, Dependency measures of (DIR)
Bayes factor, Odd multiplier deviation from Gini index
Causal-Confidence equilibrium (IPEE), Goodman–Kruskal
Causal-Confirmed confidence Indice Probabiliste J-measures
Loevinger, Certainty Factor, d’Ecart d’Equilibre Mutual Information
Satisfaction Prevalence MI, 2-way Support
Relative Risk , Class correlation Variation
ratio
Collective strength
Confidence
Causal Confirm
Conviction
Descriptive Confirmed-Confidence ,
Ganascia Index
Descriptive-Confirm
Entropic Implication Intensity 1
Entropic Implication Intensity 2
Examples and counter-examples
rate
Gain, Fukuda
Implication Intensity
MGK, Ion
Klosgen
K-measures
Kulczynski index
Laplace
Least contradiction
Leverage, Leverage 1
Putative Causal Dependency
Recall, Completeness
Sebag and Schoenauer
Specificity 1, Negative Reliability
Zhang Zhang
Bảng 2.5 cho thấy lớp các độ đo hấp dẫn khách quan biến thiên giảm theo
tham số ̅ chiếm tỷ lệ 71%. Điều này phản ánh đúng vai trò của tham số ̅
trong việc xác định giá trị hấp dẫn của luật kết hợp khi số lƣợng phản ví dụ
càng tăng thì giá trị hấp dẫn của luật kết hợp càng giảm. Trong lớp này, có nhiều độ
đo có nguồn gốc từ độ đo Confidence. Một độ đo rất phổ biến đƣợc dùng để xác
̅
định độ tin cập của luật kết hợp theo công thức: . Từ công thức
50
này ta thấy rằng tham số ̅ luôn tỷ lệ nghịch với độ tin cậy của luật kết hợp. Lớp
các độ đo độc lập với tham số ̅ chiếm tỷ lệ khá nhỏ trong tổng số các độ đo đƣợc
khảo sát. Nó bao gồm ba độ đo: Coverage, IPEE và Prevalence. Lớp các độ đo biến
thiên tăng theo tham số ̅ chỉ có duy nhất một độ đo (implication index). Kết quả
phân lớp này cho thấy tính đặc trƣng của độ đo Implication index so với các độ đo
hấp dẫn khách quan khác trong việc xác định độ hấp dẫn của luật kết hợp. Thay vì
quan tâm đến số lƣợng các ví dụ hỗ trợ việc hình thành của luật kết hợp, thì độ đo
này quan tâm đến số lƣợng các phản ví dụ có khuynh hƣớng không hỗ trợ việc hình
thành của luật kết hợp. Khi đó, một luật kết hợp sẽ bị bác bỏ nếu số lƣợng phản ví
dụ vƣợt ngƣỡng cho phép. Lớp cuối cùng bao gồm 5 độ đo: Directed Information
ratio (DIR), Gini index, Goodman–Kruskal, J-measures, Mutual Information MI.
Trong đó, giá trị biến thiên của độ đo DIR phụ thuộc vào điều kiện ràng buộc của
hai biểu thức ̅ và , các độ đo còn lại có giá trị biến thiên phụ thuộc vào giá
trị cụ thể của tham số ̅ .
Hình 2.5.8Biểu diễn sự phụ thuộc giá trị của độ đo J-measures theo tham số
̅ ̅
Giá trị biến thiên của độ đo J-measures phụ thuộc giá trị chi tiết của tham số
̅ . Giá trị biến thiên của độ đo này đƣợc biểu diễn trong Hình 2.5. Độ đo này đại
51
diện cho lớp các độ đo có giá trị biến thiên phụ thuộc vào giá trị cụ thể của tham số
̅ .
2.5. So sánh và đánh giá kết quả phân lớp theo tham số hàm ý thống kê
Từ kết quả phân lớp các độ đo hấp dẫn khách quan theo tham số hàm ý thống
kê cho thấy có một số điểm tƣơng đồng so với kết quả phân lớp các độ đo dựa trên
các thuộc tính [35]:
- Lớp các độ đo độc lập với tham số n theo phƣơng pháp phân lớp theo tham
số hàm ý thống kê đƣợc xếp vào lớp các độ đo thỏa tính chất mô tả (descriptive)
theo phƣơng pháp phân lớp dựa trên thuộc tính của độ đo. Điều này chứng minh
rằng kết quả phân lớp các độ đo theo tham số hàm ý thống kê có kết quả đáng
tin cậy.
- Phần lớn các độ đo thỏa tính chất bất đối xứng đều tăng theo tham số và
giảm theo tham số khi tính giá trị dựa trên luật kết hợp. Điều này có thể thấy
rằng giá trị hấp dẫn của các độ đo dựa trên luật kết hợp tăng theo số phần tử
thỏa vế trái của luật kết hợp ( ) và giảm theo số phần tử thỏa vế phải của luật kết
hợp ( ).
- Lớp các độ đo thỏa tính chất thống kê (statistical) luôn biến thiên tăng hoặc
giảm với các tham số hàm ý thống kê. Ví dụ, trong phân lớp dựa trên tham số hàm ý
thống kê, độ đo chỉ số hàm ý thống kê và cƣờng độ hàm ý thống kê biến thiên theo
tham số ̅ , trong phân lớp dựa trên thuộc tính thì hai độ đo này thuộc lớp các độ
đo thỏa tính chất thống kê.
Dựa trên kết quả phân lớp, luận án đề xuất một số hƣớng sử dụng kết quả
phân lớp độ đo cho các mô hình tƣ vấn nhƣ sau:
- Các độ đo độc lập với tham số n có thể ứng dụng tốt trong các hệ thống có
tổng số ngƣời dùng không ổn định. Khi đó, việc xác định giá trị hấp dẫn của luật kết
hợp trong hệ thống chỉ quan tâm đến ba tham số ̅
- Các độ đo bất đối xứng biến thiên tăng theo tham số và biến thiên giảm
theo tham số có thể ứng dụng tốt trong các mô hình tƣ vấn dựa trên luật kết hợp
do phần lớn các độ đo thuộc nhóm này là các độ đo dành cho luật kết hợp.
52
- Trong kết quả phân lớp với tham số ̅ , độ đo chỉ số hàm ý thống kê
(implication index) và độ đo cƣờng độ hàm ý thống kê (implication intensity) có
khuynh hƣớng biến thiên trái ngƣợc nhau khi số lƣợng phản ví dụ tăng lên (tham số
̅ ). Kết quả trên cho thấy một điểm đặc biệt của hai độ đo đƣợc đề xuất từ
phƣơng pháp phân tích hàm ý thống kê trong việc xác định giá trị hấp dẫn của luật
kết hợp trong các mô hình tƣ vấn.
2.6. Kết luận chƣơng 2
Trong chƣơng này, thông qua việc khảo sát giá trị đạo hàm riêng của hàm
tính giá trị hấp dẫn của độ đo theo các tham số hàm ý thống kê, luận án đề xuất
phƣơng pháp phân lớp các độ đo hấp dẫn khách quan dựa trên tiếp cận bất đối xứng
sử dụng các tham số hàm ý thống kê và triển khai phân lớp 39 độ đo hấp dẫn khách
quan bất đối xứng. Kết quả phân lớp của 39 độ đo hấp dẫn khách quan bất đối xứng
theo phƣơng pháp phân lớp độ đo do luận án đề xuất có nhiều điểm tƣơng đồng so
với phƣơng pháp phân lớp các độ đo dựa trên thuộc tính. Từ kết quả này luận án đã
đƣa ra định hƣớng sử dụng các độ đo trong các mô hình tƣ vấn cho phép lựa chọn
độ đo hấp dẫn khách quan phù hợp khi biết đƣợc tính biến thiên tăng, giảm của từng
độ đo theo các tham số hàm ý thống kê.
53
CHƢƠNG 3. MÔ HÌNH TƢ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý
THỐNG KÊ
Kết quả phân lớp các độ đo hấp dẫn khách quan bất đối xứng trong chƣơng 2
cho thấy độ đo chỉ số hàm ý thống kê là độ đo duy nhất có khuynh hƣớng biến thiên
tăng theo tham số ̅ (số lƣợng phản ví dụ). Điều này phản ánh chỉ số hàm ý thống
kê có ý nghĩa rất đặc biệt trong việc đánh giá chất lƣợng tri thức dƣới dạng luật kết
hợp. Xuất phát từ nhận định trên, trong chƣơng này, luận án đề xuất mô hình tƣ vấn
dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp, độ đo chỉ số hàm ý thống kê và
đạo hàm riêng theo các tham số hàm ý thống kê. Để khắc phục các nhƣợc điểm của
mô hình tƣ vấn truyền thống, mô hình này đặc biệt quan tâm đến tỷ lệ hay mối quan
hệ bất đối xứng giữa các thuộc tính điều kiện và các thuộc tính quyết định trên cùng
một đối tƣợng ngƣời dùng. Từ giá trị hấp dẫn của độ đo chỉ số hàm ý thống kê và
giá trị đạo hàm riêng theo các tham số hàm ý thống kê trên tập luật kết hợp đã chọn,
mô hình đƣa ra kết quả tƣ vấn giúp ngƣời dùng lựa chọn giá trị cho các thuộc tính
quyết định.
Kết quả nghiên cứu của chƣơng này đƣợc công bố tại Hội nghị Quốc gia lần
thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ Thông tin (FAIR’8) năm
2015 (1) và Hội thảo quốc gia lần thứ XVIII: Một số vấn đề chọn lọc của Công
nghệ thông tin và truyền thông, chủ đề: xử lý dữ liệu lớn năm 2015 (2).
3.1. Luật kết hợp dựa trên thuộc tính quyết định
3.1.1. Định nghĩa luật kết hợp dựa trên thuộc tính quyết định
Gọi { } là tập n ngƣời dùng, trong đó mỗi ngƣời dùng đƣợc
lƣu trữ nhƣ một giao dịch, đƣợc xem là cơ sở dữ liệu giao dịch;
{ } là tập m thuộc tính của mỗi ngƣời dùng, trong đó
{ } là tập các thuộc tính điều kiện, { } là tập các
thuộc tính quyết định.
Một luật kết hợp dựa trên tập thuộc tính quyết định đƣợc sinh từ cơ sở dữ
liệu giao dịch là một biểu thức hàm ý có dạng:
54
{ | | | | | }
3.1.2. Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định
Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định hoàn toàn dựa
trên thuật toán sinh luật kết hợp Apriori [70], nhƣng chỉ quan tâm đến các luật kết
hợp có vế phải chứa các thuộc tính quyết định. Thuật toán gồm 2 giai đoạn:
Giai đoạn 1: Dựa trên ngƣỡng độ đo Support (min_sup) để tìm các tập thuộc
tính phổ biến: Đầu tiên tìm tập 1 thuộc tính (ký hiệu ). đƣợc dùng để tìm tập 2
thuộc tính (ký hiệu ). đƣợc dùng để tìm tập 3 thuộc tính (ký hiệu ) và tiếp
tục cho đến khi không còn tìm thấy tập k thuộc tính (ký hiệu ).
Giai đoạn 2: Dựa trên ngƣỡng độ đo Confidence (min_conf) để sinh ra các
luật kết hợp mạnh có vế phải là thuộc tính quyết định cho mô hình tƣ vấn từ các tập
thuộc tính phổ biến.
Thuật toán sinh luật k t h p dựa trên thuộc tính quy t ịnh
Input: Tập dữ li u giao dị n ời dùng .
Output: Tập luật k t h p o mô ìn t vấn.
Begin
c 1: Duy t toàn bộ tập ể x ịnh support của mỗi ứng viên trong tập 1
thuộc tính, so sánh v m n_sup ể ó c tập 1 thuộc tính ( ).
c 2: Sử dụng n i (join) ể sinh ra phần tử ứng viên của tập thuộc
tính. Loại bỏ các tập không ph i là tập ph bi n t t u c tập thuộc tính.
c 3: Duy t toàn bộ tập ể x ịnh Support của mỗi ứng viên trong tập
thuộc tính, so sánh v m n_sup ể t u c tập k thuộc tính ph bi n ( ).
c 4: Lặp lại từ o n khi tập ứng viên sinh ra là rỗng.
c 5: V i mỗi tập ph bi n , sinh các tập con không rỗng của .
c 6: V i mỗi tập con không rỗng của , sinh ra các luật: {
| { } on n m n_ on }
End.
Ví dụ 3.1. Giả sử ta có tập dữ liệu dùng để phân nhóm thí sinh gồm 3 thuộc
tính: { }; tập thuộc tính điều kiện { }; tập thuộc tính quyết
55
định { } ; trong đó, { }; { }; { } đƣợc trình
bày trong Bảng 3.1.
Bảng 3.1.7Tập dữ liệu phân nhóm thí sinh
2 1.0 A 1 1.5 A
1 1.5 A 1 1.5 A
3 0.5 B 2 1.0 A
3 0.5 B 3 0.5 B
2 1.0 A 2 1.0 A
Áp dụng thuật toán sinh luật kết hợp dựa thuộc tính quyết định với MinSupp
= 0.01 và MinConf = 0.5 gồm các bƣớc sau:
Tìm tập phổ biến 1 phần tử: Duyệt tập dữ liệu để tính Support cho tập 1 phần
tử và so sánh với MinSupp để xác định tập phổ biến 1 phần tử. Kết quả đƣợc trình
bày trong Bảng 3.2.
Bảng 3.2.8Kết quả sinh tập phổ biến 1 phần tử
1-items Support 1-items Support
{i1=1} 0.3 {i1=1} 0.3
{i1=2} 0.4 {i1=2} 0.4
{i1=3} 0.3 Support 0.01 {i1=3} 0.3
{i2=1.0} 0.4 {i2=1.0} 0.4
{i2=1.5} 0.3 {i2=1.5} 0.3
{i2=0.5} 0.3 {i2=0.5} 0.3
{i3=A} 0.7 {i3=A} 0.7
{i3=B} 0.3 {i3=B} 0.3
Tìm tập phổ biến 2 phần tử: Từ tập phổ biến 1 phần tử sinh tập 2 phần tử,
duyệt tập dữ liệu để tính Support cho tập 2 phần tử, so sánh với MinSupp để xác
định tập phổ biến 2 phần tử. Kết quả đƣợc trình bày trong Bảng 3.3.
Bảng 3.3.9Kết quả sinh tập phổ biến 2 phần tử
2-items Support 2-items Support
{i1=1, i1=2} 0.0 {i1=3, i2=1.5} 0.0
{i1=1, i1=3} 0.0 {i1=3, i2=0.5} 0.3 2-items Support
{i1=1, i2=1.0} 0.0 {i1=3, i3=A} 0.0 {i1=1, i2=1.5} 0.3
{i1=1, i2=1.5} 0.3 {i1=3, i3=B} 0.3 {i1=1, i3=A} 0.3
{i1=1, i2=0.5} 0.0 {i2=1.0, i2=1.5} 0.0 {i1=2, i2=1.0} 0.4
{i1=1, i3=A} 0.3 {i2=1.0, i2=0.5} 0.0 Support 0.01 {i1=2, i3=A} 0.4
{i1=1, i3=B} 0.0 {i2=1.0, i3=A} 0.4 {i1=3, i2=0.5} 0.3
{i1=2, i1=3} 0.0 {i2=1.0, i3=B} 0.0 {i1=3, i3=B} 0.3
{i1=2, i2=1.0} 0.4 {i2=1.5, i2=0.5} 0.0 {i2=1.0, i3=A} 0.4
{i1=2, i2=1.5} 0.0 {i2=1.5, i3=A} 0.3 {i2=1.5, i3=A} 0.3
{i1=2, i2=0.5} 0.0 {i2=1.5, i3=B} 0.0 {i2=0.5, i3=B} 0.3
{i1=2, i3=A} 0.4 {i2=0.5, i3=A} 0.0
{i1=2, i3=B} 0.0 {i2=0.5, i3=B} 0.3
{i1=3, i2=1.0} 0.0 {i3=A, i3=B } 0.0
56
Tìm tập phổ biến 3 phần tử: Từ tập phổ biến 2 phần tử sinh tập 3 phần tử,
duyệt tập dữ liệu để tính Support cho tập 3 phần tử, so sánh với MinSupp để xác
định tập phổ biến 3 phần tử. Kết quả đƣợc trình bày trong Bảng 3.4.
Bảng 3.4.10Kết quả sinh tập phổ biến 3 phần tử
3-items Support 3-items Support
{i1=1, i2=1.5, i3=A} 0.3 {i1=2, i2=1.5, i3=B} 0.0
{i1=1, i2=1.5, i3=B} 0.0 {i1=2, i2=0.5, i3=A} 0.0
{i1=1, i2=1.0, i3=A} 0.0 {i1=2, i2=0.5, i3=B} 0.0 3-items Support
{i1=1, i2=1.0, i3=B} 0.0 {i1=3, i2=0.5, i3=A} 0.0 Support 0.01 {i1=1, i2=1.5, i3=A} 0.3
{i1=1, i2=0.5, i3=A} 0.0 {i1=3, i2=0.5, i3=B} 0.3 {i1=2, i2=1.0, i3=A} 0.3
{i1=1, i2=0.5, i3=B} 0.0 {i1=3, i2=1.5, i3=A} 0.0 {i1=3, i2=0.5, i3=B} 0.3
{i1=2, i2=1.0, i3=A} 0.3 {i1=3, i2=1.5, i3=B} 0.0
{i1=2, i2=1.0, i3=B} 0.0 {i1=3, i2=1.0, i3=A} 0.0
{i1=2, i2=1.5, i3=A} 0.0 {i1=3, i2=1.0, i3=B} 0.0
Sinh Luật kết hợp dựa trên thuộc tính quyết định Từ các tập phổ biến ta sinh
tập luật kết hợp dựa trên thuộc tính quyết định gồm 9 luật đƣợc trình bày trong
Bảng 3.5.
Bảng 3.5.11Kết quả sinh luật kết hợp dựa trên thuộc tính quyết định
Luật kết hợp dựa trên
TT Support Confidence
thuộc tính quyết định
1 {i1=1} => {i3=A} 0.3 1.0
2 {i2=1.5} => {i3=A} 0.3 1.0
3 {i1=3} => {i3=B} 0.3 1.0
4 {i2=0.5} => {i3=B} 0.3 1.0
5 {i2=1} => {i3=A} 0.4 1.0
6 {i1=2} => {i3=A} 0.4 1.0
7 {i1=1,i2=1.5} => {i3=A} 0.3 1.0
8 {i1=3,i2=0.5} => {i3=B} 0.3 1.0
9 {i1=2,i2=1} => {i3=A} 0.4 1.0
3.2. Tham số hàm ý thống kê của luật kết hợp
3.2.1. Tham số hàm ý thống kê
Giá trị hấp dẫn của một luật kết hợp dựa trên thuộc tính quyết định
theo một độ đo hấp dẫn khách quan sẽ đƣợc tính dựa trên bộ các thành phần
̅ của luật kết hợp [35]:
̅
Các tham số ̅ đƣợc gọi là các tham số hàm ý thống kê. Trong đó,
là tổng số giao dịch trong hệ thống; là số giao dịch có chứa ; là số giao
dịch có chứa ; và ̅ là số giao dịch có chứa nhƣng không chứa .
57
3.2.2. Tham số hàm ý thống kê dựa trên ma trận nhị phân
Để xác định giá trị các tham số ̅ của từng luật kết hợp, luận án
đề xuất phƣơng pháp chuyển đổi tập dữ liệu giao dịch và tập luật kết hợp sang dạng
ma trận thƣa nhị phân (binary sparse matrix) [10]. Việc chuyển đổi này có hai mục
tiêu chính. Thứ nhất là phần lớn thuật toán sinh luật kết hợp đều dựa trên dữ liệu nhị
phân. Điều này sẽ thuận lợi khi triển khai thực nghiệm. Thứ hai là với cấu trúc ma
trận thƣa nhị phận có thể giải quyết đƣợc vấn đề không gian lƣu trữ cho các tập dữ
liệu lớn và tăng tốc độ xử lý của các thuật toán của mô hình. Do, các thuật toán chỉ
xử lý dữ liệu trong bộ nhớ trong thay vì phải truy xuất bộ nhớ ngoài.
3.2.2.1. Chuyển tập dữ liệu giao dịch sang ma trận thưa nhị phân
Cấu maFile đính kèm:
luan_an_he_tu_van_dua_tren_phan_tich_ham_y_thong_ke.pdf
Phan Quoc Nghia - Tom tat luan an Tieng Anh.pdf
Phan Quoc Nghia - Tom tat luan an Tieng Viet.pdf
Phan Quoc Nghia - Trich yeu luan an.pdf
Phan Quoc Nghia -Nhung dong gop moi cua luan an.pdf

