Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê

Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
192 trang nguyenduy 14/05/2024 5830
Download
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê

 hệ tư vấn trên tập MSWeb(875x135) khi times=2, given=1. 
 Tuy nhiên, khi given=1, hệ tư vấn sử dụng mô hình SIR có hiệu quả cao hơn 
của các hệ tư vấn Popular RS và IBCFJaccard RS nhưng không cao hơn của hệ tư 
vấn ARConfidence RS (Hình 2.15). Mặc dù vậy, sự chênh lệch giữa giá trị chính xác, 
 69 
giá trị bao phủ và tỷ lệ cảnh báo sai của ARConfidence RS và EIIntens.Contr.RS là 
không cao. 
 Kết luận 
 Từ kết quả thực nghiệm trên tập dữ liệu nhị phân MSWeb(875x135), ta nhận 
thấy mô hình đề xuất SIR kết hợp cường độ hàm ý có entropy và chỉ số đóng góp cho 
hiệu quả cao hơn các mô hình tư vấn cũng dựa trên mục dữ liệu (AR, POPULAR, 
IBCF), đặc biệt khi số xếp hạng biết trước của người cần tư vấn không quá thấp 
given≥2 (nghĩa là khi người cần tư vấn không phải là người dùng mới). 
2.3.3.5. Mô hình tư vấn SIR trong gợi ý đăng ký học phần 
 Mục đích của kịch bản này là ứng dụng mô hình tư vấn theo mức độ quan trọng 
hàm ý thống kê trên luật SIR để gợi ý các học phần mà sinh viên nên đăng ký. 
 Giả sử một sinh viên đã đăng ký được 2 học phần Cấu trúc dữ liệu (CT103), Tư 
tưởng Hồ Chí Minh (ML006) và muốn được tư vấn thêm 3 học phần nữa. Hệ tư vấn 
sử dụng mô hình SIR dùng chỉ số gắn kết sẽ đưa ra gợi ý gồm các học phần: Kiến 
trúc máy tính (CT173), Toán rời rạc (CT172) và Vi tích phân A2 (TN002). Đây là 
những học phần có độ tin cậy và chỉ số gắn kết cao với 2 học phần mà sinh viên đã 
đăng ký. 
 Tương tự như vậy, khi sinh viên thay đổi các học phần đăng ký và muốn được 
tư vấn thêm các học phần khác, hệ tư vấn sẽ gợi ý cho sinh viên danh sách các học 
phần có mối quan hệ gắn kết cao nhất với những học phần mà sinh viên đã đăng ký. 
2.3.4. Hiệu quả tư vấn của mô hình SIR trên dữ liệu phi nhị phân 
 Các kịch bản thực nghiệm trên tập dữ liệu phi nhị phân MovieLens(565x136) 
gồm: 
 - Đánh giá hiệu quả tư vấn qua so sánh nội. Kịch bản này tương tự như kịch bản 
cùng tên đã thực hiện trên dữ liệu nhị phân (Mục 2.3.3.3). Hiệu quả tư vấn của cùng 
mô hình đề xuất SIR nhưng sử dụng các mức độ quan trọng hàm ý thống kê khác 
nhau được so sánh với nhau. Kết quả thực nghiệm cũng sẽ cho biết mức độ quan 
trọng hàm ý thống kê nào nên được sử dụng trong mô hình SIR trên dữ liệu phi nhị 
phân. 
 70 
 - Đánh giá hiệu quả tư vấn qua so sánh ngoại. Hiệu quả tư vấn của mô hình tư 
vấn SIR trên dữ liệu phi nhị phân được so sánh với hiệu quả tư vấn của mô hình 
POPULAR trong gói recommenderlab. Các mô hình AR và IBCF không được so 
sánh (như kịch bản cùng loại ở Mục 2.3.3.4) vì AR chỉ hoạt động trên dữ liệu nhị 
phân và IBCF hỗ trợ kém khi đánh giá tính chính xác của gợi ý trên dữ liệu phi nhị 
phân. 
2.3.4.1. Tính chính xác của gợi ý qua so sánh nội trên dữ liệu phi nhị phân 
 Tương tự như kịch bản ở Mục 2.3.3.3, bốn hệ tư vấn được xây dựng là 
IIntens.RS, IIntens.Contr.RS, EIIntens.Contr.RS và Cohe.Contr.RS. 
 Số phim được gợi ý 
 cho người dùng 
 (a): (times, given) = (2, 1) (b): (times, given) = (1, 6) 
 Hình 2.16: Đường cong Precision - Recall của bốn hệ tư vấn 
 trên tập MovieLens(565x336) khi (times, given) là (2, 1) và (1, 6). 
 Việc xác định các ngưỡng ngưỡng hỗ trợ 푠, ngưỡng tin cậy và độ dài tối đa 
của luật 푙 trên tập dữ liệu MovieLens(565x336) được thực hiện tương tự như Mục 
2.3.3.1. Tuy nhiên, do hạn chế về tài nguyên máy tính được dùng trong thực nghiệm, 
các ngưỡng 푠, và 푙 được xét từ 0,1, 0,1 và 2 tương ứng. Kết quả, s=0,1, c=0,3 và 
l=3 được sử dụng trong so sánh hiệu quả tư vấn của bốn hệ thống vừa nêu. 
 Hình 2.16 và Hình 2.17 hiển thị đường cong Precision - Recall của bốn hệ tư 
vấn khi (times, given) là (2, 1), (1, 6), (5, 12) và (3, 17) tương ứng và số phim cần gợi 
ý cho mỗi người xem là 1, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100. 
 71 
 Số phim được gợi ý 
 cho người dùng 
 (a): (times, given) = (5, 12) (b): (times, given) = (3, 17) 
 Hình 2.17: Đường cong Precision - Recall của bốn hệ tư vấn 
 trên tập MovieLens(565x336) khi (times, given) là (5, 12) và (3, 17). 
 Hình 2.18 hiển thị đường cong ROC của bốn hệ tư vấn khi (times, given) là (2, 
2), (4, 17) tương ứng. 
 Số phim được gợi ý 
 cho người dùng 
 (a): (times, given) = (2, 2) (b): (times, given) = (4, 17) 
 Hình 2.18: Đường cong ROC của bốn hệ tư vấn 
 trên tập MovieLens(565x336) khi (times, given) là (2, 2) và (4, 17). 
 cần ýcho gợi ngườimỗi dùnglà (1, 10, 20, 40, 60,80, 100). của IIntens.Contr.RS trên các given (1, 2, 4, 6, 10, 14, 17) khi times=2 và số phim trị F1 tương ứng của IIntens.Contr.RS, EIIntens. Contr.RS và Cohe.Contr.RS so với hệ thống còn lại. chính xác và giá trị bao phủ thấp nhất và tỷ lệ cảnh báo sai cao nhất) khi so với các tư vấn không kết hợp với chỉ số đóng góp IIntens.RS cho hiệu quả thấp nhất (giá trị
 Chênh lệch giá trị F1 Chênh lệch giá trị Accuracy
 -0.005 -0.006 -0.004 -0.002
 -0.015
 0.005 0.002 0.004
 Hình 2.19 và Hình 2.20 là biểu đồ chênh lệch giá trị chuẩn xác Accuracy và giá và Accuracy xác chuẩngiá trị lệchchênh đồ biểu 2.20làHình và 2.19 Hình Kết quả thực nghiệm trong các Hình 2.16, Hình 2.17 và Hình 2.18 cho thấy hệ 
Kết quả thực nghiệm trong Hình 2.19 và Hình 2.20 cho thấy: 
 -0.01
 0.01
 0 0
 1 1
 ba hệ tư vấn trên tập MovieLens(565x336) times=2.khi ba hệ tư vấn trên tập MovieLens(565x336) times=2.khi 
 ie= ie= ie= ie= ie=0gvn1 given=17 given=14 given=10 given=6 given=4 given=2 given=1 10 given=17 given=14 given=10 given=6 given=4 given=2 given=1 10
 20 20
 40 40
 Biểu đồ chênh lệch giá trị Accuracy của 3 hệ tư vấn khi times=2 khi vấn tư hệ3 của Accuracytrị lệchgiá chênhđồ Biểu 
 60 2.19:Hình chênh Sự lệch giá trị Accuracy của 60
 80 khi times=2 vấn tư 3 hệ của F1 giátrị lệch chênh đồ Biểu 80
 IIntens.Contr.RS 100 IIntens.Contr.RS 100
 Hình 2.20:Hình chênh Sự lệch giá trị F1 của 1 1
 10 10
 20 20
 40 40
 60 60
 80 80
 100 100
 1 1
 10 10
 20 20
 40 40
 60 60
 80 80
 100 100 72
 EIIntens.Contr. RS
 EIIntens.Contr. RS 1 1
 10 10 
 20 20
 40 40
 60 60
 80 80
 100 100
 1 1
 10 10
 20 20
 40 40
 60 60
 80 80
 100 100
 1 1
 Cohe.Contr. RS
 Cohe.Contr. RS 10 10
 20 20
 40 40
 60 60
 80 80
 100 100
 1 1
 10 10
 20 20
 40 40
 60 60
 80 80
 100 100
 73 
 - Hệ tư vấn EIIntens.Contr.RS có giá trị F1 và giá trị chuẩn xác Accuracy cao 
hơn hai hệ thống còn lại khi given là 1 hoặc 2. Ngoài ra, EIIntens.Contr.RS còn có 
giá trị chuẩn xác cao hơn trên phân đoạn từ 1 đến 20 phim với mọi given được xét. 
 - Các hệ tư vấn IIntens.Contr.RS và Cohe.Contr.RS có hiệu quả cao hơn hệ 
thống EIIntens.Contr.RS khi given>2 và trên phân đoạn từ 20 đến 100 phim. Phân 
đoạn này sẽ tăng khi given tăng. 
 Kết luận 
 Như vậy, khi sử dụng mô hình đề xuất SIR trên dữ liệu phi nhị phân, ta nên: 
 - Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi người cần tư vấn 
là người dùng mới (số xếp hạng biết trước của người này given≤2). 
 - Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi cần gợi ý ít mục 
dữ liệu cho người cần tư vấn và quan tâm đến giá trị chuẩn xác hơn giá trị điều hòa 
F1. 
 - Kết hợp cường độ hàm ý/chỉ số gắn kết với chỉ số đóng góp trong trường hợp 
ngược lại. 
2.3.4.2. Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu phi nhị phân 
 Trên tập dữ liệu MovieLens(565x336), hai hệ tư vấn EIIntens/Cohe.Contr.RS 
và Popular RS được xây dựng. Hai hệ thống này cần gợi ý cho mỗi người xem là 1, 
5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100 phim. EIIntens/Cohe.Contr.RS sử 
dụng mô hình SIR kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi số 
phim cần gợi ý từ 1 đến 20 và kết hợp chỉ số gắn kết với chỉ số đóng góp khi số phim 
cần gợi ý từ 25 đến 100. 
 Hình 2.21 hiển thị đường cong ROC và Precision - Recall của hai hệ tư vấn khi 
(times, given) là (3, 6). Khi thay đổi số lần thực thi phương pháp đánh giá chéo k tập 
con và số xếp hạng biết trước của người cần tư vấn (given từ 1 đến 18), ta đều nhận 
được kết quả tương tự như Hình 2.21. 
 74 
 Số phim được gợi ý 
 cho người dùng 
 (a) (times, given) = (3, 6) (b) 
 Hình 2.21: Đường cong ROC và Precision - Recall của 
 hai hệ tư vấn trên tập MovieLens(565x336) khi times=3 và given=6. 
 Gọi F1Popular và F1EIIntens/Cohe.Contr.RS là giá trị F1 của hệ thống Popular RS và 
EIIntens/Cohe.Contr.RS tương ứng. Hình 2.22 là biểu đồ chênh lệch giá trị 
F1EIIntens/Cohe.Contr.RS – F1Popular của hai hệ thống này khi times=1 và given=1, 2, 6, 10, 
14 và 18. 
 Biểu đồ chênh lệch giá trị F1 của EIIntens/Cohe.Contr. RS và 
 Popular RS
 0.1
 0.09 90 phim
 30 phim
 0.08
 60 phim
 0.07 80 phim
 20 phim
 0.06
 0.05
 10 phim 40 phim
 0.04 70 phim
 0.03 5 phim
 50 phim 100 phim
 Chênh Chênh giá lệch F1 trị 0.02
 0.01
 0 1 phim 15 phim 25 phim
 -0.01
 Số phim gợi ý cho người xem
 given=1 given=2 given=6
 given=10 given=14 given=18 
 Hình 2.22: Sự chênh lệch giá trị F1 của 
 hai hệ tư vấn trên tập MovieLens(565x336) khi times=1. 
 75 
 Biểu đồ cho thấy giá trị F1 của EIIntens/Cohe.Contr.RS trên các given từ thấp 
nhất (given=1) đến cao nhất (given=18) luôn cao hơn của Popular RS. 
 Kết luận 
 Các kết quả thực nghiệm này cho thấy hệ thống sử dụng mô hình đề xuất SIR 
cho hiệu quả tư vấn cao hơn hệ thống sử dụng mô hình tư vấn dựa trên các mục dữ 
liệu phổ biến nhất. 
2.4. Kết luận chương 2 
 Chương 2 đề xuất một mô hình tư vấn theo mức độ quan trọng hàm ý thống kê 
trên luật SIR cho cả dữ liệu nhị phân và phi nhị phân và thực hiện cải tiến mô hình 
đề xuất nhằm giảm thời gian tư vấn. Tập luật được biểu diễn theo quan điểm phân 
tích hàm ý thống kê có thể được xây dựng và lưu trữ trước (ngoại tuyến), sau đó được 
sử dụng trực tuyến khi có người cần tư vấn. Mô hình tư vấn đề xuất SIR có thể sử 
dụng nhiều mức độ quan trọng hàm ý thống kê khác nhau như cường độ hàm ý có 
hay không có entropy, chỉ số gắn kết, chỉ số đóng góp để tăng hiệu quả tư vấn và có 
thể mở rộng cho nhiều độ đo hấp dẫn khách quan khác. Mô hình SIR được cài đặt và 
tích hợp trong công cụ Interestingnesslab. Hiệu quả tư vấn của mô hình đề xuất được 
đánh giá qua: Đường cong ROC, đường cong Precision - Recall và giá trị F1 (thuộc 
nhóm độ đo đánh giá tính chính xác của gợi ý); trên hai nhóm dữ liệu: Nhị phân 
(MSWeb, DKHP) và phi nhị phân (MovieLens); theo hai nhóm kịch bản: So sánh nội 
(cùng mô hình SIR nhưng khác mức độ quan trọng hàm ý thống kê) và so sánh ngoại 
(mô hình SIR và một số mô hình tư vấn hiện có trong gói recommenderlab: AR, 
POPULAR, IBCF). Kết quả thực nghiệm trên dữ liệu nhị phân cho thấy: Trong các 
mức độ quan trọng hàm ý thống kê, mô hình SIR có hiệu quả tư vấn cao nhất khi kết 
hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong các mô hình tư vấn được 
so sánh, mô hình SIR cho hiệu quả cao nhất khi người cần tư vấn không phải là người 
dùng mới. Trong trường hợp người dùng mới (số xếp hạng đã biết của người này là 
1), mô hình SIR cho hiệu quả tư vấn thấp hơn mô hình AR nhưng sự chênh lệch là 
không cao. Kết quả thực nghiệm trên dữ liệu phi nhị phân cho thấy: Trong trường 
 76 
hợp số mục dữ liệu cần gợi ý cho người dùng không nhiều, mô hình SIR có hiệu quả 
tư vấn cao nhất khi kết hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong 
trường hợp ngược lại, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ 
hàm ý/chỉ số gắn kết với chỉ số đóng góp. Tuy nhiên, thực tế, việc gợi ý quá nhiều 
mục dữ liệu sẽ làm người cần tư vấn bối rối. Vì vậy, mô hình tư vấn theo mức độ 
quan trọng hàm ý thống kê trên luật SIR nên: (1) kết hợp cường độ hàm ý có entropy 
với chỉ số đóng góp để xây dựng gợi ý; (2) được sử dụng để xây dựng hệ tư vấn vì nó 
cho hiệu quả cao hơn các mô hình được so sánh, đặc biệt trong tình huống số xếp 
hạng của người cần tư vấn không quá thấp. 
 77 
 3. CHƯƠNG 3. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG 
 XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG 
 Mô hình tư vấn SIR ở Chương 2 và các mô hình tư vấn cũng dựa trên phân tích 
hàm ý thống kê [55][60] đều sử dụng luật kết hợp trong xây dựng các gợi ý cho người 
dùng. Để không bỏ sót các luật có chất lượng, ngưỡng hỗ trợ và ngưỡng tin cậy 
thường được gán các giá trị thấp; từ đó dẫn đến số lượng luật được sinh ra cao. Khi 
số luật là quá lớn, các mô hình tư vấn dựa trên luật có thể gặp phải một số nhược 
điểm: Thời gian xây dựng kết quả gợi ý (gọi chung là thời gian tư vấn) trực tuyến lâu; 
máy tính có thể bị quá tải trong quá trình tính toán. Do đó, ta có thể sử dụng kỹ thuật 
tư vấn khác để tránh nhược điểm vừa nêu. Bên cạnh đó, giá trị xếp hạng cho sản phẩm 
푖 của người cần tư vấn  có thể gần giống như giá trị xếp hạng cho sản phẩm 푖 của 
những người có cùng sở thích với  (gọi chung là các láng giềng gần nhất ). Vì 
vậy, kỹ thuật tư vấn lọc cộng tác dựa trên người dùng có thể được sử dụng. Trong đó, 
việc tìm những láng giềng gần nhất có thể dựa trên cường độ hàm ý giữa hai người 
dùng; việc dự đoán xếp hạng sản phẩm 푖 của  được dựa trên các giá trị xếp hạng 
cho sản phẩm 푖 của những láng giềng gần nhất với . Không những thế, mỗi sản 
phẩm đều có ảnh hưởng nhất định trong việc hình thành mối quan hệ giữa người dùng 
  và láng giềng ; cùng một sản phẩm 푖 nhưng nó ảnh hưởng khác nhau lên mối 
quan hệ giữa  và các láng giềng. Do vậy, ta có thể kết hợp các đặc điểm vừa nêu 
để cải thiện tính chính xác của kết quả gợi ý. Chương 3 của luận án tập trung vào: (1) 
đề xuất một mức độ quan trọng hàm ý thống kê mới 퐾푛푛푈 푅 (K nearest 
neighbors/users based implicative rating) để dự đoán xếp hạng của người dùng; (2) 
đề xuất một mô hình tư vấn mới 푈 푅 (user implicative rating based model) sử dụng 
kỹ thuật tư vấn lọc cộng tác dựa trên láng giềng và mức độ quan trọng 퐾푛푛푈 푅; (3) 
đánh giá hiệu quả tư vấn của mô hình UIR qua nhóm độ đo: Tính chính xác của gợi 
ý trên dữ liệu nhị phân, tính chính xác của xếp hạng được dự đoán trên dữ liệu phi 
nhị phân và tính chính xác của gợi ý được sắp thứ tự trên cả dữ liệu nhị phân và phi 
nhị phân. 
 78 
 Một số kết quả nghiên cứu của Chương 3 được công bố tại Hội nghị Quốc gia 
lần thứ XX về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT) năm 2017 
và trên Tạp chí International Journal of Advanced Computer Science and 
Applications (IJACSA), Vol. 8, Iss.11, năm 2017. 
3.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên người 
 dùng 
 Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 là một 
độ đo được dùng để dự đoán xếp hạng của người cần tư vấn  cho các mục dữ liệu 
푖 ∈ . Mục đích của việc đề xuất độ đo này là nhằm tăng cường hiệu quả tư vấn. 
 Như đã trình bày trong phần giới thiệu chương, giá trị xếp hạng của người dùng 
  cho mục dữ liệu 푖 có thể bị ảnh hưởng không những bởi các láng giềng  gần 
nhất mà còn bởi chính mục dữ liệu 푖 lên mối quan hệ giữa  và . Mức độ quan 
trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 được phát triển từ hai mức 
độ quan trọng cơ sở: Cường độ hàm ý và chỉ số tiêu biểu. Tuy nhiên, khác với cách 
tiếp cận ở Chương 2, cường độ hàm ý sẽ đo sức mạnh của mối quan hệ giữa hai người 
dùng thay vì giữa các mục dữ liệu; chỉ số tiêu biểu sẽ đo sự ảnh hưởng của một mục 
dữ liệu đối với sự hình thành mối quan hệ giữa hai người dùng thay vì của người dùng 
đối sự hình thành mối quan hệ giữa các mục. 
 Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 dự đoán 
xếp hạng của người cần tư vấn  cho mục dữ liệu 푖 được dựa trên: (1) số láng giềng 
gần nhất của  - những người có mối quan hệ hàm ý mạnh nhất với  thông qua 
cường độ hàm ý; (2) các xếp hạng cho mục dữ liệu 푖 của những láng giềng  gần 
nhất với ; (3) tính tiêu biểu của 푖 trong sự hình thành mối quan hệ giữa  và . 
Luận án tập trung vào trường hợp số mục dữ liệu đã được xếp hạng của người cần tư 
vấn  là không nhiều. Vì vậy, số xếp hạng đã biết của  thường ít hơn số xếp hạng 
đã biết của các láng giềng . Khi đó, số phản ví dụ 푛 của mối quan hệ ( , ) 
nhỏ hơn số phản ví dụ 푛 của mối quan hệ ( , ). Dựa trên đặc điểm của phân 
tích hàm ý thống kê, mối quan hệ ( , ) sẽ được sử dụng trong xây dựng 퐾푛푛푈 푅. 
 퐾푛푛푈 푅 được định nghĩa trong công thức (3.1). 
 79 
 
 ( )
 퐾푛푛푈 푅 , 푖 =   ∗ 훾(푖,  → ) (3.1) 
 
 Với: 
 - 푛푛 là số láng giềng gần nhất với . Việc xác định các láng giềng  gần nhất 
với  được dựa trên giá trị cường độ hàm ý 휑( , ). Công thức tính 휑 đã được 
trình bày ở Bảng 1.4. 
 -  là xếp hạng của người dùng  cho mục dữ liệu 푖. 
 - 훾(푖,  → ) là chỉ số tiêu biểu của mục dữ liệu 푖 đối với sự hình thành mối 
quan hệ ( , ). Công thức tính 훾 cũng đã được trình bày ở Bảng 1.4. 훾 được xem 
là trọng số giúp tăng/giảm ảnh hưởng của  - giá trị xếp hạng cho mục dữ liệu 푖 
của từng láng giềng gần nhất  - trong việc dự đoán giá trị xếp hạng cho mục dữ liệu 
푖 của người cần tư vấn . Nếu  và  là hai láng giềng gần của , cả  và  
đều xếp hạng mục dữ liệu 푖 và 휑( , )> 휑( , ) (nghĩa là  gần  hơn ) 
thì theo công thức tính 훾, 훾(푖,  → )> 훾(푖,  → ) (nghĩa là tính tiêu biểu của 
푖 đối với ( , ) sẽ cao hơn của 푖 đối với ( , )). Như vậy, láng giềng  gần 
  hơn láng giềng  sẽ có trọng số cao hơn khi dự đoán xếp hạng cho . 
 Công thức (3.1) cho thấy nếu dữ liệu ở dạng nhị phân, giá trị xếp hạng hàm ý 
thống kê 퐾푛푛푈 푅( , 푖) của người dùng  cho mục dữ liệu 푖 là tổng của tất cả các 
chỉ số tiêu biểu của 푖 đối với sự hình thành mối quan hệ giữa  và 푛푛 láng giềng 
gần nhất  với điều kiện  đã thích 푖 (  =1). 
 Giá trị xếp hạng 퐾푛푛푈 푅( , 푖) phải được quy đổi về cùng thang đo khoảng [0, 
1] như các xếp hạng đã biết bằng cách thực hiện phép chia 퐾푛푛푈 푅( , 푖)/
 ∈퐾푛푛푈 푅( , 푙). Trong đó, ∈퐾푛푛푈 푅( , 푙) là giá trị lớn nhất trong tập 
giá trị dự đoán xếp hạng của người dùng  cho các mục dữ liệu. 
3.2. Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê 
 trên người dùng UIR 
 Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người 
dùng UIR được thể hiện tổng quát như Hình 3.1 và minh họa như Hình 3.2. Mô hình 
tư vấn UIR có các thành phần tương tự như mô hình SIR ở Mục 2.1. 
 80 
 - Một tập hữu hạn những người dùng 푈 ={ , ,, }. 
 - Một tập hữu hạn các mục ={푖,푖,,푖}. 
 - Một ma trận xếp hạng 푅 =( ) với 푗 = 1,푛 và = 1,  lưu trữ thông 
tin phản hồi của người dùng về các mục dữ liệu. 
 - Một tập 푅lưu các xếp hạng đã biết của người cần tư vấn . 
 
 - Một tập 푅 lưu các xếp hạng dự đoán của người cần tư vấn  cho các mục 
dữ liệu. 
 - Một tập 푅푒 푙푖푠푡 lưu 표 mục được gợi ý cho người cần tư vấn . 
 (U, I, R) ( , I, 푅 ) 
 
 Cường độ hàm ý 
  x U {휑( , ), 푗 = 1, 푛푛} 
 Xếp hạng hàm ý trên người dùng KnnUIR 
  
 { | 푅
 푅푒 푙푖푠푡 = 푖 푖 ∈ ,  ∈ 표 }  x I  
 Hình 3.1: Mô hình tư vấn theo 
 mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR. 
 Gọi : 푈 × → 푅 là một hàm ánh xạ từ những kết hợp của người dùng và 
các mục dữ liệu vào các xếp hạng . Mục tiêu của mô hình đề xuất UIR là tìm một 
hàm ′: 푈 × → 푅′ sao cho hàm 휉( , ′) đạt được hiệu quả tốt hơn qua nhóm độ 
đo đánh giá tính chính xác của xếp hạng được dự đoán (Mục 1.5.3). Bên cạnh đó, mô 
hình UIR cũng mong muốn đạt được hiệu quả tốt hơn qua nhóm độ đo đánh giá tính 
chính xác của danh sách gợi ý (Mục 1.5.2, Mục 1.5.4) khi so sánh với một số mô hình 
tư vấn khác. 
 81 
 Ma trận đánh giá/xếp hạng u1 
 u15 . . 
 i1 i2  im 
 u2 
 u1 r11 NA  r1m . 
 Cường độ 
 u2 NA r22  r2m 
 hàm ý 휑 
      ua 
 . . u9 
 un rn1 NA  NA knn=3 
 . u11 . 
 Thông tin của người cần tư vấn un 
 i1 i2  im-1 im 
 ua NA ra2  ram-1 NA 
 Xếp hạng hàm ý thống kê 
 trên người dùng KnnUIR 
 Các xếp hạng được dự đoán 
 Danh sách TopN mục 
 i1 i2  im 
 ua {i1, i13, , im-2} ua r’a1 r’a2  r’am 
 Hình 3.2: Minh họa của mô hình tư vấn theo 
 mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR. 
 Mô hình tư vấn đề xuất UIR sử dụng các mức độ quan trọng hàm ý thống kê 
sau đây: 
 - Cường độ hàm ý 휑( , ) được dùng đ
File đính kèm:
luan_an_he_tu_van_dua_tren_muc_do_quan_trong_ham_y_thong_ke.pdf
0_Trang phu bia luan an tien si - Phan Phuong Lan.pdf
2_Tom tat luan an (Tieng Viet) - Phan Phuong Lan.pdf
3_Tom tat luan an (Tieng Anh) - Phan Phuong Lan.pdf
4_Dong gop moi cua luan an (Tieng Viet) - Phan Phuong Lan.pdf
5_Dong gop moi cua luan an (Tieng Anh) - Phan Phuong Lan.pdf
6_Trich yeu luan an (Tieng Viet) - Phan Phuong Lan.pdf
7_Trich yeu luan an (Tieng Anh) - Phan Phuong Lan.pdf