Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê
hệ tư vấn trên tập MSWeb(875x135) khi times=2, given=1.
Tuy nhiên, khi given=1, hệ tư vấn sử dụng mô hình SIR có hiệu quả cao hơn
của các hệ tư vấn Popular RS và IBCFJaccard RS nhưng không cao hơn của hệ tư
vấn ARConfidence RS (Hình 2.15). Mặc dù vậy, sự chênh lệch giữa giá trị chính xác,
69
giá trị bao phủ và tỷ lệ cảnh báo sai của ARConfidence RS và EIIntens.Contr.RS là
không cao.
Kết luận
Từ kết quả thực nghiệm trên tập dữ liệu nhị phân MSWeb(875x135), ta nhận
thấy mô hình đề xuất SIR kết hợp cường độ hàm ý có entropy và chỉ số đóng góp cho
hiệu quả cao hơn các mô hình tư vấn cũng dựa trên mục dữ liệu (AR, POPULAR,
IBCF), đặc biệt khi số xếp hạng biết trước của người cần tư vấn không quá thấp
given≥2 (nghĩa là khi người cần tư vấn không phải là người dùng mới).
2.3.3.5. Mô hình tư vấn SIR trong gợi ý đăng ký học phần
Mục đích của kịch bản này là ứng dụng mô hình tư vấn theo mức độ quan trọng
hàm ý thống kê trên luật SIR để gợi ý các học phần mà sinh viên nên đăng ký.
Giả sử một sinh viên đã đăng ký được 2 học phần Cấu trúc dữ liệu (CT103), Tư
tưởng Hồ Chí Minh (ML006) và muốn được tư vấn thêm 3 học phần nữa. Hệ tư vấn
sử dụng mô hình SIR dùng chỉ số gắn kết sẽ đưa ra gợi ý gồm các học phần: Kiến
trúc máy tính (CT173), Toán rời rạc (CT172) và Vi tích phân A2 (TN002). Đây là
những học phần có độ tin cậy và chỉ số gắn kết cao với 2 học phần mà sinh viên đã
đăng ký.
Tương tự như vậy, khi sinh viên thay đổi các học phần đăng ký và muốn được
tư vấn thêm các học phần khác, hệ tư vấn sẽ gợi ý cho sinh viên danh sách các học
phần có mối quan hệ gắn kết cao nhất với những học phần mà sinh viên đã đăng ký.
2.3.4. Hiệu quả tư vấn của mô hình SIR trên dữ liệu phi nhị phân
Các kịch bản thực nghiệm trên tập dữ liệu phi nhị phân MovieLens(565x136)
gồm:
- Đánh giá hiệu quả tư vấn qua so sánh nội. Kịch bản này tương tự như kịch bản
cùng tên đã thực hiện trên dữ liệu nhị phân (Mục 2.3.3.3). Hiệu quả tư vấn của cùng
mô hình đề xuất SIR nhưng sử dụng các mức độ quan trọng hàm ý thống kê khác
nhau được so sánh với nhau. Kết quả thực nghiệm cũng sẽ cho biết mức độ quan
trọng hàm ý thống kê nào nên được sử dụng trong mô hình SIR trên dữ liệu phi nhị
phân.
70
- Đánh giá hiệu quả tư vấn qua so sánh ngoại. Hiệu quả tư vấn của mô hình tư
vấn SIR trên dữ liệu phi nhị phân được so sánh với hiệu quả tư vấn của mô hình
POPULAR trong gói recommenderlab. Các mô hình AR và IBCF không được so
sánh (như kịch bản cùng loại ở Mục 2.3.3.4) vì AR chỉ hoạt động trên dữ liệu nhị
phân và IBCF hỗ trợ kém khi đánh giá tính chính xác của gợi ý trên dữ liệu phi nhị
phân.
2.3.4.1. Tính chính xác của gợi ý qua so sánh nội trên dữ liệu phi nhị phân
Tương tự như kịch bản ở Mục 2.3.3.3, bốn hệ tư vấn được xây dựng là
IIntens.RS, IIntens.Contr.RS, EIIntens.Contr.RS và Cohe.Contr.RS.
Số phim được gợi ý
cho người dùng
(a): (times, given) = (2, 1) (b): (times, given) = (1, 6)
Hình 2.16: Đường cong Precision - Recall của bốn hệ tư vấn
trên tập MovieLens(565x336) khi (times, given) là (2, 1) và (1, 6).
Việc xác định các ngưỡng ngưỡng hỗ trợ 푠, ngưỡng tin cậy và độ dài tối đa
của luật 푙 trên tập dữ liệu MovieLens(565x336) được thực hiện tương tự như Mục
2.3.3.1. Tuy nhiên, do hạn chế về tài nguyên máy tính được dùng trong thực nghiệm,
các ngưỡng 푠, và 푙 được xét từ 0,1, 0,1 và 2 tương ứng. Kết quả, s=0,1, c=0,3 và
l=3 được sử dụng trong so sánh hiệu quả tư vấn của bốn hệ thống vừa nêu.
Hình 2.16 và Hình 2.17 hiển thị đường cong Precision - Recall của bốn hệ tư
vấn khi (times, given) là (2, 1), (1, 6), (5, 12) và (3, 17) tương ứng và số phim cần gợi
ý cho mỗi người xem là 1, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100.
71
Số phim được gợi ý
cho người dùng
(a): (times, given) = (5, 12) (b): (times, given) = (3, 17)
Hình 2.17: Đường cong Precision - Recall của bốn hệ tư vấn
trên tập MovieLens(565x336) khi (times, given) là (5, 12) và (3, 17).
Hình 2.18 hiển thị đường cong ROC của bốn hệ tư vấn khi (times, given) là (2,
2), (4, 17) tương ứng.
Số phim được gợi ý
cho người dùng
(a): (times, given) = (2, 2) (b): (times, given) = (4, 17)
Hình 2.18: Đường cong ROC của bốn hệ tư vấn
trên tập MovieLens(565x336) khi (times, given) là (2, 2) và (4, 17).
cần ýcho gợi ngườimỗi dùnglà (1, 10, 20, 40, 60,80, 100). của IIntens.Contr.RS trên các given (1, 2, 4, 6, 10, 14, 17) khi times=2 và số phim trị F1 tương ứng của IIntens.Contr.RS, EIIntens. Contr.RS và Cohe.Contr.RS so với hệ thống còn lại. chính xác và giá trị bao phủ thấp nhất và tỷ lệ cảnh báo sai cao nhất) khi so với các tư vấn không kết hợp với chỉ số đóng góp IIntens.RS cho hiệu quả thấp nhất (giá trị
Chênh lệch giá trị F1 Chênh lệch giá trị Accuracy
-0.005 -0.006 -0.004 -0.002
-0.015
0.005 0.002 0.004
Hình 2.19 và Hình 2.20 là biểu đồ chênh lệch giá trị chuẩn xác Accuracy và giá và Accuracy xác chuẩngiá trị lệchchênh đồ biểu 2.20làHình và 2.19 Hình Kết quả thực nghiệm trong các Hình 2.16, Hình 2.17 và Hình 2.18 cho thấy hệ
Kết quả thực nghiệm trong Hình 2.19 và Hình 2.20 cho thấy:
-0.01
0.01
0 0
1 1
ba hệ tư vấn trên tập MovieLens(565x336) times=2.khi ba hệ tư vấn trên tập MovieLens(565x336) times=2.khi
ie= ie= ie= ie= ie=0gvn1 given=17 given=14 given=10 given=6 given=4 given=2 given=1 10 given=17 given=14 given=10 given=6 given=4 given=2 given=1 10
20 20
40 40
Biểu đồ chênh lệch giá trị Accuracy của 3 hệ tư vấn khi times=2 khi vấn tư hệ3 của Accuracytrị lệchgiá chênhđồ Biểu
60 2.19:Hình chênh Sự lệch giá trị Accuracy của 60
80 khi times=2 vấn tư 3 hệ của F1 giátrị lệch chênh đồ Biểu 80
IIntens.Contr.RS 100 IIntens.Contr.RS 100
Hình 2.20:Hình chênh Sự lệch giá trị F1 của 1 1
10 10
20 20
40 40
60 60
80 80
100 100
1 1
10 10
20 20
40 40
60 60
80 80
100 100 72
EIIntens.Contr. RS
EIIntens.Contr. RS 1 1
10 10
20 20
40 40
60 60
80 80
100 100
1 1
10 10
20 20
40 40
60 60
80 80
100 100
1 1
Cohe.Contr. RS
Cohe.Contr. RS 10 10
20 20
40 40
60 60
80 80
100 100
1 1
10 10
20 20
40 40
60 60
80 80
100 100
73
- Hệ tư vấn EIIntens.Contr.RS có giá trị F1 và giá trị chuẩn xác Accuracy cao
hơn hai hệ thống còn lại khi given là 1 hoặc 2. Ngoài ra, EIIntens.Contr.RS còn có
giá trị chuẩn xác cao hơn trên phân đoạn từ 1 đến 20 phim với mọi given được xét.
- Các hệ tư vấn IIntens.Contr.RS và Cohe.Contr.RS có hiệu quả cao hơn hệ
thống EIIntens.Contr.RS khi given>2 và trên phân đoạn từ 20 đến 100 phim. Phân
đoạn này sẽ tăng khi given tăng.
Kết luận
Như vậy, khi sử dụng mô hình đề xuất SIR trên dữ liệu phi nhị phân, ta nên:
- Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi người cần tư vấn
là người dùng mới (số xếp hạng biết trước của người này given≤2).
- Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi cần gợi ý ít mục
dữ liệu cho người cần tư vấn và quan tâm đến giá trị chuẩn xác hơn giá trị điều hòa
F1.
- Kết hợp cường độ hàm ý/chỉ số gắn kết với chỉ số đóng góp trong trường hợp
ngược lại.
2.3.4.2. Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu phi nhị phân
Trên tập dữ liệu MovieLens(565x336), hai hệ tư vấn EIIntens/Cohe.Contr.RS
và Popular RS được xây dựng. Hai hệ thống này cần gợi ý cho mỗi người xem là 1,
5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100 phim. EIIntens/Cohe.Contr.RS sử
dụng mô hình SIR kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi số
phim cần gợi ý từ 1 đến 20 và kết hợp chỉ số gắn kết với chỉ số đóng góp khi số phim
cần gợi ý từ 25 đến 100.
Hình 2.21 hiển thị đường cong ROC và Precision - Recall của hai hệ tư vấn khi
(times, given) là (3, 6). Khi thay đổi số lần thực thi phương pháp đánh giá chéo k tập
con và số xếp hạng biết trước của người cần tư vấn (given từ 1 đến 18), ta đều nhận
được kết quả tương tự như Hình 2.21.
74
Số phim được gợi ý
cho người dùng
(a) (times, given) = (3, 6) (b)
Hình 2.21: Đường cong ROC và Precision - Recall của
hai hệ tư vấn trên tập MovieLens(565x336) khi times=3 và given=6.
Gọi F1Popular và F1EIIntens/Cohe.Contr.RS là giá trị F1 của hệ thống Popular RS và
EIIntens/Cohe.Contr.RS tương ứng. Hình 2.22 là biểu đồ chênh lệch giá trị
F1EIIntens/Cohe.Contr.RS – F1Popular của hai hệ thống này khi times=1 và given=1, 2, 6, 10,
14 và 18.
Biểu đồ chênh lệch giá trị F1 của EIIntens/Cohe.Contr. RS và
Popular RS
0.1
0.09 90 phim
30 phim
0.08
60 phim
0.07 80 phim
20 phim
0.06
0.05
10 phim 40 phim
0.04 70 phim
0.03 5 phim
50 phim 100 phim
Chênh Chênh giá lệch F1 trị 0.02
0.01
0 1 phim 15 phim 25 phim
-0.01
Số phim gợi ý cho người xem
given=1 given=2 given=6
given=10 given=14 given=18
Hình 2.22: Sự chênh lệch giá trị F1 của
hai hệ tư vấn trên tập MovieLens(565x336) khi times=1.
75
Biểu đồ cho thấy giá trị F1 của EIIntens/Cohe.Contr.RS trên các given từ thấp
nhất (given=1) đến cao nhất (given=18) luôn cao hơn của Popular RS.
Kết luận
Các kết quả thực nghiệm này cho thấy hệ thống sử dụng mô hình đề xuất SIR
cho hiệu quả tư vấn cao hơn hệ thống sử dụng mô hình tư vấn dựa trên các mục dữ
liệu phổ biến nhất.
2.4. Kết luận chương 2
Chương 2 đề xuất một mô hình tư vấn theo mức độ quan trọng hàm ý thống kê
trên luật SIR cho cả dữ liệu nhị phân và phi nhị phân và thực hiện cải tiến mô hình
đề xuất nhằm giảm thời gian tư vấn. Tập luật được biểu diễn theo quan điểm phân
tích hàm ý thống kê có thể được xây dựng và lưu trữ trước (ngoại tuyến), sau đó được
sử dụng trực tuyến khi có người cần tư vấn. Mô hình tư vấn đề xuất SIR có thể sử
dụng nhiều mức độ quan trọng hàm ý thống kê khác nhau như cường độ hàm ý có
hay không có entropy, chỉ số gắn kết, chỉ số đóng góp để tăng hiệu quả tư vấn và có
thể mở rộng cho nhiều độ đo hấp dẫn khách quan khác. Mô hình SIR được cài đặt và
tích hợp trong công cụ Interestingnesslab. Hiệu quả tư vấn của mô hình đề xuất được
đánh giá qua: Đường cong ROC, đường cong Precision - Recall và giá trị F1 (thuộc
nhóm độ đo đánh giá tính chính xác của gợi ý); trên hai nhóm dữ liệu: Nhị phân
(MSWeb, DKHP) và phi nhị phân (MovieLens); theo hai nhóm kịch bản: So sánh nội
(cùng mô hình SIR nhưng khác mức độ quan trọng hàm ý thống kê) và so sánh ngoại
(mô hình SIR và một số mô hình tư vấn hiện có trong gói recommenderlab: AR,
POPULAR, IBCF). Kết quả thực nghiệm trên dữ liệu nhị phân cho thấy: Trong các
mức độ quan trọng hàm ý thống kê, mô hình SIR có hiệu quả tư vấn cao nhất khi kết
hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong các mô hình tư vấn được
so sánh, mô hình SIR cho hiệu quả cao nhất khi người cần tư vấn không phải là người
dùng mới. Trong trường hợp người dùng mới (số xếp hạng đã biết của người này là
1), mô hình SIR cho hiệu quả tư vấn thấp hơn mô hình AR nhưng sự chênh lệch là
không cao. Kết quả thực nghiệm trên dữ liệu phi nhị phân cho thấy: Trong trường
76
hợp số mục dữ liệu cần gợi ý cho người dùng không nhiều, mô hình SIR có hiệu quả
tư vấn cao nhất khi kết hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong
trường hợp ngược lại, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ
hàm ý/chỉ số gắn kết với chỉ số đóng góp. Tuy nhiên, thực tế, việc gợi ý quá nhiều
mục dữ liệu sẽ làm người cần tư vấn bối rối. Vì vậy, mô hình tư vấn theo mức độ
quan trọng hàm ý thống kê trên luật SIR nên: (1) kết hợp cường độ hàm ý có entropy
với chỉ số đóng góp để xây dựng gợi ý; (2) được sử dụng để xây dựng hệ tư vấn vì nó
cho hiệu quả cao hơn các mô hình được so sánh, đặc biệt trong tình huống số xếp
hạng của người cần tư vấn không quá thấp.
77
3. CHƯƠNG 3. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG
XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG
Mô hình tư vấn SIR ở Chương 2 và các mô hình tư vấn cũng dựa trên phân tích
hàm ý thống kê [55][60] đều sử dụng luật kết hợp trong xây dựng các gợi ý cho người
dùng. Để không bỏ sót các luật có chất lượng, ngưỡng hỗ trợ và ngưỡng tin cậy
thường được gán các giá trị thấp; từ đó dẫn đến số lượng luật được sinh ra cao. Khi
số luật là quá lớn, các mô hình tư vấn dựa trên luật có thể gặp phải một số nhược
điểm: Thời gian xây dựng kết quả gợi ý (gọi chung là thời gian tư vấn) trực tuyến lâu;
máy tính có thể bị quá tải trong quá trình tính toán. Do đó, ta có thể sử dụng kỹ thuật
tư vấn khác để tránh nhược điểm vừa nêu. Bên cạnh đó, giá trị xếp hạng cho sản phẩm
푖 của người cần tư vấn có thể gần giống như giá trị xếp hạng cho sản phẩm 푖 của
những người có cùng sở thích với (gọi chung là các láng giềng gần nhất ). Vì
vậy, kỹ thuật tư vấn lọc cộng tác dựa trên người dùng có thể được sử dụng. Trong đó,
việc tìm những láng giềng gần nhất có thể dựa trên cường độ hàm ý giữa hai người
dùng; việc dự đoán xếp hạng sản phẩm 푖 của được dựa trên các giá trị xếp hạng
cho sản phẩm 푖 của những láng giềng gần nhất với . Không những thế, mỗi sản
phẩm đều có ảnh hưởng nhất định trong việc hình thành mối quan hệ giữa người dùng
và láng giềng ; cùng một sản phẩm 푖 nhưng nó ảnh hưởng khác nhau lên mối
quan hệ giữa và các láng giềng. Do vậy, ta có thể kết hợp các đặc điểm vừa nêu
để cải thiện tính chính xác của kết quả gợi ý. Chương 3 của luận án tập trung vào: (1)
đề xuất một mức độ quan trọng hàm ý thống kê mới 퐾푛푛푈 푅 (K nearest
neighbors/users based implicative rating) để dự đoán xếp hạng của người dùng; (2)
đề xuất một mô hình tư vấn mới 푈 푅 (user implicative rating based model) sử dụng
kỹ thuật tư vấn lọc cộng tác dựa trên láng giềng và mức độ quan trọng 퐾푛푛푈 푅; (3)
đánh giá hiệu quả tư vấn của mô hình UIR qua nhóm độ đo: Tính chính xác của gợi
ý trên dữ liệu nhị phân, tính chính xác của xếp hạng được dự đoán trên dữ liệu phi
nhị phân và tính chính xác của gợi ý được sắp thứ tự trên cả dữ liệu nhị phân và phi
nhị phân.
78
Một số kết quả nghiên cứu của Chương 3 được công bố tại Hội nghị Quốc gia
lần thứ XX về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT) năm 2017
và trên Tạp chí International Journal of Advanced Computer Science and
Applications (IJACSA), Vol. 8, Iss.11, năm 2017.
3.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên người
dùng
Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 là một
độ đo được dùng để dự đoán xếp hạng của người cần tư vấn cho các mục dữ liệu
푖 ∈ . Mục đích của việc đề xuất độ đo này là nhằm tăng cường hiệu quả tư vấn.
Như đã trình bày trong phần giới thiệu chương, giá trị xếp hạng của người dùng
cho mục dữ liệu 푖 có thể bị ảnh hưởng không những bởi các láng giềng gần
nhất mà còn bởi chính mục dữ liệu 푖 lên mối quan hệ giữa và . Mức độ quan
trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 được phát triển từ hai mức
độ quan trọng cơ sở: Cường độ hàm ý và chỉ số tiêu biểu. Tuy nhiên, khác với cách
tiếp cận ở Chương 2, cường độ hàm ý sẽ đo sức mạnh của mối quan hệ giữa hai người
dùng thay vì giữa các mục dữ liệu; chỉ số tiêu biểu sẽ đo sự ảnh hưởng của một mục
dữ liệu đối với sự hình thành mối quan hệ giữa hai người dùng thay vì của người dùng
đối sự hình thành mối quan hệ giữa các mục.
Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 dự đoán
xếp hạng của người cần tư vấn cho mục dữ liệu 푖 được dựa trên: (1) số láng giềng
gần nhất của - những người có mối quan hệ hàm ý mạnh nhất với thông qua
cường độ hàm ý; (2) các xếp hạng cho mục dữ liệu 푖 của những láng giềng gần
nhất với ; (3) tính tiêu biểu của 푖 trong sự hình thành mối quan hệ giữa và .
Luận án tập trung vào trường hợp số mục dữ liệu đã được xếp hạng của người cần tư
vấn là không nhiều. Vì vậy, số xếp hạng đã biết của thường ít hơn số xếp hạng
đã biết của các láng giềng . Khi đó, số phản ví dụ 푛 của mối quan hệ ( , )
nhỏ hơn số phản ví dụ 푛 của mối quan hệ ( , ). Dựa trên đặc điểm của phân
tích hàm ý thống kê, mối quan hệ ( , ) sẽ được sử dụng trong xây dựng 퐾푛푛푈 푅.
퐾푛푛푈 푅 được định nghĩa trong công thức (3.1).
79
( )
퐾푛푛푈 푅 , 푖 = ∗ 훾(푖, → ) (3.1)
Với:
- 푛푛 là số láng giềng gần nhất với . Việc xác định các láng giềng gần nhất
với được dựa trên giá trị cường độ hàm ý 휑( , ). Công thức tính 휑 đã được
trình bày ở Bảng 1.4.
- là xếp hạng của người dùng cho mục dữ liệu 푖.
- 훾(푖, → ) là chỉ số tiêu biểu của mục dữ liệu 푖 đối với sự hình thành mối
quan hệ ( , ). Công thức tính 훾 cũng đã được trình bày ở Bảng 1.4. 훾 được xem
là trọng số giúp tăng/giảm ảnh hưởng của - giá trị xếp hạng cho mục dữ liệu 푖
của từng láng giềng gần nhất - trong việc dự đoán giá trị xếp hạng cho mục dữ liệu
푖 của người cần tư vấn . Nếu và là hai láng giềng gần của , cả và
đều xếp hạng mục dữ liệu 푖 và 휑( , )> 휑( , ) (nghĩa là gần hơn )
thì theo công thức tính 훾, 훾(푖, → )> 훾(푖, → ) (nghĩa là tính tiêu biểu của
푖 đối với ( , ) sẽ cao hơn của 푖 đối với ( , )). Như vậy, láng giềng gần
hơn láng giềng sẽ có trọng số cao hơn khi dự đoán xếp hạng cho .
Công thức (3.1) cho thấy nếu dữ liệu ở dạng nhị phân, giá trị xếp hạng hàm ý
thống kê 퐾푛푛푈 푅( , 푖) của người dùng cho mục dữ liệu 푖 là tổng của tất cả các
chỉ số tiêu biểu của 푖 đối với sự hình thành mối quan hệ giữa và 푛푛 láng giềng
gần nhất với điều kiện đã thích 푖 ( =1).
Giá trị xếp hạng 퐾푛푛푈 푅( , 푖) phải được quy đổi về cùng thang đo khoảng [0,
1] như các xếp hạng đã biết bằng cách thực hiện phép chia 퐾푛푛푈 푅( , 푖)/
∈ 퐾푛푛푈 푅( , 푙). Trong đó, ∈ 퐾푛푛푈 푅( , 푙) là giá trị lớn nhất trong tập
giá trị dự đoán xếp hạng của người dùng cho các mục dữ liệu.
3.2. Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê
trên người dùng UIR
Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người
dùng UIR được thể hiện tổng quát như Hình 3.1 và minh họa như Hình 3.2. Mô hình
tư vấn UIR có các thành phần tương tự như mô hình SIR ở Mục 2.1.
80
- Một tập hữu hạn những người dùng 푈 ={ , ,, }.
- Một tập hữu hạn các mục ={푖 ,푖 ,,푖 }.
- Một ma trận xếp hạng 푅 =( ) với 푗 = 1,푛 và = 1, lưu trữ thông
tin phản hồi của người dùng về các mục dữ liệu.
- Một tập 푅 lưu các xếp hạng đã biết của người cần tư vấn .
- Một tập 푅 lưu các xếp hạng dự đoán của người cần tư vấn cho các mục
dữ liệu.
- Một tập 푅푒 푙푖푠푡 lưu 표 mục được gợi ý cho người cần tư vấn .
(U, I, R) ( , I, 푅 )
Cường độ hàm ý
x U {휑( , ), 푗 = 1 , 푛 푛 }
Xếp hạng hàm ý trên người dùng KnnUIR
{ | 푅
푅푒 푙푖푠푡 = 푖 푖 ∈ , ∈ 표 } x I
Hình 3.1: Mô hình tư vấn theo
mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR.
Gọi : 푈 × → 푅 là một hàm ánh xạ từ những kết hợp của người dùng và
các mục dữ liệu vào các xếp hạng . Mục tiêu của mô hình đề xuất UIR là tìm một
hàm ′: 푈 × → 푅′ sao cho hàm 휉( , ′) đạt được hiệu quả tốt hơn qua nhóm độ
đo đánh giá tính chính xác của xếp hạng được dự đoán (Mục 1.5.3). Bên cạnh đó, mô
hình UIR cũng mong muốn đạt được hiệu quả tốt hơn qua nhóm độ đo đánh giá tính
chính xác của danh sách gợi ý (Mục 1.5.2, Mục 1.5.4) khi so sánh với một số mô hình
tư vấn khác.
81
Ma trận đánh giá/xếp hạng u1
u15 . .
i1 i2 im
u2
u1 r11 NA r1m .
Cường độ
u2 NA r22 r2m
hàm ý 휑
ua
. . u9
un rn1 NA NA knn=3
. u11 .
Thông tin của người cần tư vấn un
i1 i2 im-1 im
ua NA ra2 ram-1 NA
Xếp hạng hàm ý thống kê
trên người dùng KnnUIR
Các xếp hạng được dự đoán
Danh sách TopN mục
i1 i2 im
ua {i1, i13, , im-2} ua r’a1 r’a2 r’am
Hình 3.2: Minh họa của mô hình tư vấn theo
mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR.
Mô hình tư vấn đề xuất UIR sử dụng các mức độ quan trọng hàm ý thống kê
sau đây:
- Cường độ hàm ý 휑( , ) được dùng đFile đính kèm:
luan_an_he_tu_van_dua_tren_muc_do_quan_trong_ham_y_thong_ke.pdf
0_Trang phu bia luan an tien si - Phan Phuong Lan.pdf
2_Tom tat luan an (Tieng Viet) - Phan Phuong Lan.pdf
3_Tom tat luan an (Tieng Anh) - Phan Phuong Lan.pdf
4_Dong gop moi cua luan an (Tieng Viet) - Phan Phuong Lan.pdf
5_Dong gop moi cua luan an (Tieng Anh) - Phan Phuong Lan.pdf
6_Trich yeu luan an (Tieng Viet) - Phan Phuong Lan.pdf
7_Trich yeu luan an (Tieng Anh) - Phan Phuong Lan.pdf

