Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê
hệ tư vấn trên tập MSWeb(875x135) khi times=2, given=1. Tuy nhiên, khi given=1, hệ tư vấn sử dụng mô hình SIR có hiệu quả cao hơn của các hệ tư vấn Popular RS và IBCFJaccard RS nhưng không cao hơn của hệ tư vấn ARConfidence RS (Hình 2.15). Mặc dù vậy, sự chênh lệch giữa giá trị chính xác, 69 giá trị bao phủ và tỷ lệ cảnh báo sai của ARConfidence RS và EIIntens.Contr.RS là không cao. Kết luận Từ kết quả thực nghiệm trên tập dữ liệu nhị phân MSWeb(875x135), ta nhận thấy mô hình đề xuất SIR kết hợp cường độ hàm ý có entropy và chỉ số đóng góp cho hiệu quả cao hơn các mô hình tư vấn cũng dựa trên mục dữ liệu (AR, POPULAR, IBCF), đặc biệt khi số xếp hạng biết trước của người cần tư vấn không quá thấp given≥2 (nghĩa là khi người cần tư vấn không phải là người dùng mới). 2.3.3.5. Mô hình tư vấn SIR trong gợi ý đăng ký học phần Mục đích của kịch bản này là ứng dụng mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR để gợi ý các học phần mà sinh viên nên đăng ký. Giả sử một sinh viên đã đăng ký được 2 học phần Cấu trúc dữ liệu (CT103), Tư tưởng Hồ Chí Minh (ML006) và muốn được tư vấn thêm 3 học phần nữa. Hệ tư vấn sử dụng mô hình SIR dùng chỉ số gắn kết sẽ đưa ra gợi ý gồm các học phần: Kiến trúc máy tính (CT173), Toán rời rạc (CT172) và Vi tích phân A2 (TN002). Đây là những học phần có độ tin cậy và chỉ số gắn kết cao với 2 học phần mà sinh viên đã đăng ký. Tương tự như vậy, khi sinh viên thay đổi các học phần đăng ký và muốn được tư vấn thêm các học phần khác, hệ tư vấn sẽ gợi ý cho sinh viên danh sách các học phần có mối quan hệ gắn kết cao nhất với những học phần mà sinh viên đã đăng ký. 2.3.4. Hiệu quả tư vấn của mô hình SIR trên dữ liệu phi nhị phân Các kịch bản thực nghiệm trên tập dữ liệu phi nhị phân MovieLens(565x136) gồm: - Đánh giá hiệu quả tư vấn qua so sánh nội. Kịch bản này tương tự như kịch bản cùng tên đã thực hiện trên dữ liệu nhị phân (Mục 2.3.3.3). Hiệu quả tư vấn của cùng mô hình đề xuất SIR nhưng sử dụng các mức độ quan trọng hàm ý thống kê khác nhau được so sánh với nhau. Kết quả thực nghiệm cũng sẽ cho biết mức độ quan trọng hàm ý thống kê nào nên được sử dụng trong mô hình SIR trên dữ liệu phi nhị phân. 70 - Đánh giá hiệu quả tư vấn qua so sánh ngoại. Hiệu quả tư vấn của mô hình tư vấn SIR trên dữ liệu phi nhị phân được so sánh với hiệu quả tư vấn của mô hình POPULAR trong gói recommenderlab. Các mô hình AR và IBCF không được so sánh (như kịch bản cùng loại ở Mục 2.3.3.4) vì AR chỉ hoạt động trên dữ liệu nhị phân và IBCF hỗ trợ kém khi đánh giá tính chính xác của gợi ý trên dữ liệu phi nhị phân. 2.3.4.1. Tính chính xác của gợi ý qua so sánh nội trên dữ liệu phi nhị phân Tương tự như kịch bản ở Mục 2.3.3.3, bốn hệ tư vấn được xây dựng là IIntens.RS, IIntens.Contr.RS, EIIntens.Contr.RS và Cohe.Contr.RS. Số phim được gợi ý cho người dùng (a): (times, given) = (2, 1) (b): (times, given) = (1, 6) Hình 2.16: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (2, 1) và (1, 6). Việc xác định các ngưỡng ngưỡng hỗ trợ 푠, ngưỡng tin cậy và độ dài tối đa của luật 푙 trên tập dữ liệu MovieLens(565x336) được thực hiện tương tự như Mục 2.3.3.1. Tuy nhiên, do hạn chế về tài nguyên máy tính được dùng trong thực nghiệm, các ngưỡng 푠, và 푙 được xét từ 0,1, 0,1 và 2 tương ứng. Kết quả, s=0,1, c=0,3 và l=3 được sử dụng trong so sánh hiệu quả tư vấn của bốn hệ thống vừa nêu. Hình 2.16 và Hình 2.17 hiển thị đường cong Precision - Recall của bốn hệ tư vấn khi (times, given) là (2, 1), (1, 6), (5, 12) và (3, 17) tương ứng và số phim cần gợi ý cho mỗi người xem là 1, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100. 71 Số phim được gợi ý cho người dùng (a): (times, given) = (5, 12) (b): (times, given) = (3, 17) Hình 2.17: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (5, 12) và (3, 17). Hình 2.18 hiển thị đường cong ROC của bốn hệ tư vấn khi (times, given) là (2, 2), (4, 17) tương ứng. Số phim được gợi ý cho người dùng (a): (times, given) = (2, 2) (b): (times, given) = (4, 17) Hình 2.18: Đường cong ROC của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (2, 2) và (4, 17). cần ýcho gợi ngườimỗi dùnglà (1, 10, 20, 40, 60,80, 100). của IIntens.Contr.RS trên các given (1, 2, 4, 6, 10, 14, 17) khi times=2 và số phim trị F1 tương ứng của IIntens.Contr.RS, EIIntens. Contr.RS và Cohe.Contr.RS so với hệ thống còn lại. chính xác và giá trị bao phủ thấp nhất và tỷ lệ cảnh báo sai cao nhất) khi so với các tư vấn không kết hợp với chỉ số đóng góp IIntens.RS cho hiệu quả thấp nhất (giá trị Chênh lệch giá trị F1 Chênh lệch giá trị Accuracy -0.005 -0.006 -0.004 -0.002 -0.015 0.005 0.002 0.004 Hình 2.19 và Hình 2.20 là biểu đồ chênh lệch giá trị chuẩn xác Accuracy và giá và Accuracy xác chuẩngiá trị lệchchênh đồ biểu 2.20làHình và 2.19 Hình Kết quả thực nghiệm trong các Hình 2.16, Hình 2.17 và Hình 2.18 cho thấy hệ Kết quả thực nghiệm trong Hình 2.19 và Hình 2.20 cho thấy: -0.01 0.01 0 0 1 1 ba hệ tư vấn trên tập MovieLens(565x336) times=2.khi ba hệ tư vấn trên tập MovieLens(565x336) times=2.khi ie= ie= ie= ie= ie=0gvn1 given=17 given=14 given=10 given=6 given=4 given=2 given=1 10 given=17 given=14 given=10 given=6 given=4 given=2 given=1 10 20 20 40 40 Biểu đồ chênh lệch giá trị Accuracy của 3 hệ tư vấn khi times=2 khi vấn tư hệ3 của Accuracytrị lệchgiá chênhđồ Biểu 60 2.19:Hình chênh Sự lệch giá trị Accuracy của 60 80 khi times=2 vấn tư 3 hệ của F1 giátrị lệch chênh đồ Biểu 80 IIntens.Contr.RS 100 IIntens.Contr.RS 100 Hình 2.20:Hình chênh Sự lệch giá trị F1 của 1 1 10 10 20 20 40 40 60 60 80 80 100 100 1 1 10 10 20 20 40 40 60 60 80 80 100 100 72 EIIntens.Contr. RS EIIntens.Contr. RS 1 1 10 10 20 20 40 40 60 60 80 80 100 100 1 1 10 10 20 20 40 40 60 60 80 80 100 100 1 1 Cohe.Contr. RS Cohe.Contr. RS 10 10 20 20 40 40 60 60 80 80 100 100 1 1 10 10 20 20 40 40 60 60 80 80 100 100 73 - Hệ tư vấn EIIntens.Contr.RS có giá trị F1 và giá trị chuẩn xác Accuracy cao hơn hai hệ thống còn lại khi given là 1 hoặc 2. Ngoài ra, EIIntens.Contr.RS còn có giá trị chuẩn xác cao hơn trên phân đoạn từ 1 đến 20 phim với mọi given được xét. - Các hệ tư vấn IIntens.Contr.RS và Cohe.Contr.RS có hiệu quả cao hơn hệ thống EIIntens.Contr.RS khi given>2 và trên phân đoạn từ 20 đến 100 phim. Phân đoạn này sẽ tăng khi given tăng. Kết luận Như vậy, khi sử dụng mô hình đề xuất SIR trên dữ liệu phi nhị phân, ta nên: - Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi người cần tư vấn là người dùng mới (số xếp hạng biết trước của người này given≤2). - Kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi cần gợi ý ít mục dữ liệu cho người cần tư vấn và quan tâm đến giá trị chuẩn xác hơn giá trị điều hòa F1. - Kết hợp cường độ hàm ý/chỉ số gắn kết với chỉ số đóng góp trong trường hợp ngược lại. 2.3.4.2. Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu phi nhị phân Trên tập dữ liệu MovieLens(565x336), hai hệ tư vấn EIIntens/Cohe.Contr.RS và Popular RS được xây dựng. Hai hệ thống này cần gợi ý cho mỗi người xem là 1, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90 và 100 phim. EIIntens/Cohe.Contr.RS sử dụng mô hình SIR kết hợp cường độ hàm ý có entropy với chỉ số đóng góp khi số phim cần gợi ý từ 1 đến 20 và kết hợp chỉ số gắn kết với chỉ số đóng góp khi số phim cần gợi ý từ 25 đến 100. Hình 2.21 hiển thị đường cong ROC và Precision - Recall của hai hệ tư vấn khi (times, given) là (3, 6). Khi thay đổi số lần thực thi phương pháp đánh giá chéo k tập con và số xếp hạng biết trước của người cần tư vấn (given từ 1 đến 18), ta đều nhận được kết quả tương tự như Hình 2.21. 74 Số phim được gợi ý cho người dùng (a) (times, given) = (3, 6) (b) Hình 2.21: Đường cong ROC và Precision - Recall của hai hệ tư vấn trên tập MovieLens(565x336) khi times=3 và given=6. Gọi F1Popular và F1EIIntens/Cohe.Contr.RS là giá trị F1 của hệ thống Popular RS và EIIntens/Cohe.Contr.RS tương ứng. Hình 2.22 là biểu đồ chênh lệch giá trị F1EIIntens/Cohe.Contr.RS – F1Popular của hai hệ thống này khi times=1 và given=1, 2, 6, 10, 14 và 18. Biểu đồ chênh lệch giá trị F1 của EIIntens/Cohe.Contr. RS và Popular RS 0.1 0.09 90 phim 30 phim 0.08 60 phim 0.07 80 phim 20 phim 0.06 0.05 10 phim 40 phim 0.04 70 phim 0.03 5 phim 50 phim 100 phim Chênh Chênh giá lệch F1 trị 0.02 0.01 0 1 phim 15 phim 25 phim -0.01 Số phim gợi ý cho người xem given=1 given=2 given=6 given=10 given=14 given=18 Hình 2.22: Sự chênh lệch giá trị F1 của hai hệ tư vấn trên tập MovieLens(565x336) khi times=1. 75 Biểu đồ cho thấy giá trị F1 của EIIntens/Cohe.Contr.RS trên các given từ thấp nhất (given=1) đến cao nhất (given=18) luôn cao hơn của Popular RS. Kết luận Các kết quả thực nghiệm này cho thấy hệ thống sử dụng mô hình đề xuất SIR cho hiệu quả tư vấn cao hơn hệ thống sử dụng mô hình tư vấn dựa trên các mục dữ liệu phổ biến nhất. 2.4. Kết luận chương 2 Chương 2 đề xuất một mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR cho cả dữ liệu nhị phân và phi nhị phân và thực hiện cải tiến mô hình đề xuất nhằm giảm thời gian tư vấn. Tập luật được biểu diễn theo quan điểm phân tích hàm ý thống kê có thể được xây dựng và lưu trữ trước (ngoại tuyến), sau đó được sử dụng trực tuyến khi có người cần tư vấn. Mô hình tư vấn đề xuất SIR có thể sử dụng nhiều mức độ quan trọng hàm ý thống kê khác nhau như cường độ hàm ý có hay không có entropy, chỉ số gắn kết, chỉ số đóng góp để tăng hiệu quả tư vấn và có thể mở rộng cho nhiều độ đo hấp dẫn khách quan khác. Mô hình SIR được cài đặt và tích hợp trong công cụ Interestingnesslab. Hiệu quả tư vấn của mô hình đề xuất được đánh giá qua: Đường cong ROC, đường cong Precision - Recall và giá trị F1 (thuộc nhóm độ đo đánh giá tính chính xác của gợi ý); trên hai nhóm dữ liệu: Nhị phân (MSWeb, DKHP) và phi nhị phân (MovieLens); theo hai nhóm kịch bản: So sánh nội (cùng mô hình SIR nhưng khác mức độ quan trọng hàm ý thống kê) và so sánh ngoại (mô hình SIR và một số mô hình tư vấn hiện có trong gói recommenderlab: AR, POPULAR, IBCF). Kết quả thực nghiệm trên dữ liệu nhị phân cho thấy: Trong các mức độ quan trọng hàm ý thống kê, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong các mô hình tư vấn được so sánh, mô hình SIR cho hiệu quả cao nhất khi người cần tư vấn không phải là người dùng mới. Trong trường hợp người dùng mới (số xếp hạng đã biết của người này là 1), mô hình SIR cho hiệu quả tư vấn thấp hơn mô hình AR nhưng sự chênh lệch là không cao. Kết quả thực nghiệm trên dữ liệu phi nhị phân cho thấy: Trong trường 76 hợp số mục dữ liệu cần gợi ý cho người dùng không nhiều, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ hàm ý có entropy với chỉ số đóng góp; trong trường hợp ngược lại, mô hình SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ hàm ý/chỉ số gắn kết với chỉ số đóng góp. Tuy nhiên, thực tế, việc gợi ý quá nhiều mục dữ liệu sẽ làm người cần tư vấn bối rối. Vì vậy, mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR nên: (1) kết hợp cường độ hàm ý có entropy với chỉ số đóng góp để xây dựng gợi ý; (2) được sử dụng để xây dựng hệ tư vấn vì nó cho hiệu quả cao hơn các mô hình được so sánh, đặc biệt trong tình huống số xếp hạng của người cần tư vấn không quá thấp. 77 3. CHƯƠNG 3. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG Mô hình tư vấn SIR ở Chương 2 và các mô hình tư vấn cũng dựa trên phân tích hàm ý thống kê [55][60] đều sử dụng luật kết hợp trong xây dựng các gợi ý cho người dùng. Để không bỏ sót các luật có chất lượng, ngưỡng hỗ trợ và ngưỡng tin cậy thường được gán các giá trị thấp; từ đó dẫn đến số lượng luật được sinh ra cao. Khi số luật là quá lớn, các mô hình tư vấn dựa trên luật có thể gặp phải một số nhược điểm: Thời gian xây dựng kết quả gợi ý (gọi chung là thời gian tư vấn) trực tuyến lâu; máy tính có thể bị quá tải trong quá trình tính toán. Do đó, ta có thể sử dụng kỹ thuật tư vấn khác để tránh nhược điểm vừa nêu. Bên cạnh đó, giá trị xếp hạng cho sản phẩm 푖 của người cần tư vấn có thể gần giống như giá trị xếp hạng cho sản phẩm 푖 của những người có cùng sở thích với (gọi chung là các láng giềng gần nhất ). Vì vậy, kỹ thuật tư vấn lọc cộng tác dựa trên người dùng có thể được sử dụng. Trong đó, việc tìm những láng giềng gần nhất có thể dựa trên cường độ hàm ý giữa hai người dùng; việc dự đoán xếp hạng sản phẩm 푖 của được dựa trên các giá trị xếp hạng cho sản phẩm 푖 của những láng giềng gần nhất với . Không những thế, mỗi sản phẩm đều có ảnh hưởng nhất định trong việc hình thành mối quan hệ giữa người dùng và láng giềng ; cùng một sản phẩm 푖 nhưng nó ảnh hưởng khác nhau lên mối quan hệ giữa và các láng giềng. Do vậy, ta có thể kết hợp các đặc điểm vừa nêu để cải thiện tính chính xác của kết quả gợi ý. Chương 3 của luận án tập trung vào: (1) đề xuất một mức độ quan trọng hàm ý thống kê mới 퐾푛푛푈 푅 (K nearest neighbors/users based implicative rating) để dự đoán xếp hạng của người dùng; (2) đề xuất một mô hình tư vấn mới 푈 푅 (user implicative rating based model) sử dụng kỹ thuật tư vấn lọc cộng tác dựa trên láng giềng và mức độ quan trọng 퐾푛푛푈 푅; (3) đánh giá hiệu quả tư vấn của mô hình UIR qua nhóm độ đo: Tính chính xác của gợi ý trên dữ liệu nhị phân, tính chính xác của xếp hạng được dự đoán trên dữ liệu phi nhị phân và tính chính xác của gợi ý được sắp thứ tự trên cả dữ liệu nhị phân và phi nhị phân. 78 Một số kết quả nghiên cứu của Chương 3 được công bố tại Hội nghị Quốc gia lần thứ XX về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT) năm 2017 và trên Tạp chí International Journal of Advanced Computer Science and Applications (IJACSA), Vol. 8, Iss.11, năm 2017. 3.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 là một độ đo được dùng để dự đoán xếp hạng của người cần tư vấn cho các mục dữ liệu 푖 ∈ . Mục đích của việc đề xuất độ đo này là nhằm tăng cường hiệu quả tư vấn. Như đã trình bày trong phần giới thiệu chương, giá trị xếp hạng của người dùng cho mục dữ liệu 푖 có thể bị ảnh hưởng không những bởi các láng giềng gần nhất mà còn bởi chính mục dữ liệu 푖 lên mối quan hệ giữa và . Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 được phát triển từ hai mức độ quan trọng cơ sở: Cường độ hàm ý và chỉ số tiêu biểu. Tuy nhiên, khác với cách tiếp cận ở Chương 2, cường độ hàm ý sẽ đo sức mạnh của mối quan hệ giữa hai người dùng thay vì giữa các mục dữ liệu; chỉ số tiêu biểu sẽ đo sự ảnh hưởng của một mục dữ liệu đối với sự hình thành mối quan hệ giữa hai người dùng thay vì của người dùng đối sự hình thành mối quan hệ giữa các mục. Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 dự đoán xếp hạng của người cần tư vấn cho mục dữ liệu 푖 được dựa trên: (1) số láng giềng gần nhất của - những người có mối quan hệ hàm ý mạnh nhất với thông qua cường độ hàm ý; (2) các xếp hạng cho mục dữ liệu 푖 của những láng giềng gần nhất với ; (3) tính tiêu biểu của 푖 trong sự hình thành mối quan hệ giữa và . Luận án tập trung vào trường hợp số mục dữ liệu đã được xếp hạng của người cần tư vấn là không nhiều. Vì vậy, số xếp hạng đã biết của thường ít hơn số xếp hạng đã biết của các láng giềng . Khi đó, số phản ví dụ 푛 của mối quan hệ ( , ) nhỏ hơn số phản ví dụ 푛 của mối quan hệ ( , ). Dựa trên đặc điểm của phân tích hàm ý thống kê, mối quan hệ ( , ) sẽ được sử dụng trong xây dựng 퐾푛푛푈 푅. 퐾푛푛푈 푅 được định nghĩa trong công thức (3.1). 79 ( ) 퐾푛푛푈 푅 , 푖 = ∗ 훾(푖, → ) (3.1) Với: - 푛푛 là số láng giềng gần nhất với . Việc xác định các láng giềng gần nhất với được dựa trên giá trị cường độ hàm ý 휑( , ). Công thức tính 휑 đã được trình bày ở Bảng 1.4. - là xếp hạng của người dùng cho mục dữ liệu 푖. - 훾(푖, → ) là chỉ số tiêu biểu của mục dữ liệu 푖 đối với sự hình thành mối quan hệ ( , ). Công thức tính 훾 cũng đã được trình bày ở Bảng 1.4. 훾 được xem là trọng số giúp tăng/giảm ảnh hưởng của - giá trị xếp hạng cho mục dữ liệu 푖 của từng láng giềng gần nhất - trong việc dự đoán giá trị xếp hạng cho mục dữ liệu 푖 của người cần tư vấn . Nếu và là hai láng giềng gần của , cả và đều xếp hạng mục dữ liệu 푖 và 휑( , )> 휑( , ) (nghĩa là gần hơn ) thì theo công thức tính 훾, 훾(푖, → )> 훾(푖, → ) (nghĩa là tính tiêu biểu của 푖 đối với ( , ) sẽ cao hơn của 푖 đối với ( , )). Như vậy, láng giềng gần hơn láng giềng sẽ có trọng số cao hơn khi dự đoán xếp hạng cho . Công thức (3.1) cho thấy nếu dữ liệu ở dạng nhị phân, giá trị xếp hạng hàm ý thống kê 퐾푛푛푈 푅( , 푖) của người dùng cho mục dữ liệu 푖 là tổng của tất cả các chỉ số tiêu biểu của 푖 đối với sự hình thành mối quan hệ giữa và 푛푛 láng giềng gần nhất với điều kiện đã thích 푖 ( =1). Giá trị xếp hạng 퐾푛푛푈 푅( , 푖) phải được quy đổi về cùng thang đo khoảng [0, 1] như các xếp hạng đã biết bằng cách thực hiện phép chia 퐾푛푛푈 푅( , 푖)/ ∈ 퐾푛푛푈 푅( , 푙). Trong đó, ∈ 퐾푛푛푈 푅( , 푙) là giá trị lớn nhất trong tập giá trị dự đoán xếp hạng của người dùng cho các mục dữ liệu. 3.2. Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR được thể hiện tổng quát như Hình 3.1 và minh họa như Hình 3.2. Mô hình tư vấn UIR có các thành phần tương tự như mô hình SIR ở Mục 2.1. 80 - Một tập hữu hạn những người dùng 푈 ={ , ,, }. - Một tập hữu hạn các mục ={푖 ,푖 ,,푖 }. - Một ma trận xếp hạng 푅 =( ) với 푗 = 1,푛 và = 1, lưu trữ thông tin phản hồi của người dùng về các mục dữ liệu. - Một tập 푅 lưu các xếp hạng đã biết của người cần tư vấn . - Một tập 푅 lưu các xếp hạng dự đoán của người cần tư vấn cho các mục dữ liệu. - Một tập 푅푒 푙푖푠푡 lưu 표 mục được gợi ý cho người cần tư vấn . (U, I, R) ( , I, 푅 ) Cường độ hàm ý x U {휑( , ), 푗 = 1 , 푛 푛 } Xếp hạng hàm ý trên người dùng KnnUIR { | 푅 푅푒 푙푖푠푡 = 푖 푖 ∈ , ∈ 표 } x I Hình 3.1: Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR. Gọi : 푈 × → 푅 là một hàm ánh xạ từ những kết hợp của người dùng và các mục dữ liệu vào các xếp hạng . Mục tiêu của mô hình đề xuất UIR là tìm một hàm ′: 푈 × → 푅′ sao cho hàm 휉( , ′) đạt được hiệu quả tốt hơn qua nhóm độ đo đánh giá tính chính xác của xếp hạng được dự đoán (Mục 1.5.3). Bên cạnh đó, mô hình UIR cũng mong muốn đạt được hiệu quả tốt hơn qua nhóm độ đo đánh giá tính chính xác của danh sách gợi ý (Mục 1.5.2, Mục 1.5.4) khi so sánh với một số mô hình tư vấn khác. 81 Ma trận đánh giá/xếp hạng u1 u15 . . i1 i2 im u2 u1 r11 NA r1m . Cường độ u2 NA r22 r2m hàm ý 휑 ua . . u9 un rn1 NA NA knn=3 . u11 . Thông tin của người cần tư vấn un i1 i2 im-1 im ua NA ra2 ram-1 NA Xếp hạng hàm ý thống kê trên người dùng KnnUIR Các xếp hạng được dự đoán Danh sách TopN mục i1 i2 im ua {i1, i13, , im-2} ua r’a1 r’a2 r’am Hình 3.2: Minh họa của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR. Mô hình tư vấn đề xuất UIR sử dụng các mức độ quan trọng hàm ý thống kê sau đây: - Cường độ hàm ý 휑( , ) được dùng đ
File đính kèm:
- luan_an_he_tu_van_dua_tren_muc_do_quan_trong_ham_y_thong_ke.pdf
- 0_Trang phu bia luan an tien si - Phan Phuong Lan.pdf
- 2_Tom tat luan an (Tieng Viet) - Phan Phuong Lan.pdf
- 3_Tom tat luan an (Tieng Anh) - Phan Phuong Lan.pdf
- 4_Dong gop moi cua luan an (Tieng Viet) - Phan Phuong Lan.pdf
- 5_Dong gop moi cua luan an (Tieng Anh) - Phan Phuong Lan.pdf
- 6_Trich yeu luan an (Tieng Viet) - Phan Phuong Lan.pdf
- 7_Trich yeu luan an (Tieng Anh) - Phan Phuong Lan.pdf