Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội

Download
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
205 trang nguyenduy 12/05/2024 5790
Download
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội

ong chương 3. Kết quả nghiên cứu trong chương này đã được công 
bố trên Tạp chí Southeast Asian Journal of Sciences, Vol. 09, No 1 (2019), pp. 01–
10. ISSN 2286 – 7724 và Tạp chí International Journal of Advanced Computer 
Science and Applications (IJACSA) (Vol. 6, No. 2, 2015) 
 85 
 CHƯƠNG 3: MÔ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG DỰA 
 TRÊN BÀI VIẾT MỞ RỘNG 
 Trong chương này luận án phân tích một số hạn chế đã đề cập ở cuối Chương 
hai, để cải tiến mô hình tính toán và xử lý, luận án đề xuất biểu diễn người dùng qua 
mô hình bài viết có nhiều đặc trưng bao gồm nội dung, các thẻ đánh dấu, thể loại, 
quan điểm và cảm xúc. Để thực hiện đề xuất này, luận án đưa ra cách thức để ước 
lượng giá trị cho các đặc trưng và biểu diễn chúng dưới dạng các véctơ trọng số trong 
mục 3.2. Dựa trên mô hình bài viết với nhiều đặc trưng, luận án biểu diễn người dùng 
và các chủ đề cùng phương thức tính mức độ quan tâm của người dùng theo bài viết 
có nhiều đặc trưng trong mục 3.3, 3.4 và 3.5. 
3.1. XÁC ĐỊNH QUAN TÂM CỦA NGƯỜI DÙNG THEO BÀI VIẾT 
 Bài toán phát hiện quan tâm của người dùng đã được nghiên cứu và phân tích 
theo nhiều hướng tiếp cận khác nhau. Trong đó hướng tiếp cận theo bài viết hay bài 
đăng là một trong những hướng nghiên cứu được sử dụng phổ biến bởi việc thu thập 
dữ liệu không phụ thuộc quá nhiều vào cấu trúc và các dịch vụ mà mạng xã hội cung 
cấp. Theo hướng tiếp cận phân tích bài viết, các nghiên cứu đã có thường nghiên cứu 
nội dung bài viết [21] [23] [50], theo thẻ đánh dấu như nghiên cứu [145] [125], theo 
cảm xúc [152] [163] và [58]. 
 Tuy nhiên, khi phân loại bài viết theo nội dung, có thể gặp một số vấn đề có thể 
dẫn đến hiệu quả của mô hình không đạt kết quả cao như mong đợi, chẳng hạn như 
có những bài viết quá ngắn hoặc quá ít từ loại, việc bài viết quá ngắn hay quá ít từ sẽ 
bị loại bỏ khi xây dựng bộ dữ liệu thực nghiệm như vậy sẽ ảnh hưởng trực tiếp tỷ lệ 
được phân loại cũng như tác động đến số lượng các bài viết bị loại bỏ. Ví dụ với bài 
viết: “Một ngày mùa hè  #Sam Son beach#, #my family#”, có nội dung của bài viết 
chỉ có 4 từ “Một ngày mùa hè” nó có thể xếp vào chủ đề thời tiết, hoặc chủ đề xã hội, 
nhưng nếu phân tích thêm thẻ đánh dấu #Sam Son beach# thì bài viết này có liên quan 
đến chủ đề “Du lịch”, phân tích thêm thẻ đánh dấu #my family# thì bài viết này liên 
 86 
quan đến chủ đề “Gia đình”, ... Qua đó, có thể thấy rằng, nếu chỉ phân tích phần nội 
dung của bài viết sẽ không phát hiện được hết các chủ đề quan tâm của người dùng 
thể hiện qua bài viết này. Hoặc như phân loại các bài viết theo biểu hiện cảm xúc 
(emotion) mà [152] nghiên cứu thì không thể xác định được các chủ đề mà người 
dùng thực sự quan tâm, chỉ xác định được mức độ quan tâm dựa trên cảm xúc thông 
qua 6 biểu tượng cảm xúc đã nghiên cứu dựa trên khung cảm xúc của Paul Ekman đề 
xuất. Hoặc như các nghiên cứu trên thẻ đánh dấu trong [125] và [145] thì đối với các 
bài viết không có thẻ đánh dấu sẽ bị loại bỏ, hoặc các nghiên cứu đó chỉ phù hợp với 
các mạng xã hội sử dụng thẻ đánh dấu, còn các mạng xã hội khác lại không phù hợp. 
Hoặc như nghiên cứu [77] trích chọn quan tâm của người dùng dựa trên các nội dung 
bài viết và số lần thích của người dùng. Nếu bài đăng không có nội dung hoặc số lần 
thích của các bài đăng là giống nhau thì các kết quả phân tích không phân biệt được 
mức độ quan tâm cũng như không đưa ra được các chủ đề quan tâm của người dùng. 
Hoặc nghiên cứu của [63] xác định các chủ đề dựa trên các thẻ đánh dấu và nội dung 
của các tweet trên mạng xã hội Twitter.com, mỗi bài viết và thẻ đánh dấu có thể xác 
định được một chủ đề quan tâm của người dùng theo mô hình chủ đề. Tuy nhiên, cách 
phân tích này chỉ xếp mỗi bài đăng của người dùng vào một chủ đề mà không xét đến 
trường hợp, mỗi bài đăng của người dùng có thể liên quan đến nhiều chủ đề khác 
nhau. Điều này có thể gây hạn chế khi ứng dụng trong quảng cáo, khuyến nghị sản 
phẩm hay đưa ra các chủ đề quan tâm của người dùng. 
 Qua đó có thể thấy rằng, việc phân tích chỉ có nội dung bài viết, chỉ có thẻ đánh 
dấu, hoặc cảm xúc, hoặc các hành vi đơn lẻ như thích, theo dõi, ... có thể dẫn đến 
những thiếu sót khi phân tích tổng quát, hoặc dữ liệu thu thập được sẽ không đáp ứng 
được các yêu cầu trong các ứng dụng, hoặc không áp dụng được cho nhiều mạng xã 
hội khác nhau, hoặc mô hình không xác định được chính xác toàn bộ các chủ đề mà 
người dùng thực sự quan tâm. Vì vậy, với mục tiêu đưa ra được một đối tượng nghiên 
cứu nhằm cải thiện được các hạn chế đó, luận án đề xuất mô hình bài viết với nhiều 
đặc trưng có thể áp dụng cho nhiều nghiên cứu khác nhau trên các mạng xã hội khác 
nhau đặc biệt trong bài toán phát hiện quan tâm của người dùng trên các mạng xã hội. 
 87 
 Mô hình biểu diễn bài viết được luận án đề xuất bao gồm năm đặc trưng: nội 
dung, thể loại, thẻ đánh dấu, cảm xúc và quan điểm để phân loại bài viết theo các mức 
độ quan tâm đến các chủ đề. Các đặc trưng nội dung, thẻ đánh dấu có thể được thu 
thập trực tiếp từ các bài viết công khai của người dùng, cảm xúc có thể phân tích trực 
tiếp hoặc gián tiếp từ nội dung bài viết, quan điểm và thể loại có thể phát hiện từ nội 
dung bài viết và thẻ đánh dấu. Với lựa chọn này, luận án có thể sử dụng các thuật 
toán phân tích dữ liệu văn bản để ước lượng và hạn chế được những vấn đề như dữ 
liệu không đầy đủ, dữ liệu không hoàn chỉnh, hoặc dữ liệu bị thiếu hoặc rời rạc. 
3.2. MÔ HÌNH BÀI VIẾT MỞ RỘNG 
3.2.1. Mô hình bài viết 
 Trong định nghĩa 2.4 luận án đề cập đến bài viết được biểu diễn dựa trên nội 
dung, tuy nhiên với những hạn chế và các lý do đã trình bày trong mục 3.1, luận án 
mở rộng cách thức biểu diễn bài viết của người dùng trên mạng xã hội dựa trên năm 
đặc trưng gồm nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Như trong 
chương 2 đã định nghĩa, bài viết của người dùng trên các mạng xã hội là các bài đăng 
mà người dùng tạo ra hoặc chia sẻ lại từ các nguồn khác trên mạng Internet, một bài 
viết trên một mạng xã hội có thể là một video clip, một hoặc một số bức ảnh, một văn 
bản, hoặc một sự kết hợp những thành phần này. Khi đó, một bài viết mở rộng có thể 
định nghĩa: 
Định nghĩa 3.1: 
 Một bài viết 푒 ∈ trên mạng xã hội 퓝 được biểu diễn bởi năm đặc trưng: 
 푒 ={ 표푛푡, 푡, 푡 , 푠푒푛푡, 푒 표}. Trong đó: 
 - 표푛푡 là nội dung (content) của bài viết 푒 ∈ , 
 - 푡 là thể loại (category) của bài viết 푒 ∈ , 
 - 푡  là thẻ đánh dấu (tag) của bài viết 푒 ∈ , 
 - 푠푒푛푡 là quan điểm (sentiment) của bài viết 푒 ∈ , 
 - 푒 표 là cảm xúc (emotion) trong bài viết 푒 ∈ . 
 88 
 Như vậy, mỗi bài viết 푒 ∈ trên mạng xã hội 퓝, được biểu diễn bởi năm đặc 
trưng là nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Các đặc trưng của 
bài viết được mô tả chi tiết như sau: 
 Nội dung (Content) của bài viết 푒 ký hiệu là: 표푛푡. Phần nội dung của bài 
 viết trên thực tế có thể là một video clip, một hoặc một số bức ảnh, một văn 
 bản hoặc một sự kết hợp giữa chúng. Trong phạm vi của luận án, đặc trưng 
 nội dung được xác định là toàn bộ văn bản chứa trong bài viết của người 
 dùng, nội dung là đặc trưng tường minh của bài viết. Vì vậy, nội dung của 
 bài viết trong luận án có thể là một văn bản, một đoạn văn ngắn, một câu 
 hoặc một thuật ngữ. Nếu trong trường hợp đặc trưng nội dung không chứa 
 văn bản, luận án sẽ coi đặc trưng này không có hoặc không tồn tại trong bài 
 viết đó, và giá trị của đặc trưng này được tính là rỗng. 
 Thể loại (Category) của bài viết 푒 ký hiệu là: 푡. Thể loại hay nhóm của 
 các bài viết có thể hiểu là các vấn đề được ẩn chứa trong các nội dung hoặc 
 các thẻ đánh dấu. Trên mỗi mạng xã hội N, mỗi bài viết có thể liên quan 
 đến một hoặc nhiều thể loại, tùy theo nội dung của bài viết hoặc sự phân 
 loại của người dùng. 
 Thẻ đánh dấu (Tag) của bài viết 푒 ký hiệu là: 푡 . Mỗi bài viết 푒 ∈ trên 
 mạng xã hội N, có thể được gắn vào một hoặc một tập các thẻ đánh dấu, 
 cũng có thể không chứa bất kỳ thẻ đánh dấu nào, đặc trưng thẻ đánh dấu 
 của bài viết được xác định là phần văn bản nằm giữa các ký hiệu đặc biệt 
 như dấu # #, @, ... 
 Quan điểm (Sentiment) của bài viết 푒 ký hiệu là: 푠푒푛푡. Quan điểm chính 
 là góc nhìn hay khía cạnh của vấn đề mà người dùng suy nghĩ đến, hoặc là 
 cách xem xét và hiểu các sự vật, hiện tượng, sự kiện, các vấn đề của người 
 dùng trên mạng xã hội. Quan điểm của bài viết trên mạng xã hội có thể là 
 thể hiện sự đồng ý hay tích cực, sự không đồng ý hoặc tiêu cực, không ý 
 kiến hay trung lập đối với các đối tượng, sự kiện, hiện tượng. Trong luận 
 89 
 án, giá trị của đặc trưng quan điểm của các bài viết được xem xét như trình 
 bày trong Bảng 3.1, mỗi bài viết có thể có giá trị của đặc trưng quan điểm 
 là tích cực, tiêu cực hoặc trung lập. 
 Bảng 3.1: Giá trị của đặc trưng quan điểm 
 STT Giá trị Diễn giải 
 1 Positive Tích cực 
 2 Neutral Trung lập 
 3 Negative Tiêu cực 
 Bảng 3.2: Giá trị của đặc trưng cảm xúc 
 STT Biểu tượng Giá trị Diễn giải Nhóm 
1 Enjoy Vui vẻ Tích cực 
2 Happyfor Hạnh phúc Tích cực 
3 Love Yêu thương Tích cực 
4 Gratitude Biết ơn Tích cực 
5 Admiration Ngưỡng mộ Tích cực 
6 Pride Tự hào Tích cực 
7 Hope Mong chờ Tích cực 
8 Sad Buồn Tiêu cực 
9 Sorry Tiếc nuối Tiêu cực 
10 Fear Sợ hãi Tiêu cực 
11 Regret Hối tiếc Tiêu cực 
12 Disappointed Thất vọng Tiêu cực 
13 Disgust Ghê tởm Tiêu cực 
14 Angry Tức giận Tiêu cực 
15 Confused Bối rối Trung lập 
16 No Emotion Không cảm xúc Trung lập 
 Cảm xúc (Emotion) của bài viết 푒 ký hiệu là: 푒 표. Cảm xúc của bài 
 viết trên mạng xã hội là một hình thức thể hiện thái độ của người dùng 
 đối với chủ đề trình bày trong bài viết, hoặc thái độ đối với sự vật, hiện 
 tượng trên các mạng xã hội. Cảm xúc có nhiều loại: cảm xúc đạo đức, 
 90 
 cảm xúc thẩm mỹ, cảm xúc trí tuệ... Đặc điểm của của cảm xúc là có tính 
 đối lập: yêu và ghét, ưa thích và không ưa thích, xúc động và dửng dưng... 
 Các cảm xúc được xem xét trên các mạng xã hội hiện nay có rất nhiều 
 trạng thái, tuy nhiên trong luận án chỉ xem xét 16 giá trị trong Bảng 3.2 
 được dùng chung trên các trang mạng xã hội phổ biến như facebook.com, 
 twitter.com, instagram.com ... 
 Theo định nghĩa 3.1 và dựa trên các đặc trưng đã xem xét thì mỗi bài viết 푒 ∈
 có thể biểu diễn một cách hình thức như công thức (3.1): 
 푒 = ( 표푛푡, 푡, 푡 , 푠푒푛푡, 푒 표), 푖 = 1,.. 푛,∀푒 ∈ |퓝 (3.1) 
 Để thực hiện các ước lượng và tính toán đối với các bài viết theo mô hình đã đề 
xuất, luận án thực hiện tính giá trị của các đặc trưng của bài viết như sau: 
 Đặc trưng nội dung được xác định là phần nội dung văn bản trong mỗi bài 
 viết, đặc trưng nội dung là tường minh, được xác định trực tiếp. 
 Đặc trưng thẻ đánh dấu là phần văn bản có thể xác định trực tiếp từ bài viết 
 thông qua các ký hiệu đặc trưng như ##, @ ... 
 Các đặc trưng thể loại, quan điểm và cảm xúc không thể xác định trực tiếp 
 từ bài viết hay nói cách khác ba đặc trưng này là các giá trị không tường 
 minh. Vì vậy, luận án lựa chọn phương thức kế thừa một thuật toán học có 
 giám sát đã có để xác định giá trị cho các đặc trưng không tường minh này. 
 Các nhãn dùng để gán giá trị cho đặc trưng thể loại của bài viết được tính 
 toán vào phương pháp thống kê đã trình bày trong Chương 2, các nhãn dùng 
 để gán giá trị cho đặc trưng quan điểm của bài viết được trình bày trong 
 Bảng 3.1, còn các nhãn dùng để gán giá trị cho đặc trưng cảm xúc của bài 
 viết được luận án chuyển đổi dựa trên các biểu tượng cảm xúc và trình bày 
 chi tiết trong Bảng 3.3 của luận án. 
 Hiện nay có rất nhiều thuật toán gãn nhãn văn bản theo hướng học có giám sát 
được giới thiệu và sử dụng trong các nghiên cứu liên quan đến dữ liệu văn bản, tuy 
 91 
nhiên, với đặc trưng dữ liệu trên mạng xã hội có nhiều khác biệt với các bộ dữ liệu 
chuẩn như sự đa dạng trong ngôn ngữ, sự sai sót trong biểu diễn văn bản, nội dung 
văn bản thường ngắn... Luận án lựa chọn đã một số thuật toán sử dụng phương pháp 
thống kê, bởi vì một số lí do sau đây: 
 Thứ nhất, nếu dùng phương pháp thống kê, luận án có thể dễ dàng thực hiện 
 trên nhiều ngôn ngữ khác nhau cho các bộ dữ liệu thực khi thu thập dữ liệu 
 từ các trang mạng xã hội khác nhau. Điều này giúp mô hình nghiên cứu gần 
 như không phải thay đổi hay cập nhật lại trong quá trình thực nghiệm. 
 Thứ hai, các thuật toán sử dụng phương pháp ngữ nghĩa thì các mô hình đề 
 xuất khi thực thi đều phụ thuộc vào ngôn ngữ trong mô hình đề xuất, hoặc 
 phải dựa vào các bản thể học (ontology) để thực hiện, trong khi đó, bản thể 
 học cho Tiếng Việt thì chưa có nhiều và chưa có chuẩn chung. 
 Cuối cùng, dữ liệu văn bản từ các bài đăng, các bình luận, các thẻ đánh dấu 
 trên các mạng xã hội thường không đúng chuẩn ngữ pháp mà thường viết 
 tắt, dùng từ lóng theo giới trẻ, thậm chí nhiều ngôn ngữ pha trộn trong cùng 
 một đoạn văn bản. Do đó, việc áp dụng các phương pháp ngữ nghĩa sẽ gặp 
 khó khăn hơn so với việc sử dụng các phương pháp thống kê. Vì vậy, trong 
 phạm vi nghiên cứu của luận án này, các thuật toán theo phương pháp thống 
 kê sẽ được tập trung xem xét để lựa chọn tính toán giá trị cho đặc trưng thể 
 loại, quan điểm và cảm xúc của bài viết. Tuy nhiên, với mô hình đề xuất 
 trong luận án, hoàn toàn có thể sử dụng một thuật toán phân lớp văn bản 
 dựa theo tiếp cận ngữ nghĩa để ứng dụng. 
 Các thuật toán phân loại hay gán nhãn cho dữ liệu văn bản theo phương pháp 
học có giám sát với hướng tiếp cận thống kê có thể kể đến như thuật toán CNN, thuật 
toán MNB, thuật toán NB... 
 Thuật toán học sâu CNN [11] [80]: Thuật toán này dựa trên mạng nơ-ron 
 tích chập trong học sâu còn gọi Convolutional Neuron Network (CNN). 
 Thuật toán CNN hiện đang được coi là xu hướng mới của lĩnh vực học máy, 
 92 
 thuật toán CNN đã được chứng minh khá hiệu quả trong bài toán phân loại, 
 gán nhãn văn bản, đặc biệt văn bản ngắn. Các lớp cơ bản trong một mạng 
 CNN bao gồm: Lớp tích chập (Convolutional), Lớp kích hoạt phi tuyến 
 ReLU (Rectified Linear Unit), Lớp lấy mẫu (Pooling) và Lớp kết nối đầy 
 đủ (Fully-connected), được thay đổi về số lượng và cách sắp xếp để tạo ra 
 các mô hình huấn luyện phù hợp cho từng bài toán khác nhau; 
 Thuật toán dựa trên Word2Vec [11] [80]: Thuật toán này tính điểm mỗi từ 
 theo xác suất của từ đó xuất hiện trong các văn bản có nhãn hay không; 
 Thuật toán MNB [5] [11] [80]: Đây là thuật toán Multinomial Naive Bayes 
 được công bố năm 2014, dựa trên thuật toán Naive Bayes. Thuật toán MNB 
 dựa trên đặc trưng là véctơr TF-IDF của văn bản để phân lớp. 
 Ngoài ra, luận án cũng thử nghiệm với một số thuật toán phân lớp phổ biến 
 như: Naive Bayes [80], Support Véctơ Machine [80], K-Nearest Neighbors 
 [80], C4.5 ... 
 Việc lựa chọn thuật toán phù hợp cho dữ liệu là văn bản ngắn trên mạng xã hội 
được luận án thực hiện dựa trên thực nghiệm và trình bày chi tiết trong Phụ lục B của 
luận án. Các thuật toán học có giám sát được luận án so sánh với nhau dựa trên kết 
quả gán nhãn các bộ dữ liệu mẫu và bộ dữ liệu thực, thuật toán cho kết quả phù hợp 
nhất sẽ được dùng để lựa chọn cho mô hình tính toán của luận án. Sau đó, luận án 
tiến hành gán nhãn và gán các giá trị vào cho đặc trưng của tất cả các bài viết trong 
bộ dữ liệu mẫu thử nghiệm. 
3.2.2. Biểu diễn bài viết bằng véctơ 
 Với mỗi bài viết 푒 =( 표푛푡, 푡, 푡 , 푠푒푛푡, 푒 표)∈ trên mạng xã hội 퓝 
như Định nghĩa 3.1 và các đặc trưng của bài viết đã trình bày chi tiết trong mục 3.2.1, 
luận án thực hiện tính toán giá trị cho năm đặc trưng: nội dung, thể loại, thẻ đánh dấu, 
quan điểm và cảm xúc. Để biểu diễn bài viết dựa trên các đặc trưng, luận án sử dụng 
một véctơ gồm năm thành phần của năm đặc trưng. Các thành phần được phân tích 
như Định nghĩa 2.2. 
 93 
 Ký hiệu 푬 ={푒, 푒,, 푒} là tập tất các các bài viết đang xét trên mạng xã hội 
퓝, khi đó theo Định nghĩa 2.2 ở Chương 2, luận án ký hiệu lần lượt: 
 -  là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng nội 
 dung của tất cả các bài viết trong 
 -  là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng thể 
 loại của tất cả các bài viết trong 
 -  là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng thẻ 
 đánh dấu của tất cả các bài viết trong 
 -  là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng quan 
 điểm của tất cả các bài viết trong 
 -  là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng cảm 
 xúc của tất cả các bài viết trong 
 Khi đó, đặc trưng nội dung được xem là đoạn văn bản ngắn nên luận án sử dụng 
Định nghĩa 2.2. trong không gian các nội dung của bài viết ta có: 
 표푛푡 = 풗 =(푤, 푤,.. 푤) (3.2) 
 Trong đó, q là tổng số từ vựng khác nhau từng đôi một của đặc trưng nội dung 
của tất cả các bài viết đang xét sau khi thực hiện tiền xử lý 푬 풐풏풕 , (푤), = 1,.., 푖푞 
tương ứng được tính theo Định nghĩa 2.1 ở Chương 2. 
 Đặc trưng thẻ đánh dấu được xác định là phần văn bản hoặc thuật ngữ sau dấu 
@ hoặc giữa dấu ## của bài viết 푒 ∈ . Giá trị của đặc trưng thẻ đánh dấu thường 
là chuỗi văn bản có dấu hoặc không dấu được viết liền nhau nên giá trị của chúng 
bằng một véctơ chứa tập hợp các ký tự như trong công thức (3.3): 
 푡  = 풗 =(푤, 푤,.. 푤) (3.3) 
 Trong đó p là số từ của không gian thẻ đánh dấu 푬풕 품, (푤), = 1,.., 푖 tương 
ứng được tính theo Định nghĩa 2.1 ở chương 2. 
 94 
 Đặc trưng thể loại, quan điểm và cảm xúc là không tường minh nên luận án thực 
hiện việc xác định dựa trên việc gán nhãn theo nội dung hoặc các chuỗi văn bản theo 
biểu tượng cảm xúc đính kèm theo nội dung của bài viết. Những bài viết đã có giá trị 
của đặc trưng thể loại thì giá trị của chúng sẽ là thuật ngữ được xác định trực tiếp, 
tương tự một số bài viết đã có cảm xúc thì được xác định trực tiếp, còn những bài viết 
chưa xác định được giá trị của đặc trưng thể loại, hoặc cảm xúc sẽ được xác định gián 
tiếp bằng một thuật toán phân loại văn bản. Khi đó giá trị của đặc trưng thể loại được 
tính bằng: 
 푡 = 풗 =(푤, 푤,.. 푤) (3.4) 
 Trong đó l là số từ của không gian thể loại 푬 풕, (푤), = 1,.., 푖푙 tương ứng 
được tính theo Định nghĩa 2.1 ở chương 2. 
 Giá trị của đặc trưng cảm xúc là: 
 푒 표 = 풗 =(푤, 푤,.. 푤) (3.5) 
 Trong đó r là số từ của không gian thể loại 푬풆 풐, (푤), = 1,.., 푖 tương ứng 
được tính theo Định nghĩa 2.1 ở chương 2. 
 Giá trị của đặc trưng quan điểm là: 
 푠푒푛푡 = 풗 =(푤, 푤,.. 푤) (3.6) 
 Trong đó t là số từ của không gian thể loại 푬풔풆풏풕, (푤), = 1,.., 푖푡 tương ứng 
được tính theo Định nghĩa 2.1 ở chương 2. 
 Như vậy, mỗi bài viết 푒 ∈ trên mạng xã hội 퓝, được mô hình hóa bởi năm 
đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc, được biểu diễn bởi 
một véctơ có năm thành phần như trong công thức (3.7). 
 표푛푡 = 풗 =(푤 , 푤 ,.. 푤 ),
 ⎧     
 ⎪ 푡 = 풗 =(푤, 푤,.. 푤), 
 푒 = 푡  = 풗 =(푤, 푤,.. 푤), (3.7) 
 ⎨
 ⎪ 푠푒푛푡 = 풗 =(푤, 푤,.. 푤),
 ⎩ 푒 표 = 풗 =(푤, 푤,.. 푤) 
 95 
 Ví dụ với bài viết, e =“Khu vực nhà tớ sẽ làm nơi đầu tiên được xem 
Nhật thực toàn phần vào 21/8. Dân Khoa học và du lịch khắp nơi trên 
thế giới đến rất đông. Ra đường hôm nay toàn thấy biển báo chấp nhận 
tắc đường do nhật thực. Lần đầu tiên được ngắm nhật thực là năm lớp 
12. Lúc ấy vừa ra khỏi trường thì trời tối sầm lại.  #NhatThuc2018#” 
 Khi đó, giá trị các đặc trưng của bài viết được tính như sau: 
 - Giá trị của đặc trưng “Nội dung” của bài viết là: “Khu vực nhà tớ sẽ làm 
 nơi đầu tiên được xem Nhật thực toàn phần vào 21/8. Dân Khoa 
 học và du lịch khắp nơi trên thế giới đến rất đông. Ra đường 
 hôm nay toàn thấy biển báo chấp nhận tắc đường do nhật thực. 
 Lần đầu tiên được ngắm nhật thực là năm lớp 12. Lúc ấy vừa ra 
 khỏi trường thì trời tối sầm lại” 
 => Sau khi thực hiện tiền xử lý, danh sách từ vựng và trọng số của bài viết e (đã 
 sắp xếp theo thứ tự chữ cái) tương ứng là:{chấp nhận; du lịch; đầu 
 ti
File đính kèm:
luan_an_mo_hinh_hanh_vi_va_quan_tam_cua_nguoi_dung_tren_cac.pdf
LA_Nguyễn Thị Hội_TT.pdf
Nguyễn Thị Hội _E.pdf
Nguyễn Thị Hội_V.pdf