Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội
ong chương 3. Kết quả nghiên cứu trong chương này đã được công
bố trên Tạp chí Southeast Asian Journal of Sciences, Vol. 09, No 1 (2019), pp. 01–
10. ISSN 2286 – 7724 và Tạp chí International Journal of Advanced Computer
Science and Applications (IJACSA) (Vol. 6, No. 2, 2015)
85
CHƯƠNG 3: MÔ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG DỰA
TRÊN BÀI VIẾT MỞ RỘNG
Trong chương này luận án phân tích một số hạn chế đã đề cập ở cuối Chương
hai, để cải tiến mô hình tính toán và xử lý, luận án đề xuất biểu diễn người dùng qua
mô hình bài viết có nhiều đặc trưng bao gồm nội dung, các thẻ đánh dấu, thể loại,
quan điểm và cảm xúc. Để thực hiện đề xuất này, luận án đưa ra cách thức để ước
lượng giá trị cho các đặc trưng và biểu diễn chúng dưới dạng các véctơ trọng số trong
mục 3.2. Dựa trên mô hình bài viết với nhiều đặc trưng, luận án biểu diễn người dùng
và các chủ đề cùng phương thức tính mức độ quan tâm của người dùng theo bài viết
có nhiều đặc trưng trong mục 3.3, 3.4 và 3.5.
3.1. XÁC ĐỊNH QUAN TÂM CỦA NGƯỜI DÙNG THEO BÀI VIẾT
Bài toán phát hiện quan tâm của người dùng đã được nghiên cứu và phân tích
theo nhiều hướng tiếp cận khác nhau. Trong đó hướng tiếp cận theo bài viết hay bài
đăng là một trong những hướng nghiên cứu được sử dụng phổ biến bởi việc thu thập
dữ liệu không phụ thuộc quá nhiều vào cấu trúc và các dịch vụ mà mạng xã hội cung
cấp. Theo hướng tiếp cận phân tích bài viết, các nghiên cứu đã có thường nghiên cứu
nội dung bài viết [21] [23] [50], theo thẻ đánh dấu như nghiên cứu [145] [125], theo
cảm xúc [152] [163] và [58].
Tuy nhiên, khi phân loại bài viết theo nội dung, có thể gặp một số vấn đề có thể
dẫn đến hiệu quả của mô hình không đạt kết quả cao như mong đợi, chẳng hạn như
có những bài viết quá ngắn hoặc quá ít từ loại, việc bài viết quá ngắn hay quá ít từ sẽ
bị loại bỏ khi xây dựng bộ dữ liệu thực nghiệm như vậy sẽ ảnh hưởng trực tiếp tỷ lệ
được phân loại cũng như tác động đến số lượng các bài viết bị loại bỏ. Ví dụ với bài
viết: “Một ngày mùa hè #Sam Son beach#, #my family#”, có nội dung của bài viết
chỉ có 4 từ “Một ngày mùa hè” nó có thể xếp vào chủ đề thời tiết, hoặc chủ đề xã hội,
nhưng nếu phân tích thêm thẻ đánh dấu #Sam Son beach# thì bài viết này có liên quan
đến chủ đề “Du lịch”, phân tích thêm thẻ đánh dấu #my family# thì bài viết này liên
86
quan đến chủ đề “Gia đình”, ... Qua đó, có thể thấy rằng, nếu chỉ phân tích phần nội
dung của bài viết sẽ không phát hiện được hết các chủ đề quan tâm của người dùng
thể hiện qua bài viết này. Hoặc như phân loại các bài viết theo biểu hiện cảm xúc
(emotion) mà [152] nghiên cứu thì không thể xác định được các chủ đề mà người
dùng thực sự quan tâm, chỉ xác định được mức độ quan tâm dựa trên cảm xúc thông
qua 6 biểu tượng cảm xúc đã nghiên cứu dựa trên khung cảm xúc của Paul Ekman đề
xuất. Hoặc như các nghiên cứu trên thẻ đánh dấu trong [125] và [145] thì đối với các
bài viết không có thẻ đánh dấu sẽ bị loại bỏ, hoặc các nghiên cứu đó chỉ phù hợp với
các mạng xã hội sử dụng thẻ đánh dấu, còn các mạng xã hội khác lại không phù hợp.
Hoặc như nghiên cứu [77] trích chọn quan tâm của người dùng dựa trên các nội dung
bài viết và số lần thích của người dùng. Nếu bài đăng không có nội dung hoặc số lần
thích của các bài đăng là giống nhau thì các kết quả phân tích không phân biệt được
mức độ quan tâm cũng như không đưa ra được các chủ đề quan tâm của người dùng.
Hoặc nghiên cứu của [63] xác định các chủ đề dựa trên các thẻ đánh dấu và nội dung
của các tweet trên mạng xã hội Twitter.com, mỗi bài viết và thẻ đánh dấu có thể xác
định được một chủ đề quan tâm của người dùng theo mô hình chủ đề. Tuy nhiên, cách
phân tích này chỉ xếp mỗi bài đăng của người dùng vào một chủ đề mà không xét đến
trường hợp, mỗi bài đăng của người dùng có thể liên quan đến nhiều chủ đề khác
nhau. Điều này có thể gây hạn chế khi ứng dụng trong quảng cáo, khuyến nghị sản
phẩm hay đưa ra các chủ đề quan tâm của người dùng.
Qua đó có thể thấy rằng, việc phân tích chỉ có nội dung bài viết, chỉ có thẻ đánh
dấu, hoặc cảm xúc, hoặc các hành vi đơn lẻ như thích, theo dõi, ... có thể dẫn đến
những thiếu sót khi phân tích tổng quát, hoặc dữ liệu thu thập được sẽ không đáp ứng
được các yêu cầu trong các ứng dụng, hoặc không áp dụng được cho nhiều mạng xã
hội khác nhau, hoặc mô hình không xác định được chính xác toàn bộ các chủ đề mà
người dùng thực sự quan tâm. Vì vậy, với mục tiêu đưa ra được một đối tượng nghiên
cứu nhằm cải thiện được các hạn chế đó, luận án đề xuất mô hình bài viết với nhiều
đặc trưng có thể áp dụng cho nhiều nghiên cứu khác nhau trên các mạng xã hội khác
nhau đặc biệt trong bài toán phát hiện quan tâm của người dùng trên các mạng xã hội.
87
Mô hình biểu diễn bài viết được luận án đề xuất bao gồm năm đặc trưng: nội
dung, thể loại, thẻ đánh dấu, cảm xúc và quan điểm để phân loại bài viết theo các mức
độ quan tâm đến các chủ đề. Các đặc trưng nội dung, thẻ đánh dấu có thể được thu
thập trực tiếp từ các bài viết công khai của người dùng, cảm xúc có thể phân tích trực
tiếp hoặc gián tiếp từ nội dung bài viết, quan điểm và thể loại có thể phát hiện từ nội
dung bài viết và thẻ đánh dấu. Với lựa chọn này, luận án có thể sử dụng các thuật
toán phân tích dữ liệu văn bản để ước lượng và hạn chế được những vấn đề như dữ
liệu không đầy đủ, dữ liệu không hoàn chỉnh, hoặc dữ liệu bị thiếu hoặc rời rạc.
3.2. MÔ HÌNH BÀI VIẾT MỞ RỘNG
3.2.1. Mô hình bài viết
Trong định nghĩa 2.4 luận án đề cập đến bài viết được biểu diễn dựa trên nội
dung, tuy nhiên với những hạn chế và các lý do đã trình bày trong mục 3.1, luận án
mở rộng cách thức biểu diễn bài viết của người dùng trên mạng xã hội dựa trên năm
đặc trưng gồm nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Như trong
chương 2 đã định nghĩa, bài viết của người dùng trên các mạng xã hội là các bài đăng
mà người dùng tạo ra hoặc chia sẻ lại từ các nguồn khác trên mạng Internet, một bài
viết trên một mạng xã hội có thể là một video clip, một hoặc một số bức ảnh, một văn
bản, hoặc một sự kết hợp những thành phần này. Khi đó, một bài viết mở rộng có thể
định nghĩa:
Định nghĩa 3.1:
Một bài viết 푒 ∈ trên mạng xã hội 퓝 được biểu diễn bởi năm đặc trưng:
푒 ={ 표푛푡 , 푡 , 푡 , 푠푒푛푡 , 푒 표 }. Trong đó:
- 표푛푡 là nội dung (content) của bài viết 푒 ∈ ,
- 푡 là thể loại (category) của bài viết 푒 ∈ ,
- 푡 là thẻ đánh dấu (tag) của bài viết 푒 ∈ ,
- 푠푒푛푡 là quan điểm (sentiment) của bài viết 푒 ∈ ,
- 푒 표 là cảm xúc (emotion) trong bài viết 푒 ∈ .
88
Như vậy, mỗi bài viết 푒 ∈ trên mạng xã hội 퓝, được biểu diễn bởi năm đặc
trưng là nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Các đặc trưng của
bài viết được mô tả chi tiết như sau:
Nội dung (Content) của bài viết 푒 ký hiệu là: 표푛푡 . Phần nội dung của bài
viết trên thực tế có thể là một video clip, một hoặc một số bức ảnh, một văn
bản hoặc một sự kết hợp giữa chúng. Trong phạm vi của luận án, đặc trưng
nội dung được xác định là toàn bộ văn bản chứa trong bài viết của người
dùng, nội dung là đặc trưng tường minh của bài viết. Vì vậy, nội dung của
bài viết trong luận án có thể là một văn bản, một đoạn văn ngắn, một câu
hoặc một thuật ngữ. Nếu trong trường hợp đặc trưng nội dung không chứa
văn bản, luận án sẽ coi đặc trưng này không có hoặc không tồn tại trong bài
viết đó, và giá trị của đặc trưng này được tính là rỗng.
Thể loại (Category) của bài viết 푒 ký hiệu là: 푡 . Thể loại hay nhóm của
các bài viết có thể hiểu là các vấn đề được ẩn chứa trong các nội dung hoặc
các thẻ đánh dấu. Trên mỗi mạng xã hội N, mỗi bài viết có thể liên quan
đến một hoặc nhiều thể loại, tùy theo nội dung của bài viết hoặc sự phân
loại của người dùng.
Thẻ đánh dấu (Tag) của bài viết 푒 ký hiệu là: 푡 . Mỗi bài viết 푒 ∈ trên
mạng xã hội N, có thể được gắn vào một hoặc một tập các thẻ đánh dấu,
cũng có thể không chứa bất kỳ thẻ đánh dấu nào, đặc trưng thẻ đánh dấu
của bài viết được xác định là phần văn bản nằm giữa các ký hiệu đặc biệt
như dấu # #, @, ...
Quan điểm (Sentiment) của bài viết 푒 ký hiệu là: 푠푒푛푡 . Quan điểm chính
là góc nhìn hay khía cạnh của vấn đề mà người dùng suy nghĩ đến, hoặc là
cách xem xét và hiểu các sự vật, hiện tượng, sự kiện, các vấn đề của người
dùng trên mạng xã hội. Quan điểm của bài viết trên mạng xã hội có thể là
thể hiện sự đồng ý hay tích cực, sự không đồng ý hoặc tiêu cực, không ý
kiến hay trung lập đối với các đối tượng, sự kiện, hiện tượng. Trong luận
89
án, giá trị của đặc trưng quan điểm của các bài viết được xem xét như trình
bày trong Bảng 3.1, mỗi bài viết có thể có giá trị của đặc trưng quan điểm
là tích cực, tiêu cực hoặc trung lập.
Bảng 3.1: Giá trị của đặc trưng quan điểm
STT Giá trị Diễn giải
1 Positive Tích cực
2 Neutral Trung lập
3 Negative Tiêu cực
Bảng 3.2: Giá trị của đặc trưng cảm xúc
STT Biểu tượng Giá trị Diễn giải Nhóm
1 Enjoy Vui vẻ Tích cực
2 Happyfor Hạnh phúc Tích cực
3 Love Yêu thương Tích cực
4 Gratitude Biết ơn Tích cực
5 Admiration Ngưỡng mộ Tích cực
6 Pride Tự hào Tích cực
7 Hope Mong chờ Tích cực
8 Sad Buồn Tiêu cực
9 Sorry Tiếc nuối Tiêu cực
10 Fear Sợ hãi Tiêu cực
11 Regret Hối tiếc Tiêu cực
12 Disappointed Thất vọng Tiêu cực
13 Disgust Ghê tởm Tiêu cực
14 Angry Tức giận Tiêu cực
15 Confused Bối rối Trung lập
16 No Emotion Không cảm xúc Trung lập
Cảm xúc (Emotion) của bài viết 푒 ký hiệu là: 푒 표 . Cảm xúc của bài
viết trên mạng xã hội là một hình thức thể hiện thái độ của người dùng
đối với chủ đề trình bày trong bài viết, hoặc thái độ đối với sự vật, hiện
tượng trên các mạng xã hội. Cảm xúc có nhiều loại: cảm xúc đạo đức,
90
cảm xúc thẩm mỹ, cảm xúc trí tuệ... Đặc điểm của của cảm xúc là có tính
đối lập: yêu và ghét, ưa thích và không ưa thích, xúc động và dửng dưng...
Các cảm xúc được xem xét trên các mạng xã hội hiện nay có rất nhiều
trạng thái, tuy nhiên trong luận án chỉ xem xét 16 giá trị trong Bảng 3.2
được dùng chung trên các trang mạng xã hội phổ biến như facebook.com,
twitter.com, instagram.com ...
Theo định nghĩa 3.1 và dựa trên các đặc trưng đã xem xét thì mỗi bài viết 푒 ∈
có thể biểu diễn một cách hình thức như công thức (3.1):
푒 = ( 표푛푡 , 푡 , 푡 , 푠푒푛푡 , 푒 표 ), 푖 = 1,.. 푛,∀푒 ∈ |퓝 (3.1)
Để thực hiện các ước lượng và tính toán đối với các bài viết theo mô hình đã đề
xuất, luận án thực hiện tính giá trị của các đặc trưng của bài viết như sau:
Đặc trưng nội dung được xác định là phần nội dung văn bản trong mỗi bài
viết, đặc trưng nội dung là tường minh, được xác định trực tiếp.
Đặc trưng thẻ đánh dấu là phần văn bản có thể xác định trực tiếp từ bài viết
thông qua các ký hiệu đặc trưng như ##, @ ...
Các đặc trưng thể loại, quan điểm và cảm xúc không thể xác định trực tiếp
từ bài viết hay nói cách khác ba đặc trưng này là các giá trị không tường
minh. Vì vậy, luận án lựa chọn phương thức kế thừa một thuật toán học có
giám sát đã có để xác định giá trị cho các đặc trưng không tường minh này.
Các nhãn dùng để gán giá trị cho đặc trưng thể loại của bài viết được tính
toán vào phương pháp thống kê đã trình bày trong Chương 2, các nhãn dùng
để gán giá trị cho đặc trưng quan điểm của bài viết được trình bày trong
Bảng 3.1, còn các nhãn dùng để gán giá trị cho đặc trưng cảm xúc của bài
viết được luận án chuyển đổi dựa trên các biểu tượng cảm xúc và trình bày
chi tiết trong Bảng 3.3 của luận án.
Hiện nay có rất nhiều thuật toán gãn nhãn văn bản theo hướng học có giám sát
được giới thiệu và sử dụng trong các nghiên cứu liên quan đến dữ liệu văn bản, tuy
91
nhiên, với đặc trưng dữ liệu trên mạng xã hội có nhiều khác biệt với các bộ dữ liệu
chuẩn như sự đa dạng trong ngôn ngữ, sự sai sót trong biểu diễn văn bản, nội dung
văn bản thường ngắn... Luận án lựa chọn đã một số thuật toán sử dụng phương pháp
thống kê, bởi vì một số lí do sau đây:
Thứ nhất, nếu dùng phương pháp thống kê, luận án có thể dễ dàng thực hiện
trên nhiều ngôn ngữ khác nhau cho các bộ dữ liệu thực khi thu thập dữ liệu
từ các trang mạng xã hội khác nhau. Điều này giúp mô hình nghiên cứu gần
như không phải thay đổi hay cập nhật lại trong quá trình thực nghiệm.
Thứ hai, các thuật toán sử dụng phương pháp ngữ nghĩa thì các mô hình đề
xuất khi thực thi đều phụ thuộc vào ngôn ngữ trong mô hình đề xuất, hoặc
phải dựa vào các bản thể học (ontology) để thực hiện, trong khi đó, bản thể
học cho Tiếng Việt thì chưa có nhiều và chưa có chuẩn chung.
Cuối cùng, dữ liệu văn bản từ các bài đăng, các bình luận, các thẻ đánh dấu
trên các mạng xã hội thường không đúng chuẩn ngữ pháp mà thường viết
tắt, dùng từ lóng theo giới trẻ, thậm chí nhiều ngôn ngữ pha trộn trong cùng
một đoạn văn bản. Do đó, việc áp dụng các phương pháp ngữ nghĩa sẽ gặp
khó khăn hơn so với việc sử dụng các phương pháp thống kê. Vì vậy, trong
phạm vi nghiên cứu của luận án này, các thuật toán theo phương pháp thống
kê sẽ được tập trung xem xét để lựa chọn tính toán giá trị cho đặc trưng thể
loại, quan điểm và cảm xúc của bài viết. Tuy nhiên, với mô hình đề xuất
trong luận án, hoàn toàn có thể sử dụng một thuật toán phân lớp văn bản
dựa theo tiếp cận ngữ nghĩa để ứng dụng.
Các thuật toán phân loại hay gán nhãn cho dữ liệu văn bản theo phương pháp
học có giám sát với hướng tiếp cận thống kê có thể kể đến như thuật toán CNN, thuật
toán MNB, thuật toán NB...
Thuật toán học sâu CNN [11] [80]: Thuật toán này dựa trên mạng nơ-ron
tích chập trong học sâu còn gọi Convolutional Neuron Network (CNN).
Thuật toán CNN hiện đang được coi là xu hướng mới của lĩnh vực học máy,
92
thuật toán CNN đã được chứng minh khá hiệu quả trong bài toán phân loại,
gán nhãn văn bản, đặc biệt văn bản ngắn. Các lớp cơ bản trong một mạng
CNN bao gồm: Lớp tích chập (Convolutional), Lớp kích hoạt phi tuyến
ReLU (Rectified Linear Unit), Lớp lấy mẫu (Pooling) và Lớp kết nối đầy
đủ (Fully-connected), được thay đổi về số lượng và cách sắp xếp để tạo ra
các mô hình huấn luyện phù hợp cho từng bài toán khác nhau;
Thuật toán dựa trên Word2Vec [11] [80]: Thuật toán này tính điểm mỗi từ
theo xác suất của từ đó xuất hiện trong các văn bản có nhãn hay không;
Thuật toán MNB [5] [11] [80]: Đây là thuật toán Multinomial Naive Bayes
được công bố năm 2014, dựa trên thuật toán Naive Bayes. Thuật toán MNB
dựa trên đặc trưng là véctơr TF-IDF của văn bản để phân lớp.
Ngoài ra, luận án cũng thử nghiệm với một số thuật toán phân lớp phổ biến
như: Naive Bayes [80], Support Véctơ Machine [80], K-Nearest Neighbors
[80], C4.5 ...
Việc lựa chọn thuật toán phù hợp cho dữ liệu là văn bản ngắn trên mạng xã hội
được luận án thực hiện dựa trên thực nghiệm và trình bày chi tiết trong Phụ lục B của
luận án. Các thuật toán học có giám sát được luận án so sánh với nhau dựa trên kết
quả gán nhãn các bộ dữ liệu mẫu và bộ dữ liệu thực, thuật toán cho kết quả phù hợp
nhất sẽ được dùng để lựa chọn cho mô hình tính toán của luận án. Sau đó, luận án
tiến hành gán nhãn và gán các giá trị vào cho đặc trưng của tất cả các bài viết trong
bộ dữ liệu mẫu thử nghiệm.
3.2.2. Biểu diễn bài viết bằng véctơ
Với mỗi bài viết 푒 =( 표푛푡 , 푡 , 푡 , 푠푒푛푡 , 푒 표 )∈ trên mạng xã hội 퓝
như Định nghĩa 3.1 và các đặc trưng của bài viết đã trình bày chi tiết trong mục 3.2.1,
luận án thực hiện tính toán giá trị cho năm đặc trưng: nội dung, thể loại, thẻ đánh dấu,
quan điểm và cảm xúc. Để biểu diễn bài viết dựa trên các đặc trưng, luận án sử dụng
một véctơ gồm năm thành phần của năm đặc trưng. Các thành phần được phân tích
như Định nghĩa 2.2.
93
Ký hiệu 푬 ={푒 , 푒 ,, 푒 } là tập tất các các bài viết đang xét trên mạng xã hội
퓝, khi đó theo Định nghĩa 2.2 ở Chương 2, luận án ký hiệu lần lượt:
- là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng nội
dung của tất cả các bài viết trong
- là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng thể
loại của tất cả các bài viết trong
- là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng thẻ
đánh dấu của tất cả các bài viết trong
- là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng quan
điểm của tất cả các bài viết trong
- là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng cảm
xúc của tất cả các bài viết trong
Khi đó, đặc trưng nội dung được xem là đoạn văn bản ngắn nên luận án sử dụng
Định nghĩa 2.2. trong không gian các nội dung của bài viết ta có:
표푛푡 = 풗 =(푤 , 푤 ,.. 푤 ) (3.2)
Trong đó, q là tổng số từ vựng khác nhau từng đôi một của đặc trưng nội dung
của tất cả các bài viết đang xét sau khi thực hiện tiền xử lý 푬 풐풏풕 , (푤 ), = 1,.., 푖푞
tương ứng được tính theo Định nghĩa 2.1 ở Chương 2.
Đặc trưng thẻ đánh dấu được xác định là phần văn bản hoặc thuật ngữ sau dấu
@ hoặc giữa dấu ## của bài viết 푒 ∈ . Giá trị của đặc trưng thẻ đánh dấu thường
là chuỗi văn bản có dấu hoặc không dấu được viết liền nhau nên giá trị của chúng
bằng một véctơ chứa tập hợp các ký tự như trong công thức (3.3):
푡 = 풗 =(푤 , 푤 ,.. 푤 ) (3.3)
Trong đó p là số từ của không gian thẻ đánh dấu 푬풕 품, (푤 ), = 1,.., 푖 tương
ứng được tính theo Định nghĩa 2.1 ở chương 2.
94
Đặc trưng thể loại, quan điểm và cảm xúc là không tường minh nên luận án thực
hiện việc xác định dựa trên việc gán nhãn theo nội dung hoặc các chuỗi văn bản theo
biểu tượng cảm xúc đính kèm theo nội dung của bài viết. Những bài viết đã có giá trị
của đặc trưng thể loại thì giá trị của chúng sẽ là thuật ngữ được xác định trực tiếp,
tương tự một số bài viết đã có cảm xúc thì được xác định trực tiếp, còn những bài viết
chưa xác định được giá trị của đặc trưng thể loại, hoặc cảm xúc sẽ được xác định gián
tiếp bằng một thuật toán phân loại văn bản. Khi đó giá trị của đặc trưng thể loại được
tính bằng:
푡 = 풗 =(푤 , 푤 ,.. 푤 ) (3.4)
Trong đó l là số từ của không gian thể loại 푬 풕, (푤 ), = 1,.., 푖푙 tương ứng
được tính theo Định nghĩa 2.1 ở chương 2.
Giá trị của đặc trưng cảm xúc là:
푒 표 = 풗 =(푤 , 푤 ,.. 푤 ) (3.5)
Trong đó r là số từ của không gian thể loại 푬풆 풐, (푤 ), = 1,.., 푖 tương ứng
được tính theo Định nghĩa 2.1 ở chương 2.
Giá trị của đặc trưng quan điểm là:
푠푒푛푡 = 풗 =(푤 , 푤 ,.. 푤 ) (3.6)
Trong đó t là số từ của không gian thể loại 푬풔풆풏풕, (푤 ), = 1,.., 푖푡 tương ứng
được tính theo Định nghĩa 2.1 ở chương 2.
Như vậy, mỗi bài viết 푒 ∈ trên mạng xã hội 퓝, được mô hình hóa bởi năm
đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc, được biểu diễn bởi
một véctơ có năm thành phần như trong công thức (3.7).
표푛푡 = 풗 =(푤 , 푤 ,.. 푤 ),
⎧
⎪ 푡 = 풗 =(푤 , 푤 ,.. 푤 ),
푒 = 푡 = 풗 =(푤 , 푤 ,.. 푤 ), (3.7)
⎨
⎪ 푠푒푛푡 = 풗 =(푤 , 푤 ,.. 푤 ),
⎩ 푒 표 = 풗 =(푤 , 푤 ,.. 푤 )
95
Ví dụ với bài viết, e =“Khu vực nhà tớ sẽ làm nơi đầu tiên được xem
Nhật thực toàn phần vào 21/8. Dân Khoa học và du lịch khắp nơi trên
thế giới đến rất đông. Ra đường hôm nay toàn thấy biển báo chấp nhận
tắc đường do nhật thực. Lần đầu tiên được ngắm nhật thực là năm lớp
12. Lúc ấy vừa ra khỏi trường thì trời tối sầm lại. #NhatThuc2018#”
Khi đó, giá trị các đặc trưng của bài viết được tính như sau:
- Giá trị của đặc trưng “Nội dung” của bài viết là: “Khu vực nhà tớ sẽ làm
nơi đầu tiên được xem Nhật thực toàn phần vào 21/8. Dân Khoa
học và du lịch khắp nơi trên thế giới đến rất đông. Ra đường
hôm nay toàn thấy biển báo chấp nhận tắc đường do nhật thực.
Lần đầu tiên được ngắm nhật thực là năm lớp 12. Lúc ấy vừa ra
khỏi trường thì trời tối sầm lại”
=> Sau khi thực hiện tiền xử lý, danh sách từ vựng và trọng số của bài viết e (đã
sắp xếp theo thứ tự chữ cái) tương ứng là:{chấp nhận; du lịch; đầu
tiFile đính kèm:
luan_an_mo_hinh_hanh_vi_va_quan_tam_cua_nguoi_dung_tren_cac.pdf
LA_Nguyễn Thị Hội_TT.pdf
Nguyễn Thị Hội _E.pdf
Nguyễn Thị Hội_V.pdf

