Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội
ong chương 3. Kết quả nghiên cứu trong chương này đã được công bố trên Tạp chí Southeast Asian Journal of Sciences, Vol. 09, No 1 (2019), pp. 01– 10. ISSN 2286 – 7724 và Tạp chí International Journal of Advanced Computer Science and Applications (IJACSA) (Vol. 6, No. 2, 2015) 85 CHƯƠNG 3: MÔ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG DỰA TRÊN BÀI VIẾT MỞ RỘNG Trong chương này luận án phân tích một số hạn chế đã đề cập ở cuối Chương hai, để cải tiến mô hình tính toán và xử lý, luận án đề xuất biểu diễn người dùng qua mô hình bài viết có nhiều đặc trưng bao gồm nội dung, các thẻ đánh dấu, thể loại, quan điểm và cảm xúc. Để thực hiện đề xuất này, luận án đưa ra cách thức để ước lượng giá trị cho các đặc trưng và biểu diễn chúng dưới dạng các véctơ trọng số trong mục 3.2. Dựa trên mô hình bài viết với nhiều đặc trưng, luận án biểu diễn người dùng và các chủ đề cùng phương thức tính mức độ quan tâm của người dùng theo bài viết có nhiều đặc trưng trong mục 3.3, 3.4 và 3.5. 3.1. XÁC ĐỊNH QUAN TÂM CỦA NGƯỜI DÙNG THEO BÀI VIẾT Bài toán phát hiện quan tâm của người dùng đã được nghiên cứu và phân tích theo nhiều hướng tiếp cận khác nhau. Trong đó hướng tiếp cận theo bài viết hay bài đăng là một trong những hướng nghiên cứu được sử dụng phổ biến bởi việc thu thập dữ liệu không phụ thuộc quá nhiều vào cấu trúc và các dịch vụ mà mạng xã hội cung cấp. Theo hướng tiếp cận phân tích bài viết, các nghiên cứu đã có thường nghiên cứu nội dung bài viết [21] [23] [50], theo thẻ đánh dấu như nghiên cứu [145] [125], theo cảm xúc [152] [163] và [58]. Tuy nhiên, khi phân loại bài viết theo nội dung, có thể gặp một số vấn đề có thể dẫn đến hiệu quả của mô hình không đạt kết quả cao như mong đợi, chẳng hạn như có những bài viết quá ngắn hoặc quá ít từ loại, việc bài viết quá ngắn hay quá ít từ sẽ bị loại bỏ khi xây dựng bộ dữ liệu thực nghiệm như vậy sẽ ảnh hưởng trực tiếp tỷ lệ được phân loại cũng như tác động đến số lượng các bài viết bị loại bỏ. Ví dụ với bài viết: “Một ngày mùa hè #Sam Son beach#, #my family#”, có nội dung của bài viết chỉ có 4 từ “Một ngày mùa hè” nó có thể xếp vào chủ đề thời tiết, hoặc chủ đề xã hội, nhưng nếu phân tích thêm thẻ đánh dấu #Sam Son beach# thì bài viết này có liên quan đến chủ đề “Du lịch”, phân tích thêm thẻ đánh dấu #my family# thì bài viết này liên 86 quan đến chủ đề “Gia đình”, ... Qua đó, có thể thấy rằng, nếu chỉ phân tích phần nội dung của bài viết sẽ không phát hiện được hết các chủ đề quan tâm của người dùng thể hiện qua bài viết này. Hoặc như phân loại các bài viết theo biểu hiện cảm xúc (emotion) mà [152] nghiên cứu thì không thể xác định được các chủ đề mà người dùng thực sự quan tâm, chỉ xác định được mức độ quan tâm dựa trên cảm xúc thông qua 6 biểu tượng cảm xúc đã nghiên cứu dựa trên khung cảm xúc của Paul Ekman đề xuất. Hoặc như các nghiên cứu trên thẻ đánh dấu trong [125] và [145] thì đối với các bài viết không có thẻ đánh dấu sẽ bị loại bỏ, hoặc các nghiên cứu đó chỉ phù hợp với các mạng xã hội sử dụng thẻ đánh dấu, còn các mạng xã hội khác lại không phù hợp. Hoặc như nghiên cứu [77] trích chọn quan tâm của người dùng dựa trên các nội dung bài viết và số lần thích của người dùng. Nếu bài đăng không có nội dung hoặc số lần thích của các bài đăng là giống nhau thì các kết quả phân tích không phân biệt được mức độ quan tâm cũng như không đưa ra được các chủ đề quan tâm của người dùng. Hoặc nghiên cứu của [63] xác định các chủ đề dựa trên các thẻ đánh dấu và nội dung của các tweet trên mạng xã hội Twitter.com, mỗi bài viết và thẻ đánh dấu có thể xác định được một chủ đề quan tâm của người dùng theo mô hình chủ đề. Tuy nhiên, cách phân tích này chỉ xếp mỗi bài đăng của người dùng vào một chủ đề mà không xét đến trường hợp, mỗi bài đăng của người dùng có thể liên quan đến nhiều chủ đề khác nhau. Điều này có thể gây hạn chế khi ứng dụng trong quảng cáo, khuyến nghị sản phẩm hay đưa ra các chủ đề quan tâm của người dùng. Qua đó có thể thấy rằng, việc phân tích chỉ có nội dung bài viết, chỉ có thẻ đánh dấu, hoặc cảm xúc, hoặc các hành vi đơn lẻ như thích, theo dõi, ... có thể dẫn đến những thiếu sót khi phân tích tổng quát, hoặc dữ liệu thu thập được sẽ không đáp ứng được các yêu cầu trong các ứng dụng, hoặc không áp dụng được cho nhiều mạng xã hội khác nhau, hoặc mô hình không xác định được chính xác toàn bộ các chủ đề mà người dùng thực sự quan tâm. Vì vậy, với mục tiêu đưa ra được một đối tượng nghiên cứu nhằm cải thiện được các hạn chế đó, luận án đề xuất mô hình bài viết với nhiều đặc trưng có thể áp dụng cho nhiều nghiên cứu khác nhau trên các mạng xã hội khác nhau đặc biệt trong bài toán phát hiện quan tâm của người dùng trên các mạng xã hội. 87 Mô hình biểu diễn bài viết được luận án đề xuất bao gồm năm đặc trưng: nội dung, thể loại, thẻ đánh dấu, cảm xúc và quan điểm để phân loại bài viết theo các mức độ quan tâm đến các chủ đề. Các đặc trưng nội dung, thẻ đánh dấu có thể được thu thập trực tiếp từ các bài viết công khai của người dùng, cảm xúc có thể phân tích trực tiếp hoặc gián tiếp từ nội dung bài viết, quan điểm và thể loại có thể phát hiện từ nội dung bài viết và thẻ đánh dấu. Với lựa chọn này, luận án có thể sử dụng các thuật toán phân tích dữ liệu văn bản để ước lượng và hạn chế được những vấn đề như dữ liệu không đầy đủ, dữ liệu không hoàn chỉnh, hoặc dữ liệu bị thiếu hoặc rời rạc. 3.2. MÔ HÌNH BÀI VIẾT MỞ RỘNG 3.2.1. Mô hình bài viết Trong định nghĩa 2.4 luận án đề cập đến bài viết được biểu diễn dựa trên nội dung, tuy nhiên với những hạn chế và các lý do đã trình bày trong mục 3.1, luận án mở rộng cách thức biểu diễn bài viết của người dùng trên mạng xã hội dựa trên năm đặc trưng gồm nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Như trong chương 2 đã định nghĩa, bài viết của người dùng trên các mạng xã hội là các bài đăng mà người dùng tạo ra hoặc chia sẻ lại từ các nguồn khác trên mạng Internet, một bài viết trên một mạng xã hội có thể là một video clip, một hoặc một số bức ảnh, một văn bản, hoặc một sự kết hợp những thành phần này. Khi đó, một bài viết mở rộng có thể định nghĩa: Định nghĩa 3.1: Một bài viết 푒 ∈ trên mạng xã hội 퓝 được biểu diễn bởi năm đặc trưng: 푒 ={ 표푛푡 , 푡 , 푡 , 푠푒푛푡 , 푒 표 }. Trong đó: - 표푛푡 là nội dung (content) của bài viết 푒 ∈ , - 푡 là thể loại (category) của bài viết 푒 ∈ , - 푡 là thẻ đánh dấu (tag) của bài viết 푒 ∈ , - 푠푒푛푡 là quan điểm (sentiment) của bài viết 푒 ∈ , - 푒 표 là cảm xúc (emotion) trong bài viết 푒 ∈ . 88 Như vậy, mỗi bài viết 푒 ∈ trên mạng xã hội 퓝, được biểu diễn bởi năm đặc trưng là nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Các đặc trưng của bài viết được mô tả chi tiết như sau: Nội dung (Content) của bài viết 푒 ký hiệu là: 표푛푡 . Phần nội dung của bài viết trên thực tế có thể là một video clip, một hoặc một số bức ảnh, một văn bản hoặc một sự kết hợp giữa chúng. Trong phạm vi của luận án, đặc trưng nội dung được xác định là toàn bộ văn bản chứa trong bài viết của người dùng, nội dung là đặc trưng tường minh của bài viết. Vì vậy, nội dung của bài viết trong luận án có thể là một văn bản, một đoạn văn ngắn, một câu hoặc một thuật ngữ. Nếu trong trường hợp đặc trưng nội dung không chứa văn bản, luận án sẽ coi đặc trưng này không có hoặc không tồn tại trong bài viết đó, và giá trị của đặc trưng này được tính là rỗng. Thể loại (Category) của bài viết 푒 ký hiệu là: 푡 . Thể loại hay nhóm của các bài viết có thể hiểu là các vấn đề được ẩn chứa trong các nội dung hoặc các thẻ đánh dấu. Trên mỗi mạng xã hội N, mỗi bài viết có thể liên quan đến một hoặc nhiều thể loại, tùy theo nội dung của bài viết hoặc sự phân loại của người dùng. Thẻ đánh dấu (Tag) của bài viết 푒 ký hiệu là: 푡 . Mỗi bài viết 푒 ∈ trên mạng xã hội N, có thể được gắn vào một hoặc một tập các thẻ đánh dấu, cũng có thể không chứa bất kỳ thẻ đánh dấu nào, đặc trưng thẻ đánh dấu của bài viết được xác định là phần văn bản nằm giữa các ký hiệu đặc biệt như dấu # #, @, ... Quan điểm (Sentiment) của bài viết 푒 ký hiệu là: 푠푒푛푡 . Quan điểm chính là góc nhìn hay khía cạnh của vấn đề mà người dùng suy nghĩ đến, hoặc là cách xem xét và hiểu các sự vật, hiện tượng, sự kiện, các vấn đề của người dùng trên mạng xã hội. Quan điểm của bài viết trên mạng xã hội có thể là thể hiện sự đồng ý hay tích cực, sự không đồng ý hoặc tiêu cực, không ý kiến hay trung lập đối với các đối tượng, sự kiện, hiện tượng. Trong luận 89 án, giá trị của đặc trưng quan điểm của các bài viết được xem xét như trình bày trong Bảng 3.1, mỗi bài viết có thể có giá trị của đặc trưng quan điểm là tích cực, tiêu cực hoặc trung lập. Bảng 3.1: Giá trị của đặc trưng quan điểm STT Giá trị Diễn giải 1 Positive Tích cực 2 Neutral Trung lập 3 Negative Tiêu cực Bảng 3.2: Giá trị của đặc trưng cảm xúc STT Biểu tượng Giá trị Diễn giải Nhóm 1 Enjoy Vui vẻ Tích cực 2 Happyfor Hạnh phúc Tích cực 3 Love Yêu thương Tích cực 4 Gratitude Biết ơn Tích cực 5 Admiration Ngưỡng mộ Tích cực 6 Pride Tự hào Tích cực 7 Hope Mong chờ Tích cực 8 Sad Buồn Tiêu cực 9 Sorry Tiếc nuối Tiêu cực 10 Fear Sợ hãi Tiêu cực 11 Regret Hối tiếc Tiêu cực 12 Disappointed Thất vọng Tiêu cực 13 Disgust Ghê tởm Tiêu cực 14 Angry Tức giận Tiêu cực 15 Confused Bối rối Trung lập 16 No Emotion Không cảm xúc Trung lập Cảm xúc (Emotion) của bài viết 푒 ký hiệu là: 푒 표 . Cảm xúc của bài viết trên mạng xã hội là một hình thức thể hiện thái độ của người dùng đối với chủ đề trình bày trong bài viết, hoặc thái độ đối với sự vật, hiện tượng trên các mạng xã hội. Cảm xúc có nhiều loại: cảm xúc đạo đức, 90 cảm xúc thẩm mỹ, cảm xúc trí tuệ... Đặc điểm của của cảm xúc là có tính đối lập: yêu và ghét, ưa thích và không ưa thích, xúc động và dửng dưng... Các cảm xúc được xem xét trên các mạng xã hội hiện nay có rất nhiều trạng thái, tuy nhiên trong luận án chỉ xem xét 16 giá trị trong Bảng 3.2 được dùng chung trên các trang mạng xã hội phổ biến như facebook.com, twitter.com, instagram.com ... Theo định nghĩa 3.1 và dựa trên các đặc trưng đã xem xét thì mỗi bài viết 푒 ∈ có thể biểu diễn một cách hình thức như công thức (3.1): 푒 = ( 표푛푡 , 푡 , 푡 , 푠푒푛푡 , 푒 표 ), 푖 = 1,.. 푛,∀푒 ∈ |퓝 (3.1) Để thực hiện các ước lượng và tính toán đối với các bài viết theo mô hình đã đề xuất, luận án thực hiện tính giá trị của các đặc trưng của bài viết như sau: Đặc trưng nội dung được xác định là phần nội dung văn bản trong mỗi bài viết, đặc trưng nội dung là tường minh, được xác định trực tiếp. Đặc trưng thẻ đánh dấu là phần văn bản có thể xác định trực tiếp từ bài viết thông qua các ký hiệu đặc trưng như ##, @ ... Các đặc trưng thể loại, quan điểm và cảm xúc không thể xác định trực tiếp từ bài viết hay nói cách khác ba đặc trưng này là các giá trị không tường minh. Vì vậy, luận án lựa chọn phương thức kế thừa một thuật toán học có giám sát đã có để xác định giá trị cho các đặc trưng không tường minh này. Các nhãn dùng để gán giá trị cho đặc trưng thể loại của bài viết được tính toán vào phương pháp thống kê đã trình bày trong Chương 2, các nhãn dùng để gán giá trị cho đặc trưng quan điểm của bài viết được trình bày trong Bảng 3.1, còn các nhãn dùng để gán giá trị cho đặc trưng cảm xúc của bài viết được luận án chuyển đổi dựa trên các biểu tượng cảm xúc và trình bày chi tiết trong Bảng 3.3 của luận án. Hiện nay có rất nhiều thuật toán gãn nhãn văn bản theo hướng học có giám sát được giới thiệu và sử dụng trong các nghiên cứu liên quan đến dữ liệu văn bản, tuy 91 nhiên, với đặc trưng dữ liệu trên mạng xã hội có nhiều khác biệt với các bộ dữ liệu chuẩn như sự đa dạng trong ngôn ngữ, sự sai sót trong biểu diễn văn bản, nội dung văn bản thường ngắn... Luận án lựa chọn đã một số thuật toán sử dụng phương pháp thống kê, bởi vì một số lí do sau đây: Thứ nhất, nếu dùng phương pháp thống kê, luận án có thể dễ dàng thực hiện trên nhiều ngôn ngữ khác nhau cho các bộ dữ liệu thực khi thu thập dữ liệu từ các trang mạng xã hội khác nhau. Điều này giúp mô hình nghiên cứu gần như không phải thay đổi hay cập nhật lại trong quá trình thực nghiệm. Thứ hai, các thuật toán sử dụng phương pháp ngữ nghĩa thì các mô hình đề xuất khi thực thi đều phụ thuộc vào ngôn ngữ trong mô hình đề xuất, hoặc phải dựa vào các bản thể học (ontology) để thực hiện, trong khi đó, bản thể học cho Tiếng Việt thì chưa có nhiều và chưa có chuẩn chung. Cuối cùng, dữ liệu văn bản từ các bài đăng, các bình luận, các thẻ đánh dấu trên các mạng xã hội thường không đúng chuẩn ngữ pháp mà thường viết tắt, dùng từ lóng theo giới trẻ, thậm chí nhiều ngôn ngữ pha trộn trong cùng một đoạn văn bản. Do đó, việc áp dụng các phương pháp ngữ nghĩa sẽ gặp khó khăn hơn so với việc sử dụng các phương pháp thống kê. Vì vậy, trong phạm vi nghiên cứu của luận án này, các thuật toán theo phương pháp thống kê sẽ được tập trung xem xét để lựa chọn tính toán giá trị cho đặc trưng thể loại, quan điểm và cảm xúc của bài viết. Tuy nhiên, với mô hình đề xuất trong luận án, hoàn toàn có thể sử dụng một thuật toán phân lớp văn bản dựa theo tiếp cận ngữ nghĩa để ứng dụng. Các thuật toán phân loại hay gán nhãn cho dữ liệu văn bản theo phương pháp học có giám sát với hướng tiếp cận thống kê có thể kể đến như thuật toán CNN, thuật toán MNB, thuật toán NB... Thuật toán học sâu CNN [11] [80]: Thuật toán này dựa trên mạng nơ-ron tích chập trong học sâu còn gọi Convolutional Neuron Network (CNN). Thuật toán CNN hiện đang được coi là xu hướng mới của lĩnh vực học máy, 92 thuật toán CNN đã được chứng minh khá hiệu quả trong bài toán phân loại, gán nhãn văn bản, đặc biệt văn bản ngắn. Các lớp cơ bản trong một mạng CNN bao gồm: Lớp tích chập (Convolutional), Lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit), Lớp lấy mẫu (Pooling) và Lớp kết nối đầy đủ (Fully-connected), được thay đổi về số lượng và cách sắp xếp để tạo ra các mô hình huấn luyện phù hợp cho từng bài toán khác nhau; Thuật toán dựa trên Word2Vec [11] [80]: Thuật toán này tính điểm mỗi từ theo xác suất của từ đó xuất hiện trong các văn bản có nhãn hay không; Thuật toán MNB [5] [11] [80]: Đây là thuật toán Multinomial Naive Bayes được công bố năm 2014, dựa trên thuật toán Naive Bayes. Thuật toán MNB dựa trên đặc trưng là véctơr TF-IDF của văn bản để phân lớp. Ngoài ra, luận án cũng thử nghiệm với một số thuật toán phân lớp phổ biến như: Naive Bayes [80], Support Véctơ Machine [80], K-Nearest Neighbors [80], C4.5 ... Việc lựa chọn thuật toán phù hợp cho dữ liệu là văn bản ngắn trên mạng xã hội được luận án thực hiện dựa trên thực nghiệm và trình bày chi tiết trong Phụ lục B của luận án. Các thuật toán học có giám sát được luận án so sánh với nhau dựa trên kết quả gán nhãn các bộ dữ liệu mẫu và bộ dữ liệu thực, thuật toán cho kết quả phù hợp nhất sẽ được dùng để lựa chọn cho mô hình tính toán của luận án. Sau đó, luận án tiến hành gán nhãn và gán các giá trị vào cho đặc trưng của tất cả các bài viết trong bộ dữ liệu mẫu thử nghiệm. 3.2.2. Biểu diễn bài viết bằng véctơ Với mỗi bài viết 푒 =( 표푛푡 , 푡 , 푡 , 푠푒푛푡 , 푒 표 )∈ trên mạng xã hội 퓝 như Định nghĩa 3.1 và các đặc trưng của bài viết đã trình bày chi tiết trong mục 3.2.1, luận án thực hiện tính toán giá trị cho năm đặc trưng: nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Để biểu diễn bài viết dựa trên các đặc trưng, luận án sử dụng một véctơ gồm năm thành phần của năm đặc trưng. Các thành phần được phân tích như Định nghĩa 2.2. 93 Ký hiệu 푬 ={푒 , 푒 ,, 푒 } là tập tất các các bài viết đang xét trên mạng xã hội 퓝, khi đó theo Định nghĩa 2.2 ở Chương 2, luận án ký hiệu lần lượt: - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng nội dung của tất cả các bài viết trong - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng thể loại của tất cả các bài viết trong - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng thẻ đánh dấu của tất cả các bài viết trong - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng quan điểm của tất cả các bài viết trong - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng cảm xúc của tất cả các bài viết trong Khi đó, đặc trưng nội dung được xem là đoạn văn bản ngắn nên luận án sử dụng Định nghĩa 2.2. trong không gian các nội dung của bài viết ta có: 표푛푡 = 풗 =(푤 , 푤 ,.. 푤 ) (3.2) Trong đó, q là tổng số từ vựng khác nhau từng đôi một của đặc trưng nội dung của tất cả các bài viết đang xét sau khi thực hiện tiền xử lý 푬 풐풏풕 , (푤 ), = 1,.., 푖푞 tương ứng được tính theo Định nghĩa 2.1 ở Chương 2. Đặc trưng thẻ đánh dấu được xác định là phần văn bản hoặc thuật ngữ sau dấu @ hoặc giữa dấu ## của bài viết 푒 ∈ . Giá trị của đặc trưng thẻ đánh dấu thường là chuỗi văn bản có dấu hoặc không dấu được viết liền nhau nên giá trị của chúng bằng một véctơ chứa tập hợp các ký tự như trong công thức (3.3): 푡 = 풗 =(푤 , 푤 ,.. 푤 ) (3.3) Trong đó p là số từ của không gian thẻ đánh dấu 푬풕 품, (푤 ), = 1,.., 푖 tương ứng được tính theo Định nghĩa 2.1 ở chương 2. 94 Đặc trưng thể loại, quan điểm và cảm xúc là không tường minh nên luận án thực hiện việc xác định dựa trên việc gán nhãn theo nội dung hoặc các chuỗi văn bản theo biểu tượng cảm xúc đính kèm theo nội dung của bài viết. Những bài viết đã có giá trị của đặc trưng thể loại thì giá trị của chúng sẽ là thuật ngữ được xác định trực tiếp, tương tự một số bài viết đã có cảm xúc thì được xác định trực tiếp, còn những bài viết chưa xác định được giá trị của đặc trưng thể loại, hoặc cảm xúc sẽ được xác định gián tiếp bằng một thuật toán phân loại văn bản. Khi đó giá trị của đặc trưng thể loại được tính bằng: 푡 = 풗 =(푤 , 푤 ,.. 푤 ) (3.4) Trong đó l là số từ của không gian thể loại 푬 풕, (푤 ), = 1,.., 푖푙 tương ứng được tính theo Định nghĩa 2.1 ở chương 2. Giá trị của đặc trưng cảm xúc là: 푒 표 = 풗 =(푤 , 푤 ,.. 푤 ) (3.5) Trong đó r là số từ của không gian thể loại 푬풆 풐, (푤 ), = 1,.., 푖 tương ứng được tính theo Định nghĩa 2.1 ở chương 2. Giá trị của đặc trưng quan điểm là: 푠푒푛푡 = 풗 =(푤 , 푤 ,.. 푤 ) (3.6) Trong đó t là số từ của không gian thể loại 푬풔풆풏풕, (푤 ), = 1,.., 푖푡 tương ứng được tính theo Định nghĩa 2.1 ở chương 2. Như vậy, mỗi bài viết 푒 ∈ trên mạng xã hội 퓝, được mô hình hóa bởi năm đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc, được biểu diễn bởi một véctơ có năm thành phần như trong công thức (3.7). 표푛푡 = 풗 =(푤 , 푤 ,.. 푤 ), ⎧ ⎪ 푡 = 풗 =(푤 , 푤 ,.. 푤 ), 푒 = 푡 = 풗 =(푤 , 푤 ,.. 푤 ), (3.7) ⎨ ⎪ 푠푒푛푡 = 풗 =(푤 , 푤 ,.. 푤 ), ⎩ 푒 표 = 풗 =(푤 , 푤 ,.. 푤 ) 95 Ví dụ với bài viết, e =“Khu vực nhà tớ sẽ làm nơi đầu tiên được xem Nhật thực toàn phần vào 21/8. Dân Khoa học và du lịch khắp nơi trên thế giới đến rất đông. Ra đường hôm nay toàn thấy biển báo chấp nhận tắc đường do nhật thực. Lần đầu tiên được ngắm nhật thực là năm lớp 12. Lúc ấy vừa ra khỏi trường thì trời tối sầm lại. #NhatThuc2018#” Khi đó, giá trị các đặc trưng của bài viết được tính như sau: - Giá trị của đặc trưng “Nội dung” của bài viết là: “Khu vực nhà tớ sẽ làm nơi đầu tiên được xem Nhật thực toàn phần vào 21/8. Dân Khoa học và du lịch khắp nơi trên thế giới đến rất đông. Ra đường hôm nay toàn thấy biển báo chấp nhận tắc đường do nhật thực. Lần đầu tiên được ngắm nhật thực là năm lớp 12. Lúc ấy vừa ra khỏi trường thì trời tối sầm lại” => Sau khi thực hiện tiền xử lý, danh sách từ vựng và trọng số của bài viết e (đã sắp xếp theo thứ tự chữ cái) tương ứng là:{chấp nhận; du lịch; đầu ti
File đính kèm:
- luan_an_mo_hinh_hanh_vi_va_quan_tam_cua_nguoi_dung_tren_cac.pdf
- LA_Nguyễn Thị Hội_TT.pdf
- Nguyễn Thị Hội _E.pdf
- Nguyễn Thị Hội_V.pdf