Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 1

Trang 1

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 2

Trang 2

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 3

Trang 3

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 4

Trang 4

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 5

Trang 5

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 6

Trang 6

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 7

Trang 7

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 8

Trang 8

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 9

Trang 9

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 153 trang nguyenduy 03/05/2024 1130
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng Internet
st thuộc nhóm trees. 
 Kết quả thực nghiệm cho thấy các đặc trưng nội dung cho kết quả vượt trội, 
trong khi các đặc trưng sâu về ngữ pháp tỏ ra chưa có hiệu quả. Ngoài ra, thuật toán 
SMO vẫn là thuật toán cho kết quả tốt nhất. 
2.2.2 Phương pháp 
 Trong nghiên cứu này, các thực nghiệm được tiến hành trên tập dữ liệu bài 
viết diễn đàn được sử dung trong nghiên cứu trước để tiện so sánh và đánh giá kết 
quả. Do vậy, các bước thu thập, xử lý dữ liệu được thực hiện tương tự như ở phần 
2.1. Ngoài ra, phương pháp xây dựng mô hình phân loại cũng sử dụng học máy 
cùng với các kỹ thuật hỗ trợ như lựa chọn đặc trưng. Do đó, phần này sẽ trình bày 
chủ yếu về các đặc trưng được sử dụng trong nghiên cứu. 
 Các đặc trưng dựa trên nội dung (content-based features) trong nghiên cứu này 
là các từ được lựa chọn từ chính tập dữ liệu huấn luyện. Đó là các từ có thể phân 
biệt tốt nhất các lớp của mỗi đặc điểm. Để chọn được các đặc trưng này, đầu tiên 
các từ có tần xuất sử dụng cao nhất trong tập dữ liệu được lựa chọn (chọn riêng rẽ 
theo từng lớp của mỗi đặc điểm tác giả). Sau đó, các thuật toán lựa chọn đặc trưng 
được sử dụng để chọn lọc ra các đặc trưng có độ phân biệt tốt nhất. Cụ thể, với đặc 
điểm giới tính, 2.000 từ được sử dụng nhiều nhất bởi tác giả nam và 2.000 từ được 
dùng nhiều nhất bởi tác giả nữ được lựa chọn từ tập dữ liệu. Sau khi loại bớt các từ 
giống nhau và áp dụng phương pháp lựa chọn đặc trưng, các từ có độ quan trọng 
cao nhất được lựa chọn để làm đặc trưng theo nội dung dành cho nhận diện giới 
tính. Thực hiện quá trình tương tự, các từ có độ quan trọng cao nhất được chọn lọc 
 49 
làm đặc trưng theo nội dung để nhận diện các mặt đặc điểm khác như tuổi, vùng 
miền, nghề nghiệp (mỗi đặc điểm sử dụng một tập từ khác nhau). Quá trình trích 
chọn từ trong các bài viết phải qua một bước xử lý ngôn ngữ là tách từ trong tiếng 
Việt. Tương tự như ở nghiên cứu trước, công cụ tách từ vnTokenizer [90] được sử 
dụng. 
 Bên cạnh đó, khoảng 170 từ không có trong từ điển được sử dụng trong các 
bài viết trong tập dữ liệu huấn luyện cũng được trích chọn. Đó có thể là các từ lóng 
(slang) hoặc các từ viết tắt được sử dụng bởi người dùng trên diễn đàn nhằm biểu 
thị cảm xúc hoặc tiết kiệm thời gian gõ ký tự (ví dụ như các từ “trùi”, “bit”, “bt”, 
“ae”, “cty”, v.v.). Một số từ trong số này có thể biểu thị ngữ nghĩa, nhưng có nhiều 
từ chỉ đóng vai trò như từ chức năng. Các từ loại này được phát hiện qua một bước 
so khớp với danh sách các từ trong từ điển. Danh mục từ trong từ điển được sử dụng 
trong nghiên cứu này là danh mục 72.000 từ được cung cấp bởi đề tài xử lý tiếng 
Việt VLSP (Vietnamese Language and Speech Processing) [108]. 
 Các đặc trưng là các cặp ghép n từ loại (POS n-grams) cũng được trích chọn 
từ tập dữ liệu. Theo đó, các cặp ghép 2 và 3 của các từ loại có tần suất xuất hiện cao 
nhất được chọn lựa. Để trích chọn được các cặp ghép này, đầu tiên, các từ trong bài 
viết được gán nhãn từ loại bằng công cụ vnTagger [91]. Sau đó, các cặp ghép 2 và 3 
từ loại có vị trí liên tiếp trong một câu sẽ được trích ra và thống kê tần suất. Cuối 
cùng, 1.000 cặp ghép có tần suất cao nhất sẽ được lựa chọn làm đặc trưng phân loại. 
 Các thực nghiệm cũng được thực hiện trên các tập con đặc trưng khác nhau 
như tập các từ nội dung, các từ ngoài từ điển, các cặp ghép n từ loại, và kết hợp của 
các loại trên với các đặc trưng cơ bản, nhằm mục đích đánh giá hiệu suất của từng 
loại. 
2.2.3 Thực nghiệm 
 Như đã nói ở trên, nhằm tạo thuận tiện cho việc so sánh và đánh giá hiệu quả 
của phương pháp được đề xuất trong phần này với phương pháp được trình bày 
trong phần 2.1, nghiên cứu này sử dụng tập dữ liệu các bài viết diễn đàn đã dùng 
 50 
trong nghiên cứu trước. Các thông tin về tập dữ liệu xin tham khảo tại phần 2.1.3. 
Các phần tiếp theo sẽ trình bày về các thuật toán học máy được sử dụng trong 
nghiên cứu cùng với các kết quả thực nghiệm và các phân tích, đánh giá. 
2.2.3.1 Thuật toán học máy 
 Như đã nói ở trên, các thuật toán học máy được sử dụng trong nghiên cứu này 
là các thuật toán đã cho kết quả tốt nhất trong các nhóm ở nghiên cứu trước. Ngoài 
ra, do số lượng đặc trưng lớn, các phương pháp lựa chọn đặc trưng cũng được áp 
dụng để làm giảm độ phức tạp mô hình và loại bớt các đặc trưng ít liên quan đến 
quá trình phân loại. 
 1) SVM (Support Vector Machine) – Máy véc tơ hỗ trợ 
 SVM là một phuơng pháp phân lớp dựa trên lý thuyết học thống kê, được đề 
xuất bởi Vapnik (1995). Để đơn giản, xét bài toán phân loại nhị phân (2 lớp) trước, 
sau đó sẽ mở rộng ra bài toán phân loại nhiều lớp. Ý tưởng cơ bản của SVM là xây 
dựng một ranh giới phân chia tập dữ liệu huấn luyện thành 2 phần tương ứng với 2 
lớp, sao cho khoảng cách từ các ví dụ huấn luyện với ranh giới là xa nhất có thể. 
 Một hàm tuyến tính phân biệt hai lớp có dạng như sau: 
 (2.2) 
 Trong đó: 
 - là véc tơ trọng số hay véc tơ chuẩn của siêu phẳng phân cách, T 
 là kí hiệu chuyển vị. 
 - là độ lệch 
 - là véc tơ đặc trưng, làm hàm ánh xạ từ không gian đầu vào 
 sang không gian đặc trưng. 
 Giả sử tập dữ liệu đầu vào gồm N mẫu {x1, x2,...,xN}, với các giá trị nhãn 
tương ứng là {t1,,tN} trong đó . 
 51 
 Như đã nói ở trên, SVM tiếp cận giải quyết vấn đề này thông qua khái niệm 
gọi là lề (margin). Lề là khoảng cách nhỏ nhất từ đường phân cách đến mọi điểm dữ 
liệu hay là khoảng cách từ đường phân cách đến những điểm gần nhất, và đường 
ranh giới (hay siêu phẳng trong trường hợp đa chiều) tốt nhất chính là đường có 
khoảng cách lề lớn nhất. 
 Ta có công thức tính khoảng cách từ điểm dữ liệu đến mặt phân cách như sau: 
 Giả sử đường ranh giới phân chia được hoàn toàn tập dữ liệu huấn luyện thành 
2 lớp riêng biệt, khi đó cho mọi n. Vì thế khoảng cách từ điểm xn đến 
mặt phân cách được viết lại như sau: 
 (2.3) 
 Lề là khoảng cách vuông góc đến điểm dữ liệu gần nhất xn từ tập dữ liệu, và 
chúng ta muốn tìm giá trị tối ưu của w và b bằng cách cực đại khoảng cách này. 
Vấn đề cần giải quyết sẽ được viết lại dưới dạng công thức sau: 
 (2.4) 
 Vấn đề tối ưu cực đại có thể được chuyển thành cực tiểu và thêm 
các nhân tử Lagrange, bài toán trên trở thành: 
 (2.5) 
 Trong đó là nhân tử Lagrange. 
 Sau một số phép biến đổi lấy đạo hàm theo w và b, rồi tính w, b và thế vào, sẽ 
dẫn đến vấn đề tối ưu: 
 52 
 (2.6) 
Ở đây hàm nhân (kernel function) được định nghĩa là . 
 Lưu ý rằng các điểm không nằm trên lề đều không ảnh hưởng đến giá trị hàm 
mục tiêu vì ta có thể chọn an = 0. Những điểm dữ liệu còn lại được gọi là 
véc tơ hỗ trợ là những thành phần được quan tâm trong quá trình huấn luyện của 
SVM. Việc phân lớp cho một điểm dữ liệu mới chỉ phụ thuộc vào các véc tơ hỗ trợ. 
 Ta có thể xác định tham số b dựa vào các véc tơ hỗ trợ. Mặc dù chỉ cần sử 
dụng một điểm véc tơ hỗ trợ xn là có thể tìm ra b, nhưng để đảm bảo tính ổn định, b 
được tính theo cách lấy giá trị trung bình dựa trên các véc tơ hỗ trợ. 
 (2.7) 
Trong đó Ns là tổng số véc tơ hỗ trợ. 
 Đối với trường hợp phân loại nhiều lớp, có thể xây dựng quá trình phân loại 
dựa trên một số đường phân loại 2 lớp hoặc tiếp cận theo hướng xây dựng k hàm 
tuyến tính tương tự như ở trên. 
 SVM có ưu điểm là có thể xử lý số lượng lớn các đặc trưng phân loại và 
không cần đến việc giảm bớt số lượng đặc trưng nhằm tránh vấn đề quá khớp (over-
fitting). Đặc điểm này rất hữu ích khi xử lý các vấn đề có số chiều lớn thường gặp 
trong các lĩnh vực như phân tích văn bản [106]. SVM đã được sử dụng trong nhiều 
nghiên cứu trước đây về phân tích tác giả văn bản và trong đa số trường hợp cho kết 
quả tốt hơn so với các thuật toán khác. 
 2) RF (Random Forest) - Rừng ngẫu nhiên 
 RF là một thuật toán học kết hợp sử dụng các tập con của dữ liệu và tập con 
đặc trưng để xây dựng nên các cây quyết định. RF xây dựng nhiều cây quyết định 
 53 
như vậy và kết hợp chúng để cho kết quả phân loại cuối cùng có độ chính xác cao 
hơn. 
 RF bắt nguồn từ thuật toán tổng hợp cây (tree bagging) theo cách xây dựng 
các cây trên tập con dữ liệu ngẫu nhiên và sau đó mở rộng thêm bằng cách lấy thêm 
tập con đặc trưng ngẫu nhiên. 
 Giả sử có tập dữ liệu huấn luyện gồm N mẫu input vector {x1, x2,...,xN}, với 
các giá trị nhãn tương ứng là {t1,,tN}, thuật toán tree bagging sẽ thực hiện quá 
trình lặp xây dựng các cây từ các mẫu huấn luyện được chọn ngẫu nhiên. Sau khi 
các cây được xây dựng xong, việc dự đoán kết quả của dữ liệu mới được tính trung 
bình từ các dự đoán của các mô hình cây xây dựng được (hoặc thông qua chọn theo 
đa số). 
 (2.8) 
Trong đó, B là số lần lặp, fb là cây ở bước b, x’ là mẫu dữ liệu mới. 
 RF cải tiến thuật toán trên ở chỗ mỗi lần xây dựng cây trên tập con dữ liệu 
ngẫu nhiên, thuật toán này tiếp tục lựa chọn một tập ngẫu nhiên các đặc trưng từ bộ 
đặc trưng ban đầu. Số đặc trưng được lựa chọn là tùy ý, tuy nhiên, số đặc trưng điển 
hình cho bài toán phân loại với p đặc trưng ban đầu là trong khi với bài toán hồi 
quy thì là p/3. 
 3) BN (Bayesian Networks) – Mạng Bayes 
 BN là một mô hình xác suất dạng đồ thị biểu thị sự phụ thuộc thống kê trên 
một tập hợp các biến ngẫu nghiên. Đây cũng là thuật toán được sử dụng khá phổ 
biến trong xây dựng các mô hình học máy [98]. 
 Giả sử cho 1 tập các biến Xi, i {1,,N}. Một mạng Bayes là một đồ thị có 
hướng phi chu trình, trong đó các nút biểu diễn các biến và các cạnh biểu diễn các 
quan hệ phụ thuộc thống kê giữa các biến và phân phối xác suất địa phương cho 
mỗi giá trị nếu cho trước giá trị của các cha của nó. Nếu tập hợp các biến cha của Xi 
 54 
là parents(Xi) thì phân phối có điều kiện phụ thuộc của các biến là tích của các phân 
phối địa phương: 
 (2.9) 
 4) Các phương pháp lựa chọn đặc trưng 
 Các phương pháp lựa chọn đặc trưng (Feature Selection – FS) được sử dụng 
trong nghiên cứu này bao gồm phương pháp dựa trên độ lợi thông tin (Information 
Gain - IG), χ2 (Chi-Square - CS), và dựa trên độ tương quan (Correlation – Corr). 
 Information Gain sử dụng cách đo độ quan trọng của mỗi đặc trưng trong việc 
phân biệt các lớp phân loại và đã được ứng dụng trong nhiều nghiên cứu trước đây 
và cho kết quả tốt. Chi-Square là phép thử có thể đánh giá sự độc lập của hai biến 
trong thống kê, và được sử dụng để đo mức độ độc lập giữa một đặc trưng và lớp 
phân loại. Trong khi đó, phương pháp Correlation sử dụng độ đo tương tự giữa các 
đặc trưng với nhau và với lớp phân loại để đánh giá tập đặc trưng tốt [29]. 
 Với mỗi thuật toán, 5 tập con đặc trưng được tiến hành thực nghiệm để đánh 
giá hiệu quả của các thuật toán và tập đặc trưng. 
2.2.3.2 Kết quả và đánh giá 
 Các thực nghiệm được thực hiện cho bốn đặc điểm của tác giả bài viết như đã 
đề cập ở trên, sử dụng công cụ Weka. Kết quả cũng được đánh giá bằng phương 
pháp kiểm chứng chéo 10-fold và độ đo chính xác (accuracy) như ở nghiên cứu 
trước. 
 Bảng 2.4 cho biết kết quả của các thực nghiệm nhận diện đặc điểm tác giả theo 
cả bốn mặt đặc điểm. 
 55 
 Bảng 2.4. Kết quả thực nghiệm sử dụng các đặc trưng nâng cao 
 (a) Đặc điểm giới tính 
Loại đặc trưng FS RF SVM BN 
Cơ bản (từ nghiên cứu trước) - 81.25 82.94 77.17 
Từ nội dung IG 88.53 89.97 87.58 
Từ ngoài từ điển - 72.68 73.18 69.89 
Cặp ghép n từ loại IG 67.54 69.34 64.45 
Kết hợp cơ bản - từ nội dung IG 89.30 90.47 87.35 
Kết hợp cơ bản - từ ngoài từ điển - 85.03 86.23 80.11 
Kết hợp cơ bản - cặp ghép n từ loại IG 81.30 82.20 77.20 
Kết hợp tất cả đặc trưng IG 89.40 90.50 87.43 
 (b) Đặc điểm độ tuổi 
Loại đặc trưng FS RF SVM BN 
Cơ bản (từ nghiên cứu trước) - 61.94 62.14 56.17 
Từ nội dung IG 61.22 61.74 62.55 
Từ ngoài từ điển - 60.56 61.21 59.84 
Cặp ghép n từ loại IG 54.20 54.27 52.12 
Kết hợp cơ bản - từ nội dung IG 63.54 63.96 63.92 
Kết hợp cơ bản - từ ngoài từ điển - 64.24 64.91 60.89 
Kết hợp cơ bản - cặp ghép n từ loại CS 61.88 62.07 56.10 
Kết hợp tất cả đặc trưng IG 63.64 64.05 64.14 
 56 
 (c) Đặc điểm vùng miền 
Loại đặc trưng FS RF SVM BN 
Cơ bản (từ nghiên cứu trước) - 70.22 70.39 66.99 
Từ nội dung IG 79.23 79.39 75.01 
Từ ngoài từ điển - 67.28 67.62 68.07 
Cặp ghép n từ loại IG 62.21 62.78 60.36 
Kết hợp cơ bản - từ nội dung IG 79.90 80.06 74.54 
Kết hợp cơ bản - từ ngoài từ điển - 75.05 75.72 70.31 
Kết hợp cơ bản - cặp ghép n từ loại IG 62.12 62.54 60.21 
Kết hợp tất cả đặc trưng IG 79.96 80.09 74.61 
 (d) Đặc điểm nghề nghiệp 
Loại đặc trưng FS RF SVM BN 
Cơ bản (từ nghiên cứu trước) - 51.60 51.77 46.44 
Từ nội dung IG 55.32 55.38 51.34 
Từ ngoài từ điển - 44.41 44.70 40.60 
Cặp ghép n từ loại IG 43.70 44.26 40.12 
Kết hợp cơ bản - từ nội dung IG 56.41 56.98 50.65 
Kết hợp cơ bản - từ ngoài từ điển - 51.81 51.95 45.29 
Kết hợp cơ bản - cặp ghép n từ loại CS 43.56 44.02 40.05 
Kết hợp tất cả đặc trưng IG 56.50 57.02 50.70 
 57 
 Từ các kết quả thực nghiệm trong bảng 2.4, có thể nhận thấy các đặc trưng 
dựa trên nội dung có kết quả vượt trội hơn so với các đặc trưng cơ bản và các loại 
đặc trưng khác khi sử dụng riêng rẽ. Mặc dù các đặc trưng dựa trên nội dung thường 
được xem có tính phụ thuộc vào lĩnh vực ở một mức độ nhất định và có thể làm 
giảm độ chính xác khi chuyển qua ứng dụng trên lĩnh vực khác, với độ chính xác 
tăng trung bình từ 5-9% so với các đặc trưng cơ bản, các kết quả trên vẫn có nhiều 
triển vọng khi được ứng dụng trong cùng lĩnh vực hoặc lĩnh vực tương tự. Hơn nữa, 
với thời gian huấn luyện khoảng 3-5 giây (với thuật toán SMO và 600 đặc trưng), 
mô hình phân loại hoàn toàn có thể nhanh chóng được xây dựng lại trên tập dữ liệu 
mới và đáp ứng được các ứng dụng với thời gian thực. Các từ ngoài từ điển có kết 
quả chưa tốt khi sử dụng riêng rẽ, tuy nhiên khi kết hợp với các đặc trưng cơ bản 
cho kết quả tốt hơn so với việc sử dụng các đặc trưng cơ bản riêng rẽ. Các đặc trưng 
cặp ghép 2 và 3 từ loại cho kết quả hạn chế, kể cả khi sử dụng riêng rẽ hoặc kết hợp 
với các đặc trưng cơ bản. Kết quả này củng cố thêm cho nhận định về việc các cấu 
trúc ngữ pháp khó phát huy hiệu quả nhận diện trên các bải viết ngắn và có phong 
cách tự do như bài viết diễn đàn. Cuối cùng, việc kết hợp tất cả các đặc trưng cho 
kết quả cao hơn các tập con khác, nhưng chỉ cao hơn không đáng kể so với các tập 
con tốt nhất (bao gồm các đặc trưng nội dung riêng rẽ và tập đặc trưng cơ bản kết 
hợp với đặc trưng nội dung). 
 Về các phương pháp phân loại, thuật toán SMO có kết quả tốt hơn hai thuật 
toán còn lại trong đa số các trường hợp, trong đó thuật toán Random Forest cho kết 
quả tốt hơn Bayesian Networks nhưng có thời gian chạy lâu hơn nhiều. Đây là các 
kết quả hợp lý, và một lần nữa chứng minh SMO/SVM là thuật toán tốt nhất cho 
việc xác định đặc điểm tác giả văn bản. Ngoài ra, trong các thuật toán lựa chọn đặc 
trưng được thử nghiệm, ngoại trừ một số trường hợp ngoại lệ, thuật toán lựa chọn 
dựa trên độ đo Information Gain đều cho kết quả tốt nhất. 
2.2.3.3 Phân tích đặc trưng nội dung 
 58 
 Từ các kết quả ban đầu trên, chúng tôi tiến hành thực hiện phân tích sâu hơn 
về các đặc trưng nội dung. Để cải tiến kết quả, các tham số của thuật toán SMO 
được điều chỉnh và trong một số trường hợp đã làm tăng độ chính xác lên tới 8% 
(chủ yếu với các kết quả trước đây có độ chính xác chưa cao như kết quả trên đặc 
điểm độ tuổi hoặc nghề nghiệp). Quá trình thực nghiệm cho thấy thuật toán SMO 
với nhân đa thức (PolyKernel) cho kết quả tốt nhất, do vậy hai tham số là c và 
exponent (bậc của đa thức) được tối ưu hóa. Bảng 2.5 cho thấy kết quả nhận diện 
trên thuật toán SMO sau khi đã điều chỉnh và lựa chọn tham số tốt nhất trên các tập 
đặc trưng cơ bản và dựa trên nội dung. 
 Bảng 2.5. Kết quả trên thuật toán SMO sau khi điều chỉnh tham số 
 Loại đặc trưng Giới tính Độ tuổi Vùng miền Nghề nghiệp 
 Kết hợp cơ bản – nội dung 90.55 70.70 83.13 61.04 
 Cơ bản 83.47 62.76 71.22 52.46 
 Nội dung 90.01 70.05 82.98 60.99 
 Về ảnh hưởng của số lượng các đặc trưng được lựa chọn tới độ chính xác của 
mô hình, các thực nghiệm với các số lượng đặc trưng khác nhau được lựa chọn bởi 
thuật toán Information Gain được thực hiện (với số lượng đặc trưng nằm trong 
khoảng từ 100 đến 1000). Hình 2.2 cho thấy số lượng đặc trưng mang lại kết quả tốt 
nhất cho mỗi mặt đặc điểm. 
 Theo kết quả như trong hình 2.2, độ chính xác cao nhất khi nhận diện giới tính 
đạt được khi số đặc trưng được lựa chọn là 600. Số lượng đặc trưng tốt nhất cho dự 
đoán độ tuổi và vùng miền là 400, trong khi số lượng đặc trưng tốt nhất cho dự đoán 
nghề nghiệp là 200. Nguyên nhân dẫn đến số lượng đặc trưng tốt nhất cho nghề 
nghiệp thấp có thể từ vấn đề nhiễu trong dữ liệu nghề nghiệp và không có nhiều từ 
nội dung có thể lựa chọn để phân biệt nghề nghiệp. 
 59 
 Số các từ nội dung 
 Giới tính Tuổi Vùng miền Nghề nghiệp 
 Hình 2.2. Độ chính xác nhận diện trên các số lượng đặc trưng khác nhau 
 Trong các đặc trưng nội dung được lựa chọn, những đặc trưng có độ quan 
trọng hàng đầu được liệt kê trong bảng 2.6. Đối với những đặc điểm có hai lớp như 
giới tính, vùng miền, trọng số của lớp thứ nhất sẽ mang dấu âm và của lớp thứ 2 
mang dấu dương. Trọng số càng có giá trị lớn về giá trị tuyệt đối thì đặc trưng càng 
quan trọng. Với các đặc điểm có hơn hai lớp như độ tuổi, nghề nghiệp, việc tính 
toán trọng số được chia theo cặp, trong đó từng lớp được ghép lớp cuối cùng với 
trọng số được trình bày như trong bảng. 
 Từ bảng 2.6, có thể thấy nam giới thường có xu hướng trao đổi về các vấn đề 
công việc, thể thao, quy định, trong khi nữ giới thường nói về cuộc sống, sức khỏe, 
áp lực. Những người có độ tuổi dưới 22 (học sinh/sinh viên) thường thảo luận về 
học tập, hành động. Người có độ tuổi 24-27 (những người mới đi làm) thường trao 
đổi về nhu cầu, du lịch. Người trung niên thường trao đổi các quan điểm về tiêu 
dùng, luật pháp. Người dùng ở các vùng miền khác nhau thường sử dụng các từ địa 
phương khác nhau. Trong các thực nghiệm đã thực hiện, có thể nhận thấy có một số 
từ điển hình phân biệt vùng miền Bắc – Nam như trong bảng 2.6 (c). Bảng 2.6 (d) 
cho thấy người làm việc trong lĩnh vực kinh doanh/bán hàng thường thích trao đổi 
về lịch, cuộc hẹn, du lịch, trong khi người làm trong lĩnh vực kỹ thuật công nghệ có 
 60 
 xu hướng trao đổi về máy móc, phát triển, và người có nghề nghiệp thuộc lĩnh vực 
 giáo dục/y tế thường trao đổi về các vấn đề xã hội, học tập, tâm lý, từ thiện .v.v. 
 Bảng 2.6. Những đặc trưng nội dung (từ nội dung) quan trọng nhất 
 (a) Các đặc trưng nội dung quan trọng cho xác định giới tính 
Nam Nữ 
Đặc trưng Trọng Đặc trưng Trọng Đặc trưng Trọng Đặc trưng Trọng 
 số số số số 
mục tiêu -1.35 quy định -1.18 cảm ơn 1.91 hồng 1.46 
dữ liệu -1.34 máy ảnh -1.09 khách sạn 1.79 bếp 1.43 
doanh nghiệp -1.32 điện tử -1.07 cưới 1.76 sữa 1.31 
kỹ thuật -1.31 triển khai -1.03 bác sĩ 1.56 chia sẻ 1.27 
xử lý -1.26 kiểm tra -1.02 vải 1.51 áp lực 1.18 
 (b) Các đặc trưng nội dung quan trọng cho xác định độ tuổi 
 Ít hơn 22 Từ 24 đến 27 Nhiều hơn 32 
 Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số 
 học hỏi -1.50 nhu cầu -1.29 xài 1.24 
 lịch sử -1.32 triệu -1.20 luật 1.11 
 nguyên do -1.25 khắp nơi -0.90 quy định 0.66 
 hành động -1.05 lang thang -0.74 chi phí 0.62 
 thể thao -0.80 bỏ qua -1.03 hỗ trợ 0.58 
 61 
 (c) Các đặc trưng nội dung quan trọng cho xác định vùng miền 
Bắc Nam 
Đặc trưng Trọng Đặc trưng Trọng Đặc trưng Trọng Đặc trưng Trọng 
 số số số số 
buổi -1.22 rẽ -0.78 máy lạnh 1.52 gởi 1.09 
đỗ -1.18 quay -0.73 coi 1.51 đậu 1.04 
mạch -1.05 sinh -0.70 gạt 1.48 xài 1.00 
liệu -1.00 ảnh -0.65 nhơn 1.46 uổng 1.00 
nộp -1.00 chịu khó -0.53 quẹo 1.35 dơ 0.91 
 (d) Các đặc trưng quan trọng cho xác định nghề nghiệp 
 Kinh doanh/Bán hàng Kỹ thuật/Công nghệ Giáo dục/Y tế 
 Đặc trưng Trọng số Đặc trưng Trọng số Đặc trưng Trọng số 
 lịch -1.64 phát triển -1.68 tâm lý 1.61 
 cuộc -1.62 cấu hình -1.60 hình ảnh 1.58 
 lang thang -1.21 kết hợp -1.53 xã hội 1.43 
 đến nơi -0.88 kỹ thuật -1.30 học 1.1

File đính kèm:

  • pdfluan_an_mot_so_phuong_phap_hoc_may_xac_dinh_dac_diem_nguoi_d.pdf
  • pdf2 Totat Luanan_DucDT.pdf
  • pdf3 Trang thong tin LA_DucDT (TV).pdf
  • pdf4 Trang thong tin LA_DucDT (TA).pdf