Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 1

Trang 1

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 2

Trang 2

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 3

Trang 3

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 4

Trang 4

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 5

Trang 5

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 6

Trang 6

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 7

Trang 7

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 8

Trang 8

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 9

Trang 9

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 126 trang nguyenduy 18/07/2024 800
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học

Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học
cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các phương 
pháp được so sánh thể hiện thông qua giá trị AUC. Khi tiến hành phân hạng 
và dự đoán các gen mới liên quan đến bệnh cao huyết áp, trong số 20 gen 
ứng viên được xếp hạng cao nhất, có 9 gen liên quan tới căn bệnh đã được 
mô tả trong các y văn. 
 Phương pháp thứ hai: sử dụng một thuật toán phân tích mạng xã hội cho bài 
toán phân hạng gen liên quan đến bệnh. Trong đó, các gen ứng viên có xác 
suất liên kết với gen bệnh nhỏ sẽ không được xem xét tiếp, nhờ vậy giảm độ 
phức tạp tính toán. Thực nghiệm trên dữ liệu tương tác protein của người cho 
43 
thấy phương pháp đề xuất có độ phức tạp tính toán thấp, đồng thời chính xác 
hơn phương pháp RWR, thể hiện qua giá trị AUC. Áp dụng vào dự đoán gen 
liên quan tới bệnh tiểu đường tuýp 2, phương pháp đề xuất cho kết quả khả 
quan: trong 20 gen được xếp hạng cao nhất có tới 11 gen liên quan tới căn 
bệnh đã được xác nhận trong các y văn. 
2.1.1. Bài toán phân hạng nút trên đồ thị 
 Mạng tương tác gen/protein trong các nghiên cứu liên quan được biểu diễn 
bởi một đồ thị vô hướng G = (V, E), trong đó tập các nút V là các gen/protein và tập 
các cạnh E thể hiện tương tác giữa các gen/protein. Giả sử cho trước S là tập các 
gen liên quan đến bệnh đã biết (còn gọi là tập hạt giống hay tập nút gốc), tức là một 
số lượng nhỏ các gen đã được phát hiện có liên quan đến bệnh trong các nghiên cứu 
trước đó. 
 Bài toán phân hạng gen được định nghĩa như sau: Cho G và tập các nút gốc S 
(S ⊆ V). Hãy phân hạng tất cả các nút trong C (C = V \S) theo độ liên quan với S. 
Độ liên quan của một nút t C được định nghĩa là trung bình cộng độ liên quan của 
t với các nút trong S. 
(|) =

||
∑ (|)∈ (2.1) 
2.1.2. Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm 
Dựa trên quan điểm các mạng sinh học có tính tương đồng với mạng xã hội 
và mạng Web, Chen và cộng sự [19] lần đầu tiên ứng dụng thuật toán phân hạng 
trang kết hợp với xác suất tiên nghiệm (PageRank with priors) cho bài toán phân 
hạng gen để dự đoán các gen liên quan đến bệnh và thu được các kết quả khả quan. 
PageRank with priors là sự mở rộng của thuật toán phân hạng trang Web 
truyền thống PageRank để tạo ra thuật toán phân hạng tùy biến [37, 42]. PageRank 
with priors cho phép phân hạng các nút trên đồ thị trong mối tương quan với một 
tập các nút gốc cho trước. 
44 
Trong công cụ tìm kiếm của Google, thuật toán PageRank được sử dụng để 
xếp hạng tầm quan trọng tương đối của một trang Web dựa trên cấu trúc liên kết của 
các trang. Theo PageRank, thứ hạng của một nút v được tính theo công thức: 
() =


+  ∑
()
()
()
 (2.2) 
trong đó: 
 N là tổng số các nút. 
 d (0 < d < 1) là hệ số suy giảm. 
 din(v) là bậc vào của nút v. 
 dout(u) là bậc ra của nút u. 
 Ý nghĩa của PageRank là thứ hạng (độ quan trọng) của một nút phụ thuộc 
vào số nút trỏ tới nút đó và thứ hạng của những nút này. Hai giá trị này càng lớn thì 
thứ hạng của nút đang xét cũng càng lớn. 
 Trong thuật toán PageRank with priors, ý tưởng của thuật toán là định nghĩa 
một vector pS = {p1, ..., p|v|} có xác suất trước sao cho: 
∑  = 1
||
 (2.3) 
và pv biểu thị độ quan trọng tương đối (hay "độ lệch ban đầu") được gán cho nút v. 
Ở đây: 
 = 

||
  ∈  
0  ∉ 
 (2.4) 
 Ngoài ra, PageRank with priors cũng định nghĩa một "xác suất quay lui" β (0 
≤ β ≤ 1) là xác suất quay trở lại các nút gốc trong S và 
(|) =

()
 (2.5) 
là xác suất chuyển tới nút v từ nút u. 
45 
 Tích hợp công thức (2.3), (2.4) và (2.5) vào công thức (2.2), thu được công 
thức (2.6) là xác suất dừng lặp (điểm phân hạng) có dạng: 
()() = (1 − )∑ (|)()()
()
  +  (2.6) 
 Độ liên quan của nút v tương quan với S sẽ được xác định theo công thức 
I(v|S) = PR(v) sau khi hội tụ. 
2.1.3. Thuật toán phân hạng bằng học tăng cường 
 Thuật toán phân hạng bằng học tăng cường (Reinforcement Learning Rank - 
RL_Rank) [24, 52] sử dụng cấu trúc liên kết của các trang Web và định nghĩa sự 
phân hạng theo hình thái của bài toán học tăng cường. Trong giải thuật này, một 
thực thể được xem như một người dùng duyệt Web ngẫu nhiên và mỗi trang Web là 
một trạng thái. 
Tại mỗi trang, người dùng nhắp vào một trong những liên kết có trong trang 
với một xác suất đều và từ đó chuyển qua trang kế tiếp. Nói cách khác, khi người 
dùng chọn một trang kế tiếp bằng cách nhắp ngẫu nhiên vào một trong những liên 
kết có trên trang hiện tại theo chính sách học π thì xác suất lựa chọn bằng 
1/dout(trang hiện tại) với dout(trang hiện tại) là bậc ra của trang hiện tại [52]. Khoản 
thưởng dành được khi chuyển từ trang hiện tại u sang trang mới v được định nghĩa 
bởi công thức: 
 =

()
 (2.7) 
Điểm của trang v là giá trị được mong đợi của tổng các khoản thưởng đã 
giảm trừ mà một thực thể tích lũy được trong suốt quá trình duyệt qua các trang cho 
tới trang v. Tiếp theo, thực thể sẽ thêm khoản thưởng đã nhận được ruv vào các 
khoản thưởng tích lũy đã giảm trừ của mình. Do đó, điểm của một trang v là xác 
suất duyệt tới nó từ các trang khác được tăng thêm bởi tổng các khoản thưởng khi 
chuyển đổi và các khoản thưởng tích lũy đã giảm trừ và được tính theo công thức: 
() = ∑ ((() ())⁄ × ( + ()))
()
 (2.8) 
46 
trong đó: 
 Rt+1(v) là thứ hạng của trang v tại thời điểm t+1. 
 Rt(u) là thứ hạng của trang u tại thời điểm t. 
 din(v) bậc vào của trang v. 
 prob(u) là xác suất về sự hiện diện của thực thể tại trang u. 
 dout(u) là bậc ra của trang u. 
 ruv là khoản thưởng dành cho việc chuyển từ trang u sang trang v. 
 γ (0 < γ < 1) là hệ số giảm trừ. 
 Giá trị của biểu thức prob(u)/dout(u) là xác suất của việc duyệt tới trang v từ 
trang u. Nó bằng với xác suất xuất hiện của thực thể tại trang u nhân với xác suất 
lựa chọn của trang v khi thực thể đang ở trạng thái u. 
Do thực thể lựa chọn một liên kết ngẫu nhiên theo phân phối xác suất đều, 
nên xác suất lựa chọn trang v từ trang u bằng 1/ dout (u). Xác suất xuất hiện của thực 
thể tại trang thái u chính là thứ hạng của trang u trong khái niệm về PageRank, do 
đó prob(u) được tính bằng công thức phân hạng của PageRank đối với trang u và 
Rt(u) là thứ hạng của trang u thể hiện các khoản thưởng tích lũy đã giảm trừ mà 
thực thể nhận được cho đến khi duyệt tới trang u. Vì vậy, thứ hạng của trang v phụ 
thuộc vào bậc ra và thứ hạng của các trang có liên kết tới v. Kết quả thu được sẽ là 
một vector RL_Rank với các thành phần là điểm số/thứ hạng của các trang. 
2.1.4. Thuật toán bước ngẫu nhiên có quay lui 
Bước ngẫu nhiên có quay lui (Random Walk with Restart - RWR) [53] là 
một biến thể của thuật toán bước ngẫu nhiên trên đồ thị [70]. Theo thuật toán này, 
một thực thể xuất phát từ một nút khởi đầu. Sau đó, nó di chuyển trên đồ thị bằng 
cách chuyển đến các nút lân cận một cách ngẫu nhiên với xác suất tỷ lệ với trọng số 
của các cạnh kết nối. Tại thời điểm t bất kỳ trong quá trình di chuyển, thực thể cũng 
có thể quay lại nút khởi đầu với một xác suất nhất định được gọi là xác suất quay lại 
 thuộc khoảng (0, 1). 
47 
Giả sử G = (V, E) là một đồ thị vô hướng, trong đó V = (v1, v2, ...,vn) là tập 
các nút và E = ((vi, vj) | vi, vj V) là tập các cạnh. Gọi S  V là tập các nút gốc (nút 
khởi đầu), W là ma trận kề của đồ thị G. Thuật toán RWR được mô tả như sau: 
 = (1 − )′ +  (2.9) 
trong đó: 
 pt+1 là vector xác suất của tập các nút |V| tại thời điểm t. 
 Phần tử thứ i biểu diễn xác suất của thực thể tại nút vi V. 
 W’ là ma trận chuẩn hóa từ ma trận kề W, trong đó W’i j (kí hiệu các phần 
tử (i, j) trong W’) biểu diễn xác suất mà thực thể di chuyển từ vi tới vj nằm 
trong tập V\{vi}. 
 p0 là vector xác suất khởi đầu trong đó các phần tử có giá trị bằng 0 (nếu 
chúng không thuộc tập S) hoặc bằng 1/|S| (nếu chúng thuộc tập S). 
Khi áp dụng RWR cho bài toán phân hạng gen ứng viên dựa trên mạng [53, 
60], tập hợp các nút gốc S là các gen liên quan đến bệnh đã biết và các gen ứng viên 
là các gen còn lại trên mạng tương tác gen/protein. Ma trận chuẩn hóa W' được xác 
định theo công thức: 
′ =
()
∑ ()
 (2.10) 
trong đó WG là ma trận kề của đồ thị mạng tương tác gen/protein. 
Tất cả các gen ứng viên cuối cùng được phân hạng khi vector xác suất p∞ đạt 
trạng thái ổn định sau một số bước lặp (tức là chênh lệch giữa pt+1 và pt nhỏ hơn 
một giá trị tới hạn, thường được chọn là 10-6). 
Trên đây là phần giới thiệu tóm tắt một số nghiên cứu liên quan về kỹ thuật 
phân tích mạng, bài toán phân hạng nút trên đồ thị và các thuật toán đã được áp 
dụng cho bài toán phân hạng gen dựa trên mạng tương tác gen/protein. Đây cũng là 
những kiến thức nền tảng được sử dụng để phát triển các phương pháp phân hạng 
được đề xuất trong các phần tiếp theo của chương này. 
48 
2.2. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT 
HỢP VỚI XÁC SUẤT TIÊN NGHIỆM 
2.2.1. Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm 
Thuật toán RL_Rank cho phép xếp hạng các nút trên mạng một cách toàn 
cục, tức là thuật toán này tính toán độ quan trọng nói chung hay độ quan trọng tuyệt 
đối của các nút. Trong các bài toán tìm kiếm trên Web, cách xếp hạng này là phù 
hợp. Tuy nhiên, mục tiêu của bài toán phân hạng gen không phải là tính độ quan 
trọng tuyệt đối của các nút mà là tính độ quan trọng tương đối của các nút so với 
các nút gốc (tức là các nút tương ứng với các gen liên quan đến bệnh đã biết). Để 
giải quyết vấn đề này, phương pháp phân hạng học tăng cường kết hợp với xác suất 
tiên nghiệm (RL_Rank with priors) sử dụng ý tưởng về “thứ hạng ban đầu” hay xác 
suất tiên nghiệm trong phương pháp PageRank with priors. 
Giả sử ký hiệu S là tập gen gốc và pS = {p1,  ,p|v|} là vector thứ hạng ban 
đầu có tổng bằng 1, trong đó pv biểu thị độ quan trọng tương đối của nút v. Ở đây pv 
= 1/ |S| đối với v S và pv = 0 đối với v S theo công thức (2.4). Đồng thời, định 
nghĩa một xác suất quay lui β (0 ≤ β ≤ 1) biểu thị cho xác suất quay trở lại các nút 
gốc trong quá trình duyệt, nhằm mục đích xem các nút gốc là quan trọng nhất. 
 Bên cạnh đó, đồ thị mạng tương tác gen/protein là đồ thị vô hướng nên khác 
với đồ thị mạng Web có hướng, có thể coi bậc vào của một nút bằng bậc ra và được 
xác định là số liên kết với nút (tức là din(v) = dout(v) = d(v)). Mức độ quan trọng của 
một trang trong đồ thị mạng Web được xác định bằng số liên kết trỏ tới nó; mức độ 
quan trọng của một gen trong đồ thị mạng tương tác gen/protein phụ thuộc số liên 
kết tới gen. Do đó khi coi đồ thị vô hướng là đồ thị có hướng với bậc vào và bậc ra 
của một đỉnh bằng nhau, kết quả phân hạng gen không bị ảnh hưởng. 
Khi đó công thức (2.8) của thuật toán RL_Rank được viết lại như sau: 
() = (1 − )∑ (( () ())⁄ × ( + ()))
()
  +  (2.11) 
49 
 Cùng với việc tính đến các xác suất đầu prob(u) là xác suất xuất hiện của 
thực thể tại nút u (theo PageRank with priors), thuật toán RL_Rank with priors khi 
áp dụng cho bài toán phân hạng gen dựa trên mạng tương tác gen/protein được mô 
tả như sau: 
Cho G = (V, E) là một đồ thị vô hướng biểu thị mạng tương tác gen/protein, 
trong đó V là tập các gen trên đồ thị và E là tập các liên kết. Gọi S  V là tập gen 
gốc (là các gen liên quan đến bệnh đã biết); C  V là tập các gen ứng viên có liên 
kết với tập gen S. Giả sử prob là xác suất của agent khi duyệt tới gen u; ps là vector 
thứ hạng ban đầu của tập tất cả các gen; R là vector thứ hạng các gen theo thuật toán 
RL_Rank; ε là số thực dương rất nhỏ. Thuật toán thực hiện theo các bước: 
 Bước 1: Sử dụng thuật toán tìm kiếm theo chiều rộng (BFS) để lấy toàn 
bộ các gen liên kết với tập gen gốc. 
 Bước 2: Xây dựng tập ứng viên C bao gồm các gen gốc và gen liên kết 
với chúng. 
 Bước 3: Khởi tạo giá trị R, prob và ps 
 Bước 4: Tính toán các giá trị của vector prob (đây cũng chính là thứ hạng 
của các gen theo thuật toán PageRank with priors). 
 Bước 5: Sử dụng Học tăng cường để tăng cường điểm cho các thứ hạng 
gốc của các gen để nhận được thứ hạng cuối cùng của chúng. 
Phần giả mã của thuật toán được mô tả như sau: 
Đầu vào: 
V: Tập hợp tất cả các gen (nút) 
S: Tập các gen gốc 
prob: Xác suất của thực thể khi duyệt tới gen u 
ps: Vector thứ hạng ban đầu của tập tất cả các gen 
R: Vector thứ hạng các gen theo RL_Rank 
ε : Số thực dương rất nhỏ 
Đầu ra: 
Vector R chứa hạng của các gen 
50 
Các bước thực hiện: 
/* Sử dụng thuật toán tìm kiếm theo chiều rộng để lấy toàn bộ các gen liên kết với 
tập gen gốc */ 
Build Set C / Chứa các gen gốc và gen liên kết với chúng 
Initialize R, prob // Khởi tạo vector R và prob 
Initialize ps /* Khởi tạo vector thứ hạng ban đầu theo công thức (2.4) */ 
δ  0 
// Tính toán các giá trị của vector prob, đây cũng chính là thứ hạng của các gen theo 
PageRank with priors. 
Do { 
 For every gen v C 
 prob  (v) = (1 − β) ∑ (prob(u) d(u))⁄
 ()
  + βp 
 End for 
 δ  ||probnew – prob|| 
 prob  probnew 
 } 
While (δ > ε) 
// Sử dụng các khái niệm về Học tăng cường để tăng cường điểm cho các thứ hạng 
gốc của các gen để nhận được thứ hạng cuối cùng của chúng. 
δ  0 
Do { 
 For every gen v V 
 ruv = 1/d(u) 
 R  (v) = (1 − β) ∑ ((prob(u) d(u))⁄ × (r + γR (u)))
 ()
  + βp 
 End for 
 δ  ||Rnew – R|| 
 R  Rnew 
 } 
While (δ > ε) 
Hình 2. 1. Thuật toán RL_Rank with priors 
51 
2.2.2. Dữ liệu thực nghiệm 
 Dữ liệu sử dụng cho thực nghiệm với các thuật toán phân hạng dựa trên 
mạng trong chương này bao gồm một mạng tương tác gen/protein và cơ sở dữ liệu 
về bệnh và các gen liên quan đến bệnh đã biết. 
2.2.2.1. Mạng tương tác gen/protein 
Mạng tương tác gen/protein được trích xuất từ mạng tương tác chức năng 
giữa các gen/protein của con người (FLN - functional linkage network) [61, 67]. 
Đây là một mạng có trọng số gồm 21.657 gen và 22.388.609 liên kết được xây dựng 
từ 16 cơ sở dữ liệu di truyền (Bảng 2.1), sử dụng bộ phân lớp Naive Bayes. 
Để phản ánh các mối liên kết tin cậy nhất giữa các protein, theo phương pháp 
đề xuất trong [61, 67], các trọng số liên kết trong mạng FNL gốc được sắp xếp theo 
thứ tự từ cao tới thấp. Sau đó, 0.5% số liên kết có trọng số (độ tin cậy) cao nhất 
được trích xuất để thu được mạng con dùng cho thực nghiệm. Mạng con này gồm 
có 11.886 gen và 111.943 liên kết. 
2.2.2.2. Cơ sở dữ liệu bệnh-gen 
OMIM (Online Mendelian Inheritance in Man) là dự án di truyền Mendel ở 
người, đây là một cơ sở dữ liệu bao gồm danh mục tất cả các bệnh đã biết và các 
gen có liên quan đến bệnh trong hệ gen của con người. Cơ sở dữ liệu OMIM được 
cập nhật và chỉnh sửa thường xuyên từ các y văn được công bố. Mỗi mục của 
OMIM mô tả về một kiểu hình hoặc gen được xác định về mặt di truyền và có nhiều 
liên kết đến các cơ sở dữ liệu di truyền khác. Vì vậy, cơ sở dữu liệu OMIM là một 
cổng thông tin dễ hiểu và dễ tra cứu về các thông tin di truyền của con người. 
Cơ sở dữ liệu về bệnh và các gen đã biết có liên quan đến bệnh được trích 
xuất từ OMIM gồm 3284 bệnh có từ một gen đã biết có liên quan đến bệnh trở lên. 
Do sử dụng phương pháp LOOCV để đánh giá hiệu năng của các phương pháp 
phân hạng, nên mỗi bệnh phải có ít nhất hai gen liên quan đã biết và các gen này 
phải có mặt trong mạng tương tác gen/protein. 
52 
Bảng 2. 1. Các nguồn dữ liệu xây dựng FLN [61, 67] 
Các nguồn 
dữ liệu 
Mô tả 
Số lượng 
các cặp gen 
Số lượng 
các gen 
Curated PPI 
Các tương tác protein được tuyển chọn từ các cơ 
sở dữ liệu: HPRD, BIND, BIOGRID, INTACT, 
MIPS, DIPS và MINT. 
90352 10281 
Y2H 
Các tương tác protein từ các thực nghiệm Y2H 
thông lượng cao 
2611 1522 
Masspec 
Các tương tác protein từ các thực nghiệm phương 
pháp khối phổ quy mô lớn. 
2046 1159 
DDI Các cặp protein trong các miền tương tác protein. 6933469 13454 
Co-exp 
Biểu hiện liên quan giữa các gen từ các nguồn dữ 
liệu biểu hiện gen quy mô lớn. 
5110798 16287 
DS Các các cặp protein chia sẻ cùng một miền protein 2064262 17328 
PG Các cặp gen có liên quan về cơ cấu phát sinh loài 18086 2607 
GN Các cặp gen nằm sát nhau dọc theo nhiễm sắc thể 10070 1365 
Fusion 
Các cặp protein được kết hợp thành một protein 
duy nhất ở các loài khác nhau 
361 361 
Yeast 
Các liên kết chức năng ánh xạ từ 7 loại dữ liệu về 
chức năng gen trong nấm men thông qua các gen 
cùng nguồn 
123380 3809 
Worm 
Các liên kết chức năng ánh xạ từ 4 loại dữ liệu về 
chức năng gen của loài sâu thông qua các gen 
cùng nguồn 
96911 5737 
Fly 
Các liên kết chức năng ánh xạ từ 3 loại dữ liệu về 
chức năng gen của loài ruồi thông qua các gen 
cùng nguồn 
139984 5966 
Mouse-rat 
Các liên kết chức năng ánh xạ từ 3 loại dữ liệu về 
chức năng gen của loài chuột thông qua các gen 
cùng nguồn 
254477 11789 
TexM 
Xuất hiện trong phần tóm tắt của các tài liệu trên 
PubMed 
518716 12286 
MF 
Cặp gen có cùng thuật ngữ về chức năng phân tử 
trong GO 
6937725 7863 
CC 
Cặp gen có cùng thuật ngữ về thành phần tế bào 
trong GO 
5591796 12503 
53 
Trên cơ sở đó, sau khi phân tích mạng tương tác gen/protein được trình bày 
trong phần 2.2.2.1 và quan hệ bệnh-gen, thu được 398 bệnh có từ hai gen liên quan 
trở lên và các gen này có mặt trong mạng tương tác gen/protein. Với mỗi căn bệnh, 
tập các gen liên quan đến bệnh đã biết được sử dụng như là tập gen gốc trong quá 
trình phân hạng bởi các thuật toán. 
2.2.3. Thực nghiệm và kết quả 
2.2.3.1. Ảnh hưởng của các tham số 
 Thực nghiệm đầu tiên được tiến hành để đánh giá ảnh hưởng của các tham số 
tới hiệu quả của phương pháp phân hạng đề xuất. Phương pháp thực nghiệm là phân 
hạng các gen ứng viên đối với từng bệnh cụ thể và tính toán giá trị AUC. Giá trị 
AUC trung bình trên 398 bệnh sẽ được sử dụng làm kết quả để đánh giá độ chính 
xác của phương pháp. 
Hình 2. 2. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 
0.8 và γ tăng từ 0.1 đến 0.9 
54 
Kết quả thử nghiệm cho thấy: với giá trị β >= 0.8, khi tăng hay giảm giá trị γ, 
kết quả thực hiện thuật toán hầu như không thay đổi. Trong Hình 2.2, với β = 0.8, 
giá trị AUC trung bình trên 398 bệnh ổn định khi γ biến thiên trong khoảng [0,1]. 
Điều này là do khi xác suất quay trở lại gốc lớn, các nút gần các nút gốc được thăm 
nhiều hơn, trong khi các nút ở xa các nút gốc ít được thăm hơn, do đó giá trị điểm 
thưởng không thay đổi nhiều, dẫn tới kết quả phân hạng chung ít thay đổi. 
Trong trường hợp β <= 0.7 và khi γ tăng từ 0.1 đến 0.4, giá trị điểm thưởng 
tăng dần, dẫn đến thứ hạng của gen thử nghiệm cũng tăng theo và thứ hạng này ổn 
định khi γ >= 0.5. Hình 2.3 biểu diễn kết quả thử nghiệm với β = 0.7 và γ biến thiên 
trong khoảng [0,1]. Kết quả thu được là tương tự đối với các trường hợp thử nghiệm 
β = (0.1, 0.2, 0.3, 0.4, 0.5, 0.6). 
Hình 2. 3. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β = 
0.7 và γ tăng từ 0.1 đến 0.9 
 Tham số β là xác suất quay lại trong thuật toán PageRank with priors. Để xác 
định ảnh hưởng của tham số β tới hiệu quả của phương pháp đề xuất, thiết lập γ = 
55 
0.5 (là giá trị cho thứ hạng các gen ổn định theo thực nghiệm nêu trên) và tính giá 
trị AUC trung bình trên 398 bệnh cho mỗi giá trị β khi β tăng từ 0.1 đến 0.9. Kết 
quả thực nghiệm được thể hiện trong Hình 2.4 cho thấy độ chính xác của thuật toán 
(thể hiện qua giá trị AUC trung bình) không thay đổi nhiều khi thay đổi β. Cụ thể, 
giá trị cao nhất đạt được khi β = 0.7 chỉ chênh lệch khoảng 1% so với giá trị thấp 
nhất khi β = 0.1. 
Hình 2. 4. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số γ = 
0.5 và β tăng từ 0.1 đến 0.9 
2.2.3.2. So sánh với các thuật toán phân hạng cùng lớp 
 Thực nghiệm tiếp theo được tiến hành để so sánh kết quả phân hạng của 
phương pháp đề xuất với phương pháp PageRank with priors trên cùng một bộ dữ 
li

File đính kèm:

  • pdfluan_an_phan_hang_va_du_doan_gen_lien_quan_den_benh_bang_cac.pdf
  • pdfTom tat LA NCS TungDV.pdf
  • pdfTrang Thong tin LA (TA) NCS TungDV.pdf
  • pdfTrang Thong tin LA (TV) NCS TungDV.pdf