Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10
Tải về để xem bản đầy đủ
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
Tóm tắt nội dung tài liệu: Luận án Phân hạng và dự đoán gen liên quan đến bệnh bằng các thuật toán dựa trên mạng sinh học
cho thấy phương pháp đề xuất có độ chính xác cao hơn so với các phương
pháp được so sánh thể hiện thông qua giá trị AUC. Khi tiến hành phân hạng
và dự đoán các gen mới liên quan đến bệnh cao huyết áp, trong số 20 gen
ứng viên được xếp hạng cao nhất, có 9 gen liên quan tới căn bệnh đã được
mô tả trong các y văn.
Phương pháp thứ hai: sử dụng một thuật toán phân tích mạng xã hội cho bài
toán phân hạng gen liên quan đến bệnh. Trong đó, các gen ứng viên có xác
suất liên kết với gen bệnh nhỏ sẽ không được xem xét tiếp, nhờ vậy giảm độ
phức tạp tính toán. Thực nghiệm trên dữ liệu tương tác protein của người cho
43
thấy phương pháp đề xuất có độ phức tạp tính toán thấp, đồng thời chính xác
hơn phương pháp RWR, thể hiện qua giá trị AUC. Áp dụng vào dự đoán gen
liên quan tới bệnh tiểu đường tuýp 2, phương pháp đề xuất cho kết quả khả
quan: trong 20 gen được xếp hạng cao nhất có tới 11 gen liên quan tới căn
bệnh đã được xác nhận trong các y văn.
2.1.1. Bài toán phân hạng nút trên đồ thị
Mạng tương tác gen/protein trong các nghiên cứu liên quan được biểu diễn
bởi một đồ thị vô hướng G = (V, E), trong đó tập các nút V là các gen/protein và tập
các cạnh E thể hiện tương tác giữa các gen/protein. Giả sử cho trước S là tập các
gen liên quan đến bệnh đã biết (còn gọi là tập hạt giống hay tập nút gốc), tức là một
số lượng nhỏ các gen đã được phát hiện có liên quan đến bệnh trong các nghiên cứu
trước đó.
Bài toán phân hạng gen được định nghĩa như sau: Cho G và tập các nút gốc S
(S ⊆ V). Hãy phân hạng tất cả các nút trong C (C = V \S) theo độ liên quan với S.
Độ liên quan của một nút t C được định nghĩa là trung bình cộng độ liên quan của
t với các nút trong S.
( | ) =
| |
∑ ( | ) ∈ (2.1)
2.1.2. Thuật toán phân hạng trang kết hợp với xác suất tiên nghiệm
Dựa trên quan điểm các mạng sinh học có tính tương đồng với mạng xã hội
và mạng Web, Chen và cộng sự [19] lần đầu tiên ứng dụng thuật toán phân hạng
trang kết hợp với xác suất tiên nghiệm (PageRank with priors) cho bài toán phân
hạng gen để dự đoán các gen liên quan đến bệnh và thu được các kết quả khả quan.
PageRank with priors là sự mở rộng của thuật toán phân hạng trang Web
truyền thống PageRank để tạo ra thuật toán phân hạng tùy biến [37, 42]. PageRank
with priors cho phép phân hạng các nút trên đồ thị trong mối tương quan với một
tập các nút gốc cho trước.
44
Trong công cụ tìm kiếm của Google, thuật toán PageRank được sử dụng để
xếp hạng tầm quan trọng tương đối của một trang Web dựa trên cấu trúc liên kết của
các trang. Theo PageRank, thứ hạng của một nút v được tính theo công thức:
( ) =
+ ∑
( )
( )
( )
(2.2)
trong đó:
N là tổng số các nút.
d (0 < d < 1) là hệ số suy giảm.
din(v) là bậc vào của nút v.
dout(u) là bậc ra của nút u.
Ý nghĩa của PageRank là thứ hạng (độ quan trọng) của một nút phụ thuộc
vào số nút trỏ tới nút đó và thứ hạng của những nút này. Hai giá trị này càng lớn thì
thứ hạng của nút đang xét cũng càng lớn.
Trong thuật toán PageRank with priors, ý tưởng của thuật toán là định nghĩa
một vector pS = {p1, ..., p|v|} có xác suất trước sao cho:
∑ = 1
| |
(2.3)
và pv biểu thị độ quan trọng tương đối (hay "độ lệch ban đầu") được gán cho nút v.
Ở đây:
=
| |
∈
0 ∉
(2.4)
Ngoài ra, PageRank with priors cũng định nghĩa một "xác suất quay lui" β (0
≤ β ≤ 1) là xác suất quay trở lại các nút gốc trong S và
( | ) =
( )
(2.5)
là xác suất chuyển tới nút v từ nút u.
45
Tích hợp công thức (2.3), (2.4) và (2.5) vào công thức (2.2), thu được công
thức (2.6) là xác suất dừng lặp (điểm phân hạng) có dạng:
( )( ) = (1 − ) ∑ ( | ) ( )( )
( )
+ (2.6)
Độ liên quan của nút v tương quan với S sẽ được xác định theo công thức
I(v|S) = PR(v) sau khi hội tụ.
2.1.3. Thuật toán phân hạng bằng học tăng cường
Thuật toán phân hạng bằng học tăng cường (Reinforcement Learning Rank -
RL_Rank) [24, 52] sử dụng cấu trúc liên kết của các trang Web và định nghĩa sự
phân hạng theo hình thái của bài toán học tăng cường. Trong giải thuật này, một
thực thể được xem như một người dùng duyệt Web ngẫu nhiên và mỗi trang Web là
một trạng thái.
Tại mỗi trang, người dùng nhắp vào một trong những liên kết có trong trang
với một xác suất đều và từ đó chuyển qua trang kế tiếp. Nói cách khác, khi người
dùng chọn một trang kế tiếp bằng cách nhắp ngẫu nhiên vào một trong những liên
kết có trên trang hiện tại theo chính sách học π thì xác suất lựa chọn bằng
1/dout(trang hiện tại) với dout(trang hiện tại) là bậc ra của trang hiện tại [52]. Khoản
thưởng dành được khi chuyển từ trang hiện tại u sang trang mới v được định nghĩa
bởi công thức:
=
( )
(2.7)
Điểm của trang v là giá trị được mong đợi của tổng các khoản thưởng đã
giảm trừ mà một thực thể tích lũy được trong suốt quá trình duyệt qua các trang cho
tới trang v. Tiếp theo, thực thể sẽ thêm khoản thưởng đã nhận được ruv vào các
khoản thưởng tích lũy đã giảm trừ của mình. Do đó, điểm của một trang v là xác
suất duyệt tới nó từ các trang khác được tăng thêm bởi tổng các khoản thưởng khi
chuyển đổi và các khoản thưởng tích lũy đã giảm trừ và được tính theo công thức:
( ) = ∑ (( ( ) ( ))⁄ × ( + ( )))
( )
(2.8)
46
trong đó:
Rt+1(v) là thứ hạng của trang v tại thời điểm t+1.
Rt(u) là thứ hạng của trang u tại thời điểm t.
din(v) bậc vào của trang v.
prob(u) là xác suất về sự hiện diện của thực thể tại trang u.
dout(u) là bậc ra của trang u.
ruv là khoản thưởng dành cho việc chuyển từ trang u sang trang v.
γ (0 < γ < 1) là hệ số giảm trừ.
Giá trị của biểu thức prob(u)/dout(u) là xác suất của việc duyệt tới trang v từ
trang u. Nó bằng với xác suất xuất hiện của thực thể tại trang u nhân với xác suất
lựa chọn của trang v khi thực thể đang ở trạng thái u.
Do thực thể lựa chọn một liên kết ngẫu nhiên theo phân phối xác suất đều,
nên xác suất lựa chọn trang v từ trang u bằng 1/ dout (u). Xác suất xuất hiện của thực
thể tại trang thái u chính là thứ hạng của trang u trong khái niệm về PageRank, do
đó prob(u) được tính bằng công thức phân hạng của PageRank đối với trang u và
Rt(u) là thứ hạng của trang u thể hiện các khoản thưởng tích lũy đã giảm trừ mà
thực thể nhận được cho đến khi duyệt tới trang u. Vì vậy, thứ hạng của trang v phụ
thuộc vào bậc ra và thứ hạng của các trang có liên kết tới v. Kết quả thu được sẽ là
một vector RL_Rank với các thành phần là điểm số/thứ hạng của các trang.
2.1.4. Thuật toán bước ngẫu nhiên có quay lui
Bước ngẫu nhiên có quay lui (Random Walk with Restart - RWR) [53] là
một biến thể của thuật toán bước ngẫu nhiên trên đồ thị [70]. Theo thuật toán này,
một thực thể xuất phát từ một nút khởi đầu. Sau đó, nó di chuyển trên đồ thị bằng
cách chuyển đến các nút lân cận một cách ngẫu nhiên với xác suất tỷ lệ với trọng số
của các cạnh kết nối. Tại thời điểm t bất kỳ trong quá trình di chuyển, thực thể cũng
có thể quay lại nút khởi đầu với một xác suất nhất định được gọi là xác suất quay lại
thuộc khoảng (0, 1).
47
Giả sử G = (V, E) là một đồ thị vô hướng, trong đó V = (v1, v2, ...,vn) là tập
các nút và E = ((vi, vj) | vi, vj V) là tập các cạnh. Gọi S V là tập các nút gốc (nút
khởi đầu), W là ma trận kề của đồ thị G. Thuật toán RWR được mô tả như sau:
= (1 − ) ′ + (2.9)
trong đó:
pt+1 là vector xác suất của tập các nút |V| tại thời điểm t.
Phần tử thứ i biểu diễn xác suất của thực thể tại nút vi V.
W’ là ma trận chuẩn hóa từ ma trận kề W, trong đó W’i j (kí hiệu các phần
tử (i, j) trong W’) biểu diễn xác suất mà thực thể di chuyển từ vi tới vj nằm
trong tập V\{vi}.
p0 là vector xác suất khởi đầu trong đó các phần tử có giá trị bằng 0 (nếu
chúng không thuộc tập S) hoặc bằng 1/|S| (nếu chúng thuộc tập S).
Khi áp dụng RWR cho bài toán phân hạng gen ứng viên dựa trên mạng [53,
60], tập hợp các nút gốc S là các gen liên quan đến bệnh đã biết và các gen ứng viên
là các gen còn lại trên mạng tương tác gen/protein. Ma trận chuẩn hóa W' được xác
định theo công thức:
′ =
( )
∑ ( )
(2.10)
trong đó WG là ma trận kề của đồ thị mạng tương tác gen/protein.
Tất cả các gen ứng viên cuối cùng được phân hạng khi vector xác suất p∞ đạt
trạng thái ổn định sau một số bước lặp (tức là chênh lệch giữa pt+1 và pt nhỏ hơn
một giá trị tới hạn, thường được chọn là 10-6).
Trên đây là phần giới thiệu tóm tắt một số nghiên cứu liên quan về kỹ thuật
phân tích mạng, bài toán phân hạng nút trên đồ thị và các thuật toán đã được áp
dụng cho bài toán phân hạng gen dựa trên mạng tương tác gen/protein. Đây cũng là
những kiến thức nền tảng được sử dụng để phát triển các phương pháp phân hạng
được đề xuất trong các phần tiếp theo của chương này.
48
2.2. PHÂN HẠNG GEN BẰNG PHƯƠNG PHÁP HỌC TĂNG CƯỜNG KẾT
HỢP VỚI XÁC SUẤT TIÊN NGHIỆM
2.2.1. Thuật toán phân hạng học tăng cường kết hợp với xác suất tiên nghiệm
Thuật toán RL_Rank cho phép xếp hạng các nút trên mạng một cách toàn
cục, tức là thuật toán này tính toán độ quan trọng nói chung hay độ quan trọng tuyệt
đối của các nút. Trong các bài toán tìm kiếm trên Web, cách xếp hạng này là phù
hợp. Tuy nhiên, mục tiêu của bài toán phân hạng gen không phải là tính độ quan
trọng tuyệt đối của các nút mà là tính độ quan trọng tương đối của các nút so với
các nút gốc (tức là các nút tương ứng với các gen liên quan đến bệnh đã biết). Để
giải quyết vấn đề này, phương pháp phân hạng học tăng cường kết hợp với xác suất
tiên nghiệm (RL_Rank with priors) sử dụng ý tưởng về “thứ hạng ban đầu” hay xác
suất tiên nghiệm trong phương pháp PageRank with priors.
Giả sử ký hiệu S là tập gen gốc và pS = {p1, ,p|v|} là vector thứ hạng ban
đầu có tổng bằng 1, trong đó pv biểu thị độ quan trọng tương đối của nút v. Ở đây pv
= 1/ |S| đối với v S và pv = 0 đối với v S theo công thức (2.4). Đồng thời, định
nghĩa một xác suất quay lui β (0 ≤ β ≤ 1) biểu thị cho xác suất quay trở lại các nút
gốc trong quá trình duyệt, nhằm mục đích xem các nút gốc là quan trọng nhất.
Bên cạnh đó, đồ thị mạng tương tác gen/protein là đồ thị vô hướng nên khác
với đồ thị mạng Web có hướng, có thể coi bậc vào của một nút bằng bậc ra và được
xác định là số liên kết với nút (tức là din(v) = dout(v) = d(v)). Mức độ quan trọng của
một trang trong đồ thị mạng Web được xác định bằng số liên kết trỏ tới nó; mức độ
quan trọng của một gen trong đồ thị mạng tương tác gen/protein phụ thuộc số liên
kết tới gen. Do đó khi coi đồ thị vô hướng là đồ thị có hướng với bậc vào và bậc ra
của một đỉnh bằng nhau, kết quả phân hạng gen không bị ảnh hưởng.
Khi đó công thức (2.8) của thuật toán RL_Rank được viết lại như sau:
( ) = (1 − ) ∑ (( ( ) ( ))⁄ × ( + ( )))
( )
+ (2.11)
49
Cùng với việc tính đến các xác suất đầu prob(u) là xác suất xuất hiện của
thực thể tại nút u (theo PageRank with priors), thuật toán RL_Rank with priors khi
áp dụng cho bài toán phân hạng gen dựa trên mạng tương tác gen/protein được mô
tả như sau:
Cho G = (V, E) là một đồ thị vô hướng biểu thị mạng tương tác gen/protein,
trong đó V là tập các gen trên đồ thị và E là tập các liên kết. Gọi S V là tập gen
gốc (là các gen liên quan đến bệnh đã biết); C V là tập các gen ứng viên có liên
kết với tập gen S. Giả sử prob là xác suất của agent khi duyệt tới gen u; ps là vector
thứ hạng ban đầu của tập tất cả các gen; R là vector thứ hạng các gen theo thuật toán
RL_Rank; ε là số thực dương rất nhỏ. Thuật toán thực hiện theo các bước:
Bước 1: Sử dụng thuật toán tìm kiếm theo chiều rộng (BFS) để lấy toàn
bộ các gen liên kết với tập gen gốc.
Bước 2: Xây dựng tập ứng viên C bao gồm các gen gốc và gen liên kết
với chúng.
Bước 3: Khởi tạo giá trị R, prob và ps
Bước 4: Tính toán các giá trị của vector prob (đây cũng chính là thứ hạng
của các gen theo thuật toán PageRank with priors).
Bước 5: Sử dụng Học tăng cường để tăng cường điểm cho các thứ hạng
gốc của các gen để nhận được thứ hạng cuối cùng của chúng.
Phần giả mã của thuật toán được mô tả như sau:
Đầu vào:
V: Tập hợp tất cả các gen (nút)
S: Tập các gen gốc
prob: Xác suất của thực thể khi duyệt tới gen u
ps: Vector thứ hạng ban đầu của tập tất cả các gen
R: Vector thứ hạng các gen theo RL_Rank
ε : Số thực dương rất nhỏ
Đầu ra:
Vector R chứa hạng của các gen
50
Các bước thực hiện:
/* Sử dụng thuật toán tìm kiếm theo chiều rộng để lấy toàn bộ các gen liên kết với
tập gen gốc */
Build Set C / Chứa các gen gốc và gen liên kết với chúng
Initialize R, prob // Khởi tạo vector R và prob
Initialize ps /* Khởi tạo vector thứ hạng ban đầu theo công thức (2.4) */
δ 0
// Tính toán các giá trị của vector prob, đây cũng chính là thứ hạng của các gen theo
PageRank with priors.
Do {
For every gen v C
prob (v) = (1 − β) ∑ (prob(u) d(u))⁄
( )
+ βp
End for
δ ||probnew – prob||
prob probnew
}
While (δ > ε)
// Sử dụng các khái niệm về Học tăng cường để tăng cường điểm cho các thứ hạng
gốc của các gen để nhận được thứ hạng cuối cùng của chúng.
δ 0
Do {
For every gen v V
ruv = 1/d(u)
R (v) = (1 − β) ∑ ((prob(u) d(u))⁄ × (r + γR (u)))
( )
+ βp
End for
δ ||Rnew – R||
R Rnew
}
While (δ > ε)
Hình 2. 1. Thuật toán RL_Rank with priors
51
2.2.2. Dữ liệu thực nghiệm
Dữ liệu sử dụng cho thực nghiệm với các thuật toán phân hạng dựa trên
mạng trong chương này bao gồm một mạng tương tác gen/protein và cơ sở dữ liệu
về bệnh và các gen liên quan đến bệnh đã biết.
2.2.2.1. Mạng tương tác gen/protein
Mạng tương tác gen/protein được trích xuất từ mạng tương tác chức năng
giữa các gen/protein của con người (FLN - functional linkage network) [61, 67].
Đây là một mạng có trọng số gồm 21.657 gen và 22.388.609 liên kết được xây dựng
từ 16 cơ sở dữ liệu di truyền (Bảng 2.1), sử dụng bộ phân lớp Naive Bayes.
Để phản ánh các mối liên kết tin cậy nhất giữa các protein, theo phương pháp
đề xuất trong [61, 67], các trọng số liên kết trong mạng FNL gốc được sắp xếp theo
thứ tự từ cao tới thấp. Sau đó, 0.5% số liên kết có trọng số (độ tin cậy) cao nhất
được trích xuất để thu được mạng con dùng cho thực nghiệm. Mạng con này gồm
có 11.886 gen và 111.943 liên kết.
2.2.2.2. Cơ sở dữ liệu bệnh-gen
OMIM (Online Mendelian Inheritance in Man) là dự án di truyền Mendel ở
người, đây là một cơ sở dữ liệu bao gồm danh mục tất cả các bệnh đã biết và các
gen có liên quan đến bệnh trong hệ gen của con người. Cơ sở dữ liệu OMIM được
cập nhật và chỉnh sửa thường xuyên từ các y văn được công bố. Mỗi mục của
OMIM mô tả về một kiểu hình hoặc gen được xác định về mặt di truyền và có nhiều
liên kết đến các cơ sở dữ liệu di truyền khác. Vì vậy, cơ sở dữu liệu OMIM là một
cổng thông tin dễ hiểu và dễ tra cứu về các thông tin di truyền của con người.
Cơ sở dữ liệu về bệnh và các gen đã biết có liên quan đến bệnh được trích
xuất từ OMIM gồm 3284 bệnh có từ một gen đã biết có liên quan đến bệnh trở lên.
Do sử dụng phương pháp LOOCV để đánh giá hiệu năng của các phương pháp
phân hạng, nên mỗi bệnh phải có ít nhất hai gen liên quan đã biết và các gen này
phải có mặt trong mạng tương tác gen/protein.
52
Bảng 2. 1. Các nguồn dữ liệu xây dựng FLN [61, 67]
Các nguồn
dữ liệu
Mô tả
Số lượng
các cặp gen
Số lượng
các gen
Curated PPI
Các tương tác protein được tuyển chọn từ các cơ
sở dữ liệu: HPRD, BIND, BIOGRID, INTACT,
MIPS, DIPS và MINT.
90352 10281
Y2H
Các tương tác protein từ các thực nghiệm Y2H
thông lượng cao
2611 1522
Masspec
Các tương tác protein từ các thực nghiệm phương
pháp khối phổ quy mô lớn.
2046 1159
DDI Các cặp protein trong các miền tương tác protein. 6933469 13454
Co-exp
Biểu hiện liên quan giữa các gen từ các nguồn dữ
liệu biểu hiện gen quy mô lớn.
5110798 16287
DS Các các cặp protein chia sẻ cùng một miền protein 2064262 17328
PG Các cặp gen có liên quan về cơ cấu phát sinh loài 18086 2607
GN Các cặp gen nằm sát nhau dọc theo nhiễm sắc thể 10070 1365
Fusion
Các cặp protein được kết hợp thành một protein
duy nhất ở các loài khác nhau
361 361
Yeast
Các liên kết chức năng ánh xạ từ 7 loại dữ liệu về
chức năng gen trong nấm men thông qua các gen
cùng nguồn
123380 3809
Worm
Các liên kết chức năng ánh xạ từ 4 loại dữ liệu về
chức năng gen của loài sâu thông qua các gen
cùng nguồn
96911 5737
Fly
Các liên kết chức năng ánh xạ từ 3 loại dữ liệu về
chức năng gen của loài ruồi thông qua các gen
cùng nguồn
139984 5966
Mouse-rat
Các liên kết chức năng ánh xạ từ 3 loại dữ liệu về
chức năng gen của loài chuột thông qua các gen
cùng nguồn
254477 11789
TexM
Xuất hiện trong phần tóm tắt của các tài liệu trên
PubMed
518716 12286
MF
Cặp gen có cùng thuật ngữ về chức năng phân tử
trong GO
6937725 7863
CC
Cặp gen có cùng thuật ngữ về thành phần tế bào
trong GO
5591796 12503
53
Trên cơ sở đó, sau khi phân tích mạng tương tác gen/protein được trình bày
trong phần 2.2.2.1 và quan hệ bệnh-gen, thu được 398 bệnh có từ hai gen liên quan
trở lên và các gen này có mặt trong mạng tương tác gen/protein. Với mỗi căn bệnh,
tập các gen liên quan đến bệnh đã biết được sử dụng như là tập gen gốc trong quá
trình phân hạng bởi các thuật toán.
2.2.3. Thực nghiệm và kết quả
2.2.3.1. Ảnh hưởng của các tham số
Thực nghiệm đầu tiên được tiến hành để đánh giá ảnh hưởng của các tham số
tới hiệu quả của phương pháp phân hạng đề xuất. Phương pháp thực nghiệm là phân
hạng các gen ứng viên đối với từng bệnh cụ thể và tính toán giá trị AUC. Giá trị
AUC trung bình trên 398 bệnh sẽ được sử dụng làm kết quả để đánh giá độ chính
xác của phương pháp.
Hình 2. 2. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β =
0.8 và γ tăng từ 0.1 đến 0.9
54
Kết quả thử nghiệm cho thấy: với giá trị β >= 0.8, khi tăng hay giảm giá trị γ,
kết quả thực hiện thuật toán hầu như không thay đổi. Trong Hình 2.2, với β = 0.8,
giá trị AUC trung bình trên 398 bệnh ổn định khi γ biến thiên trong khoảng [0,1].
Điều này là do khi xác suất quay trở lại gốc lớn, các nút gần các nút gốc được thăm
nhiều hơn, trong khi các nút ở xa các nút gốc ít được thăm hơn, do đó giá trị điểm
thưởng không thay đổi nhiều, dẫn tới kết quả phân hạng chung ít thay đổi.
Trong trường hợp β <= 0.7 và khi γ tăng từ 0.1 đến 0.4, giá trị điểm thưởng
tăng dần, dẫn đến thứ hạng của gen thử nghiệm cũng tăng theo và thứ hạng này ổn
định khi γ >= 0.5. Hình 2.3 biểu diễn kết quả thử nghiệm với β = 0.7 và γ biến thiên
trong khoảng [0,1]. Kết quả thu được là tương tự đối với các trường hợp thử nghiệm
β = (0.1, 0.2, 0.3, 0.4, 0.5, 0.6).
Hình 2. 3. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số β =
0.7 và γ tăng từ 0.1 đến 0.9
Tham số β là xác suất quay lại trong thuật toán PageRank with priors. Để xác
định ảnh hưởng của tham số β tới hiệu quả của phương pháp đề xuất, thiết lập γ =
55
0.5 (là giá trị cho thứ hạng các gen ổn định theo thực nghiệm nêu trên) và tính giá
trị AUC trung bình trên 398 bệnh cho mỗi giá trị β khi β tăng từ 0.1 đến 0.9. Kết
quả thực nghiệm được thể hiện trong Hình 2.4 cho thấy độ chính xác của thuật toán
(thể hiện qua giá trị AUC trung bình) không thay đổi nhiều khi thay đổi β. Cụ thể,
giá trị cao nhất đạt được khi β = 0.7 chỉ chênh lệch khoảng 1% so với giá trị thấp
nhất khi β = 0.1.
Hình 2. 4. Đường biểu diễn các giá trị AUC trung bình trên 398 bệnh với tham số γ =
0.5 và β tăng từ 0.1 đến 0.9
2.2.3.2. So sánh với các thuật toán phân hạng cùng lớp
Thực nghiệm tiếp theo được tiến hành để so sánh kết quả phân hạng của
phương pháp đề xuất với phương pháp PageRank with priors trên cùng một bộ dữ
liFile đính kèm:
luan_an_phan_hang_va_du_doan_gen_lien_quan_den_benh_bang_cac.pdf
Tom tat LA NCS TungDV.pdf
Trang Thong tin LA (TA) NCS TungDV.pdf
Trang Thong tin LA (TV) NCS TungDV.pdf

