Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 1

Trang 1

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 2

Trang 2

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 3

Trang 3

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 4

Trang 4

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 5

Trang 5

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 6

Trang 6

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 7

Trang 7

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 8

Trang 8

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 9

Trang 9

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất trang 10

Trang 10

Tải về để xem bản đầy đủ

pdf 24 trang nguyenduy 28/04/2024 970
Bạn đang xem 10 trang mẫu của tài liệu "Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất

Luận án Bài toán tái tạo mạng sinh học, mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất
ropy cõa bi¸n ng¨u nhi¶n rời r¤c X, ký hi»u là H(X), đo
lượng thông tin không ch­c ch­n cõa bi¸n X, được định nghĩa như sau [Shannon,
1948]:
 X 1 X
 H(X) = p(x) log = − p(x) log p(x) (2.1)
 p(x)
 x x
trong đó, p(x) là hàm ph¥n phèi x¡c su§t (probability mass function) cõa X.
 Khi c¡c bi¸n là li¶n tục, ph²p t½nh têng trong c¡c công thùc được thay bởi
ph²p t½nh t½ch ph¥n.
 T½nh ch§t: H(X) ≥ 0
Định nghĩa 2.2. Entropy đồng thời (joint entropy) cõa cặp hai bi¸n ng¨u nhi¶n
rời r¤c (X; Y ), ký hi»u H(X; Y ), được định nghĩa như sau:
 X
 H(X; Y ) = − p(x; y) log p(x; y) (2.2)
 x;y
 T½nh ch§t: H(X; Y ) ≤ H(X) + H(Y )
Định nghĩa 2.3. Cho hai bi¸n ng¨u nhi¶n rời r¤c X và Y . Entropy có điều
ki»n (conditional entropy) cõa bi¸n X tr¶n điều ki»n Y , ký hi»u là H(XjY ), đo
lượng thông tin không ch­c ch­n cõa bi¸n X khi đã bi¸t bi¸n Y , được x¡c định
như sau:
 X p(x; y)
 H(XjY ) = − p(x; y) log (2.3)
 p(y)
 x;y
 T½nh ch§t
 (i) H(XjY ) ≥ 0
 (ii) H(X; Y ) = H(X) + H(Y jX); H(X; Y ) = H(Y ) + H(XjY )
 6
 (iii) H(XjY ) ≤ H(X)
Định nghĩa 2.4. Entropy cõa n bi¸n ng¨u nhi¶n rời r¤c X1;:::;Xn với ph¥n
bè x¡c su§t đồng thời p(x1; : : : ; xn) được x¡c định bởi:
 X
 H(X1;:::;Xn) = − p(x1; : : : ; xn) log p(x1; : : : ; xn) (2.4)
 x1;:::;xn
 n
 P
 T½nh ch§t: H(X1;:::;Xn) ≤ H(Xi)
 i=1
Định nghĩa 2.5. Thông tin tương hé (mutual information) cõa hai bi¸n ng¨u
nhi¶n X và Y , ký hi»u là MI(X; Y ), đo mùc độ tương hé cõa hai bi¸n X và Y ,
được định nghĩa như sau:
 X p(x; y)
 MI(X; Y ) = p(x; y) log (2.5)
 p(x):p(y)
 x;y
 = H(X) + H(Y ) − H(X; Y ) (2.6)
 Khi gi¡ trị độ đo này lớn, có nghĩa r¬ng mùc độ tương hé giúa hai bi¸n lớn
và ngược l¤i, gi¡ trị cõa độ đo b² nghĩa là mùc độ tương hé cõa hai bi¸n nhỏ.
 T½nh ch§t
 (i) MI(X; Y ) ≥ 0
 (ii) MI(X; Y ) = MI(Y; X)
 (iii) MI(X; Y ) = H(X) − H(XjY ) = H(Y ) − H(Y jX)
 (iv) MI(X; Y ) ≤ H(X); MI(X; Y ) ≤ H(Y )
Định nghĩa 2.6. Thông tin tương hé có điều ki»n (conditional mutual infor-
mation) cõa hai bi¸n ng¨u nhi¶n X và Y tr¶n điều ki»n Z đo mùc độ tương hé
cõa hai bi¸n X và Y khi có điều ki»n Z, được định nghĩa như sau:
 X p(x; yjz)
 MI(X; Y jZ) = p(x; y; z) log (2.7)
 p(xjz):p(yjz)
 x;y;z
 X
 = p(z)MI(X; Y jZ = z) (2.8)
 z
Mët sè biºu di¹n kh¡c cõa CMI:
 MI(X; Y jZ) = H(X; Z) + H(Y; Z) − H(Z) − H(X; Y; Z) (2.9)
 MI(X; Y jZ) = H(XjZ) + H(Y jZ) − H(X; Y jZ) (2.10)
 T½nh ch§t: MI(X; Y jZ) ≥ 0
Định nghĩa 2.7. Ba bi¸n ng¨u nhi¶n X; Y; Z được gọi là t¤o thành chuéi
Markov (Markov chain), ký hi»u X ! Y ! Z, n¸u:
 p(x; y; z) = p(x):p(yjx):p(zjy) (2.11)
 7
Bê đề 2.1. X ! Y ! Z khi và ch¿ khi X và Z độc lªp với nhau tr¶n điều ki»n
Y , tùc là MI(X; ZjY ) = 0
Bê đề 2.2. N¸u X ! Y ! Z th¼ Z ! Y ! X
Định lý 2.1. B§t đẳng thùc xû lý dú li»u (data processing inequality-DPI)
 N¸u X ! Y ! Z th¼:
 MI(X; Y ) ≥ MI(X; Z) (2.12)
D§u đẳng thùc x£y ra khi và ch¿ khi MI(X; Y jZ) = 0
Bê đề 2.3. N¸u X ! Y ! Z th¼
 MI(X; Z) ≤ minMI(X; Y ); MI(Y; Z) (2.13)
Bê đề 2.4. N¸u X ! Y ! Z th¼:
 MI(X; Y jZ) ≤ MI(X; Y ) (2.14)
2.3 Đánh gi¡ t½nh ch½nh x¡c cõa dự đoán
 Trong ph¥n lớp nhị ph¥n hay trong dự đoán, c¡c k¸t qu£ được g¡n nh¢n
hoặc là dương (positive-P) hoặc ¥m (negative-N ). Có bèn kh£ n«ng có thº x£y
ra: N¸u k¸t qu£ dự đoán là P và gi¡ trị thực t¸ cũng là P th¼ khi đó được gọi
là true positive-TP. N¸u k¸t qu£ dự đoán là P mà gi¡ trị thực là N, th¼ được
gọi là false positive-FP. Ngược l¤i, n¸u k¸t qu£ dự đoán và gi¡ trị thực đều là
N th¼ gọi là true negative-TN, và là false negative-FN khi k¸t qu£ dự đoán là
N, trong khi gi¡ trị thực t¸ là P .
 Quan s¡t dương (P) Quan s¡t ¥m (N)
 Dự đoán dương (P) TP FP
 Dự đoán ¥m (N) FN TN
 Có nhi·u thước đo độ ch½nh x¡c cõa dự đoán như: Precision, Recall, độ ch½nh
x¡c (Accuracy-ACC ), độ đo F (F-measure), đường cong ROC và di»n t½ch dưới
đường cong ROC (area under the curve-AUC ). Trong đó,
 TP
 P recision = (2.15)
 TP + FP
 TP
 Recall = (2.16)
 TP + FN
 TP + TN
 ACC = (2.17)
 TP + FP + TN + FN
 P recision:Recall 2TP
 F − measure = 2 = (2.18)
 P recision + Recall 2TP + FP + FN
 Mët thước đo được sû dụng phê bi¸n nh§t trong khoa học đó là đường cong
ROC (Receiver Operating Characteristic). Đường cong ROC được t¤o thành tø
 8
tªp hñp c¡c điểm ùng với c¡c ngưỡng kh¡c nhau. Với méi ngưỡng s³ cho ta mët
điểm. Méi điểm được x¡c định bởi 2 tọa độ: 1-Specificity (hay cán gọi là False
Positive Rate) và Sensitivity (hay cán gọi là True Positive Rate).
 Trong đó,
 TP
 Sensitivity = (2.19)
 TP + FN
 FP
 1 − Specificity = (2.20)
 FP + TN
 Đường cong ROC có mët t½nh ch§t quan trọng là: n¸u đường cong càng đi
dọc theo bi¶n tr¡i và rồi đi dọc theo bi¶n ph½a tr¶n cõa không gian ROC, th¼
chùng tỏ k¸t qu£ cõa dự đoán càng ch½nh x¡c. Đường cong càng ti¸n tới thành
đường ch²o 45o trong không gian ROC, th¼ độ ch½nh x¡c cõa dự đoán càng k²m.
 Tuy nhi¶n, n¸u c«n cù vào c¡c đường cong ROC th¼ r§t khó để k¸t luªn
được dự đoán nào tèt hơn. V¼ vªy, người ta thường sû dụng ph¦n di»n t½ch dưới
đường cong ROC, ký hi»u là AUC, để đánh gi¡ t½nh ch½nh x¡c cõa dự đoán.
Đường cong nào có AUC càng lớn th¼ độ ch½nh x¡c cõa dự đoán càng cao và
ngược l¤i, đường cong nào có AUC càng b² th¼ độ ch½nh x¡c cõa dự đoán càng
th§p.
 Chương 3
 MÐ RËNG ĐỘ ĐO THÆNG TIN TƯƠNG HỖ ĐỂ TÁI TẠO
 QUAN HỆ ĐA BIẾN
3.1 Mët sè mở rëng độ đo Thông tin tương hé
3.1.1 Mở rëng cõa Watanabe
 Mở rëng đầu ti¶n cõa độ đo Thông tin tương hé là độ đo Tương quan têng
hñp (total correlation) do Watanabe đưa ra n«m 1960 [Watanabe, 1960].
Định nghĩa 3.1. Cho n bi¸n ng¨u nhi¶n X1;:::;Xn, tương quan têng hñp cõa
n bi¸n, ký hi»u là TC(X1;:::;Xn), được định nghĩa:
 X p(x1; : : : ; xn)
 TC(X1;:::;Xn) = p(x1; : : : ; xn) log (3.1)
 p(x1): : : : p(xn)
 x1;:::;xn
 n
 X
 = H(Xi) − H(X1;:::;Xn) (3.2)
 i=1
 Trong trường hñp ba bi¸n, công thùc (3.2) có d¤ng:
 TC(X; Y; Z) = H(X) + H(Y ) + H(Z) − H(X; Y; Z) (3.3)
 Mët mở rëng núa cõa Watanabe là Tương quan têng hñp có điều ki»n được
định nghĩa như sau:
 9
Định nghĩa 3.2. Tương quan têng hñp có điều ki»n cõa n bi¸n ng¨u nhi¶n
X1;:::;Xn tr¶n điều ki»n Y , ký hi»u là TC(X1;:::;XnjY ), được định nghĩa:
 n
 X
 TC(X1;:::;XnjY ) = H(XijY ) − H(X1;:::;XnjY ) (3.4)
 i=1
 Trong trường hñp ba bi¸n, công thùc (3.4) có d¤ng:
 TC(X; Y; ZjT ) = H(XjT ) + H(Y jT ) + H(ZjT ) − H(X; Y; ZjT ) (3.5)
 Độ đo Thông tin tương t¡c ch¿ ph£n ¡nh được kiºu quan h» đồng thời cõa
n bi¸n, không ph£n ¡nh được c¡c kiºu quan h» kh¡c giúa c¡c bi¸n.
3.1.2 Mở rëng cõa Fano
 Mở rëng thù hai cõa độ đo Thông tin tương hé là độ đo Thông tin tương
t¡c (interaction information) do Fano đưa ra n«m 1961 [Fano, 1961].
Định nghĩa 3.3. Thông tin tương t¡c cõa n bi¸n ng¨u nhi¶n X1;:::;Xn−1;Xn
(với n > 2), được định nghĩa như sau:
 n
 X X n+1
 MI(X1;:::;Xn) = H(Xi) − H(Xi;Xj ) + ::: + (−1) H(X1;:::;Xn) (3.6)
 i=1 1≤i<j≤n
 Trong trường hñp ba bi¸n, công thùc (3.6) được vi¸t:
 MI(X; Y; Z) = H(X)+H(Y )+H(Z)−H(X; Y )+H(Y; Z)+H(Z; X)+H(X; Y; Z) (3.7)
 Thông tin tương hé có t½nh ch§t là luôn có gi¡ trị không ¥m, gi¡ trị MI = 0
khi và ch¿ khi c¡c bi¸n độc lªp. Trong khi đó, theo công thùc (3.6), gi¡ trị MI
có thº nhªn c£ gi¡ trị ¥m. Như vªy, mở rëng cõa Fano không ph£n ¡nh đúng
mèi quan h» giúa c¡c bi¸n.
3.1.3 Mở rëng cõa Cover và Thomas
 Mở rëng cõa Cover và Thomas đưa ra n«m 1991 [Cover et al., 1991], trong
đó, c¡c t¡c gi£ sû dụng biºu đồ Venn để biºu di¹n cho entropy cõa c¡c bi¸n
(H¼nh 3.2). Ph¦n giao nhau cõa H(X) và H(Y ) biºu di¹n cho lượng thông tin
chung cõa hai bi¸n X; Y , ch½nh là Thông tin tương hé cõa hai bi¸n. Khi mở
rëng sang trường hñp ba bi¸n, ph¦n giao nhau cõa H(X);H(Y ) và H(Z) ch½nh
là thông tin tương hé cõa ba bi¸n.
 Nh¼n vào độ lớn ph¦n giao nhau cõa H(X);H(Y ) và H(Z), chúng ta có thº
bi¸t được mùc độ tương hé giúa ba bi¸n. Tuy nhi¶n, phương ph¡p biºu di¹n
trực quan này không biºu di¹n được c¡c kiºu quan h» kh¡c trong trường hñp
ba bi¸n.
3.1.4 Mở rëng cõa Jakulin và Bratko
 N«m 2003, Aleks Jakulin và Ivan Bratko đưa ra mët phương ph¡p trực quan
kh¡c [Jakulin et al., 2003]. Jakulin và Bratko gọi quan h» giúa hai bi¸n là tương
t¡c. Trong phương ph¡p này, méi bi¸n được biºu di¹n b¬ng mët h¼nh trán lớn,
 10
 H¼nh 3.2: Biºu di¹n Thông tin tương hé b¬ng biºu đồ Venn.
tương t¡c giúa hai bi¸n được biºu di¹n b¬ng mët h¼nh trán nhỏ n¬m tr¶n đường
nèi giúa hai h¼nh trán lớn (H¼nh 3.3). Khi mở rëng sang trường hñp ba bi¸n,
Jakulin và Bratko đưa th¶m kh¡i ni»m tương t¡c dương và tương t¡c ¥m. Để
biºu di¹n điều này, c¡c t¡c gi£ dùng h¼nh trán nhỏ màu tr­ng biºu di¹n tương
t¡c dương và h¼nh trán nhỏ màu x¡m biºu di¹n tương t¡c ¥m.
 H¼nh 3.3: Biºu đồ tương t¡c giúa c¡c bi¸n cõa Jakulin-Bratko.
 Trong c¡ch biºu di¹n này, Jakulin và Bratko ch¿ tªp trung mô t£ c§u trúc
tương t¡c mà không mô t£ được mùc độ m¤nh/y¸u cõa tương t¡c đó. C¡ch biºu
di¹n này có t½nh trực quan th§p. Nh¼n vào h¼nh v³, chúng ta không thº nói g¼
v· h¼nh trán nhỏ trong sự tương quan với c¡c h¼nh trán lớn biºu di¹n c¡c bi¸n
X; Y; Z.
 Tóm l¤i, trong nhúng mở rëng độ đo Thông tin tương hé vøa tr¼nh bày, méi
mở rëng đều có nhược điºm. Mở rëng cõa Watanabe, Cover và Thomas không
biºu di¹n đưñc đầy đủ c¡c kiºu quan h» tồn t¤i trong trường hñp đa bi¸n. Công
thùc mở rëng cõa Fano không biºu di¹n ch½nh x¡c mùc độ quan h» giúa c¡c
bi¸n. Mở rëng cõa Jakulin và Bratko l¤i ch¿ biºu di¹n được c§u trúc cõa tương
t¡c mà không biºu di¹n được mùc độ cõa tương t¡c đó.
3.2 Đề xu§t mët mở rëng độ đo Thông tin tương hé
3.2.1 Đề xu§t mët di¹n gi£i trực quan và công thùc mới cho MI cõa
 hai bi¸n
 Tø nhúng nhược điểm cõa c¡c mở rëng tr¼nh bày trong ph¦n 3.1, chúng
tôi đề xu§t mët phương ph¡p trực quan mới để biºu di¹n Thông tin tương hé.
Ð đây, chúng tôi mô t£ quan h» giúa hai bi¸n trong mët không gian hai chi·u
(H¼nh 3.4). Gi£ sû, ta có dú li»u quan s¡t tr¶n hai bi¸n X; Y . Khi đó, entropy
 11
cõa ph¥n bè x¡c su§t cõa dú li»u quan s¡t, ký hi»u là H(pX;Y ), được biºu di¹n
b¬ng mët h¼nh S có d¤ng b§t kỳ (ph¦n di»n t½ch k´ ca rô).
 Khi hai bi¸n X; Y độc lªp, entropy cõa ph¥n bè x¡c su§t cõa dú li»u được
biºu di¹n b¬ng h¼nh chú nhªt nhỏ nh§t chùa S, ký hi»u là H(pX × pY ). Do
entropy được biºu di¹n qua logarit n¶n H(pX × pY ) = H(pX ) + H(pY ) =
H(X) + H(Y ).
 H¼nh 3.4: Đề xu§t biºu di¹n trực quan mới cho MI cõa hai bi¸n.
 Do đó, công thùc (2.6) cõa Shannon, tương đương với công thùc (3.8)
 MI(X; Y ) = H(pX × pY ) − H(pX;Y ) (3.8)
 Ð đây, H(pX;Y ) và H(pX × pY ) là ký hi»u mới mà chúng tôi đưa ra để sû
dụng trong di¹n gi£i cõa m¼nh. N¸u h¼nh k´ ca rô S biºu di¹n cho H(pX;Y ) càng
lớn g¦n với h¼nh chú nhªt biºu di¹n cho H(pX × pY ), khi đó ta k¸t luªn r¬ng
hai bi¸n X và Y độc lªp. Ngược l¤i, n¸u S càng thu hẹp so với h¼nh chú nhªt
th¼ điều đó có nghĩa là Thông tin tương hé giúa hai bi¸n X; Y càng lớn.
 Như vªy, tø c¡ch di¹n gi£i trực quan mới cho MI trong trường hñp hai bi¸n,
chúng tôi đã đề xu§t mët công thùc biºu di¹n mới cho Thông tin tương hé (công
thùc (3.8)). Theo đó, Thông tin tương hé cõa hai bi¸n ch½nh là ph¦n ch¶nh l»ch
giúa entropy cõa ph¥n bè x¡c su§t đồng thời với entropy cõa ph¥n bè x¡c su§t
trong trường hñp gi£ định hai bi¸n độc lªp. V· mặt trực quan, Thông tin tương
hé cõa hai bi¸n được biºu di¹n b¬ng ph¦n di»n t½ch (k´ ch²o) n¬m giúa h¼nh
chú nhªt và h¼nh k´ ca rô S. Công thùc (3.8) s³ là cơ sở cho vi»c mở rëng độ
đo Thông tin tương hé cho trường hñp ba bi¸n trong ph¦n ti¸p theo.
3.2.2 Đề xu§t mët di¹n gi£i trực quan và công thùc mới cho MI cõa
 ba bi¸n
 Khi mở rëng sang trường hñp ba bi¸n, ngoài c¡c quan h» cặp đôi giúa c¡c
bi¸n, ta có th¶m c¡c kiºu quan h» kh¡c như: quan h» đồng thời giúa ba bi¸n và
quan h» giúa mët bi¸n với cặp hai bi¸n cán l¤i. Chúng tôi s³ ti¸p tục mở rëng
công thùc (3.8) đối với hai kiºu quan h» tr¶n.
 12
• Kiºu quan h» thù nh§t: ba bi¸n có quan h» đồng thời với nhau. Tø d¤ng
 công thùc (3.8), chúng tôi đề xu§t công thùc mở rëng cho kiºu quan h»
 này như sau:
 MI(X; Y; Z) = H(pX × pY × pZ ) − H(pX;Y;Z ) (3.9)
 Gi£ sû, ta có dú li»u quan s¡t, được biºu di¹n trực quan b¬ng mët khèi S0
 có h¼nh d¤ng m²o mó như trong H¼nh 3.5. Khi đó, H(pX;Y;Z ) là entropy
 cõa ph¥n bè x¡c su§t cõa dú li»u quan s¡t tr¶n ba bi¸n X; Y; Z. Trong
 trường hñp ba bi¸n độc lªp, entropy cõa ph¥n bè x¡c su§t cõa dú li»u
 0
 là h¼nh hëp chùa khèi S . Khi đó, H(pX;Y;Z ) = H(pX × pY × pZ ) =
 H(pX )+H(pY )+H(pZ ) = H(X)+H(Y )+H(Z). Do đó, công thùc (3.9)
 tương đương với công thùc:
 MI(X; Y; Z) = H(X) + H(Y ) + H(Z) − H(X; Y; Z) (3.10)
 H¼nh 3.5: Biºu di¹n trực quan MI(X; Y; Z).
 Chúng tôi gọi độ đo thông tin tương hé cõa ba bi¸n trong trường hñp này
 là Thông tin tương hé têng hñp cõa ba bi¸n. Công thùc (3.10) ch½nh là
 công thùc TC(X; Y; Z) đo tương quan têng hñp cõa ba bi¸n mà Watanabe
 đã đưa ra. N¸u h¼nh S0 khớp với h¼nh hëp, ta nói r¬ng ba bi¸n X; Y; Z độc
 lªp. Ngược l¤i, n¸u S0 càng thu hẹp so với h¼nh hëp th¼ chúng ta có thº
 kh¯ng định r¬ng ba bi¸n X; Y; Z phụ thuëc. Như vªy, c«n cù vào kho£ng
 ch¶nh l»ch giúa S0 và h¼nh hëp, có thº đi đến k¸t luªn r¬ng ba bi¸n là
 độc lªp hay phụ thuëc.
• Kiºu quan h» thù hai: mët bi¸n có quan h» với cặp hai bi¸n cán l¤i. Chúng
 tôi đề xu§t công thùc mở rëng cho kiºu quan h» này như sau:
 MI(Z; [X; Y ]) = H(pZ × pX;Y ) − H(pX;Y;Z ) (3.11)
 Khi X và Y độc lªp với Z, entropy cõa ph¥n bè x¡c su§t cõa dú li»u là
 0
 h¼nh trụ chùa khèi S (H¼nh 3.6). Khi đó, H(pX;Y;Z ) = H(pZ × pX;Y ) =
 13
 H(pZ ) + H(pX;Y ) = H(Z) + H(X; Y ). Do đó, công thùc (3.11) tương
 đương với công thùc:
 MI(Z; [X; Y ]) = H(Z) + H(X; Y ) − H(X; Y; Z) (3.12)
 Chúng tôi gọi độ đo thông tin tương hé cõa ba bi¸n trong trường hñp này
 là Thông tin tương hé bë phªn giúa mët bi¸n với cặp hai bi¸n.
 H¼nh 3.6: Biºu di¹n trực quan MI(Z; [X; Y ]).
 Tương tự, trong trường hñp X có quan h» với cặp bi¸n [Y; Z]; Y có quan
 h» với cặp bi¸n [Z; X], ta có c¡c công thùc:
  
 MI X; [Y; Z] = H(pX × pY;Z ) − H(pX;Y;Z ) (3.13)
 = H(X) + H(Y; Z) − H(X; Y; Z) (3.14)
  
 MI Y; [Z; X] = H(pY × pZ;X ) − H(pX;Y;Z ) (3.15)
 = H(Y ) + H(Z; X) − H(X; Y; Z) (3.16)
 Tø đó, ta th§y méi lo¤i thông tin tương hé cung c§p cho ta mët kiºu quan
h» trong mèi quan h» đa bi¸n. V½ dụ, MI(X; Y ) cho bi¸t mùc đë tương hé giúa
bi¸n X và Y ; MIZ; [X; Y ] đo mùc độ tương hé giúa bi¸n Z và cặp bi¸n [X; Y ];
thông tin tương hé têng hñp MI(X; Y; Z) cho ta bi¸t mùc độ tương hé đồng
thời giúa ba bi¸n X; Y; Z.
3.2.3 Mở rëng độ đo Thông tin tương hé cho nhi·u bi¸n
 Tø c¡c di¹n gi£i trong trường hñp ba bi¸n, chúng ta th§y r¬ng, khi mở rëng
sang nhi·u bi¸n, s³ xu§t hi»n nhi·u kiºu quan h». Méi mët kiºu quan h» s³ tương
ùng với mët ph¥n bè x¡c su§t bi¶n hay mët ph¥n ho¤ch fD1;:::;Dkg cõa tªp
c¡c bi¸n X1;:::;Xn. Tø c¡c công thùc mở rëng độ đo MI trong trường hñp ba
bi¸n vøa tr¼nh bày, chúng tôi đề xu§t mët công thùc têng qu¡t cho Thông tin
tương hé đa bi¸n như sau:
 14
Định nghĩa 3.4. Thông tin tương hé cõa n bi¸n X1;:::;Xn với tªp ph¥n ho¤ch
fD1;:::;Dkg được định nghĩa:
 MI (X ;:::;X ) = H(p × ::: × p ) − H(p ) (3.17)
 fD1;:::;Dkg 1 n D1 Dk X1;:::;Xn
tương đương với
 k
 X
 MI (X ;:::;X ) = H(D ) − H(X ;:::;X ) (3.18)
 fD1;:::;Dkg 1 n i 1 n
 i=1
trong đó, fX1;:::;Xng = D1 ⊕:::⊕Dk; pDi là ph¥n bè x¡c su§t bi¶n cõa ph¥n
bè x¡c su§t đồng thời pX1;:::;Xn tr¶n tªp con Di cõa c¡c bi¸n.
 Trong trường hñp đặc bi»t Di = fXig, công thùc (3.18) được vi¸t như sau:
 n
 X
 MI(X1;:::;Xn) = H(Xi) − H(X1;:::;Xn) (3.19)
 i=1
 Đây ch½nh là công thùc TC(X1;:::;Xn) đo tương quan têng hñp cõa n bi¸n.
3.3 Ứng dụng MI đa bi¸n trong t¡i t¤o m¤ng trao đổi ch§t
3.3.1 T¡i t¤o quan h» đa bi¸n
 Trong ph¦n này, chúng tôi sû dụng dú li»u trao đổi ch§t trong t¸ bào hồng
c¦u (red blood cell-RBC ) được công bè bởi Nemenman và c¡c cëng sự [Nemen-
man et al.,2007] để t¡i t¤o m¤ng. Đây là dú li»u biºu di¹n dưới d¤ng mët ma
trªn 1000 × 39 mô t£ nồng độ ph¥n tû Mol cõa 39 ch§t trao đổi, tham gia trong
44 ph£n ùng được đo t¤i 1000 mèc thời gian. Dú li»u này có thº t£i v· tø địa ch¿
∼ilya/wiki/index.php/RBC _Metabolic_Network. Chúng tôi
sû dụng MATLAB để t½nh to¡n t¡i t¤o m¤ng RBC gồm 39 ch§t trao đổi. Ð đây,
chúng tôi sû dụng phương ph¡p ước lượng thông tin tương hé dựa tr¶n ph¥n bè
x¡c su§t Gaussian. Trước h¸t, để t¡i t¤o quan h» cặp đôi, chúng tôi s³ sû dụng
công thùc t½nh MI cõa hai bi¸n. Sè lượng c¡c cặp đôi trong m¤ng trao đổi ch§t
 2
RBC là C39 = 741. Sau khi có được 714 gi¡ trị MI(X; Y ), chúng tôi có mët ma
trªn 4 cët và 714 dáng. Cët thù nh§t tương ùng với bi¸n X, cët thù hai tương
ùng với Y , cët thù ba là gi¡ trị MI(X; Y ) tương ùng, cët thù tư nhªn gi¡ trị
1 n¸u trong m¤ng RBC tồn t¤i c¤nh nèi giúa X và Y , ngược l¤i cët thù tư s³
nhªn gi¡ trị 0. Sau đó, chúng tôi s­p x¸p ma trªn theo thù tự gi£m d¦n cõa cët
MI(X; Y ). Độ ch½nh x¡c cõa dự đoán t¡i t¤o quan h» cặp đôi là AUC=0.753.
 3
Tương tự như vªy, để t¡i t¤o quan h» giúa ba bi¸n, chúng tôi t½nh C39 = 9:139
gi¡ trị MI têng hñp MI(X; Y; Z) và 27.417 gi¡ trị MI bë phªn. K¸t qu£ thực
nghi»m cho th§y c¡c độ đo đề xu§t có kh£ n«ng t¡i t¤o được c¡c tương t¡c đa
bi¸n, ch¯ng h¤n, di»n t½ch dưới đường cong ROC cõa m¤ng t¡i t¤o b¬ng độ đo
Thông tin tương hé têng hñp là AUC=0.874.
 Sau đây, chúng tôi s³ minh họa qu¡ tr¼nh t¡i t¤o m¤ng con gồm 10 ch§t đầu
ti¶n (vi¸t t­t là RBC10) cõa m¤ng RBC. B£ng 3.1 hiºn thị 20 quan h» cặp đôi
 15
 B£ng 3.1: C¡c quan h» cặp đôi được t¡i t¤o trong m¤ng RBC10
 n X; Y Thù tự MI(X; Y ) Ph£n ùng
 1 G6P,F6P (1,2) 8.22 pgi
 2 DHAP,GAP (4,5) 7.58 tip
 3 PG2,PEP (9,10) 5.77 en
 4 PG3,PG2 (8,9) 5.44 pgm
 5 PG3,PEP (8,10) 5.07 pgm,en
 6 FDP,DHAP (3,4) 3.78 ald
 7 FDP,GAP (3,5) 3.77 ald
 8 GAP,PG3 (5,8) 1.87 gapdh,pgk
 9 DPG13,PG3 (6,8) 1.33 pgk
 10 DPG13,PG2 (6,9) 1.33 pgk,pgm
 11 DPG13,DPG23 (6,7) 1.26 dpgm
 12 GAP,DPG13 (5,6) 1.21 gapdh
 13 F6P,FDP (2,3) 1.06 pfk
 14 G6P,FDP (1,3) 1.05 hk,pgi
 15 F6P,DHAP (2,4) 0.98 pfk,ald
 16 F6P,GAP (2,5) 0.96 tald
 17 DHAP,DPG13 (4,6) 0.82 tpi,gapdh
 18 DPG23,PG2 (7,9) 0.71 dpgase, pgm
 19 DPG23,PG3 (7,8) 0.70 dpgase
 20 DHAP,PG3 (4,8) 0.68 tpi,gap,pgk
có gi¡ trị MI(X; Y ) lớn nh§t trong m¤ng RBC10, được s­p theo thù tự gi£m
d¦n.
 B£ng 3.2 hiºn thị 7 quan h» bë ba có gi¡ trị MI(X; Y; Z) lớn nh§t trong
m¤ng RBC10. Đây là c¡c quan h» bë ba thường là c¡c s£n ph©m hoặc ch§t n·n
cõa cùng mët ph£n ùng hoặc c¡c ph£n ùng li·n k· trong mô h¼nh trao đổi ch§t
RBC. V½ dụ, (3; 4; 5) là (F DP; DHAP; GAP ) li¶n quan tới hai ph£n ùng li·n
k· là ald và tpi; (8; 9; 10) là (PG3;PG2; P EP ) li¶n quan tới hai ph£n ùng li·n
k· là pgm và en.
 B£ng 3.2: C¡c quan h» bë ba được t¡i t¤o trong m¤ng RBC10
 n X; Y; Z Thù tự MIX; [Y;Z] MIY; [Z; X] MIZ; [X; Y ] MI(X; Y; Z)
 1 FDP, DHAP, GAP (3,4,5) 3.78 7.58 7.58 11.36
 2 PG3,PG2, PEP (8,9,10) 5.52 6.21 5.85 11.29
 3 G6P, F6P, FDP (1,2,3) 8.22 8.22 0.75 9.98
 4 DHAP,GAP, DPG13 (4,5,6) 7.57 7.57 1.00 8.57
 5 DHAP,GAP, PG3 (4,5,8) 7.58 7.58 1.87 8.54
 6 DPG13,PG3,PG2 (6,8,9) 1.35 5.46 5.46 6.98
 7 G6P, F6P, DHAP (1,2,4) 5.22 5.22 0.72 6.95
 Chọn ngưỡng θ2 = 0:9 đối với MI cõa hai bi¸n và ngưỡng θ3 = 10 đối với MI
cõa ba bi¸n. Khi đó, chúng tôi t¡i t¤o được m¤ng gồm c¡c quan h» cặp đôi và
bë ba cõa RBC10. Trong H¼nh 3.7, chúng tôi so s¡nh m¤ng được t¡i t¤o b¬ng
c¡c độ đo MI đa bi¸n với m¤ng được t¡i t¤o b¬ng thực nghi»m cõa c¡c nhà
 16
Sinh học (gọi t­t là m¤ng đích). N²t li·n là nhúng quan h» cặp đôi được t¡i t¤o
trùng khớp với m¤ng đích và n²t đứt là nhúng quan h» cặp đôi được t¡i t¤o
không khớp với m¤ng đích. Ch§m trán nèi ba đường n²t li·n là nhúng quan h»
bë ba được t¡i t¤o trùng khớp với m¤ng đích và ch§m trán nèi ba đường n²t
đứt biºu di¹n cho quan h» bë ba được t¡i t¤o không khớp với m¤ng đích.
 (a) (b)
 H¼nh 3.7: So s¡nh m¤ng t¡i t¤o nhờ MI đa bi¸n (b) với m¤ng đích (a)
 Với m¤ng k¸t qu£ t¡i t¤o được, chúng tôi đánh gi¡ t½nh ch½nh x¡c cõa dự
đoán t¡i t¤o c¡c quan h» cặp đôi và quan h» bë ba thông qua c¡c đë đo đã tr¼nh
bày trong Chương 2 (B£ng 3.3).
B£ng 3.3: Độ ch

File đính kèm:

  • pdfluan_an_bai_toan_tai_tao_mang_sinh_hoc_mo_rong_do_do_thong_t.pdf