Luận án Tối ưu hóa và đánh giá hiệu năng của tổ chức cache trong hệ thống vi xử lý thế hệ sau

Download

Trang 1

Trang 2

Trang 3

Trang 4

Trang 5

Trang 6

Trang 7

Trang 8

Trang 9

Trang 10

Tải về để xem bản đầy đủ

153 trang nguyenduy 24/06/2024 3020

Download

Bạn đang xem 10 trang mẫu của tài liệu "Luận án Tối ưu hóa và đánh giá hiệu năng của tổ chức cache trong hệ thống vi xử lý thế hệ sau", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

Tóm tắt nội dung tài liệu: Luận án Tối ưu hóa và đánh giá hiệu năng của tổ chức cache trong hệ thống vi xử lý thế hệ sau

đều sử dụng cách ghi thông suốt [72].
Để nâng cao hiệu năng của quá trình CPU ghi nội dung vào cache bằng cách
sử dụng giải pháp đưa vào một bộ đệm ghi sử dụng công nghệ SRAM, và đặt nó
giữa bộ nhớ chính và CPU hoặc giữa L1 cache và L2 cache như hình 2.12 [72].
Cache
Bộ nhớ
CPU
Bộ đệm chính
ghi
(a): Bộ đệm ghi ở giữa CPU và bộ nhớ chính.
L1 cache
Bộ nhớ
CPU L2 cache chính
Bộ đệm
ghi
(b): Bộ đệm ghi ở giữa L1 cache và L2 cache.
Hình 2.12: Kỹ thuật bộ đệm ghi [72].
Trong trường hợp bộ đệm ghi đặt giữa CPU và bộ nhớ chính: CPU ghi nội
dung đồng thời ra dòng cache và bộ đệm ghi với tốc độ cao hơn so với thời gian
CPU ghi ra bộ nhớ chính công nghệ DRAM, sau đó đơn vị điều khiển bộ nhớ thực
hiện ghi tiếp nội dung mới từ bộ đệm ghi ra khối nhớ tương ứng trong bộ nhớ chính
mà không chiếm thời gian của CPU và cache.
Trong trường hợp bộ đệm ghi đặt giữa CPU và L2 cache: CPU đồng thời ghi
nội dung ra dòng L1 cache và bộ đệm ghi, sau đó điều khiển cache sẽ thực hiện ghi
tiếp nội dung của bộ đệm ghi ra L2 cache mà không chiếm thời gian của CPU và L1
cache.
46
Như vậy, kỹ thuật bộ đệm ghi cho phép giảm được trễ do CPU không truy
nhập bộ nhớ chính (hay L2 cache) khi sử dụng cách ghi thông suốt, và trong trường
hợp sử dụng cách ghi trở lại thì chỉ thực hiện sao lưu từ bộ đệm ghi ra khối nhớ của
bộ nhớ chính mà không cần sử dụng tới CPU và cache.
2.4.2. Đọc cache
Hầu hết các tham chiếu của CPU đến bộ nhớ chính là các tham chiếu để đọc
nội dung từ bộ nhớ. Có hai trường hợp để đọc cache: CPU đọc một từ (mã lệnh
hoặc dữ liệu) từ dòng cache khi trúng cache và CPU đọc một từ (mã lệnh hoặc dữ
liệu) từ bộ nhớ chính khi trượt cache. Có hai kiến trúc đọc cache đó là: đọc bên
cạnh và đọc thông suốt [24, 72].
2.4.2.1. Đọc bên cạnh
Hình 2.13 là sơ đồ đơn giản của kiến trúc đọc bên cạnh: bộ nhớ chính và cache
nằm ở hai phía đối diện của giao tiếp của hệ thống. Như vậy, bộ nhớ chính và cache
có thể đồng thời thực hiện các chu kỳ bus riêng của mình.
CPU Giao tiếp Bộ nhớ
hệ thống
chính
Cache Bộ điều Thẻ RAM
(SRAM) khiển cache (TRAM)
Hình 2.13: Đọc bên cạnh [72].
Khi CPU bắt đầu chu kỳ đọc bộ nhớ, tùy thuộc vào tổ chức cache, có sự so
sánh để tìm kiếm dữ liệu yêu cầu có hay không trong một dòng cache nào đó:
- Nếu trúng cache, thì chu kỳ đọc cache được thực hiện: CPU đọc dữ liệu từ
dòng cache được lựa chọn, và không cần phải tham chiếu bộ nhớ chính.
- Nếu trượt cache, thì chu kỳ đọc bộ nhớ chính được thực hiện: CPU đọc dữ
liệu từ bộ nhớ chính và đồng thời khối chứa dữ liệu đó được đọc về dòng cache
tương ứng, bởi vì theo dự đoán nhờ các nguyên tắc tham chiếu, có thể ngay sau đó
dữ liệu này hoặc những dữ liệu lân cận trong khối có thể nhanh chóng được CPU
tham chiếu.
47
Kỹ thuật đọc này có cấu trúc không phức tạp, chi phí thấp, bảo đảm thời gian
đọc nhỏ khi trượt cache, vì sự truyền tải khối từ bộ nhớ chính đến cache có thể thực
hiện độc lập bằng các chu kỳ bus của mình và chúng không ảnh hưởng đến điều
khiển các truy nhập của các thiết bị khác thông qua giao tiếp hệ thống.
2.5.2.2. Đọc thông suốt
Hình 2.14 là sơ đồ đơn giản của kiến trúc đọc thông suốt. Nó có đặc điểm: bộ
nhớ chính ở phía bên đối diện của giao tiếp hệ thống, cache nằm giữa CPU và bộ
nhớ chính. Như vậy, cache có chu kỳ của CPU trước khi chuyển chu kỳ của CPU
đến giao tiếp hệ thống. Khi CPU bắt đầu chu kỳ đọc bộ nhớ, tùy thuộc vào tổ chức
cache, có sự so sánh để tìm kiếm từ yêu cầu có hay không trong một dòng cache
nào đó:
CPU
Cache Bộ điều Thẻ RAM
(SRAM) khiển cache (TRAM)
Giao tiếp
hệ thống
Bộ nhớ
chính
Hình 2.14: Đọc thông suốt [72].
- Nếu trúng cache, thì chu kỳ đọc cache được thực hiện: CPU đọc từ yêu cầu
từ dòng cache được lựa chọn và không cần phải tham chiếu bộ nhớ chính.
- Nếu trượt cache, thì chu kỳ đọc bộ nhớ chính được thực hiện: CPU đọc từ
yêu cầu từ bộ nhớ chính thông suốt qua cache, trong đó có từ yêu cầu được đọc về
dòng cache tương ứng, bởi vì theo dự đoán của các nguyên tắc tham chiếu, có thể
ngay sau đó từ này hoặc những từ lân cận trong khối có thể nhanh chóng được CPU
tham chiếu.
Kỹ thuật đọc thông suốt cho phép thực hiện thao tác với cache trong khi vẫn
dành bus hệ thống cho các thiết bị khác để tham chiếu đến bộ nhớ chính, ví dụ, thực
48
hiện DMA giữa bộ nhớ chính và thiết bị nhớ ngoài như HDD, CD/DVD. Kỹ thuật
này phức tạp cho điều khiển các truy nhập của CPU cho các thành phần còn lại của
hệ thống máy tính, do đó chi phí cũng lớn. Khi có trượt cache, phải thực hiện chu
kỳ đọc từ bộ nhớ chính về CPU thông qua bus hệ thống và hệ thống cache, do đó
làm chậm truy nhập của các thiết bị khác qua bus hệ thống. Để khắc phục hiện
tượng này cần phải tăng tỷ số trúng cache.
2.5. Cache chia sẻ thông minh
2.5.1. Tổ chức phân cấp cache trong các chip đa xử lý
Trong các CMP đa luồng, mỗi lõi xử lý có L1I cache và L1D cache riêng,
nhưng L2 cache hoặc có thể riêng cho từng lõi [11, 29, 38, 50] hoặc có thể chia sẻ
cho tất cả các lõi [2, 8, 16, 17, 29, 38, 72] như hình 2.15.
a) b)
Hình 2.15: CMP đa luồng hai cấp cache; a) với L2 cache riêng và
(b) với L2 cache chung cho tất cả các lõi [38,72].
Trong một số CMP đa luồng có thể có L3 cache chia sẻ cho các lõi, khi đó L2
cache là riêng cho từng lõi như hình 2.16.
Hình 2.16: Tổ chức cache trong các bộ xử lý 8-lõi của Intel Xeon họ 5500 [13, 14, 64, 65].
49
Với xu hướng công nghệ là tăng số lượng lõi để tiết kiệm không gian, các kiến
trúc đa lõi hiện nay hầu hết sử dụng L2 cache chia sẻ. Các lõi với L1 Icache và L1
Dcache riêng kết hợp vào trong chip và các lõi chia sẻ L2 cache. Ví dụ, kiến trúc
Tiled CMP 16-lõi như hình 2.17. Ở đây, L2 cache được tổ chức thành các mảnh
phân bố đều theo các lõi được chia sẻ, một mảnh L2 cache chia sẻ cho 4-lõi kề.
Kiến trúc này cho phép linh hoạt trong cấu hình lại L2 cache chia sẻ cho các lõi
theo nhu cầu dung lượng, giảm đáng kể yêu cầu băng thông tổng thể, và tăng hiệu
năng của hệ thống [9, 49, 50].
Hình 2.17: Tiled CMP 16-lõi với kiến trúc L2 cache chia sẻ [49, 50].
2.5.2. Cache chia sẻ thông minh
Cache thông minh đầu tiên được đưa ra bởi kiến trúc Intel® Advanced Smart
Cache có cache chia sẻ ở cấp cuối cùng, từ kiến trúc Nehalem họ Xeon 5500 và tiếp
tục đến các kiến trúc Corei (L3 smart cache) [66]. AMD và Sun cũng đưa ra các đặc
tính thông minh của cache chia sẻ ở cấp cache cuối. Cache chia sẻ thông minh có
những đặc điểm sau đây:
Cache chia sẻ cho tốc độ chuyển dữ liệu giữa các lõi nhanh hơn so với bộ
nhớ chính.
Kiến trúc cache chia sẻ đem lại nhiều lợi ích và đảm bảo tỷ số hiệu năng/chi
phí tốt hơn so với cache riêng.
Sử dụng hiệu quả cache chia sẻ
- Nếu một lõi rỗi, lõi còn lại chiếm lấy toàn bộ dung lượng của cache chia sẻ.
- Giảm sự không sử dụng của cache chia sẻ.
50
Linh hoạt cho người lập trình
- Có nhiều khả năng chia sẻ dữ liệu cho các luồng chạy trên từng lõi riêng mà
chúng cùng chia sẻ cache.
- Một lõi có thể xử lý trước hoặc xử lý sau dữ liệu cho các lõi còn lại.
- Có các cơ chế truyền thông thay phiên nhau giữa các lõi.
Giảm được sự phức tạp của liên kết logic cache
- Giảm sự chia sẻ bị lỗi của cache chia sẻ.
- Tải nhỏ hơn cho duy trì sự kết dính với nhau so với kiến trúc cache riêng.
Giảm dư thừa lưu trữ dữ liệu
- Cùng một dữ liệu chỉ cần lưu trữ một lần.
- Các luồng lệnh giống nhau chạy ở các lõi riêng nhưng trên dữ liệu khác
nhau cùng chia sẻ các địa chỉ lệnh. Khi đó, các địa chỉ lệnh được sao chép cho tất cả
các cache (riêng và chia sẻ) sẽ gây ra sự lãng phí, mà chỉ cần có một bản sao của
các lệnh trên cache chia sẻ.
Giảm lưu lượng của bus bộ nhớ
Chia sẻ dữ liệu hiệu quả giữa các lõi, cho phép dữ liệu yêu cầu được giải
quyết ở cấp cache chia sẻ cuối cùng thay vì tất cả đi đến bộ nhớ chính.
2.6. Tính nhất quán cache trong các chip đa xử lý, đa luồng
2.6.1. Thế nào là nhất quán cache
Nhất quán cache: Tính nhất quán của cache là khi cache chứa bản sao của một
phần của bộ nhớ chính, điều quan trọng là cache luôn phản ánh nội dung bộ nhớ
chính [64, 67]. Một số thuật ngữ được dùng để mô tả quá trình duy trì tính nhất
quán của bộ nhớ cache:
Snoop:
Snoop là khi cache đang giám sát các đường địa chỉ cho giao tác. Chức năng
này cho phép cache biết được các giao tác đang truy nhập đến vùng bộ nhớ có nội
dung mà nó đang giữ.
51
Snarf:
Cache được gọi là đã snarf dữ liệu khi nó có được những thông tin từ các
đường dữ liệu. Chức năng này cho phép cache cập nhật và duy trì tính nhất quán
của nó.
Như vậy, snoop và snarf là hai cơ chế mà cache dùng để duy trì tính nhất quán
cache.
Nhất quán cache chỉ có trong kiến trúc chip đa lõi, bởi vì các lõi đều cùng chia
sẻ cache và bộ nhớ. Xét trường hợp cụ thể sau đây: Cho rằng CPU là chip đa xử lý
có 2-lõi là P1 và P2. Giai đoạn thứ nhất P2 thực hiện lệnh: ld r2, x (nạp nội dung
của ngăn nhớ x từ bộ nhớ chính về thanh ghi r2 của P2) như hình 2.18.
Hình 2.18: P2 thực hiện lệnh ld r2, x về thanh ghi r2 của P2 [67].
Giai đoạn thứ hai, P1 thực hiện lệnh ld r2, x (nạp nội dung ngăn nhớ x từ bộ
nhớ chính về thanh ghi r2 của P1) như hình 2.19.
Hình 2.19: P1 thực hiện lệnh ld r2, x [67]. Hình 2.20: P1 thực hiện các lệnh: add r1,
r2, r4; st x, r1 [67].
Lúc này, nội dung ngăn nhớ x giống với nội dung ở các thanh ghi r2 của P1 và
P2. Tiếp theo, P1 thực hiện liên tiếp các lệnh add r1, r2, r4 (cộng nội dung của các
52
thanh ghi r1, r2, r4 và lưu kết quả vào r1), st x, r1 (chuyển nội dung của r1 vào
ngăn nhớ x) như hình 2.20. Đến đây, có thể thấy rằng nội dung của ngăn nhớ x trên
bộ nhớ chính đã thay đổi khác với nội dung của nó đã được lưu trên các thanh ghi
r2 của P1 và P2.
2.6.2. Các giao thức nhất quán cache
Có hai kỹ thuật để đảm bảo tính nhất quán cache: Dựa vào thư mục và rình mò
[25, 34, 62].
Trong giao thức dựa vào thư mục, một thư mục trung tâm chứa trạng thái của
chia sẻ một khối của bộ nhớ chính, giao thức dựa vào thư mục được sử dụng trong
các chip đa xử lý có bộ nhớ chia sẻ phân tán (DSM), nhưng giao thức này trễ cao
hơn so với giao thức “rình mò”.
Trong giao thức rình mò, không cần có thư mục trung tâm, từng cache “rình
mò” hoặc nghe để đảm bảo tính nhất quán trong các cache. Giao thức rình mò được
sử dụng trong các chip đa xử lý có bộ nhớ chia sẻ tập trung (CSM) sử dụng mạng
liên kết có cấu hình Bus và Ring [43].
2.7. Kết luận chương 2
- Chương này đã nghiên cứu các tổ chức cache của kiến trúc CMP đa luồng;
các đặc tính hiệu năng cache, và các cách ghi và đọc cache. Đồng thời, nghiên cứu
đã đánh giá các tổ chức cache và lựa chọn được tổ chức cache liên kết tập hợp n-
dòng cho hiệu năng xử lý cao nhất.
- Nghiên cứu các chính sách thay thế cache cho kiến trúc CMP đa luồng nhằm
nâng cao hiệu năng xử lý.
Tuy nhiên, các nghiên cứu hiện nay đều tập trung tổ chức cache 2 cấp với L2
cache chia sẻ cho tất cả các lõi. Với kiến trúc chip có 2 cấp cache như vậy, khi số
lượng lõi tăng lên sẽ làm hạn chế băng thông, làm tăng độ trễ, và gây nghẽn nút cổ
chai tại cấp cache chia sẻ. Vì vậy, việc nghiên cứu đánh giá, đề xuất mô hình tổ
chức cache phù hợp nhằm cải thiện và nâng cao hiệu năng của CMP đa luồng là hết
sức cần thiết.
53
Chương 3
PHÂN TÍCH ĐÁNH GIÁ HIỆU NĂNG CỦA TỔ CHỨC
CACHE TRONG KIẾN TRÚC CHIP ĐA XỬ LÝ, ĐA LUỒNG
3.1. Cơ sở lý thuyết để phân tích đánh giá hiệu năng của tổ chức cache [6,
23, 42]
3.1.1. Kiến trúc chip đa xử lý, đa luồng là mạng xếp hàng đóng đa lớp có
dạng tích các xác suất (MCPFQN)
3.1.1.1. Khái quát mạng xếp hàng đóng
Mạng xếp hàng đóng là mạng xếp hàng không có các cửa vào và các cửa ra,
mà thay vào đó là các liên kết hồi tiếp từ một số cửa ra của một số hàng đợi nào đó
đến một số cửa vào của một số hàng đợi khác. Như vậy, trong mạng xếp hàng đóng
không có khách hàng (bản tin) nào có thể vào và hoặc ra khỏi mạng và tổng số
khách hàng là một số không đổi và được xác định. Hình 3.1 là ví dụ một mô hình
mạng xếp hàng đóng. Tùy theo số lượng lớp công việc (khách hàng) mà có mạng
xếp hàng đóng đơn lớp công việc và mạng xếp hàng đóng đa lớp công việc.
µ2
µ1 µ3
µN
Hình 3.1: Mô hình mạng xếp hàng đóng [23].
 Các loại nút hàng đợi
Mô hình mạng xếp hàng đóng thường sử dụng một số loại nút hàng đợi sau:
Loại 1: M/M/m-FCFS
Trong đó, M đầu tiên biểu thị thời gian giữa các lần đến phân bố theo hàm mũ,
M thứ hai biểu thị thời gian phục vụ phân bố theo hàm mũ, và m là số lượng server
(m ≥ 1). Loại này có nguyên tắc phục vụ là khách hàng vào trước được phục vụ
trước (FCFS), các thiết bị nhớ thường được mô hình như một nút hàng đợi loại này.
54
Loại 2: M/G/m-PS
Trong đó, M biểu thị thời gian giữa các lần đến phân bố theo hàm mũ, G biểu
thị thời gian phục vụ theo phân bố chung, m số lượng server (m ≥ 1), và nguyên tắc
phục vụ là chia sẻ xử lý (PS). Các CPU của máy tính thường được mô hình như một
nút hàng đợi loại này.
Lọai 3: M/G/∞ (server vô hạn)
Trong đó, M biểu thị thời gian giữa các lần đến phân bố theo hàm mũ, G biểu
thị thời gian phục vụ theo phân bố chung, và số lượng server là vô hạn, các thiết bị
đầu cuối có thể được mô hình như các nút hàng đợi loại này.
Loại 4: M/G/1-LCFS PR
Trong đó, M biểu thị thời gian giữa các lần đến phân bố theo hàm mũ, G biểu
thị thời gian phục vụ theo phân bố chung, số lượng server bằng 1, và nguyên tắc
phục vụ là khách hàng vào sau được phục vụ trước theo kiểu quay vòng (LCFS PR),
trong thực tế không ứng dụng mô hình nút loại 4 này trong các hệ thống máy tính.
 Đặc điểm của mạng xếp hàng đóng
Mạng xếp hàng đóng có đặc điểm sau đây:
- Có K nút trong mạng; i = 1, 2,, K
- ni: số lượng khách hàng ở nút i; với i = 1, 2,, K
- Tổng số khách hàng (công việc) cùng loại (lớp) vận hành trong mạng đóng
K
N = ni (3.1)
i=1
- Không có khách hàng mới nào từ ngoài mạng đến bất kỳ nút i trong mạng,
λ0i 0, tức là p0i = 0. Không có khách hàng nào từ bất kỳ nút i nào ra khỏi mạng,
tức là pi0 = 0. Do đó, tổng số khách hàng ở trong mạng xếp hàng đóng là cố định
không đổi.
- Với pij là xác suất định tuyến từ nút i đến nút j thỏa mãn cho mạng đóng
K
 pij 1 ; i = 1, 2, , K (3.2)
j 1
55
- Tổng tốc độ của các khách hàng đến nút i được xác định là λi
K
λi = λj p ji với i = 1, 2, , K (3.3)
j=1
- Số cuộc trung bình đến nút i (tốc độ tương đối đến nút i) của khách hàng là
λi
ν = hay
i λ
KK
pν λ p
λ j ji  j ji K
λi j=1 j=1
νi = = = = ν j p ji ; với i = 1, 2, , K (3.4)
λ λ λ j=1
- Mỗi server ở nút i có thời gian phục vụ khách hàng trung bình ES i có phân
1
bố hàm mũ với giá trị ES  và độc lập với các thời gian phục vụ ở các nút
i μ
i
khác, độc lập với các quá trình đến.
- Mức độ sử dụng của nút i là
λi
Ui = < 1 (3.5a)
miμ i
Trong đó: mi là số server trong từng nút i.
Nếu mi = 1, ta có hàng đợi loại M/M/1, thì mức độ sử dụng của nút i là
λi
Ui = < 1 hay λi < μ i (3.5b)
μi
- Đối với mạng đóng chỉ có thể xác định các giá trị tốc độ đến tương đối νi .
Do đó, mức độ sử dụng tương đối của nút i được xác định
νi λ i
Ui = = (3.5c)
miμi m i μ i λ
- Các tốc độ phục vụ của từng nút là hàm phụ thuộc số công việc
ni× μ i ; n i m i
μi (n i ) (3.6)
mi× μ i ; n i m i
56
Trong trường hợp mạng xếp hàng đóng có đa lớp công việc
- R: số lượng các lớp công việc trong một mạng, với r = 1, 2,.., R.
- nir : số lượng các công việc của lớp thứ r ở nút i
KR
 nir = N (3.7)
i=1 j=1
- Nr: số lượng công việc của lớp thứ r trong toàn mạng
K
nir = N r (3.8)
i=1
- N: tổng số công việc thuộc tất cả các lớp của toàn mạng là một vector tổng
các số lượng công việc của từng lớp, với N = (N1, N2,.., NR).
- Si: trạng thái của nút i của mạng, Si = (ni1, ni2,, niR), và thỏa mãn
K
Si = N (3.9)
i=1
- S: trạng thái của toàn mạng gồm nhiều lớp, các công việc là vector
S = (S1, S2, SN)
- μir : tốc độ phục vụ của nút i cho tất cả các công việc thuộc lớp r.
- pir,js : xác suất định tuyến mà công việc của lớp r ở nút i được chuyển đến lớp
s ở nút j.
3.1.1.2. Khái quát mạng xếp hàng đóng có dạng tích các xác suất
Mạng xếp hàng đóng có dạng tích các xác suất là mạng Gordon-Newell được
mở rộng từ định lý Jackson của mạng xếp hàng mở.
 Định nghĩa mạng Gordon-Newell
Gordon-Newell định nghĩa như sau:
Một mạng gồm K nút kết nối với nhau được gọi là mạng Gordon-Newell nếu
nó thỏa mãn các điều kiện sau đây:
- Là một mạng đóng (không có khách hàng từ bên ngoài vào mạng và không
có khách hàng nào từ bên trong đi ra khỏi mạng).
57
- Tất cả thời gian phục vụ được phân bố theo hàm mũ và nguyên tắc phục vụ
ở tất cả các nút là FCFS (hay FIFO).
- Một khách hàng được phục xong ở nút i sẽ chuyển một số nút j khác với xác
K
suất chuyển tiếp pij, thỏa mãn p ji 1.
j 1
- Mức độ sử dụng của tất cả các nút đều nhỏ hơn 1.
 Định lý Gordon-Newell
Định lý Gordon-Newell phát biểu rằng: trong một mạng Gordon-Newell gồm
K
K nút, với tổng số khách hàng N ni , trong đó ni: số lượng khách hàng ở nút i,
i 1
thì có tích xác suất trạng thái bền vững
1 K
π(n) π(n,n,...,n1 2 K )  F(n)i i (3.10)
G(N) i 1
Trong đó, G(N): hằng số bình thường hóa, và thỏa mãn điều kiện bình thường
hóa là tổng tất các các xác suất trạng thái mạng bằng 1
K
G(N)   Fi (n i ) (3.11)
n1 n 2 ... n K N i 1
Trong đó, Fi(ni): là các hàm tương ứng với các xác suất πi(ni) của nút i, được
cho bởi
n i
νi 1
Fi( n i ) = × (3.12)
μi β i(ni )
Trong đó, νi : là số cuộc trung bình đến nút i, được xác định theo (3.4).
Hàm βi n i được xác định theo
ni ! ; n i m i
ni m i
β(n)i i m!m i i ; n i m i (3.13)
1 ; mi 1
Cho các ứng dụng khác nhau, mà các tốc độ phục vụ phụ thuộc vào số lượng
các công việc ở từng nút, dạng chung của hàm F(ni i )được cho bằng
58
ni
νi
Fi (n i ) = (3.14)
Ai (n i )
n
i
μi (j) ; n i 0
Với: Ai (n i ) j 1 (3.15)
1 ; ni 0
Với quan hệ (3.6) có thể dễ dàng nhận thấy rằng: trường hợp các tốc độ phục
vụ là hằng số thì đẳng thức (3.12) là trường hợp riêng của đẳng thức (3.14).
 Tính các xác suất trạng thái theo phương pháp Gordon-Newell
Tính các xác suất trạng thái theo phương pháp Gordon-Newell có thể thực
hiện theo 4 bước:
Bước 1: Tính các số cuộc trung bình đến tất cả các nút i = 1, 2,..., K của mạng
xếp hàng đóng theo công thức (3.4).
Bước 2: Đối với tất cả các nút i = 1, 2,..., K, tính các hàm Fi(ni) theo công thức
(3.14).
Bước 3: Tính hằng số bình thường hóa G(N) theo công thức (3.11).
Bước 4: Tính các xác suất trạng thái của mạng theo công thức (3.10).
3.1.1.3. Kiến trúc chip đa xử lý, đa luồng là mạng xếp hàng đóng đa lớp có
dạng tích các xác suất (MCPFQN)
Một CMP đa luồng được coi là một hệ thống mạng xếp hàng đa lớp công việc.
Các công việc trong mạng đa lớp được coi là song song mức lệnh (ILP) hay song
song mức luồng (TLP), mỗi lệnh hay mỗi luồng lệnh có đặc điểm riêng được coi là
một lớp. CMP đa luồng chỉ xử lý một số luồng hay một số lệnh cố định (không
thêm vào, không bớt đi) nên được mô hình hóa bằng mạng xếp hàng đóng. Vì các
luồng có thể khác nhau về thời gian phục vụ (do độ dài luồng, tính chất các lệnh và
dữ liệu của luồng) nên mạng xếp hàng đóng được gọi là mạng xếp hàng đóng đa
lớp. Trong CMP đa luồng các lệnh hay luồng lệnh có cùng thời gian phục vụ, cùng
tính chất thuộc vào một lớp.
59
Kiến trúc CMP đa luồng là một hệ thống đóng tìm được nghiệm của các đẳng
thức cân bằng toàn cục, nghiệm này có dạng tích các xác suất.
Do đó, kiến trúc CMP đa luồng được mô hình hóa bằng một mạng xếp hàng
đóng đa lớp có dạng tích các xác suất (MCPFQN).
3.1.2. Thuật toán phân tích giá trị trung bình (MVA) đánh giá hiệu năng cho
các mạng xếp hàng đ

File đính kèm:

luan_an_toi_uu_hoa_va_danh_gia_hieu_nang_cua_to_chuc_cache_t.pdf
INFORMATION ON NEW CONCLUSIONS OF DOCTORAL THESIS.pdf
THÔNG TIN TÓM TẮT VỀ NHỮNG KẾT LUẬN MỚI CỦA LUẬN ÁN TIẾN SĨ.pdf
TT NOI DUNG LUAN AN.pdf