如何知道我們的 Linux 伺服器上是否需要更多 CPU 核心

August 21, 2022

我們有以下 Linux red-hat VM 伺服器詳細資訊，（每個伺服器都包括在 docker 容器下執行的應用程序）

Linux redhat version - 7.6
number of CPU cores - 16

我們懷疑核心數量不夠，因為 CPU 空閒率很低 - 40%-50% 有時甚至低於 40% ，儘管 CPU 平均負載在9 - 12左右是正常的

我們進行了以下測試

from sar -u 2 5
Linux 3.10.0-862.el7.x86_64 (bigdata-machine03.kondel.com)  08/21/2022      _x86_64_        (16 CPU)

02:14:07 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
02:14:09 PM     all     36.82      0.00     14.64      0.57      0.00     47.97
02:14:11 PM     all     35.50      0.00     16.01      0.82      0.00     47.68
02:14:13 PM     all     21.52      0.00     10.90      0.69      0.00     66.89
02:14:15 PM     all     21.45      0.00     10.96      0.63      0.00     66.97
02:14:17 PM     all     22.28      0.00     10.15      0.78      0.00     66.78
Average:        all     27.51      0.00     12.53      0.70      0.00     59.27


vmstat 1 21
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
6  0 269568 26388424      0 29302496    0    0     0   419    0    0 19  9 72  0  0
5  0 269568 26257112      0 29424172    0    0     0 131098 9739 4328 24  8 67  1  0
5  0 269568 26124560      0 29548576    0    0     0 66573 8790 2414 24  8 67  0  0
5  0 269568 25992844      0 29671288    0    0     0 146499 8701 2124 23  9 67  1  0
5  0 269568 25861804      0 29795272    0    0     0 114700 9146 4341 23  8 67  1  0
5  0 269568 25726984      0 29924684    0    0     0 131127 10060 4263 24  8 67  1  0
5  0 269568 25592612      0 30049624    0    0     0 131098 9127 3958 24  8 67  1  0
5  0 269568 25462696      0 30172108    0    0     0 131369 10000 4500 24  8 67  1  0
5  0 269568 25325716      0 30297560    0    0     0 98332 8723 2942 24  8 67  1  0
6  0 269568 25181400      0 30436356    0    0     0 98324 8585 2740 24  7 68  1  0
6  0 269568 25044572      0 30560928    0    0     0 163876 9983 4029 24  8 67  1  0
4  1 269568 24903352      0 30693816    0    0     0 157720 8468 3220 25  8 67  1  0
6  0 269568 24770240      0 30819368    0    0     0 71702 9439 5035 24  7 67  1  0
5  0 269568 24633396      0 30946824    0    0     0 131115 8974 3863 25  7 67  1  0
5  0 269568 24508664      0 31064812    0    0     0 163873 9523 4525 23  8 67  1  0
4  1 269568 24366044      0 31196540    0    0     0 65547 8381 2131 24  8 67  0  0
5  0 269568 24243064      0 31314580    0    0     0 98326 8936 4413 24  7 68  1  0
5  0 269568 24115296      0 31436264    0    0     0 163872 9698 4941 23  7 68  2  0
5  0 269568 23974156      0 31569112    0    0     0 163876 9298 4221 24  7 68  2  0
4  1 269568 23835196      0 31700900    0    0     0 65546 8262 2000 25  7 67  0  0
15  0 269568 22972552      0 31833020    0    0     0 131101 32338 4679 55 25 20  1  0



# uptime
14:14:31 up 149 days, 23:06,  1 user,  load average: 9.31, 9.32, 9.48

iostat
Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda              14.36         0.58      6648.36    7483539 86140749988
dm-0              0.27         0.12         2.10    1503954   27251899
dm-1              0.10         0.19         0.20    2427092    2539536
dm-2             14.18         0.27      6646.06    3449263 86110943670

為了添加額外的 CPU 核心，我們應該考慮的 redhat 線是什麼？

據我所知，您平均有 6-7 個正在執行的程序（來自 vmstat）。隊列uptime中有 9 個正在執行的程序。當您不斷達到 12 個程序時，您可能會開始考慮將來升級。
你的 CPU 使用率比較小，當你開始達到 75% 為 50% 的時候會明智地考慮未來。
你應該注意的是中斷。> 100K對我來說有點多。但這很大程度上取決於您執行的程序。但是朝這個方向探勘。

我個人監控 RES 線路以/proc/interrupts報告重新調度中斷的數量。（在沒有 CPU 固定的情況下）
每當某個 cpu 很忙並且設置在同一個調度程序隊列中的另一個任務（包括 irq 執行緒中的 irq 處理）也可以執行（在同一個 cpu 上）時，這些中斷就會發生，並且調度程序設法找到一個空閒的 cpu，該任務可以被遷移。
因此，RES 越少，cpu 工作隊列中多個可執行任務的出現次數越少，或者調度程序設法找到用於遷移的中間 CPU 的出現次數越少。
當然，後者肯定會告訴您增加 cpu 的數量將有利於您的工作量。
為了做出決定，我建議您從一些最小工作負載（相對於工作負載執行的任務總數最少）開始對系統進行基準測試，然後逐漸增加負載並觀察 RES（總計）的增加。
當曲線每秒 RES = f（任務數）停止顯著增加時……

引用自：https://unix.stackexchange.com/questions/714379

如何知道我們的 Linux 伺服器上是否需要更多 CPU 核心

相關問答

如何分配程序在部分 CPU 上工作？

如何在不重新啟動的情況下檢測連接的新硬碟？

VMware Linux 崩潰，無法啟動

如何獲得總核心數包括執行緒

如何停止永無止境的 blk_update_request 錯誤流？

LVM + 使用作業系統的空間來增加分區