• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁(yè) > 測(cè)試測(cè)量 > 最新架構(gòu)服務(wù)器用CPU性能對(duì)比測(cè)試

    最新架構(gòu)服務(wù)器用CPU性能對(duì)比測(cè)試

    ——
    作者:極速 時(shí)間:2006-08-02 來(lái)源:電子產(chǎn)品世界 收藏

    2006年的第一個(gè)季度,系統(tǒng)達(dá)的收入超過(guò)10億美元,占到了整個(gè)x86服務(wù)器市場(chǎng)的1/6。僅僅是在短短的一年之內(nèi),Opteron處理器的市場(chǎng)份額就從去年的6%增長(zhǎng)到了今年的15%。在四路服務(wù)器中,Opteron占到了美國(guó)市場(chǎng)份額中的48%,而去年還只有23%。更為重要的是,這并不是一件“US only”事件,同樣是在全球四路服務(wù)器市場(chǎng),在過(guò)去的四年時(shí)間里,的市場(chǎng)份額增長(zhǎng)了36%。已經(jīng)成為了服務(wù)器市場(chǎng)上的標(biāo)志。 

    而一直受到英特爾的Xeon、Itanium處理器壓迫的Sun也終于在去年展現(xiàn)了一點(diǎn)復(fù)蘇的跡象。其UltraSparc IV+處理器具備了一條快速的、整合的L2緩存和大數(shù)據(jù)量的L3緩存為Sun挽留了很大一部分傳統(tǒng)的Sparc處理器用戶,設(shè)計(jì)優(yōu)良的GALAXY Opteron服務(wù)器系統(tǒng),以及用來(lái)沖擊中端x86市場(chǎng)的UltraSparc T1都在市場(chǎng)中取得了不俗的表現(xiàn)。

    對(duì)英特爾來(lái)說(shuō),是時(shí)候做出自己應(yīng)有的回應(yīng)了,是到了應(yīng)該在服務(wù)器用處理器方面做出點(diǎn)什么的時(shí)候了。而英特爾給出的答案就是Core核心的Xeon:Woodcrest。記憶體資料相依性預(yù)測(cè)功能(Memory DisaMBIguATIon),大容量無(wú)序緩存以及大容量低潛伏期的共享L2緩存都使得Core架構(gòu)在服務(wù)器任務(wù)中顯得要比其他x86處理器更有效率。

    本文的重點(diǎn)就是向用戶對(duì)基于Woodcrest和其競(jìng)爭(zhēng)對(duì)手:AMD Opteron和UltraSparc T1處理器的幾種不同服務(wù)器進(jìn)行一次性能上的比較。

    英特爾最新的Bensley平臺(tái)的一個(gè)最大優(yōu)勢(shì)就是優(yōu)秀的兼容性:Dempsey、Woodcrest和四核心的Clovertown Xeon都使用了相同的插槽和平臺(tái)。

    通過(guò)為每顆分配一個(gè)獨(dú)立的1333MHz總線,Bensley在設(shè)計(jì)中省去了共享Xeon總線。這和老的Athlon MP平臺(tái)非常相像,同時(shí)這也使得Blackford北橋、MCH的設(shè)計(jì)更加復(fù)雜。Blackford同樣提供了4個(gè)內(nèi)存通道和24個(gè)PCIE lanes。

    由于只是部分HPC程序受到了FSB帶寬的限制,DIB(Dual Independent Bus)并不會(huì)為Woodcrest和Dempsey帶來(lái)任何差別。多年的測(cè)試經(jīng)驗(yàn)告訴我們大多數(shù)服務(wù)器和工作站程序并不會(huì)因?yàn)镕SB速度而帶來(lái)瓶頸。得益于NUMA的設(shè)計(jì),在雙核心和四核心架構(gòu)中,Opteron平臺(tái)不會(huì)發(fā)生太大的波動(dòng)。在大多數(shù)的程序中,低延遲的整合內(nèi)存控制器的影響要超過(guò)了FSB/NUMA帶寬。當(dāng)然,對(duì)于Clovertown或者2個(gè)Woodcrest核心整合的處理器來(lái)說(shuō),一個(gè)標(biāo)準(zhǔn)的FSB有可能會(huì)成為瓶頸,在那種情況下,DIB會(huì)是一個(gè)不錯(cuò)的選擇。

    Blackford的最大改進(jìn)應(yīng)該是fully Buffered DIMMs(FB-DIMMs)的引入。在在FB-DIMms PCB上,我們?nèi)阅馨l(fā)現(xiàn)并行DDR-2內(nèi)存,不過(guò)高級(jí)內(nèi)存緩沖器(AMB)則將這個(gè)并行數(shù)據(jù)流變成了一個(gè)連續(xù)的數(shù)據(jù)流向Blackford芯片轉(zhuǎn)移。在內(nèi)存子系統(tǒng)和芯片中的連續(xù)連接不僅排除了不對(duì)稱(chēng)問(wèn)題同時(shí)也大大簡(jiǎn)化了主板的喚醒功能。喚起四通道的DDR-2內(nèi)存無(wú)疑將成為一件可怕的事。

    我們?cè)赟un T2000中采用的是Solaris10操作系統(tǒng)。而目前能夠在T2000上使用的操作系統(tǒng)也只有Solaris 10 3/05/ HW2。T1和現(xiàn)在的SPARC體系可以做到二進(jìn)制兼容,不過(guò)必須是這個(gè)版本的Solaris。

    下面是幾款不同的服務(wù)器指標(biāo):

    Sun T2000

    Sun UltraSparc T1 1 GHz, 8 cores, 32 threads
    Sun Solaris 10

    32 GB (16x2048 MB) Crucial DDR-2 533
    NIC: 1 Gb intel RC82540EM - E1000 driver

    Server 1:
    Dual Xeon "Woodcrest" 3 GHz Shared 4 MB L2 cache, 1333 MHz FSB (4核心)

    Blackford Chipset
    64 bit Gentoo Kernel 2.6.15-gentoo-r7

    Intel Server Board S5000
    4 GB (4x1024 MB) Micron FB-DIMM Registered DDR2-533 CAS 4, ECC enabled
    NIC: Dual Intel PRO/1000 Server NIC
    2x Western Digital Raptor 36 GB SATA

    Intel Server 2:
    Dual Intel Xeon "Irwindale" 3.6 GHz 2 MB L2 cache, 800 MHz FSB - Lindenhurst
    64 bit Gentoo Kernel 2.6.15-gentoo-r7

    Intel Server Board SE7520AF2
    8 GB (8x1024 MB) Micron Registered DDR2-400 CAS 3, ECC enabled
    NIC: Dual Intel PRO/1000 Server NIC (Intel 82546GB controller)
    2x Western Digital Raptor 36 GB SATA

    Opteron Server 1: Dual Opteron 275 2.2 GHz 2x1MB L2 cache (4 cores total)
    64 bit Gentoo Kernel 2.6.15-gentoo-r7
    Solaris x86 10

    MSI K8N MASTER2-FAR
    4 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)
    NIC: Broadcom BCM5721 (PCI-E)
    2x Western Digital Raptor 36 GB SATA

    Opteron Server 2: MSI K2-102A2M

    ServerWorksHT2000 Chipset
    64 bit Gentoo Kernel 2.6.15-gentoo-r7
    4 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)
    NIC: Broadcom BCM5721 (PCI-E)
    2x Western Digital Raptor 36 GB SATA

    Opteron Server 3: HP DL385

    Solaris x86 10
    AMD 81xx chipset
    64 bit Gentoo Kernel 2.6.15-gentoo-r7
    4 GB: 4x1GB MB Crucial DDR-400 (3-3-3-6)
    NIC: Broadcom BCM5721 (PCI-E)
    2x Seagate Cheetah 36 GB - 15000 rpm - SCSI 320 MB/s{{分頁(yè)}}

    Client Configuration: Dual Opteron 850
    MSI K8T Master1-FAR
    4x512 MB infineon Registered DDR-333, ECC
    NIC: Broadcom 5705

    Common Software
    64 bit Gentoo Kernel 2.6.15-gentoo-r7
    Apache2 2.0.55 + mod_deflate module for gzip compression.
    PHP4.4.1
    Mysql5.0.21

    SPEC FP和lnt 2000是用來(lái)測(cè)試性能的標(biāo)準(zhǔn)測(cè)試軟件。不過(guò),實(shí)際的測(cè)試得分受編譯器的影響相當(dāng)大。SPEC fp和integer將會(huì)顯示最佳的性能表現(xiàn)。不過(guò)在實(shí)際運(yùn)用中,處理器的表現(xiàn)會(huì)相對(duì)保守一些。

    而在我們的這篇文章中,這代表著SPEC的測(cè)試數(shù)據(jù)會(huì)比它在實(shí)際應(yīng)用程序的表現(xiàn)中略高一些。不過(guò),通過(guò)SPEC CPU 2000,我們倒是可以很好地了解一顆處理器的性能。正如前述,測(cè)試中的Xeon 5000就是采用了新Woodcrest核心的Xeon處理器。

    SPECfp
    Clockspeed SPEC fp 2000
    POWER5+ 2200 3271
    Itanium 2 1666 2851
    Xeon 5160 3000 2783
    Opteron 2800 2256
    Pentium 4 E 3733 2232

    我們看到,新核心的Woodcrest要比最快的雙核心Opteron快20-25%左右。而得益于新的65nm工藝,Woodcrest的核心速度提高了7%。如果AMD能夠讓自己的處理器頻率達(dá)到英特爾的水平,將能帶來(lái)15%左右的性能提升。不過(guò)在大部分的64bit和128bit SSE程序中,英特爾的Woodcrest依舊占據(jù)了非常明顯的性能優(yōu)勢(shì)。

    SPECint
    Clockspeed SPEC Int 2000
    Xeon 5160 3000 3057
    Pentium 4 E 3733 1870
    Opteron 2800 1837
    Pentium 4 Xeon 3733 1813
    POWER5+ 2200 1705
    Itanium 2 1666 1502

    在對(duì)整數(shù)性能的測(cè)試中,Woodcrest輕松超越了其他幾款橫向?qū)Ρ鹊奶幚砥?。接下?lái)我們就看看在服務(wù)器程序中SPEC lnt 2000的整數(shù)性能。

    延遲

    LMBench是一款能夠用來(lái)判定內(nèi)存時(shí)序和指令時(shí)序的測(cè)試軟件。我們使用LMBench3.0a-5進(jìn)行了測(cè)試。應(yīng)該說(shuō)LMBench的結(jié)果通常都是正確的,但并不總是正確的。如果軟件無(wú)法正確識(shí)別出某種架構(gòu),很有可能出現(xiàn)錯(cuò)誤的測(cè)試結(jié)果。因次我們非常有必要事先來(lái)檢查好。

    LMBench
    Clockspeed L1 (ns) L1 (cycles) L2 (ns) L2 (cycles) RAM (ns) RAM (cycles)
    Xeon 5160 3 GHz 3000 1.01 3 4.7 14 117.3 345
    Pentium- M 1.6 GHz 1593 2 3 6 10 92.1 147
    Sun T1 1 GHz 980 3 3 22.1 22 107.5 105
    Opteron 275 2209 1 3 5.5 12 73 161
    Xeon Irwindale 3.6 GHz 3594 1 4 8 28 48.8 175

    大容量的4MB L2緩存擁有一個(gè)非常低的延遲:14cycle。如果我們使用諸如ScienceMark這樣的測(cè)試工具的話,我們得到的數(shù)值將是12cycle,這樣來(lái)看,它會(huì)是一個(gè)非常不好的結(jié)果。不過(guò),即便是14cycle,在3GHz下,它的表現(xiàn)依然令人吃驚。而Core Duo(Yonah),

    另一方面,緩存的延遲相當(dāng)高,不過(guò)憑借4MB的L2緩存還是將這種影響降到了最低。造成這種現(xiàn)象的原因可能是FB-DIMMs。AMB會(huì)造成高延遲,CAS為4的registered DDR2 533芯片會(huì)造成一個(gè)更高的延遲。這使得內(nèi)存子系統(tǒng)中的延遲達(dá)到了非常高的115ns,而Opteron只有73ns。

    ScienceMark的結(jié)果則不盡相同,Opteron系統(tǒng)的測(cè)試結(jié)果為65-70ns,而Woodcrest的測(cè)試結(jié)果則在70-76ns。

    不過(guò)在這里,我們則更傾向于LMBench的結(jié)果。

    由于具備了可以支持模塊取冪和乘法的MAU,Sun T1能夠加速處理SSL的RSA(Rivest Shamir Adleman)和DSA(Digital Signal ALGorithm)的加密、解密操作。每顆T1核心都具備了一個(gè)MAU(modular arithmetic unit),這樣8個(gè)核心就有了9個(gè)MAU。為了能夠充分利用8個(gè)MAU,我們需要通過(guò)SCF(Solaris Cryptographic Framework)來(lái)完成SSLI的計(jì)算過(guò)程。我們使用命令openssl speed -engine pkcs11 rsa來(lái)測(cè)試T1的MAU。Solaris 10系統(tǒng)還提供了in-kernel SSL終端,它的安全性要比kernel之外的SSL終端要更完善。

    我們?cè)跍y(cè)試中選擇了惠普的DL585來(lái)測(cè)試Opteron 880的8個(gè)核心是否可以和Sun T1 的8個(gè)MAU一拼高下。如果想要對(duì)Woodcrest和Opteron進(jìn)行比較,我們則需要檢測(cè)2和4并行碼。我們可以在下面的圖表中看到1024bit的數(shù)值。每顆核心一個(gè)線程師最好的選擇,因此我們測(cè)試DL585時(shí)使用最大的16線程,這樣8線程的性能就是最強(qiáng)的。測(cè)試Xeon Irwidale使用8線程,因此5線程就是最強(qiáng)的,如此類(lèi)推。

    我們注意到8MAU的Sun T1在關(guān)閉32“SSL RSA signing”線程后只能獲得全效性能。在那種情況下,1GHz的T1能夠和2.4GHz的8核心DL585取得近似的性能。如果不考慮MAU,T1的性能表現(xiàn)會(huì)和1.8GHzde Xeon Irwindale一樣快。因此如果你想要在Sun T2000上運(yùn)行自己的安全網(wǎng)絡(luò)服務(wù)的話,對(duì)你的網(wǎng)絡(luò)服務(wù)器進(jìn)行SCF的檢查將會(huì)是必不可少的了。

    此外,我們注意到之前的Netburst架構(gòu)的表現(xiàn)非常糟糕。這是因?yàn)樵赑entium 4核心的內(nèi)部缺少了barrel shifter,這是一種能夠?qū)⒋罅繑?shù)據(jù)轉(zhuǎn)換或者循環(huán)進(jìn)入一個(gè)時(shí)鐘周期的電路。由于缺少了這種轉(zhuǎn)換裝置,造成延遲過(guò)高。就大多數(shù)的x86代碼而言不能忽視這一點(diǎn),不過(guò)代碼的加密常常需要使用到這個(gè)轉(zhuǎn)換和循環(huán)的過(guò)程。我們分別在HYper-Threading打開(kāi)和關(guān)閉的兩種情況下進(jìn)行了測(cè)試。在這種情況下,Hyer-Threading為編碼加密帶來(lái)了20-28%的性能提升。

    我們對(duì)四核心AMD Opteron 2.4GHz、四核心Xeon Woodcrest和Sun T1(打開(kāi)MAU,分配不同長(zhǎng)度的RSA)進(jìn)行了對(duì)比測(cè)試。

    RSA Encryption (Signs/s)

    Opteron 2.4 GHz
    4 threads

    Xeon 5160 3 GHz
    4 threads

    SUN T1 with MAU
    32 threads

    512 bit

    19003

    21194

    35613

    1024 bit

    6098

    6240

    10722

    2048 bit

    1145

    1087

    1918

    4096 bit

    185

    164

    1

    我們注意到T1的硬件加速并沒(méi)有在2048bit下表現(xiàn)得更加優(yōu)秀一些。考慮到大部分的安全程序依然是使用的1024bit,這樣的結(jié)果我們也可以接受了。

    在信號(hào)的檢測(cè)中,服務(wù)器必須鑒定客戶端的一致性。在1024bit下Woodcrest和Opteron都能檢測(cè)到每顆核心超過(guò)50000keys,而且這還是OpenSSL檢測(cè)程序的硬件限制。

    Opteron再次在測(cè)試中取得了領(lǐng)先。8MAU Sun T1的速度只有4Opteron和Woodcrest的一半。加密往往要比檢測(cè)代碼更加損耗服務(wù)器的速度。

    Apache/PHP/MySQL性能

    英特爾的新Xeon在這里“掃了地”。比2.4GHz的Opteron高出75%的性能,新Xeon即使在面對(duì)3GHz的Opteron也不會(huì)存在什么問(wèn)題。我們本應(yīng)該做更深一步的研究,不過(guò)現(xiàn)在看來(lái)似乎是由于大的4MB L2緩存和Woodcrest本身不更加優(yōu)秀的整數(shù)性能。而T1在這項(xiàng)測(cè)試中的表現(xiàn)則屬于不好不壞。{{分頁(yè)}}

    Java Webserving

    整個(gè)測(cè)試包括了如下幾個(gè)部分:

    • Caucho Technology's Resin 2.1.17
    • Java Virtual Machine: Java HotSpot(TM) Server VM (build 1.5.0_04-b05)
    • Sybase ASE 15.0 for Solaris / Linux

    AMD在這里的表現(xiàn)仍然只能算是差強(qiáng)人意,如果我們撇開(kāi)2.4GHz和2.2GHz的兩塊CPU不看,3GHz的Opteron仍要比3GHz的Woodcrest慢25%!

    本次用于測(cè)試的MySQL參數(shù)如下:

    [mysqld]
    port3306
    socket= /tmp/mysql.sock
    skip-locking
    key_buffer = 1G
    max_allowed_packet = 1M
    table_cache = 1024
    sort_buffer_size = 2M
    read_buffer_size = 2M
    read_rnd_buffer_size = 8M
    thread_cache = 125
    max_user_conNECtions = 450
    max_connections = 450
    thread_concurrency = 16

    測(cè)試結(jié)果:

    T1需要20-30 MySQL線程才能全速運(yùn)行,這很大程度上是受到了8核心"4 thread Gatling gun core"架構(gòu)的影響。

    MySQL的性能很難令人滿意,和上述的優(yōu)化以后的圖表比起來(lái),性能下降了大約有4-5倍。

    接下來(lái)我們看看單顆的雙核心Woodcrest和雙核心的Opteron、四核心的Sun T1的比較。

    為了能對(duì)雙核心進(jìn)行測(cè)試,我們?cè)谶@里對(duì)Xeon Irwindale也進(jìn)行了測(cè)試。額外的1MB緩存使得Irwindale測(cè)試成績(jī)改善了7-8%。不過(guò)Hyper-Threding并沒(méi)有對(duì)MySQl起到什么幫助,我們注意到這里出現(xiàn)的一個(gè)大約7%的性能降幅。

  • MySQL Linux (Queries/s)
    Sun T1
    4/8 cores 1 GHz
    MSI K2-102A2M
    Opteron 275
    Xeon 5160
    Woodcrest 3 GHz
    MSI K2-102A2M
    Opteron 280
    Average Dual-core
    (T1: quad-core)
    362 749 996 805
    Average Quad-core
    (T1: octal-core)
    433 590 904 622


    評(píng)論


    相關(guān)推薦

    技術(shù)專(zhuān)區(qū)

    主站蜘蛛池模板: 巴南区| 伊宁市| 东平县| 安岳县| 三门县| 宜春市| 孟连| 五华县| 固原市| 高台县| 平昌县| 龙里县| 华容县| 南昌县| 郯城县| 通渭县| 永顺县| 扶沟县| 射阳县| 平度市| 邯郸市| 哈尔滨市| 潮州市| 霍林郭勒市| 灵武市| 登封市| 安泽县| 绥化市| 玉屏| 泸西县| 宿迁市| 尖扎县| 长沙县| 靖江市| 铁岭市| 河南省| 达日县| 邮箱| 拜泉县| 东兴市| 麻栗坡县|