ค่าใช้จ่ายโดยประมาณในการเข้าถึงแคชและหน่วยความจำหลักต่าง ๆ ?

178

ใครสามารถให้เวลาโดยประมาณ (เป็นนาโนวินาที) ในการเข้าถึงแคช L1, L2 และ L3 รวมถึงหน่วยความจำหลักในโปรเซสเซอร์ Intel i7 ได้หรือไม่?

แม้ว่านี่จะไม่ใช่คำถามการเขียนโปรแกรมโดยเฉพาะ แต่การรู้รายละเอียดความเร็วเหล่านี้เป็นสิ่งจำเป็นสำหรับความท้าทายในการเขียนโปรแกรมความหน่วงต่ำ

— เทดเกรแฮม
แหล่งที่มา

mechanical-sympathy.blogspot.com/2013/02/…

— Beachhouse

1

ฉันจะแปลง ns เป็นรอบได้อย่างไร ถ้าฉันหาร 100 ns ด้วย 2.3 GHz ฉันจะได้ 230 รอบ ถูกต้องหรือไม่

— นาธาน

5

ฉันอยากรู้: ภายใต้สถานการณ์ใดแคช L3 ระยะไกลช้ากว่า DRAM ระยะไกล หมายเลขด้านบนแสดงว่าสามารถช้าได้ 1.6 เท่า

— netvope

1

โปรดอย่าแก้ไขคำถาม แต่โพสต์คำตอบด้วยรายละเอียดเหล่านั้นแทน การตอบกลับด้วยตนเองนั้นใช้ได้ใน SO

— Stijn de Witt

มีค่าโดยประมาณสำหรับการใช้พลังงานสำหรับการเข้าถึงหน่วยความจำจากแต่ละระดับหรือไม่?

— คันนา

74

นี่คือคู่มือการวิเคราะห์ประสิทธิภาพสำหรับโปรเซสเซอร์ i7 และ Xeon ฉันควรเครียดนี่คือสิ่งที่คุณต้องการและอื่น ๆ (ตัวอย่างเช่นตรวจสอบหน้า 22 สำหรับการกำหนดเวลา & รอบตัวอย่าง)

นอกจากนี้หน้านี้มีรายละเอียดบางอย่างเกี่ยวกับวงจรนาฬิกาเป็นต้นลิงค์ที่สองแสดงหมายเลขต่อไปนี้:

Core i7 Xeon 5500 Series Data Source Latency (approximate)               [Pg. 22]

local  L1 CACHE hit,                              ~4 cycles (   2.1 -  1.2 ns )
local  L2 CACHE hit,                             ~10 cycles (   5.3 -  3.0 ns )
local  L3 CACHE hit, line unshared               ~40 cycles (  21.4 - 12.0 ns )
local  L3 CACHE hit, shared line in another core ~65 cycles (  34.8 - 19.5 ns )
local  L3 CACHE hit, modified in another core    ~75 cycles (  40.2 - 22.5 ns )

remote L3 CACHE (Ref: Fig.1 [Pg. 5])        ~100-300 cycles ( 160.7 - 30.0 ns )

local  DRAM                                                   ~60 ns
remote DRAM                                                  ~100 ns

EDIT2:
ที่สำคัญที่สุดคือการแจ้งให้ทราบภายใต้ตารางที่อ้างถึงโดยกล่าวว่า:

_{"หมายเหตุ: ค่าเหล่านี้จะหยาบประมาณ. มันขึ้นอยู่กับหลักและ UNCORE ความถี่ความเร็วหน่วยความจำ, การตั้งค่า BIOS ตัวเลขของ DIMMSฯลฯ ฯลฯ .. ระยะของคุณอาจแตกต่างกัน. "}

แก้ไข: ฉันควรเน้นว่าตลอดจนข้อมูลเวลา / รอบเอกสาร Intel ข้างต้นแสดงรายละเอียดที่เป็นประโยชน์มากขึ้น (มาก) ของ i7 และ Xeon ช่วงของโปรเซสเซอร์ (จากมุมมองประสิทธิภาพ)

— เดฟ
แหล่งที่มา

1

ไม่ควร 'line unshared' มีเวลาแฝงมากกว่า 'shared line ในคอร์อื่น' - line ที่แชร์ (เช่นบิตที่ถูกต้อง 2 คอร์) หมายความว่าสามารถนำโดยตรงจาก slice ของ LLC เนื่องจากรับประกันว่าจะสะอาด 'Line unshared' หมายถึงมีบิตที่ใช้ได้เพียงหนึ่งคอร์เท่านั้นและแกนนั้นจะต้องถูกสอดแนมเพื่อให้แน่ใจว่าบรรทัดนั้นเป็นเอกสิทธิ์และไม่ได้ทำการแก้ไข - ถ้ามันถูกแก้ไขแล้วมันจะถูกเปลี่ยนเป็นแชร์ LLC ตอนนี้กลายเป็นสกปรกและมันจะถูกส่งกลับไปยังแกนร้องขอตามที่ใช้ร่วมกัน บางทีฉันผิด - ฉันรู้ว่าโปรโตคอล MOESI นั้นแตกต่างกัน

— ลูอิส Kelsey

1

แน่นอนว่าเป็นเช่นนี้ใน SnB และ Haswell Nehalem - ซึ่ง Xeon ใช้ - อยู่ก่อนหน้าโทโพโลยีวงแหวนบัสและมีแคชแบบรวม แต่ฉันไม่เห็นว่าทำไมตัวกรองสอดแนมจะทำงานแตกต่างกันใน Nehalem คู่มือการเพิ่มประสิทธิภาพส่วน B.3.5.3 ให้สิ่งที่ฉันรู้สึกว่าเป็นคำอธิบายที่ไม่ถูกต้อง (มันเกี่ยวข้องกับ Nehalem อย่างชัดเจนเนื่องจากพูดถึง Global คิวซึ่งเป็นคุณลักษณะของ Nehalem) กระดาษ Haswell นี้มีคำอธิบายที่ดีกว่า (คอลัมน์ด้านบนขวาของหน้า 5) ( tu-dresden.de/zih/forschung/ressourcen/dateien/ ...... )

— ลูอิส Kelsey

@LewisKelsey: นี่เป็นเรื่องที่น่าแปลกใจสำหรับฉันเช่นกันเพราะฉันคิดว่าครึ่งหนึ่งของจุดรวม L3 คือ L3 สามารถตอบสนองได้หากมีสำเนาที่ถูกต้อง แต่โปรดจำไว้ว่า Intel ใช้ MESIF ( en.wikipedia.org/wiki/MESIF_protocol ) สำหรับ NUMA, AMD ใช้ MOESI ฉันคิดว่าภายในซ็อกเก็ตเดียวแม้ว่า MESIF ไม่ใช่เรื่องจริงเพราะข้อมูลมาจาก L3 ไม่ใช่แกนหลัก -> ดังนั้นจึงอาจเกี่ยวข้องกับแคช L3 มากกว่า> ถ่ายโอนผ่านซ็อกเก็ต ฉันสงสัยว่า "hit L3 แบบโลคอล" นี้ใช้สำหรับสายที่แชร์กับคอร์ในซ็อกเก็ตอื่นหรือไม่? ยังไม่เข้าท่าความถูกต้องใน L3 หมายความว่าไม่มีแกนหลักมี E / M

— Peter Cordes

@PeterCordes ฉันจำความคิดเห็นนี้และกลับมาและสิ่งที่ฉันบอกว่าเพิ่งเจอผิดกับฉันทันที ความคิดเห็นของฉันถูกต้องในมุมมองของแกนที่ 3 ซึ่งมีการแชร์ระหว่าง 2 คอร์อื่นหรือเป็นเอกสิทธิ์ของคอร์อีกแกนหนึ่ง แต่ถ้าคุณกำลังพูดถึงการยกเลิกการแชร์ไลน์และมันเป็นของแกนหลักที่พยายามเข้าถึงบรรทัดนั้นมาตรฐานนั้นถูกต้องเพราะการแชร์ต้องใช้ RFO เพื่อให้ได้เอกสิทธิ์และวิธีการที่พิเศษไม่จำเป็นต้องมี RFO ดังกล่าว ดังนั้นฉันไม่รู้ว่าฉันพูดอะไรจริงๆ

— Lewis Kelsey

@LewisKelsey: ใช่นั่นคือทั้งหมดที่เป็นจริงสำหรับการเขียน ฉันคิดว่านี่สำหรับการอ่าน (Data Source Latency) ซึ่งไวต่อการตอบสนองมากกว่า การอ่านบรรทัดไม่จำเป็นต้องมี RFO เพียงแค่ขอแบ่งปัน ดังนั้นไม่ควรบรรทัดที่อยู่ในสถานะที่ใช้ร่วมกันอยู่ที่ไหนสักแห่งเพียงแค่กด L3 ของซ็อกเก็ตนี้โดยไม่ต้องรอการรับส่งข้อมูลที่เชื่อมโยงกัน? และจะเร็วกว่า DRAM คล้ายกับ L3 ที่ "ไม่แบ่งปัน"

— Peter Cordes

189

ตัวเลขทุกคนควรรู้

           0.5 ns - CPU L1 dCACHE reference
           1   ns - speed-of-light (a photon) travel a 1 ft (30.5cm) distance
           5   ns - CPU L1 iCACHE Branch mispredict
           7   ns - CPU L2  CACHE reference
          71   ns - CPU cross-QPI/NUMA best  case on XEON E5-46*
         100   ns - MUTEX lock/unlock
         100   ns - own DDR MEMORY reference
         135   ns - CPU cross-QPI/NUMA best  case on XEON E7-*
         202   ns - CPU cross-QPI/NUMA worst case on XEON E7-*
         325   ns - CPU cross-QPI/NUMA worst case on XEON E5-46*
      10,000   ns - Compress 1K bytes with Zippy PROCESS
      20,000   ns - Send 2K bytes over 1 Gbps NETWORK
     250,000   ns - Read 1 MB sequentially from MEMORY
     500,000   ns - Round trip within a same DataCenter
  10,000,000   ns - DISK seek
  10,000,000   ns - Read 1 MB sequentially from NETWORK
  30,000,000   ns - Read 1 MB sequentially from DISK
 150,000,000   ns - Send a NETWORK packet CA -> Netherlands
|   |   |   |
|   |   | ns|
|   | us|
| ms|

จาก: เริ่มต้นโดย Peter Norvig:
- http://norvig.com/21-days.html#answers
- http://surana.wordpress.com/2009/01/01/numbers-everyone-should-know/ ,
- http://sites.google.com/site/io/building-scalable-web-applications-with-google-app-engine

— อันเดรย์
แหล่งที่มา

11

แน่นอนว่าสิ่งเหล่านี้ให้ความสนใจเป็นอย่างมากโดยขึ้นอยู่กับการออกแบบโปรเซสเซอร์, ram latency / frequency, การแคชฮาร์ดดิสก์ (ทั้งประเภทและขนาด) / rpm เป็นต้น ฯลฯ ? ในการอ้างถึง INTEL (สำหรับค่าที่ปล่อยให้กับ CPU หนึ่งตัว): "หมายเหตุ: ค่าเหล่านี้เป็นการประมาณคร่าวๆโดยขึ้นอยู่กับ Core และ Uncore ความถี่ความเร็วหน่วยความจำการตั้งค่า BIOS จำนวน DIMMS และอื่น ๆ . "

— Dave

28

@Dave นั้นจริง แต่ตัวเลขนี้แสดงลำดับความสำคัญ

— Andrey

8

@ เดฟถึงแม้ว่าประเภท / ความเร็ว / สถาปัตยกรรมของซีพียูจะแตกต่างกันฉันเชื่อว่าระยะเวลาสัมพัทธ์ควรจะยังคงเท่าเดิมดังนั้นจึงเป็นเพียงแนวทางคร่าวๆที่จะรู้เมื่อคุณโค้ด การวิเคราะห์ที่มีความหมายมากขึ้นควรทำผ่านผู้สร้างโปรไฟล์แน่นอน ...

— xosp7tom

8

หากต้องการทราบว่ามันใช้เวลานานเท่าใดวิกิพีเดียกล่าวว่า "หนึ่งเสี้ยววินาทีคือหนึ่งวินาทีต่อหนึ่งวินาทีเป็น 31.7 ปี" en.wikipedia.org/wiki/Nanosecond

— Only You

2

@ เคอร์เนลหากมีแคชพลาดหมายความว่าจะต้องมีการเข้าถึงแคชระดับล่างหรือแม้แต่หน่วยความจำหลัก ในกรณีนี้จะใช้เวลาตามเวลาเข้าถึงระดับนั้น คุณสามารถค้นหาข้อมูลสำหรับซีพียูที่ใหม่กว่าได้ที่นี่sisoftware.net/?d=qa&f=ben_mem_latency

— Andrey

39

ค่าใช้จ่ายในการเข้าถึงความทรงจำต่าง ๆ ในหน้าสวย ๆ

ดูหน้านี้นำเสนอหน่วยความจำแฝงลด 1990-2020

สรุป

ค่าที่ลดลง แต่มีความเสถียรตั้งแต่ปี 2548

        1 ns        L1 cache
        3 ns        Branch mispredict
        4 ns        L2 cache
       17 ns        Mutex lock/unlock
      100 ns        Main memory (RAM)
    2 000 ns (2µs)  1KB Zippy-compress

ยังคงมีการปรับปรุงการคาดการณ์สำหรับปี 2020

   16 000 ns (16µs) SSD random read (olibre's note: should be less)
  500 000 ns (½ms)  Round trip in datacenter
2 000 000 ns (2ms)  HDD random read (seek)

ดูแหล่งข้อมูลอื่น ๆ

สิ่งที่โปรแกรมเมอร์ทุกคนควรรู้เกี่ยวกับหน่วยความจำจาก Ulrich Drepper (2007)
เก่า แต่ก็ยังเป็นคำอธิบายที่ยอดเยี่ยมเกี่ยวกับฮาร์ดแวร์หน่วยความจำและการโต้ตอบของซอฟต์แวร์
- เต็ม PDF (114 หน้า)
  - ความคิดเห็นเกี่ยวกับ LWN เกี่ยวกับรุ่น PDF
  - คน อื่น
- เจ็ดโพสต์บน LWN + ความคิดเห็น
โพสต์พื้นที่ไม่มีที่สิ้นสุดระหว่างคำใน codinghorror.com ตามประสิทธิภาพของระบบหนังสือ: องค์กรและคลาวด์
คลิกที่โปรเซสเซอร์แต่ละตัวที่อยู่ในรายการhttp://www.7-cpu.com/เพื่อดูเวลาแฝง L1 / L2 / L3 / RAM / ... (เช่นHaswell i7-4770มี L1 = 1ns, L2 = 3ns, L3 = 10ns, RAM = 67ns, BranchMisprediction = 4ns)
http://idarkside.org/posts/numbers-you-should-know/

ดูสิ่งนี้ด้วย

สำหรับการทำความเข้าใจต่อไปผมขอแนะนำที่ดีเยี่ยมในการนำเสนอสถาปัตยกรรมที่ทันสมัยแคช (มิถุนายน 2014) จากแกร์ฮาร์ด Wellein , Hannes HofmannและDietmar ชอบกลที่มหาวิทยาลัย Erlangen-Nürnberg

คนที่พูดภาษาฝรั่งเศสอาจชื่นชมบทความโดยSpaceFoxเปรียบเทียบโปรเซสเซอร์กับผู้พัฒนาทั้งสองกำลังรอข้อมูลที่จำเป็นในการทำงานต่อไป

— olibre
แหล่งที่มา

โพสต์แฝงที่น่ารัก จะเป็นการดีที่จะเพิ่มข้อเท็จจริงเกี่ยวกับความเป็นจริงของการปิดบัง GPU-latency (

— user3666197

สวัสดี @ user3666197 คุณได้รับข้อมูลเกี่ยวกับเวลาแฝงหน่วยความจำที่เกี่ยวข้องกับ GPU หรือไม่? ไชโย :-)

— โอลิเบร

แน่นอนใช่ @olibre ตรวจสอบ[A]โพสต์ด้านล่าง

— user3666197

1

เมื่อพิจารณาว่าเรื่องนี้เกี่ยวกับเวลาในการตอบสนองและการแคชฉันพบว่าหน้าเว็บที่ลิงก์แรกของคุณพร้อมแถบเลื่อนปีไม่แคชการแสดงผลการวัดเมื่อเปลี่ยนปี ใน Firefox อย่างน้อยพวกมันแสดงช้าเกินไปสำหรับการลากข้ามปีให้ราบรื่น: /

— John Glassmyer

1

การอ้างอิงที่ดีคุณให้ชื่อและผู้แต่ง!

— SamB

22

เพียงเพื่อทบทวนการคาดการณ์ในปี 2020 สำหรับปี 2568:

ล่าสุดเกี่ยวกับ 44 ปีของเทคโนโลยีวงจรรวม, คลาสสิก (ที่ไม่ใช่ควอนตัม) ประมวลผลการพัฒนาอย่างแท้จริงและร่างกาย"ต่อ Aspera โฆษณา Astra" ทศวรรษที่ผ่านมาเป็นหลักฐานกระบวนการคลาสสิกได้ใกล้กับอุปสรรคบางอย่างที่ไม่มีทางกายภาพไปข้างหน้าได้

Number of logical coresสามารถและอาจเติบโต แต่ก็ไม่มากไปกว่านั้นหากไม่สามารถหลีกเลี่ยงเพดานที่ยึดตามฟิสิกส์ได้แล้วและอาจเติบโตได้ แต่น้อยกว่า(กำลังไฟเสียง "นาฬิกา") ที่สามารถเติบโตได้ แต่ปัญหาเกี่ยวกับการกระจายพลังงานและการกระจายความร้อน จะเพิ่มขึ้นอาจมีการได้รับประโยชน์โดยตรงจากแคช - รอยเท้าขนาดใหญ่และเร็วขึ้นและกว้างขึ้นหน่วยความจำ - I / O & ผลประโยชน์ทางอ้อมจากระบบบังคับให้เปลี่ยนบริบทบ่อยครั้งที่น้อยลงเนื่องจากเราสามารถมีแกนประมวลผลเพิ่มเติมO(n^2~3)
Frequency [MHz]
Transistor CountO(n^2~3)
Power [W]
Single Thread Perf

_{(เครดิตไปที่ Leonardo Suriano และ Karl Rupp)}

2020: Still some improvements, prediction for 2025
-------------------------------------------------------------------------
             0.1 ns - NOP
             0.3 ns - XOR, ADD, SUB
             0.5 ns - CPU L1 dCACHE reference           (1st introduced in late 80-ies )
             0.9 ns - JMP SHORT
             1   ns - speed-of-light (a photon) travel a 1 ft (30.5cm) distance -- will stay, throughout any foreseeable future :o)
?~~~~~~~~~~~ 1   ns - MUL ( i**2 = MUL i, i )~~~~~~~~~ doing this 1,000 x is 1 [us]; 1,000,000 x is 1 [ms]; 1,000,000,000 x is 1 [s] ~~~~~~~~~~~~~~~~~~~~~~~~~
           3~4   ns - CPU L2  CACHE reference           (2020/Q1)
             5   ns - CPU L1 iCACHE Branch mispredict
             7   ns - CPU L2  CACHE reference
            10   ns - DIV
            19   ns - CPU L3  CACHE reference           (2020/Q1 considered slow on 28c Skylake)
            71   ns - CPU cross-QPI/NUMA best  case on XEON E5-46*
           100   ns - MUTEX lock/unlock
           100   ns - own DDR MEMORY reference
           135   ns - CPU cross-QPI/NUMA best  case on XEON E7-*
           202   ns - CPU cross-QPI/NUMA worst case on XEON E7-*
           325   ns - CPU cross-QPI/NUMA worst case on XEON E5-46*
|Q>~~~~~ 5,000   ns - QPU on-chip QUBO ( quantum annealer minimiser 1 Qop )
        10,000   ns - Compress 1K bytes with a Zippy PROCESS
        20,000   ns - Send     2K bytes over 1 Gbps  NETWORK
       250,000   ns - Read   1 MB sequentially from  MEMORY
       500,000   ns - Round trip within a same DataCenter
?~~~ 2,500,000   ns - Read  10 MB sequentially from  MEMORY~~(about an empty python process to copy on spawn)~~~~ x ( 1 + nProcesses ) on spawned process instantiation(s), yet an empty python interpreter is indeed not a real-world, production-grade use-case, is it?
    10,000,000   ns - DISK seek
    10,000,000   ns - Read   1 MB sequentially from  NETWORK
?~~ 25,000,000   ns - Read 100 MB sequentially from  MEMORY~~(somewhat light python process to copy on spawn)~~~~ x ( 1 + nProcesses ) on spawned process instantiation(s)
    30,000,000   ns - Read 1 MB sequentially from a  DISK
?~~ 36,000,000   ns - Pickle.dump() SER a 10 MB object for IPC-transfer and remote DES in spawned process~~~~~~~~ x ( 2 ) for a single 10MB parameter-payload SER/DES + add an IPC-transport costs thereof or NETWORK-grade transport costs, if going into [distributed-computing] model Cluster ecosystem
   150,000,000   ns - Send a NETWORK packet CA -> Netherlands
  |   |   |   |
  |   |   | ns|
  |   | us|
  | ms|

เพียงเพื่อประโยชน์ในการทบทวนการคาดการณ์ในปี 2558 ของปี 2558:

Still some improvements, prediction for 2020 (Ref. olibre's answer below)
-------------------------------------------------------------------------
   16 000 ns ( 16 µs) SSD random read (olibre's note: should be less)
  500 000 ns (  ½ ms) Round trip in datacenter
2 000 000 ns (  2 ms) HDD random read (seek)

In 2015 there are currently available:
========================================================================
      820 ns ( 0.8µs)     random read from a SSD-DataPlane
    1 200 ns ( 1.2µs) Round trip in datacenter
    1 200 ns ( 1.2µs)     random read from a HDD-DataPlane

เพื่อประโยชน์ในการเปรียบเทียบซีพียูและ GPU:

ไม่ใช่งานง่าย ๆ ในการเปรียบเทียบแม้แต่ซีพียู / แคช / DRAM ที่ง่ายที่สุด (แม้ในรูปแบบการเข้าถึงหน่วยความจำแบบเดียวกัน) โดยที่ความเร็ว DRAM เป็นปัจจัยในการกำหนดเวลาแฝงและเวลาแฝงที่โหลด (ระบบอิ่มตัว) ซึ่งกฎหลังและ สิ่งที่แอปพลิเคชันระดับองค์กรจะพบมากกว่าระบบที่ไม่ได้โหลดอย่างไม่ได้ใช้งาน

                    +----------------------------------- 5,6,7,8,9,..12,15,16 
                    |                               +--- 1066,1333,..2800..3300
                    v                               v
First  word = ( ( CAS latency * 2 ) + ( 1 - 1 ) ) / Data Rate  
Fourth word = ( ( CAS latency * 2 ) + ( 4 - 1 ) ) / Data Rate
Eighth word = ( ( CAS latency * 2 ) + ( 8 - 1 ) ) / Data Rate
                                        ^----------------------- 7x .. difference
******************************** 
So:
===

resulting DDR3-side latencies are between _____________
                                          3.03 ns    ^
                                                     |
                                         36.58 ns ___v_ based on DDR3 HW facts

เอ็นจิ้น GPU ได้รับการตลาดด้านเทคนิคเป็นจำนวนมากในขณะที่การพึ่งพาภายในอย่างลึกซึ้งเป็นกุญแจสำคัญในการทำความเข้าใจทั้งจุดแข็งที่แท้จริงและจุดอ่อนที่แท้จริงของประสบการณ์สถาปัตยกรรมในทางปฏิบัติ (โดยทั่วไปจะแตกต่างจากการตลาดเชิงรุก

   1 ns _________ LETS SETUP A TIME/DISTANCE SCALE FIRST:
          °      ^
          |\     |a 1 ft-distance a foton travels in vacuum ( less in dark-fibre )
          | \    |
          |  \   |
        __|___\__v____________________________________________________
          |    |
          |<-->|  a 1 ns TimeDOMAIN "distance", before a foton arrived
          |    |
          ^    v 
    DATA  |    |DATA
    RQST'd|    |RECV'd ( DATA XFER/FETCH latency )

  25 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor REGISTER access
  35 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor    L1-onHit-[--8kB]CACHE

  70 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor SHARED-MEM access

 230 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor texL1-onHit-[--5kB]CACHE
 320 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor texL2-onHit-[256kB]CACHE

 350 ns
 700 ns @ 1147 MHz FERMI:  GPU Streaming Multiprocessor GLOBAL-MEM access
 - - - - -

การทำความเข้าใจกับเขตนั้นจึงมีความสำคัญมากกว่าในสาขาอื่น ๆ ที่มีการเผยแพร่สถาปัตยกรรมและมีเกณฑ์มาตรฐานมากมาย ต้องขอบคุณ GPU-micro-testers ที่ใช้เวลาและความคิดสร้างสรรค์ในการปลดปล่อยความจริงของรูปแบบการทำงานจริงภายในกล่องดำที่ทดสอบอุปกรณ์ GPU

    +====================| + 11-12 [usec] XFER-LATENCY-up   HostToDevice    ~~~ same as Intel X48 / nForce 790i
    |   |||||||||||||||||| + 10-11 [usec] XFER-LATENCY-down DeviceToHost
    |   |||||||||||||||||| ~  5.5 GB/sec XFER-BW-up                         ~~~ same as DDR2/DDR3 throughput
    |   |||||||||||||||||| ~  5.2 GB/sec XFER-BW-down @8192 KB TEST-LOAD      ( immune to attempts to OverClock PCIe_BUS_CLK 100-105-110-115 [MHz] ) [D:4.9.3]
    |                       
    |              Host-side
    |                                                        cudaHostRegister(   void *ptr, size_t size, unsigned int flags )
    |                                                                                                                 | +-------------- cudaHostRegisterPortable -- marks memory as PINNED MEMORY for all CUDA Contexts, not just the one, current, when the allocation was performed
    |                        ___HostAllocWriteCombined_MEM / cudaHostFree()                                           +---------------- cudaHostRegisterMapped   -- maps  memory allocation into the CUDA address space ( the Device pointer can be obtained by a call to cudaHostGetDevicePointer( void **pDevice, void *pHost, unsigned int flags=0 ); )
    |                        ___HostRegisterPORTABLE___MEM / cudaHostUnregister( void *ptr )
    |   ||||||||||||||||||
    |   ||||||||||||||||||
    |   | PCIe-2.0 ( 4x) | ~ 4 GB/s over  4-Lanes ( PORT #2  )
    |   | PCIe-2.0 ( 8x) | ~16 GB/s over  8-Lanes
    |   | PCIe-2.0 (16x) | ~32 GB/s over 16-Lanes ( mode 16x )
    |
    |   + PCIe-3.0 25-port 97-lanes non-blocking SwitchFabric ... +over copper/fiber
    |                                                                       ~~~ The latest PCIe specification, Gen 3, runs at 8Gbps per serial lane, enabling a 48-lane switch to handle a whopping 96 GBytes/sec. of full duplex peer to peer traffic. [I:]
    |
    | ~810 [ns]    + InRam-"Network" / many-to-many parallel CPU/Memory "message" passing with less than 810 ns latency any-to-any
    |
    |   ||||||||||||||||||
    |   ||||||||||||||||||
    +====================|
    |.pci............HOST|

คำขอโทษของฉันสำหรับ "ภาพที่ใหญ่กว่า" แต่ความล่าช้าในการดึงข้อมูลยังมีข้อ จำกัด ที่สำคัญที่กำหนดจากความจุ smREG / L1 / L2 บนชิปและอัตราตี / พลาด

    |.pci............GPU.|
    |                    | FERMI [GPU-CLK] ~ 0.9 [ns] but THE I/O LATENCIES                                                                  PAR -- ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| <800> warps ~~ 24000 + 3200 threads ~~ 27200 threads [!!]
    |                                                                                                                                               ^^^^^^^^|~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ [!!]
    |                                                       smREGs________________________________________ penalty +400 ~ +800 [GPU_CLKs] latency ( maskable by 400~800 WARPs ) on <Compile-time>-designed spillover(s) to locMEM__
    |                                                                                                              +350 ~ +700 [ns] @1147 MHz FERMI ^^^^^^^^
    |                                                                                                                          |                    ^^^^^^^^
    |                                                                                                                       +5 [ns] @ 200 MHz FPGA. . . . . . Xilinx/Zync Z7020/FPGA massive-parallel streamline-computing mode ev. PicoBlazer softCPU
    |                                                                                                                          |                    ^^^^^^^^
    |                                                                                                                   ~  +20 [ns] @1147 MHz FERMI ^^^^^^^^
    |                                                             SM-REGISTERs/thread: max  63 for CC-2.x -with only about +22 [GPU_CLKs] latency ( maskable by 22-WARPs ) to hide on [REGISTER DEPENDENCY] when arithmetic result is to be served from previous [INSTR] [G]:10.4, Page-46
    |                                                                                  max  63 for CC-3.0 -          about +11 [GPU_CLKs] latency ( maskable by 44-WARPs ) [B]:5.2.3, Page-73
    |                                                                                  max 128 for CC-1.x                                    PAR -- ||||||||~~~|
    |                                                                                  max 255 for CC-3.5                                    PAR -- ||||||||||||||||||~~~~~~|
    |
    |                                                       smREGs___BW                                 ANALYZE REAL USE-PATTERNs IN PTX-creation PHASE <<  -Xptxas -v          || nvcc -maxrregcount ( w|w/o spillover(s) )
    |                                                                with about 8.0  TB/s BW            [C:Pg.46]
    |                                                                           1.3  TB/s BW shaMEM___  4B * 32banks * 15 SMs * half 1.4GHz = 1.3 TB/s only on FERMI
    |                                                                           0.1  TB/s BW gloMEM___
    |         ________________________________________________________________________________________________________________________________________________________________________________________________________________________
    +========|   DEVICE:3 PERSISTENT                          gloMEM___
    |       _|______________________________________________________________________________________________________________________________________________________________________________________________________________________
    +======|   DEVICE:2 PERSISTENT                          gloMEM___
    |     _|______________________________________________________________________________________________________________________________________________________________________________________________________________________
    +====|   DEVICE:1 PERSISTENT                          gloMEM___
    |   _|______________________________________________________________________________________________________________________________________________________________________________________________________________________
    +==|   DEVICE:0 PERSISTENT                          gloMEM_____________________________________________________________________+440 [GPU_CLKs]_________________________________________________________________________|_GB|
    !  |                                                         |\                                                                +                                                                                           |
    o  |                                                texMEM___|_\___________________________________texMEM______________________+_______________________________________________________________________________________|_MB|
       |                                                         |\ \                                 |\                           +                                               |\                                          |
       |                                              texL2cache_| \ \                               .| \_ _ _ _ _ _ _ _texL2cache +370 [GPU_CLKs] _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ | \                                   256_KB|
       |                                                         |  \ \                               |  \                         +                                 |\            ^  \                                        |
       |                                                         |   \ \                              |   \                        +                                 | \           ^   \                                       |
       |                                                         |    \ \                             |    \                       +                                 |  \          ^    \                                      |
       |                                              texL1cache_|     \ \                           .|     \_ _ _ _ _ _texL1cache +260 [GPU_CLKs] _ _ _ _ _ _ _ _ _ |   \_ _ _ _ _^     \                                 5_KB|
       |                                                         |      \ \                           |      \                     +                         ^\      ^    \        ^\     \                                    |
       |                                     shaMEM + conL3cache_|       \ \                          |       \ _ _ _ _ conL3cache +220 [GPU_CLKs]           ^ \     ^     \       ^ \     \                              32_KB|
       |                                                         |        \ \                         |        \       ^\          +                         ^  \    ^      \      ^  \     \                                  |
       |                                                         |         \ \                        |         \      ^ \         +                         ^   \   ^       \     ^   \     \                                 |
       |                                   ______________________|__________\_\_______________________|__________\_____^__\________+__________________________________________\_________\_____\________________________________|
       |                  +220 [GPU-CLKs]_|           |_ _ _  ___|\          \ \_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ \ _ _ _ _\_ _ _ _+220 [GPU_CLKs] on re-use at some +50 GPU_CLKs _IF_ a FETCH from yet-in-shaL2cache
       | L2-on-re-use-only +80 [GPU-CLKs]_| 64 KB  L2_|_ _ _   __|\\          \ \_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ \ _ _ _ _\_ _ _ + 80 [GPU_CLKs] on re-use from L1-cached (HIT) _IF_ a FETCH from yet-in-shaL1cache
       | L1-on-re-use-only +40 [GPU-CLKs]_|  8 KB  L1_|_ _ _    _|\\\          \_\__________________________________\________\_____+ 40 [GPU_CLKs]_____________________________________________________________________________|
       | L1-on-re-use-only + 8 [GPU-CLKs]_|  2 KB  L1_|__________|\\\\__________\_\__________________________________\________\____+  8 [GPU_CLKs]_________________________________________________________conL1cache      2_KB|
       |     on-chip|smREG +22 [GPU-CLKs]_|           |t[0_______^:~~~~~~~~~~~~~~~~\:________]
       |CC-  MAX    |_|_|_|_|_|_|_|_|_|_|_|           |t[1_______^                  :________]
       |2.x   63    |_|_|_|_|_|_|_|_|_|_|_|           |t[2_______^                  :________] 
       |1.x  128    |_|_|_|_|_|_|_|_|_|_|_|           |t[3_______^                  :________]
       |3.5  255 REGISTERs|_|_|_|_|_|_|_|_|           |t[4_______^                  :________]
       |         per|_|_|_|_|_|_|_|_|_|_|_|           |t[5_______^                  :________]
       |         Thread_|_|_|_|_|_|_|_|_|_|           |t[6_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[7_______^     1stHalf-WARP :________]______________
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ 8_______^:~~~~~~~~~~~~~~~~~:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ 9_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ A_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ B_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ C_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ D_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           |t[ E_______^                  :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|       W0..|t[ F_______^____________WARP__:________]_____________
       |            |_|_|_|_|_|_|_|_|_|_|_|         ..............             
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[0_______^:~~~~~~~~~~~~~~~\:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[1_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[2_______^                 :________] 
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[3_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[4_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[5_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[6_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[7_______^    1stHalf-WARP :________]______________
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ 8_______^:~~~~~~~~~~~~~~~~:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ 9_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ A_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ B_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ C_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ D_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|           ............|t[ E_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|       W1..............|t[ F_______^___________WARP__:________]_____________
       |            |_|_|_|_|_|_|_|_|_|_|_|         ....................................................
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[0_______^:~~~~~~~~~~~~~~~\:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[1_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[2_______^                 :________] 
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[3_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[4_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[5_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[6_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[7_______^    1stHalf-WARP :________]______________
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ 8_______^:~~~~~~~~~~~~~~~~:________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ 9_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ A_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ B_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ C_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ D_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|          ...................................................|t[ E_______^                 :________]
       |            |_|_|_|_|_|_|_|_|_|_|_|tBlock Wn....................................................|t[ F_______^___________WARP__:________]_____________
       |
       |                   ________________          °°°°°°°°°°°°°°°°°°°°°°°°°°~~~~~~~~~~°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°°
       |                  /                \   CC-2.0|||||||||||||||||||||||||| ~masked  ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
       |                 /                  \  1.hW  ^|^|^|^|^|^|^|^|^|^|^|^|^| <wait>-s ^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|
       |                /                    \ 2.hW  |^|^|^|^|^|^|^|^|^|^|^|^|^          |^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^|^
       |_______________/                      \______I|I|I|I|I|I|I|I|I|I|I|I|I|~~~~~~~~~~I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|I|
       |~~~~~~~~~~~~~~/ SM:0.warpScheduler    /~~~~~~~I~I~I~I~I~I~I~I~I~I~I~I~I~~~~~~~~~~~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I~I
       |              \          |           //
       |               \         RR-mode    //
       |                \    GREEDY-mode   //
       |                 \________________//
       |                   \______________/SM:0__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:1__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:2__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:3__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:4__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:5__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:6__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:7__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:8__________________________________________________________________________________
       |                                  |           |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:9__________________________________________________________________________________
       |                                ..|SM:A      |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:B      |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:C      |t[ F_______^___________WARP__:________]_______
       |                                ..|SM:D      |t[ F_______^___________WARP__:________]_______
       |                                  |_______________________________________________________________________________________
       */

บรรทัดล่างคืออะไร?

การออกแบบใด ๆ ที่มีแรงจูงใจ latency ต่ำมีค่อนข้างย้อนกลับวิศวกร "I / O-ไฮโดรลิค" (เป็น 0 1 XFERs มีอัดโดยธรรมชาติ) และเวลาแฝงในที่เกิดกฎซองประสิทธิภาพการทำงานสำหรับการแก้ปัญหา GPGPU ใด ๆ ไม่ว่าจะเป็น computationally เข้ม ( อ่าน : ค่าใช้จ่ายในการประมวลผลที่ให้อภัย XFERs แฝงที่แย่กว่าเล็กน้อย ... ) หรือไม่ ( อ่าน : ที่ (อาจจะแปลกใจของใครบางคน) CPU-s นั้นเร็วกว่าในการประมวลผลแบบ end-to-end มากกว่าเนื้อผ้าของ GPU )

— user3666197
แหล่งที่มา

7

ฉันพยายามเข้าใจคำตอบของคุณ ดูเหมือนว่าน่าสนใจมาก แต่กราฟ ASCII ไม่ใช่เรื่องง่ายที่จะอ่านเนื่องจากข้อ จำกัด สูง / กว้าง ขออภัยฉันไม่ทราบว่าจะปรับปรุงได้อย่างไร ... ในที่สุดฉันก็ขาดข้อมูลสรุป (ในตอนท้ายฉันไม่รู้ว่าต้องคิดอย่างไรเกี่ยวกับ CPU เทียบกับเวลาแฝงของ GPU) หวังว่าคุณจะสามารถปรับปรุงคำตอบของคุณเพื่อให้รูปลักษณ์ขนมตาที่ดีขึ้นและความเข้าใจของมนุษย์ ความกล้าหาญ ไชโย :-D

— โอลิเบร

3

ดูพล็อต "บันได" ซึ่งแสดงเวลาเข้าถึงที่ต่างกันอย่างสมบูรณ์แบบ สังเกตซีพียูสีแดงที่มี "ขั้นตอน" เพิ่มเติมอาจเป็นเพราะมันมี L4 (ในขณะที่คนอื่นไม่ทำ)

กราฟของเวลาในการเข้าถึงที่มีลำดับชั้นหน่วยความจำแตกต่างกัน

นำมาจากบทความ Extremetech นี้

ในวิทยาการคอมพิวเตอร์นี้เรียกว่า "I / O complex"

— คนออสการ์
แหล่งที่มา