ไม่มีอะไรฟรี GPGPU เป็น SIMD คำสั่ง SIMD ของ GPGPU นั้นกว้างกว่าคำสั่ง SIMD ของ CPU GPGPUs มีแนวโน้มที่จะเป็นแบบมัลติเธรดแบบละเอียด (และมีบริบทของฮาร์ดแวร์มากกว่าซีพียูจำนวนมาก) GPGPUs จะเหมาะสำหรับสตรีมมิ่ง พวกเขามักจะอุทิศพื้นที่ร้อยละที่มากขึ้นให้กับหน่วยจุดลอย, เปอร์เซ็นต์ที่น้อยกว่าของพื้นที่ในการแคชและร้อยละของพื้นที่ต่อประสิทธิภาพการทำงานจำนวนเต็ม
ลองเปรียบเทียบกัน คอร์ i7-5960x ของ Intel มี 8 คอร์แต่ละตัวมี 4 SIMD (ความแม่นยำสองเท่า), ทำงานที่ 3 GHz (3.5GHz เทอร์โบ), แคช 20M L3, ใช้ 356mm ^ 2 และ 140W และราคา $ 1,000 ดังนั้น 8 * 4 * 3 * 4 = 384 GFlops ที่มีความแม่นยำสองเท่า (4x พิเศษนั้นเป็นเพราะคุณสามารถทำสอง fused-multiply- เพิ่มต่อเลนเวกเตอร์ต่อรอบ) มันสามารถทำได้ 768 GFlops ความแม่นยำเดียว นั่นคือประมาณ 1.08 DP GFlops / mm ^ 2 และ 2.75 DP GFlops / Watt นอกจากนี้ยังมีแคชชิปบนชิปประมาณ 57.5 KB / mm ^ 2
GeForce GTX Titan Black ของ NVidia มี 15 SMXs แต่ละอันมีความแม่นยำ 32 หน้ากว้างสอง SIMD ทำงานที่ 890MHz (980MHz เทอร์โบ), แคช L1 + L2 3.5M ใช้ 561mm ^ 2, 250W และราคา $ 1,000 ดังนั้น 15 * 32 * .89 * 4 = 1709 GFlops ความแม่นยำสองเท่า (4x เท่ากันจากสอง fused-multiply- เพิ่มต่อเวกเตอร์เลนต่อรอบ) สามารถทำ GFlops ที่มีความแม่นยำเพียง 5126 ครั้ง นั่นคือประมาณ 3.05 DP GFlops / mm ^ 2 และ 6.8 DP GFlops / Watt ดังนั้นความหนาแน่นของจุดลอยตัว DP 3 เท่าต่อหนึ่งหน่วยพื้นที่และประสิทธิภาพการใช้พลังงานจุดลอยตัว 3 เท่า DP และการแลกเปลี่ยน? แคชในชิป 6.4 KB / mm ^ 2 มีความหนาแน่นน้อยกว่า CPU ประมาณ 9x
ดังนั้นความแตกต่างที่สำคัญคือ GPU ได้เลือกสมดุลของพื้นที่ที่โปรดปรานจุดลอยตัว (โดยเฉพาะอย่างยิ่งจุดลอยตัวที่มีความแม่นยำเดียว) มากกว่าแคช แม้จะเพิกเฉยกับความจริงที่ว่าคุณต้องคัดลอกข้อมูลไปมาระหว่างซีพียูและ GPU เพื่อทำ I / O วิธีที่ GPU จะใช้งานได้ดีกว่าซีพียูนั้นขึ้นอยู่กับโปรแกรมที่คุณใช้งาน
หากคุณมีโปรแกรมจุดลอยตัวข้อมูลแบบขนานที่มีความแตกต่างในการควบคุมน้อยมาก(เวกเตอร์เลนทั้งหมดกำลังทำสิ่งเดียวกันในเวลาเดียวกัน) และโปรแกรมของคุณกำลังสตรีมมิ่ง (ไม่สามารถได้รับประโยชน์จากการแคช) แล้ว GPU จะเป็นอย่างไร มีประสิทธิภาพมากกว่า 3x ต่อหน่วยพื้นที่หรือต่อวัตต์ แต่ถ้าคุณมีการควบคุมที่แตกต่างกันจำนวนมากงานที่ไม่เกี่ยวกับข้อมูลแบบขนานหรืออาจได้รับประโยชน์จากโครงสร้างข้อมูลขนาดใหญ่ที่อ่านได้หลายครั้ง CPU อาจจะทำได้ดีกว่า