คำถามติดแท็ก gpu

หน่วยประมวลผลกราฟิก - หน่วยฮาร์ดแวร์เฉพาะทางราคาไม่แพงที่สร้างขึ้นสำหรับการคำนวณกราฟิกที่รวดเร็วและการคำนวณทางวิทยาศาสตร์แบบขนานข้อมูลสูง

10
มีปัญหาอะไรบ้างที่ให้ผลดีกับการคำนวณ GPU
ดังนั้นฉันมีหัวที่ดีสำหรับปัญหาที่ฉันทำงานด้วยเป็นหนึ่งที่ดีที่สุดในอนุกรมและที่สามารถจัดการในแบบคู่ขนาน แต่ตอนนี้ฉันไม่ได้มีความคิดอะไรมากเกี่ยวกับสิ่งที่จัดการได้ดีที่สุดโดยการคำนวณโดยใช้ CPU และสิ่งที่ควรลดการใช้ GPU ฉันรู้ว่ามันเป็นคำถามพื้นฐาน แต่การค้นหาส่วนใหญ่ของฉันได้ถูกจับในผู้คนอย่างชัดเจนเรียกร้องให้หนึ่งหรืออื่น ๆ โดยไม่ต้องพิสูจน์ว่าทำไมจริงหรือค่อนข้างกฎของหัวแม่มือที่คลุมเครือ กำลังมองหาคำตอบที่มีประโยชน์มากขึ้นที่นี่
84 gpu 

1
CUDA เทียบกับ OpenCL ปลายปี 2556
CUDA และ OpenCL เปรียบเทียบกันอย่างไรเมื่อปลายปี 2013 จากมุมมองของโปรแกรมเมอร์ กลุ่มของฉันคิดว่าจะพยายามใช้ประโยชน์จากการคำนวณด้วย GPU เราจะ จำกัด ตัวเองอย่างมากด้วยการเลือกฮาร์ดแวร์ที่รองรับ OpenCL แต่ไม่ใช่ CUDA หรือไม่ หากต้องการระบุให้ชัดเจนยิ่งขึ้นสมมติฐานต่อไปนี้ถูกต้องหรือไม่ ทุกสิ่งที่เป็นไปได้ใน CUDA ก็เป็นไปได้เช่นกันใน OpenCL ตราบใดที่เราไม่ได้ใช้ห้องสมุดงานที่กำหนดก็ไม่ง่ายอย่างที่คิด (หรือยากกว่า) ที่จะทำในสิ่งใดสิ่งหนึ่ง ข้อได้เปรียบหลักของ CUDA คือความพร้อมใช้งานของไลบรารี ทั้งสองมีการสนับสนุนที่ดีสำหรับแพลตฟอร์มหลักทั้งสาม (Win / OSX / Linux)
34 hpc  gpu  cuda  opencl 

4
วิธีการทางสถิติแบบใดที่ GPU เร็วกว่าซีพียู?
ฉันเพิ่งติดตั้งการ์ดกราฟิก Nvidia GT660 บนเดสก์ท็อปของฉันและหลังจากการต่อสู้บางอย่างฉันก็สามารถเชื่อมต่อกับ R ได้ ฉันได้เล่นกับแพ็คเกจ R หลายอันที่ใช้ GPU โดยเฉพาะอย่างยิ่ง gputools และฉันได้เปรียบเทียบเวลาที่ GPU และ CPU ของฉันใช้เพื่อดำเนินการขั้นพื้นฐาน: การแปลงเมทริกซ์ (CPU เร็วขึ้น) การสลายตัว qr (CPU เร็วขึ้น) เมทริกซ์ความสัมพันธ์ขนาดใหญ่ (เร็วกว่า CPU) การคูณเมทริกซ์ (GPU เร็วขึ้นมาก!) สังเกตว่าฉันได้ทำการทดลองกับ gputools เป็นหลักดังนั้นบางทีแพ็คเกจอื่นอาจทำงานได้ดีขึ้น ในแง่กว้างคำถามของฉันคืออะไรการดำเนินการทางสถิติประจำที่อาจมีมูลค่าการดำเนินการใน GPU มากกว่า CPU?
18 r  gpu 

3
ระยะทางแบบยุคลิดใน Octave
ฉันอยากรู้ว่ามีวิธีที่รวดเร็วในการคำนวณระยะทางแบบยุคลิดของเวกเตอร์สองตัวใน Octave หรือไม่ ดูเหมือนว่าไม่มีฟังก์ชั่นพิเศษสำหรับสิ่งนั้นดังนั้นฉันควรใช้สูตรด้วยsqrtหรือไม่

4
ปัจจุบัน GPU ที่มีอยู่รองรับเลขคณิตทศนิยมแม่นยำสองเท่าหรือไม่?
ฉันเรียกใช้รหัสโมเลกุล (MD) GROMACSในคลัสเตอร์ Ubuntu Linux ซึ่งประกอบด้วยโหนดที่มี CPU Intel 24 Xeon จุดสนใจของฉันค่อนข้างจะอ่อนไหวต่อความแม่นยำในการคำนวณจุดลอยดังนั้นฉันต้องรัน GROMACS ด้วยความแม่นยำสองเท่าแทนที่จะใช้ความแม่นยำเดียว - แม้จะมีค่าใช้จ่ายในการคำนวณที่สูงกว่าความแม่นยำสองเท่า ดังนั้นในคลัสเตอร์ฉันได้รวบรวม GROMACS ด้วยความแม่นยำสองเท่า ฉันกำลังพิจารณาที่จะซื้อ GPU บางตัวเนื่องจากอาจมีการเร่งความเร็วญาติ ("การเร่งความเร็ว GPU") กับซีพียู อย่างไรก็ตามฉันต้องการ GPU ที่จะทำให้ฉันสามารถคำนวณเลขคณิตความแม่นยำสองเท่าได้ คุณรู้หรือไม่ว่าฮาร์ดแวร์ดังกล่าวมีวางจำหน่ายทั่วไป โพสต์ล่าสุดบน GROMACS รายชื่อผู้รับจดหมายแสดงให้เห็นว่า GPUs แม่นยำสองจะไม่สามารถใช้ได้ในเชิงพาณิชย์: ฮาร์ดแวร์ไม่รองรับ [เลขคณิตความแม่นยำสองเท่า] แต่ AFAIK นี้หน้าวิกิพีเดียดูเหมือนจะชี้ให้เห็นว่า GPUs แม่นยำสองมีการผิดปกติเนื่องจากพวกเขาอาจจะไม่มีประสิทธิภาพ: การนำไปใช้งานของ floating point บน Nvidia GPU นั้นเป็นไปตามมาตรฐาน IEEE; อย่างไรก็ตามสิ่งนี้ไม่เป็นความจริงสำหรับผู้ขายทุกราย สิ่งนี้มีความเกี่ยวข้องกับความถูกต้องซึ่งถือว่ามีความสำคัญต่อการประยุกต์ใช้ทางวิทยาศาสตร์ …

2
ตัวเลือกสำหรับการแก้ปัญหาระบบ ODE บน GPU หรือไม่
ฉันต้องการทำฟาร์มแก้ปัญหาระบบของ ODE บน GPU ในการตั้งค่าแบบขนานเล็กน้อย ตัวอย่างเช่นทำการวิเคราะห์ความไวด้วยชุดพารามิเตอร์ที่แตกต่างกัน 512 ชุด ฉันอยากจะแก้ปัญหา ODE ด้วยสมาร์ทแวร์จับเวลาที่ปรับเปลี่ยนได้อย่างชาญฉลาดเช่น CVODE แทนที่จะเป็นไทม์สเตจคงที่เช่น Forward Euler แต่ใช้มันบน GPU NVIDIA แทนซีพียู มีใครทำเช่นนี้? มีห้องสมุดหรือเปล่า
16 ode  gpu 

1
การคำนวณทางวิทยาศาสตร์ด้วย Python พร้อม GPU ที่ทันสมัยพร้อมความแม่นยำสองเท่า
มีใครบ้างที่นี่ใช้การคำนวณทางวิทยาศาสตร์ที่มีความแม่นยำสองเท่ากับ GPU รุ่นใหม่ (เช่น K20) ผ่าน Python หรือไม่? ฉันรู้ว่าเทคโนโลยีนี้กำลังพัฒนาอย่างรวดเร็ว แต่วิธีที่ดีที่สุดในการทำสิ่งนี้ในปัจจุบันคืออะไร? GPU อยู่นอกขอบเขตสำหรับห้องสมุด Python ทางวิทยาศาสตร์ที่ได้รับความนิยมจำนวนมากและ scipy และฉันต้องการใช้ theano แต่ดูเหมือนว่าจะใช้ความแม่นยำ float32 เท่านั้นสำหรับ GPU ฉันรู้ว่า Google สามารถให้ผลลัพธ์การค้นหาสำหรับ python gpu ได้ แต่ฉันหวังว่าจะได้ข้อมูลเชิงลึกมากกว่ารายการโครงการที่อาจจะใช่หรือไม่ใช่ในการพบปะกับผู้สร้าง
14 python  gpu  precision 

4
อัลกอริทึมแบบขนาน (GPU) สำหรับออโตเซลลูมิเนียมแบบอะซิงโครนัส
ฉันมีคอลเลกชันของแบบจำลองการคำนวณที่สามารถอธิบายได้ว่าเป็นออโตมาติกเซลลูลาร์แบบอะซิงโครนัส แบบจำลองเหล่านี้มีลักษณะคล้ายกับรุ่น Ising แต่มีความซับซ้อนกว่าเล็กน้อย ดูเหมือนว่ารุ่นดังกล่าวจะได้ประโยชน์จากการใช้งานบน GPU แทนที่จะเป็นซีพียู น่าเสียดายที่มันไม่ตรงไปตรงมาที่จะขนานโมเดลดังกล่าวและมันก็ไม่ชัดเจนเลยสำหรับฉันเกี่ยวกับมัน ฉันรู้ว่ามีวรรณกรรมเกี่ยวกับเรื่องนี้ แต่ดูเหมือนว่าทั้งหมดจะมุ่งเป้าไปที่นักวิทยาศาสตร์คอมพิวเตอร์ที่ไม่ยอมใครง่ายๆที่สนใจในรายละเอียดของความซับซ้อนของอัลกอริทึมมากกว่าคนอย่างฉันที่ต้องการคำอธิบายสิ่งที่ฉันสามารถนำไปใช้ได้ ดังนั้นฉันพบว่ามันค่อนข้างจะไม่น่าสนใจ เพื่อความชัดเจนฉันไม่ได้มองหาอัลกอริธึมที่เหมาะสมที่สุดเท่าที่ฉันสามารถนำไปใช้ใน CUDA ได้อย่างรวดเร็วซึ่งมีแนวโน้มว่าจะเพิ่มความเร็วในการใช้งาน CPU อย่างมีนัยสำคัญ เวลาโปรแกรมเมอร์เป็นปัจจัย จำกัด มากกว่าเวลาคอมพิวเตอร์ในโครงการนี้ ฉันควรอธิบายด้วยว่าออโตเมติกเซลลูลาร์แบบอะซิงโครนัสค่อนข้างแตกต่างจากซิงโครนัสและเทคนิคในการซิงโครนัส CA แบบขนาน (เช่นชีวิตของคอนเวย์) ไม่สามารถดัดแปลงกับปัญหานี้ได้อย่างง่ายดาย ข้อแตกต่างคือ CA แบบซิงโครนัสจะอัปเดตทุกเซลล์พร้อมกันในทุกขั้นตอนในขณะที่อะซิงโครนัสหนึ่งจะอัปเดตภูมิภาคที่เลือกแบบสุ่มในทุกขั้นตอนตามที่อธิบายไว้ด้านล่าง แบบจำลองที่ฉันต้องการให้ขนานนั้นถูกนำไปใช้กับโครงตาข่าย (โดยปกติจะเป็นรูปหกเหลี่ยม) ประกอบด้วยเซลล์ประมาณ 100000 เซลล์ (แม้ว่าฉันต้องการใช้มากกว่านี้) และอัลกอริทึมที่ไม่ขนานกันสำหรับการใช้งานมันมีลักษณะดังนี้: เลือกคู่ของเซลล์ที่อยู่ใกล้เคียงโดยการสุ่ม คำนวณฟังก์ชัน "พลังงาน"ตามพื้นที่ใกล้เคียงรอบ ๆ เซลล์เหล่านี้Δ EΔE\Delta E ด้วยความน่าจะเป็นที่ขึ้นอยู่กับ (ด้วยพารามิเตอร์ a) ไม่ว่าจะสลับสถานะของเซลล์ทั้งสองหรือไม่ทำอะไรเลย βอี- βΔ Ee−βΔEe^{-\beta \Delta E}ββ\beta …

2
การใช้งาน BLAS / LAPACK ที่เร็วที่สุดหรือการใช้พีชคณิตเชิงเส้นอื่น ๆ ในระบบ GPU คืออะไร?
ตัวอย่างเช่น nVidia มี CUBLAS ซึ่งสัญญาว่าจะเร่งความเร็ว 7-14x ไร้เดียงสานี่ไม่มีที่ไหนใกล้กับทฤษฏีความเร็วของการ์ด GPU ของ nVidia อะไรคือความท้าทายในการเร่งพีชคณิตเชิงเส้นบน GPU และมีการกำหนดเส้นทางพีชคณิตเชิงเส้นเร็วกว่าที่มีอยู่แล้วหรือไม่

3
Nvidia K20X vs GeForce Titan สำหรับการเร่งความเร็ว GPGPU
ฉันพยายามเข้าใจความแตกต่างระหว่างการ์ดกราฟิกทั้งสองสำหรับการคำนวณเชิงวิชาการโดยเฉพาะสำหรับส่วนประกอบ DGEMM หากเราดูสถิติดิบทั้งคู่มีชิป GK110 เหมือนกันมีสถิติเทียบเคียงในแทบทุกหมวดหมู่และฉันเชื่อว่ามีสถาปัตยกรรมแกนหลักเดียวกัน ก่อนที่จะมีส่วนลดใด ๆ K20X นั้นมีราคาของไททันประมาณ 4 เท่า จากมุมมองของประสิทธิภาพดูเหมือนว่าเหมาะสมที่จะใช้ไททันกับ K20X ฉันมีช่วงเวลาที่ยากลำบากในการทำความเข้าใจความแตกต่างที่นี่ใครสามารถส่องสว่างสถานการณ์ได้หรือไม่ ตามที่ทราบมาฉันกำลังมองหาซื้อการ์ดเหล่านี้เพื่อใช้กับแร็คเซิร์ฟเวอร์และทำการเอียงอย่างเต็มรูปแบบโดยพื้นฐานจนกว่าจะตาย แต่ฉันไม่ได้ดูประสิทธิภาพของการใช้ GPU หลายตัวสำหรับงานเดียวที่จะยิ่งสำคัญ

3
แรงขับสำหรับการเขียนโปรแกรม GPU
ฉันมากใหม่ในการเขียนโปรแกรม GPGPU ดังนั้นโปรดยกโทษให้ฉันถ้าคำถามไม่เหมาะสมโดยเฉพาะอย่างยิ่ง จากสิ่งที่ฉันเข้าใจการเขียนโปรแกรม GPU เป็นงานวิศวกรรมที่ซับซ้อนมากเมื่อเทียบกับการเขียนโปรแกรม CPU ปกติ สิ่งหนึ่งที่จะต้องระมัดระวังอย่างมากเกี่ยวกับปัญหาความแตกต่างการปูกระเบื้องการจัดสรรหน่วยความจำที่ตรึงไว้และการคำนวณอุปกรณ์สื่อสาร / อุปกรณ์โฮสต์ซ้อนทับกัน หลังจากทำวิจัยเล็กน้อยฉันพบห้องสมุดแรงผลักดันซึ่งดูเหมือนว่าพยายามเลียนแบบ C ++ STL มันค่อนข้างดี อย่างไรก็ตามจากประสบการณ์ที่ จำกัด มากของฉันและการได้เห็นการจัดการไมโครที่จำเป็นทั้งหมดเพื่อให้ได้ประสิทธิภาพที่ดีฉันค่อนข้างสงสัยเกี่ยวกับประสิทธิภาพ แรงขับสามารถจัดการกับส่วนการเขียนโปรแกรมที่ซับซ้อนทั้งหมดได้อย่างมีประสิทธิภาพภายในหรือไม่? ห้องสมุดที่รู้จักกันดีบางแห่งเช่น PETSc ดูเหมือนจะใช้แพ็คเกจนี้ซึ่งทำให้ฉันเชื่อว่ามันควรจะเป็นอย่างใด ฉันสงสัยว่าคนที่มีประสบการณ์เกี่ยวกับ CUDA และแรงผลักดันอาจพูดคำหนึ่งหรือสองเกี่ยวกับประสิทธิภาพของแพ็คเกจเมื่อเทียบกับการเขียนโปรแกรม CUDA ระดับต่ำ ฉันสามารถใช้แรงขับได้เมื่อใดและฉันควรเปลี่ยนกลับเป็น CUDA เมื่อใด

2
การคำนวณแบบขนานของเมทริกซ์ความแปรปรวนร่วมขนาดใหญ่
เราจำเป็นต้องคำนวณเมทริกซ์ความแปรปรวนร่วมที่มีขนาดตั้งแต่ 10,000 × 10,00010000×1000010000\times10000 ถึง 100000 × 100000100000×100000100000\times100000. เราสามารถเข้าถึง GPU และกลุ่มเราสงสัยว่าอะไรคือวิธีการขนานที่ดีที่สุดในการเร่งการคำนวณเหล่านี้

2
วิธีที่เร็วที่สุดในการค้นหา eigenpairs ของเมทริกซ์แบบไม่สมมาตรขนาดเล็กบน GPU ในหน่วยความจำที่ใช้ร่วมกัน
ฉันมีปัญหาที่ฉันต้องการค้นหาค่าบวกทั้งหมด (ในค่า eigenvalue เป็นค่าบวก) eigenpairs ของเมทริกซ์แบบไม่สมมาตรขนาดเล็ก (มักจะเล็กกว่า 60x60) ฉันสามารถหยุดการคำนวณเมื่อค่าลักษณะเฉพาะมีขนาดเล็กกว่าเกณฑ์ที่กำหนด ฉันรู้ว่าค่าลักษณะเฉพาะเป็นของจริง คำแนะนำเกี่ยวกับอัลกอริทึมที่ฉันสามารถใช้เพื่อพยายามบีบประสิทธิภาพที่ดีที่สุดออกมา? ฉันต้องทำการย่อยสลายหลายพันครั้งดังนั้นความเร็วจึงสำคัญ ขอบคุณล่วงหน้า. แก้ไข: ฉันต้องทำสิ่งนี้กับ GPU ในหน่วยความจำที่ใช้ร่วมกัน เมทริกซ์นั้นไม่จำเป็นต้องมีขนาดเท่ากัน ฉันไม่ทราบว่ามีห้องสมุดใดที่ทำสิ่งนี้ในขณะนี้ ข้อเสนอแนะของอัลกอริทึมที่เหมาะสมกับปัญหาจะได้รับการชื่นชม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.