คำถามติดแท็ก distributed-computing

5
อธิบาย Apache ZooKeeper
ฉันพยายามที่จะเข้าใจ ZooKeeper วิธีการทำงานและสิ่งที่มันทำ มีแอพพลิเคชั่นใดบ้างที่เทียบเคียงได้กับ ZooKeeper? ถ้าคุณรู้แล้วคุณจะอธิบาย ZooKeeper กับคนธรรมดาอย่างไร ฉันลอง apache wiki, zookeeper sourceforge ... แต่ฉันยังไม่สามารถเกี่ยวข้องกับมันได้ ฉันเพิ่งอ่าน thru http://zookeeper.sourceforge.net/index.sf.shtmlดังนั้นจึงไม่มีบริการอื่น ๆ อีกเช่นนี้ใช่ไหม มันง่ายเหมือนการทำซ้ำบริการเซิร์ฟเวอร์หรือไม่?

13
Spark - แบ่งพาร์ติชั่น () vs coalesce ()
อ้างอิงจาก Learning Spark โปรดทราบว่าการแบ่งส่วนข้อมูลของคุณเป็นการดำเนินการที่ค่อนข้างแพง Spark ยังมีเวอร์ชันที่repartition()เรียกว่าออพติไมซ์coalesce()ที่ช่วยให้หลีกเลี่ยงการเคลื่อนย้ายข้อมูล แต่ถ้าคุณลดจำนวนพาร์ติชัน RDD สิ่งหนึ่งที่ฉันได้รับคือมีrepartition()จำนวนพาร์ติชันสามารถเพิ่ม / ลดได้ แต่ด้วยcoalesce()จำนวนพาร์ติชันสามารถลดลงได้เท่านั้น หากพาร์ติชั่นนั้นถูกกระจายไปทั่วเครื่องหลายเครื่องและcoalesce()ทำงานอยู่มันจะหลีกเลี่ยงการเคลื่อนย้ายข้อมูลได้อย่างไร?

2
แรงงาน, ผู้บริหาร, แกนในคลัสเตอร์ Spark Standalone คืออะไร?
ฉันอ่านCluster Mode Overviewและฉันยังคงไม่เข้าใจกระบวนการต่าง ๆ ในคลัสเตอร์ Spark Standaloneและการขนานกัน ผู้ปฏิบัติงานเป็นกระบวนการ JVM หรือไม่ ฉันวิ่งbin\start-slave.shและพบว่ามันกลับกลายเป็นคนงานซึ่งจริงๆแล้วเป็น JVM ตามลิงค์ข้างต้นผู้ปฏิบัติการเป็นกระบวนการที่เปิดตัวสำหรับแอปพลิเคชันบนโหนดผู้ปฏิบัติงานที่ทำงาน ผู้ปฏิบัติการก็เป็น JVM เช่นกัน นี่คือคำถามของฉัน: ผู้บริหารมีต่อแอปพลิเคชัน แล้วบทบาทของคนงานคืออะไร? มันประสานกับผู้ดำเนินการและสื่อสารผลลัพธ์กลับไปที่ไดรเวอร์หรือไม่ หรือคนขับรถโดยตรงพูดคุยกับผู้บริหารหรือไม่ ถ้าเป็นเช่นนั้นอะไรคือวัตถุประสงค์ของคนงาน? วิธีควบคุมจำนวนตัวเรียกทำงานสำหรับแอปพลิเคชัน สามารถสร้างงานให้ทำงานแบบขนานภายในตัวจัดการได้หรือไม่ ถ้าเป็นเช่นนั้นวิธีการกำหนดค่าจำนวนกระทู้สำหรับผู้ปฏิบัติการหรือไม่ ความสัมพันธ์ระหว่างผู้ปฏิบัติงานผู้บริหารและผู้บริหารคอร์คืออะไร (- ยอดรวมผู้บริหารคอร์)? การมีคนงานเพิ่มขึ้นต่อโหนดหมายความว่าอย่างไร Updated ลองยกตัวอย่างเพื่อทำความเข้าใจให้ดีขึ้น ตัวอย่างที่ 1: คลัสเตอร์แบบสแตนด์อะโลนที่มี 5 โหนดงาน (แต่ละโหนดมี 8 แกน) เมื่อฉันเริ่มโปรแกรมประยุกต์ด้วยการตั้งค่าเริ่มต้น ตัวอย่างที่ 2 การตั้งค่า คลัสเตอร์เดียวกันเป็นตัวอย่างที่ 1 แต่ฉันเรียกใช้แอปพลิเคชันด้วยการตั้งค่าต่อไปนี้ --executor-cores 10 --total-executor-cores 10 …


3
อะไรคือสิ่งที่ผู้บริโภคกำหนดคาฟคาชดเชย
ฉันค่อนข้างใหม่สำหรับ Kafka ฉันได้ทำการทดลองเล็กน้อย แต่มีบางสิ่งที่ไม่ชัดเจนเกี่ยวกับการชดเชยผู้บริโภค จากสิ่งที่ฉันเข้าใจจนถึงตอนที่ผู้บริโภคเริ่มต้นการชดเชยที่จะเริ่มอ่านจะถูกกำหนดโดยการตั้งค่าการกำหนดค่าauto.offset.reset(แก้ไขฉันถ้าฉันผิด) ตอนนี้พูดเช่นว่ามี 10 ข้อความ (ออฟเซ็ต 0 ถึง 9) ในหัวข้อและผู้บริโภคเกิดขึ้นที่จะกิน 5 ของพวกเขาก่อนที่มันจะลง (หรือก่อนที่ฉันจะฆ่าผู้บริโภค) จากนั้นบอกว่าฉันรีสตาร์ทกระบวนการผู้บริโภคนั้น คำถามของฉันคือ: ถ้าauto.offset.resetตั้งค่าsmallestเป็นมันจะเริ่มต้นการบริโภคจาก offset 0 เสมอหรือไม่ ถ้าauto.offset.resetตั้งไว้ที่largestจะเริ่มบริโภคจาก offset 5 หรือไม่ พฤติกรรมเกี่ยวกับสถานการณ์ประเภทนี้เป็นสิ่งกำหนดขึ้นมาเสมอหรือไม่? โปรดอย่าลังเลที่จะแสดงความคิดเห็นหากสิ่งใดในคำถามของฉันไม่ชัดเจน ขอบคุณล่วงหน้า.

25
คำนวณค่ามัธยฐานของตัวเลขพันล้าน
หากคุณมีตัวเลขหนึ่งพันล้านเลขหมายและคอมพิวเตอร์หนึ่งร้อยเครื่องวิธีใดที่ดีที่สุดในการหาค่ามัธยฐานของตัวเลขเหล่านี้ ทางออกหนึ่งที่ฉันมีคือ: แบ่งชุดเท่า ๆ กันระหว่างคอมพิวเตอร์ จัดเรียง หาค่ามัธยฐานสำหรับแต่ละชุด จัดเรียงชุดค่ามัธยฐาน รวมสองชุดในแต่ละครั้งจากค่ามัธยฐานต่ำสุดถึงสูงสุด หากเราทำการm1 < m2 < m3 ...รวมก่อนSet1และSet2และในเซตผลลัพธ์เราสามารถทิ้งตัวเลขทั้งหมดที่ต่ำกว่าค่ามัธยฐานของSet12(รวม) ได้ ดังนั้น ณ เวลาใดก็ตามเรามีเซตขนาดเท่ากัน โดยวิธีนี้ไม่สามารถทำได้ในลักษณะคู่ขนาน ความคิดใด ๆ ?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.