ปัญหาการวิจัยที่สำคัญในการทำธุรกรรมการกระจายคืออะไร?

ข้อมูลประกอบ:การประมวลผลธุรกรรมเป็นหัวข้อวิจัยแบบดั้งเดิมในทฤษฎีฐานข้อมูล ปัจจุบันการทำธุรกรรมการกระจายกำลังนิยมโดยระบบจัดเก็บข้อมูลขนาดใหญ่กระจายซึ่งมักจะเกี่ยวข้องกับข้อมูลพาร์ทิชัน (ที่เรียกว่าชาร์ด) และการจำลองแบบข้อมูล

ปัญหาการวิจัยที่สำคัญในการทำธุรกรรมการกระจายคืออะไร?

มีทฤษฎีและวิธีแก้ไขปัญหาที่รู้จักกันดีซึ่งต้องการการปรับปรุง (ตามทฤษฎี) หรือไม่?

การอ้างอิงใด ๆ ที่ชื่นชม

— Hengxin
แหล่งที่มา

มีงานวิจัยมากมายทั้งในทางทฤษฎีและปฏิบัติของฐานข้อมูลแบบกระจาย

หนึ่งในความท้าทายในทางปฏิบัติที่สำคัญคือการใช้กลไกการควบคุมภาวะพร้อมกันที่มีประสิทธิภาพสำหรับฐานข้อมูลแบบกระจายและแบบจำลองทางภูมิศาสตร์ เพื่อที่จะดำเนินธุรกรรมได้อย่างมีประสิทธิภาพกลไกดังกล่าวสามารถให้การรับประกันที่อ่อนแอกว่าความสามารถในการทำธุรกรรมแบบอนุกรมซึ่งต้องการให้ธุรกรรมนั้นดำเนินการตามลำดับ อีกทางเลือกหนึ่งในการ serialisability คือการตกตะกอนสำหรับ Snapshot Isolation [1] แต่สิ่งนี้ได้รับการพิสูจน์แล้วว่าได้คุณภาพไม่ดีนักเมื่อเทียบกับระบบกระจายทางภูมิศาสตร์ ที่สถานะปัจจุบันของศิลปะสองสายพันธุ์ที่แตกต่างกันของ Snapshot Isolation (SI) ได้รับการกำหนดให้จัดการกับการควบคุมภาวะพร้อมกันในระบบที่จำลองทางภูมิศาสตร์: Paraps Snapshot Isolation (PSI) [2] และ Non Monotonic Snapshot Isolation (NMSI) [ 3,4] สำหรับสิ่งที่เกี่ยวข้องกับฐานข้อมูลแบบกระจาย (เช่นที่ซึ่งข้อมูลถูกแบ่งออกระหว่างไซต์ต่าง ๆ ),

คำถามที่สำคัญอีกข้อหนึ่งก็คือการเขียนโปรแกรมในลักษณะที่การประหารชีวิตจะยังคงเป็นแบบอนุกรม เกณฑ์เสียงสำหรับ Snapshot Isolation ได้ถูกกำหนดขึ้นใน [1] บางคนในกลุ่มของฉันกำลังทำงานเพื่อกำหนดเกณฑ์ที่เหมาะสมสำหรับ PSI

อีกคำถามที่เกี่ยวข้องทั้งจากมุมมองเชิงทฤษฎีและปฏิบัติคือการสับทรานแซกชัน โดยพื้นฐานแล้วการสับเป็นเทคนิคการวิเคราะห์แบบสแตติกซึ่งการทำธุรกรรมแบบหยาบจะแบ่งย่อยเป็นธุรกรรมขนาดเล็กและละเอียด สำหรับ serialisability คำถามนี้ได้รับการจัดการใน [6] และทฤษฎีผลลัพธ์ได้ถูกนำไปใช้เพื่อให้เกิดการปฏิบัติจริงใน [7]

จากมุมมองของฐานรากทางทฤษฎีของฐานข้อมูลแบบกระจายมีข้อเสนอบางอย่างที่จะใช้เทคนิคจากชุมชนหน่วยความจำที่อ่อนแอแบบจำลอง [8] เพื่อกำหนดพฤติกรรมการทำธุรกรรมอย่างเป็นทางการ ใน [9] ผู้เขียนให้ความคิดอย่างเป็นทางการของพฤติกรรมสำหรับการทำธุรกรรม; มีการใช้วิธีการเดียวกันใน [10] เพื่อระบุพฤติกรรมของชนิดข้อมูลที่จำลองแบบ

เมื่อเร็ว ๆ นี้ฉันและเพื่อนร่วมงานของฉัน (Alexey Gotsman และ Hongseok Yang) ได้สร้างขึ้นโดยเริ่มจากเทคนิคที่พัฒนาขึ้นใน [8,9,10] ซึ่งเป็นกรอบทฤษฎีในการระบุพฤติกรรมที่สังเกตได้ของระดับความสอดคล้องสำหรับฐานข้อมูลที่จำลองทางภูมิศาสตร์ เราประสบความสำเร็จในการใช้กรอบการทำงานเพื่อให้ความพึงพอใจของ SI, PSI และ NMSI ซึ่งแต่ละอันเราได้พิสูจน์แล้วว่าถูกต้องตามการใช้งานที่ง่าย นอกจากนี้เรายังใช้ประโยชน์จากทฤษฎีที่เกิดขึ้นเพื่อกำหนดเกณฑ์การตัดสำหรับ PSI ผลลัพธ์เหล่านี้หวังว่าเราจะเผยแพร่ในอนาคตอันใกล้

โปรดอย่าลังเลที่จะเขียนถึงฉันหากคุณมีคำถามอื่น ๆ หวังว่าจะช่วยได้

Andrea Cerone

อ้างอิง:

[1] Fekete et al, การสร้าง Snapshot แยกได้ (2005)

[2] Sovran et al, ที่เก็บข้อมูลธุรกรรมสำหรับระบบที่จำลองทางภูมิศาสตร์ (2011)

[3] Arkedani et al, การแยก Snapshot ที่ไม่ใช่โมโนโทนิก: ความสอดคล้องที่ปรับขนาดได้และแข็งแกร่งสำหรับระบบการทำธุรกรรมทางภูมิศาสตร์แบบจำลองทางภูมิศาสตร์ (2013)

[4] Arkedani et al, เกี่ยวกับความยืดหยุ่นของการแยก Snapshot (2013)

[5] Binnig et al, การแยกสแน็ปช็อตแบบกระจาย: ธุรกรรมทั่วโลกจ่ายทั่วโลก, ธุรกรรมในท้องถิ่นจ่ายในท้องถิ่น

[6] Shasha et al, การตัดทอนธุรกรรม: อัลกอริทึมและการศึกษาประสิทธิภาพ (1995)

[7] Zhang et al, กลุ่มธุรกรรม: บรรลุความต่อเนื่องของอนุกรมกับความหน่วงแฝงต่ำในระบบจัดเก็บข้อมูลแบบกระจายทางภูมิศาสตร์ (2013)

[8] Alglave ลำดับชั้นอย่างเป็นทางการของโมเดลหน่วยความจำที่อ่อนแอ (2012)

[9] Buckhardt et al, การทำความเข้าใจความสอดคล้องในที่สุด (2013)

[10] Buckhardt et al, ประเภทข้อมูลที่จำลอง: ข้อมูลจำเพาะ, การตรวจสอบ, การเพิ่มประสิทธิภาพ (2014)

— Andrea Cerone
แหล่งที่มา

ขอบคุณสำหรับคำตอบที่ครอบคลุมของคุณ สำหรับ SI มีการกระจายโปรโตคอลที่ไม่มีล็อคในการตั้งค่าที่ทำซ้ำในเอกสารหรือไม่ หรือความพยายามนี้ไม่มีความหมายเพราะ SI มีขนาดไม่ดีหรือไม่ สำหรับ PSI ฉันได้อ่านบทความ(Tim Kraska @ Eurosys'13)ซึ่งกล่าวถึงการนำไปใช้ในงานในอนาคต คือทั่วไป Paxosเหมาะสำหรับการนี้หรือไม่? อะไรคือข้อดี / ข้อเสีย / ความท้าทายที่เป็นไปได้เมื่อเทียบกับฉบับดั้งเดิมใน Sovran et al [2]? ขอบคุณอีกครั้ง.

— hengxin

แน่นอนว่า SI ไม่ได้ปรับขนาดระบบการจำลองแบบทางภูมิศาสตร์ได้ดี ใน [4] ด้านบนผู้เขียนพิสูจน์ว่ามีคุณสมบัติเช่นการจำลองแบบบางส่วนของแท้ซึ่งไม่สามารถบรรลุได้โดย DBMSs ที่จำลองแบบทางภูมิศาสตร์ซึ่งทำงานในระดับความสอดคล้องของ SI ใน [5] ผู้เขียนแสดงตัวอย่างของการประหารชีวิตที่ปฏิบัติตาม SI ในระดับท้องถิ่น (ที่ส่วนเดียว) แต่ไม่ใช่ทั่วโลกและเสนอตัวแปรของ SI ที่เรียกว่า DSI สำหรับสิ่งที่เกี่ยวข้องกับ MDCC ฉันไม่ได้ตระหนักถึงบทความนี้และฉันต้องยอมรับว่าฉันไม่ทราบรายละเอียดการใช้งานของ Paxos ทั่วไป แต่ฉันยินดีที่จะได้ดูและตอบกลับโดยเร็ว

— Andrea Cerone