คำถามติดแท็ก data-warehouse

ระบบฐานข้อมูลที่ได้รับการปรับให้เหมาะสมสำหรับการรายงานโดยเฉพาะแบบรวม บ่อยครั้ง แต่ไม่ได้ดำเนินการโดยใช้สคีมาแบบดาวเสมอไป

3
การออกแบบคลังข้อมูล: มิติเวลาวันที่แบบรวมเทียบกับมิติและวันและเวลาที่แยกจากกัน
เราเพิ่งเริ่มออกแบบคลังข้อมูลใหม่และเราพยายามออกแบบวิธีการทำงานของวันที่และเวลา เราต้องสามารถรองรับหลายเขตเวลา (อาจอย่างน้อย GMT, IST, PST และ EST) ตอนแรกเราคิดว่าเราจะมีมิติเวลาวันที่ที่รวมกันกว้างลงไปจนถึง 15 นาทีอย่างละเอียดด้วยวิธีนี้เรามีหนึ่งคีย์ในตารางข้อเท็จจริงของเราและข้อมูลวันที่ที่แตกต่างกันทั้งหมดสำหรับเขตเวลาที่สนับสนุนทั้งหมดอยู่ในตารางมิติหนึ่ง (เช่นรหัสวันที่, วันที่ GMT, เวลา GMT, วันที่ IST, เวลา IST, ฯลฯ ... ) Kimball แนะนำให้มีการแยกมิติวันจากช่วงเวลาของวันเพื่อป้องกันไม่ให้ตารางขยายตัวใหญ่เกินไป (ชุดเครื่องมือคลังข้อมูลหน้า 240) ซึ่งฟังดูดี แต่นั่นหมายความว่าเรามีสองปุ่มในตารางความเป็นจริงสำหรับแต่ละเขตเวลา เราต้องการการสนับสนุน (หนึ่งสำหรับวันที่และหนึ่งสำหรับช่วงเวลาของวัน) เนื่องจากฉันไม่มีประสบการณ์มากในพื้นที่นี้ฉันหวังว่าจะมีใครบางคนรู้ว่าการแลกเปลี่ยนระหว่างสองวิธีคือประสิทธิภาพและการจัดการของคีย์โซนเวลาที่แตกต่างกันทั้งหมด อาจมีวิธีอื่นด้วยเช่นกันฉันเคยเห็นบางคนกำลังพูดถึงการแยกแถวในตารางความเป็นจริงต่อเขตเวลา แต่ดูเหมือนว่าจะมีปัญหาหากคุณข้อเท็จจริงว่าตารางมีจำนวนหลายล้านแถวคุณต้องเพิ่มสี่เท่าเพื่อเพิ่มเขตเวลา . ถ้าเราทำธัญพืช 15 นาทีเราจะมีแถว 131,400 (24 * 15 * 365) ต่อปีในตารางมิติเวลาวันที่ซึ่งไม่ฟังดูน่าเกลียดเกินไปสำหรับการแสดง แต่เราไม่รู้แน่ชัดจนกระทั่งเราทดสอบบางอย่าง แบบสอบถามต้นแบบ ข้อกังวลอื่น ๆ เกี่ยวกับการมีคีย์โซนเวลาแยกต่างหากในตารางข้อเท็จจริงคือแบบสอบถามต้องเข้าร่วมตารางมิติกับคอลัมน์อื่นตามเขตเวลาที่ต้องการบางทีนี่อาจเป็นสิ่งที่ …

4
ที่หนึ่งควรใส่ดัชนีในตารางมิติเวลา?
หลังจากอ่านคำถามและคำตอบจากเว็บไซต์นี้เกี่ยวกับดัชนีคำถามมาถึงใจของฉัน จะเกิดอะไรขึ้นหากใครใช้ตารางมิติเวลาที่มีระดับความละเอียดต่ำกว่าเป็นวัน ควรวางดัชนีไว้ที่ไหน? Randy Melder ในคำถาม: “ index” หมายถึงอะไรใน RDBMS กล่าวว่า : คิดว่าดัชนีเป็น "สารบัญ" ... นั่นคือรายการของตัวชี้ที่เรียงลำดับไปยังตำแหน่งในไฟล์หรือที่รู้จักกันว่าออฟเซ็ต ในกรณีของมิติเวลาที่ข้อมูลการวิจัยส่วนใหญ่อาจจะทำอย่างใดอย่างหนึ่งสำหรับวันที่ระบุในสัปดาห์เฉพาะเดือนที่เฉพาะเจาะจงหรือไตรมาสเฉพาะหากเก็บตารางเวลาทุกวันสำหรับปีที่ไม่ซ้ำกัน คำถามของฉันคือ: เราควรใส่ดัชนีสำหรับฟิลด์เหล่านั้นทั้งหมดหรือไม่ วันนี้เป็นวันที่ไม่เหมือนใครดังนั้นสำหรับฉันฉันเข้าใจการใช้ดัชนีอย่างสมบูรณ์แบบ แต่รหัสประจำสัปดาห์จะมี7 ครั้งรหัสเดือนจะมี30/31 ครั้งและรหัสไตรมาสจะมี120 ครั้งขึ้นไป เราควรใส่ดัชนีสำหรับฟิลด์เหล่านั้นหรือไม่ มันจะยังคงมีประโยชน์หรือไม่ ฉันถามคุณว่าเพราะในคำถามเดียวกัน David Spillett ตอบว่า: การเพิ่มดัชนีมากเกินไปอาจเป็นการเพิ่มประสิทธิภาพที่ไม่ดีแน่นอนเนื่องจากพื้นที่พิเศษที่ใช้ในการจัดเก็บดัชนี (และโหลด IO เพื่อรักษาไว้หากฐานข้อมูลของคุณเห็นการดำเนินการเขียนจำนวนมาก) อาจเป็นปัญหาที่แย่กว่าแบบสอบถามแบบสอบถามที่อ่านน้อยที่สุด ดังนั้นอย่าทำมากเกินไป ดังนั้นสิ่งที่จะเป็นข้อควรพิจารณาที่ดีที่สุดสำหรับมิติเวลา?

1
ความแตกต่างระหว่างคลังข้อมูลแบบ federated และแบบกระจายอำนาจคืออะไร
ฉันไม่สามารถหาคำจำกัดความที่ชัดเจนหรือคำอธิบายใด ๆ เหล่านี้ ทั้งสองดูเหมือนกระจายอำนาจ ดูเหมือนว่าในสหพันธ์ DWH ข้อมูลจะถูกกระจายและไม่ได้รวมอยู่ในที่เก็บเดียวและเข้าถึงได้จากแหล่งที่มาแบบกระจาย ในขณะที่ในการใช้งาน DWH กระจายอำนาจข้อมูลจะถูกรวมเข้าไว้ในที่เก็บส่วนกลางหนึ่ง โปรดอธิบายความแตกต่างระหว่างการใช้งานทั้งสองนี้
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.