ค่ามัธยฐาน, โหมด, เปอร์เซ็นไทล์และ OLAP


9

ฉันเป็นมือใหม่ที่พยายามโอบรอบ OLAP และฉันมีคำถามสองสามข้อ

  • คำถามที่ 1: OLAP cube เก็บค่ามัธยฐาน, โหมด, เปอร์เซ็นไทล์ได้หรือไม่?
  • คำถามที่ 2:แบบสอบถาม MDX ที่ผู้ใช้เขียนสามารถส่งคืนข้อมูลสรุปของข้อมูลระดับแถวได้หรือไม่ (เช่น: การทำธุรกรรม%> $ 100) หรือผู้ออกแบบคิวบ์ต้องเพิ่มสิ่งนี้ในคิวบ์หรือไม่
  • คำถามที่ 3:ผลิตภัณฑ์ OLAP ใด ๆ มีกลไกสำหรับการเข้าถึงข้อมูลระดับแถวหรือไม่ ที่?

แผนกไอทีของเรากำลังค้นหาคำติชมเกี่ยวกับปัญหาที่เรามีกับคิวบ์ ROLAP MS Analsis Services เราไม่สามารถเข้าถึงฐานข้อมูลเชิงสัมพันธ์ที่อยู่ด้านหลังและจำเป็นต้องทำการคำนวณที่ไม่สามารถใช้งานได้ในปัจจุบันเป็นมาตรการในคิวบ์

ให้ฉันดูว่าฉันมีสิทธิ์นี้ไหม

  1. คิวบ์สามารถจัดเตรียมสถิติสำหรับการนับหมายถึงสัดส่วนการเบี่ยงเบนมาตรฐาน
  2. หากสถิติเฉพาะไม่ได้รับการตอบสนองในการวัดที่ได้รับจากนักออกแบบคิวบ์เราสามารถเขียนแบบสอบถาม MDX เพื่อรับมันได้หรือไม่ หรือพวกเขาจำเป็นต้องเปลี่ยนคิวบ์เพื่อคำนวณล่วงหน้าจากข้อมูลระดับแถว
  3. คิวบ์ไม่สามารถให้ข้อมูลสถิติเช่นค่ามัธยฐานโหมดหรือค่าร้อยละได้เนื่องจากสถิติเหล่านี้ไม่ได้ทำให้รุนแรงขึ้นอย่างเหมาะสม

ฉันกำลังอ่านไวยากรณ์ของกราฟิกของ Leland Wilkinson และในบทของเขาเกี่ยวกับ Data Mining และ OLAP เขากล่าว

[การดำเนินการคิวบ์] เหล่านี้ทำงานได้ดีกับสถิติเช่นการนับค่าเฉลี่ยสัดส่วนและส่วนเบี่ยงเบนมาตรฐาน การรวมอย่างง่าย ๆ เหนือคลาสย่อยสามารถคำนวณได้โดยการดำเนินการกับจำนวนเงินผลรวมของกำลังสองและคำอื่น ๆ ที่รวมอยู่ในฟังก์ชันเชิงเส้นเพื่อสร้างสถิติสรุปพื้นฐาน

พวกเขาทำงานไม่ถูกต้องกับสถิติเช่นค่ามัธยฐานโหมดและเปอร์เซ็นไทล์เนื่องจากการรวมสถิติเหล่านี้ไม่ได้เป็นสถิติของมวลรวมของพวกเขา เช่นค่ามัธยฐานของค่ามัธยฐานไม่ใช่ค่ามัธยฐานของมวลรวม

เขายังเพิ่ม:

อย่างไรก็ตามแบบจำลอง ROLAP ที่มีความซับซ้อนมากขึ้นได้เกิดขึ้นเมื่อเร็ว ๆ นี้ มันเป็นไปได้ที่จะใช้เทคโนโลยีหลายอย่างเพื่อให้อัลกอริทึมทางสถิติเข้าถึงข้อมูลดิบผ่านตัวแบบเชิงสัมพันธ์ในแบบเรียลไทม์ วิธีนี้มีแนวโน้มมากกว่าการรวมที่เข้มงวดที่เสนอโดยโครงสร้างเช่น data cube

ในรูปแบบที่หรูหราที่สุดของสถาปัตยกรรมนี้แอปพลิเคชันสามารถร้องขอการเชื่อมต่อระยะไกลเพื่อให้ข้อมูลเกี่ยวกับวิธีการจัดการข้อมูลและดำเนินการที่เหมาะสมขึ้นอยู่กับข้อมูลที่ส่งคืน ในรูปแบบนี้สถาปัตยกรรมส่วนประกอบสามารถบรรลุสัญญาที่แท้จริงของการคำนวณแบบกระจาย: การออกแบบและการดำเนินการที่ไม่ขึ้นกับไซต์ระบบปฏิบัติการหรือภาษา

นั่นถูกเขียนขึ้นในปี 2005 มีใครรู้บ้างไหมว่าผลิตภัณฑ์ที่ใช้วิธีการนี้อนุญาตให้เข้าถึงข้อมูลในระดับแถวได้หรือไม่?


1
ไม่มีผู้รับ? ข้อเสนอแนะเกี่ยวกับวิธีการปรับปรุงคำถามเพื่อล้วงเอาคำตอบ?
Tommy O'Dell

คำตอบ:


5

เพื่อตอบคำถามของคุณตามลำดับ:

  1. คิวบ์ไม่ได้เก็บค่ามัธยฐานโหมด (หรือแม้กระทั่งค่าเฉลี่ย) แต่คุณสามารถเขียนแบบสอบถามที่คำนวณพวกเขาและฝังพวกเขาเป็นมาตรการที่คำนวณได้ในคิวบ์ ความสามารถในการฝังการคำนวณประเภทนี้เป็นหนึ่งในจุดขายหลักที่ไม่ซ้ำใครของเทคโนโลยี OLAP
  2. หากคุณมีมิติข้อมูลที่สามารถระบุแต่ละแถว (ซึ่งอาจเป็นมิติที่ลดลงหรือมิติ 'ความจริง' ที่ได้มาจากตัวระบุในตารางข้อเท็จจริง) จากนั้นคุณสามารถทำแบบสอบถามตามแถวแต่ละแถว อย่างไรก็ตาม OLAP ทำงานในแง่ของขนาดและมวลรวมดังนั้นคุณจะต้องมีมิติที่สามารถระบุแถวแต่ละแถวได้ (โดยมีผลรวมประกอบด้วยค่าหนึ่งค่า)
  3. เครื่องมือ OLAP ใด ๆ สามารถทำสิ่งที่อธิบายไว้ใน (2) และโดยทั่วไปแล้วพวกเขาสนับสนุนกลไกที่เรียกว่า'การเจาะลึก'โดยที่คิวบ์จะส่งคืน bordereaux ของข้อมูลการทำธุรกรรมที่อยู่ภายใต้ชิ้นที่กำหนดที่คุณเจาะลึกเข้าไป

หากคุณต้องการทำการคำนวณที่ไม่สามารถใช้งานได้โดยตรงในสคริปต์คิวบ์เครื่องมือ OLAP จำนวนมากเช่น ProClarity ล่าช้าที่ล่าช้าจะช่วยให้คุณสามารถกำหนดแบบสอบถามที่เกี่ยวข้องกับการคำนวณตาม MDX ที่กำหนดเอง เว้นแต่ว่าคิวบ์จะไม่มีข้อมูลที่คุณต้องการทำการคำนวณจริงการคำนวณ MDX แบบกำหนดเองควรจะสามารถรองรับการคำนวณใด ๆ ที่คุณต้องการ

แม้ว่าการสอบถาม OLAP นั้นเกี่ยวข้องกับการสืบค้นสถิติแบบรวม แต่ถ้าคุณมีมิติที่อนุญาตให้เจาะลึกลงไปในรายละเอียดคุณต้องมีความเป็นไปได้ที่จะกำหนดแบบสอบถามที่จะคำนวณหาค่ามัธยฐานเปอร์เซนต์หรือฮิสโตแกรมจากโหมดที่สามารถสรุปหรือคำนวณได้

ตัวอย่างเช่นนี่เป็นตัวอย่างของแบบสอบถามการวิเคราะห์พาเรโตซึ่งขึ้นอยู่กับการจัดอันดับ

ผลิตภัณฑ์คิวบ์จำนวนมากสามารถทำงานในโหมดไฮบริดหรือเชิงสัมพันธ์ OLAP ซึ่งพวกเขาไม่ได้เก็บข้อมูลไว้ แต่ทำการสืบค้นจากฐานข้อมูลที่อยู่ข้างใต้ นอกจากนี้เครื่องมือ ROLAP ล้วน ๆ เช่น Business Objects, Report Builder หรือ Discoverer สามารถสืบค้นจากฐานข้อมูลพื้นฐานและทำงานเป็นแถว ๆ อย่างไรก็ตามพวกเขามีแนวโน้มที่จะขาดความซับซ้อนของผลิตภัณฑ์ OLAP โดยเฉพาะและพวกเขาไม่มีความสามารถในการวิเคราะห์เชิงสถิตินอกกรอบมากนัก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.