ปรับขนาดข้อมูลที่มีขนาดต่างกันสำหรับการวางแผน


9

ดูที่ชุดข้อมูลต่อไปนี้:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

ฉันถูกขอให้พล็อตเรื่องนี้บนกราฟโดยใช้วันที่มีแกน X และข้อมูลส่วนที่เหลือบนแกน Y ปัญหาคือขนาดของข้อมูลแตกต่างกันอย่างมาก ที่การเข้าชมอยู่ในหลักพันและคำสั่งซื้อที่สร้างขึ้นนั้นอยู่ในระดับต่ำ แต่ข้อมูลไม่ได้วางแผนไว้อย่างดีบนกราฟ

ฉันสงสัยว่านักสถิติจะทำอะไรในสถานการณ์นี้ฉันสามารถแบ่งการเข้าชมด้วย 1,000 แล้วจึงใส่คำอธิบาย (การเข้าชม (K)) แต่จากนั้นฉันก็เริ่มมีปัญหาเดียวกันกับการสร้างรถเข็นเนื่องจากพวกเขาเป็น ในร้อยและทุกอย่างอื่นอยู่ในระดับต่ำ

มีสิ่งใดบ้างที่เกิดขึ้นในสถานการณ์นี้

คำตอบ:


14

ในตอนเริ่มต้นนั้นไม่มีเหตุผลที่จะพล็อตแผนภูมิเส้นเป็นชุดของทวีคูณขนาดเล็กที่มีสเกลที่แตกต่างกันสำหรับแกน Y แต่มีการจัดแนวแกน X (วันที่) ป้อนคำอธิบายรูปภาพที่นี่

ฉันคิดว่านี่เป็นจุดเริ่มต้นที่ดีเพราะช่วยให้ผู้ใช้สามารถตรวจสอบข้อมูลดิบและช่วยเปรียบเทียบแนวโน้มระหว่างแผนภูมิเส้นที่แตกต่างกัน IMO คุณควรดูข้อมูลดิบก่อนจากนั้นคิดเกี่ยวกับการแปลงหรือวิธีการทำให้แผนภูมิเป็นมาตรฐานเพื่อเทียบเคียงได้หลังจากที่คุณตรวจสอบข้อมูลดิบ

ตามที่ King ได้กล่าวไปแล้วปรากฏว่าตัวแปรของคุณมีการเรียงลำดับตามธรรมชาติตามชื่อและหมายเลขและถ้ามันเหมาะสมเราได้สร้างตัวแปรใหม่สามตัวตามเปอร์เซ็นต์ที่แปลงในแต่ละรัฐ ตัวแปรใหม่คือ;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

การทำเปอร์เซ็นต์เป็นวิธีที่จะทำให้ซีรี่ส์ใกล้เคียงกับมาตราส่วนทั่วไป แต่ถึงแม้จะวางบรรทัดทั้งหมดลงในแผนภูมิเดียว (ด้านล่าง) ก็ยังคงมองเห็นซีรีส์ได้อย่างมีประสิทธิภาพ ระดับและรูปแบบของคำสั่งซื้อที่สร้างขึ้นและรถเข็นแปลงชุดดาวแคระของซีรี่ส์อื่น คุณไม่เห็นรูปแบบใด ๆ ในซีรีส์ที่สร้างขึ้นในรถเข็นในสเกลนี้ (และฉันสงสัยว่าเป็นสิ่งที่คุณสนใจมากที่สุด) ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นอีกครั้ง IMO วิธีที่ดีกว่าในการตรวจสอบนี้คือการใช้เครื่องชั่งที่แตกต่างกัน ด้านล่างคือแผนภูมิเปอร์เซ็นต์โดยใช้เครื่องชั่งที่แตกต่างกัน

ป้อนคำอธิบายรูปภาพที่นี่

ด้วยกราฟิกเหล่านี้ฉันไม่ได้มีความสัมพันธ์ใด ๆ ที่มีความหมายกับฉันระหว่างซีรีส์ แต่คุณมีความแตกต่างที่น่าสนใจมากมายในแต่ละซีรีย์ อะไรขึ้นกับ2011-11-13? คุณมีสัดส่วนการสั่งซื้อที่สร้างขึ้นน้อยกว่ามาก แต่การสั่งซื้อที่สร้างขึ้นทุกครั้งนั้นเป็นรถเข็นที่แปลงแล้ว คุณมีการแทรกแซงอื่น ๆ ซึ่งอาจอธิบายแนวโน้มในการเข้าชมเว็บไซต์หรือสัดส่วนหรือรถเข็นร้อยละที่สร้างขึ้น?

ทั้งหมดนี้เป็นเพียงการวิเคราะห์ข้อมูลเชิงสำรวจและเพื่อดำเนินการตามขั้นตอนเพิ่มเติมฉันจะต้องการข้อมูลเชิงลึกมากขึ้น (ฉันหวังว่านี่เป็นการเริ่มต้นที่ดี) คุณสามารถทำให้ปกติแผนภูมิเส้นในวิธีอื่นเพื่อให้สามารถพล็อตพวกเขาในระดับที่เปรียบเทียบได้ แต่นั่นเป็นงานที่ยากและฉันคิดว่าสามารถทำได้อย่างมีประสิทธิภาพในการเลือกเครื่องชั่งตามอำเภอใจตามสิ่งที่ให้ข้อมูลเมื่อเทียบกับการเลือก แผนการปรับมาตรฐาน อีกโปรแกรมที่น่าสนใจในการดูกราฟเส้นพร้อมกันหลายเป็นกราฟเส้นขอบฟ้าแต่ที่มีมากขึ้นสำหรับการดูหลายแผนภูมิเส้นที่แตกต่างกันในครั้งเดียว


ขอบคุณสำหรับรายละเอียดในคำตอบของคุณฉันเดิมมีหลายแผนภูมิ เจ้านายของฉันตัดสินใจว่าพวกเขาต้องการซีรีส์ทั้งหมดบนกราฟ (ฉันคิดว่ามันน่าจะมากเกินไป แต่ไม่ใช่ฉันที่จะมองมัน :)) ฉันคิดว่าฉันจะพิจารณาการทำให้ข้อมูลเป็นปกติ เป็น 0 - 1. พวกเขาต้องการใช้กราฟเพื่อดูแนวโน้มเท่านั้นโดยปกติข้อมูลตารางจะแสดงใต้กราฟ
Mike

@ ไมค์มันเป็นคำขอที่สมเหตุสมผล การทำให้เป็นมาตรฐานของซีรีส์ไม่ควรเปลี่ยนแนวโน้ม (เฉพาะระดับและการเปลี่ยนแปลงของแต่ละซีรีส์) หวังว่าคุณจะได้คำตอบที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับวิธีทำให้ซีรีย์เป็นมาตรฐานในบางวิธีที่มีประสิทธิภาพ แต่ก็ยังมีความหมายอยู่ แม้ว่าจะเป็นเพียงข้อควรระวังโดยทั่วไปคุณต้องการพล็อต 3-5 บรรทัดในแผนภูมิเดียวมากขึ้นเป็นเรื่องยากมากที่จะทำการเปรียบเทียบทั้งหมดเหล่านั้น (พหุคูณขนาดเล็กเป็นวิธีแก้ปัญหานี้)
Andy W

1
@ ไมค์ใช่ในกรณีนี้ (เพียงแสดงข้อมูลโดยไม่ต้องตัวเลข) คุณก็สามารถแสดงข้อมูลของคุณในนาที / ขนาดสูงสุดเป็นจะทำในการแสดงผลแบบขนาน การแสดงตัวเลขใต้ตารางเป็นความคิดที่ดีเช่นกัน
chl

1
ข้อควรทราบเพิ่มเติมเกี่ยวกับการทำให้เป็นมาตรฐานเป็นระดับต่ำสุด / สูงสุดแม้ว่าตามที่ @chl แนะนำ เป็นการดีที่จะดูข้อมูลดิบก่อนถ้าคุณมีค่าที่มากบางอย่างคุณอาจต้องพิจารณาที่จะไม่รวมค่านั้นในกระบวนการทำข้อมูลให้เป็นมาตรฐาน มีค่าสูง / ต่ำหนึ่งค่าและส่วนที่เหลือเป็นแบบเรียบ) ฉันคิดว่าMichael Friendlyจะเห็นด้วยกับการรวมตารางด้านล่างของกราฟด้วย
Andy W

2

คุณสามารถมีแกน y แยกต่างหากได้ 2, การเข้าชม (k) และเกวียนที่สร้างขึ้นในหนึ่ง, อีก 2 แกนในอีกอันหนึ่ง (หรือวิธีใดก็ตามที่เหมาะกับจุดประสงค์ของคุณ)

นี่ไม่ใช่วิธีที่สง่างาม แต่ฉันจำได้ว่าต้องทำเมื่อหลายปีก่อนเมื่อฉันต้องการเปรียบเทียบแนวโน้มข้ามเวลา

หรือ

คุณสามารถพล็อตการเปลี่ยนแปลงเปอร์เซ็นต์เมื่อเวลาผ่านไปหากมันเหมาะสมกับวัตถุประสงค์ของคุณ


ฉันพิจารณาเส้นทางที่คุณพูดถึงแกน Y ที่ต่างกัน 2 ตัว แต่สิ่งที่ฉันไม่ชอบเกี่ยวกับมันคือ: ถ้ามีการแนะนำซีรี่ส์ใหม่ที่ไม่เหมาะกับหนึ่งในแกน Y สองแกนฉันอาจติดอยู่ ขอขอบคุณสำหรับข้อเสนอแนะและบางทีเวลาอื่นผมจะพิจารณามากขึ้นนี้ :)
ไมค์

ข้อเสนอแนะที่สองเกี่ยวกับการใช้เปอร์เซ็นต์เป็นอย่างไร เช่นการจัดทำดัชนีทุกอย่างที่ 100 ในวันที่เริ่มต้น (หรือวันที่ใดที่ทำให้แผนภูมิของคุณสวย) คุณสามารถเพิ่มซีรี่ส์ใหม่ได้มากเท่าที่คุณต้องการ!
King

นั่นคือตัวเลือกปัจจุบันฉันพยายามใช้ Excel ในการหาวิธีทำให้ข้อมูลนี้เป็นมาตรฐานและใช้งานได้จริง ความล้มเหลวที่ฉันจะให้ความคิดที่ร้อยละไป :)
ไมค์

2

ในที่สุดฉันตัดสินใจที่จะทำให้ข้อมูลเป็นปกติด้วยการหารแต่ละค่าด้วยค่าสูงสุดแล้วคูณด้วย 100

  1. หาค่าสูงสุด:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. หารแต่ละตัวเลขด้วยจำนวนสูงสุดแล้วคูณด้วย 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. จากนั้นฉันพล็อตเรื่องนี้บนกราฟเห็นได้ชัดว่านี่แสดงให้เห็นถึงแนวโน้มเท่านั้นและผู้ใช้มีตารางข้อมูลที่ด้านล่างของหน้า


0

นั่นก็จะเป็นแนวทางของฉันด้วย - - เพื่อปรับขนาดต่าง ๆ ให้อยู่ในระดับเดียวกันโดยการหารด้วย X แต่ฉันจะใช้ค่าเฉลี่ยไม่ใช่ค่าสูงสุดหรือต่ำสุด เหตุผลคือ - เมื่อคุณเพิ่มข้อมูลเมื่อเวลาผ่านไปค่าสูงสุดหรือต่ำสุดของคุณจะเปลี่ยนไปจากนั้นสิ่งที่เป็น 100% ในแผนภูมิสุดท้ายเป็นอย่างอื่นในเวลานี้ - แผนภูมิไม่สามารถปรับให้ตรงกับแผนภูมิก่อนหน้าได้อย่างง่ายดาย คุณใช้เฉลี่ยแล้วการเปลี่ยนแปลงจะไม่รุนแรง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.