การสร้างภาพเหตุผลเพียงพอสำหรับการแปลงข้อมูลหรือไม่


13

ปัญหา

ฉันต้องการพล็อตความแปรปรวนที่อธิบายโดยพารามิเตอร์ 30 ตัวแต่ละตัวเช่น barplot ที่มีแถบที่แตกต่างกันสำหรับแต่ละพารามิเตอร์และความแปรปรวนบนแกน y:

ข้อความแสดงแทน

อย่างไรก็ตามความแปรปรวนจะเบ้อย่างมากต่อค่าเล็กรวมถึง 0 ซึ่งสามารถเห็นได้ในฮิสโตแกรมด้านล่าง:

ข้อความแสดงแทน

ถ้าฉันแปลงมันด้วยมันจะง่ายขึ้นที่จะเห็นความแตกต่างระหว่างค่าเล็ก ๆ (ฮิสโตแกรมและบาร์พล็อตด้านล่าง):log(x+1)

ข้อความแสดงแทนข้อความแสดงแทน

คำถาม

การพล็อตในระดับบันทึกเป็นเรื่องปกติ แต่การวางแผนสมเหตุสมผลหรือไม่?log(x+1)

คำตอบ:


13

สิ่งนี้ถูกเรียกว่า " ลอการิทึมเริ่มต้น " โดยบางคน ( เช่น John Tukey) (ตัวอย่างเช่น Google john tukey "เริ่มบันทึก" )

มันใช้งานได้อย่างสมบูรณ์แบบ ในความเป็นจริงคุณอาจต้องใช้ค่าเริ่มต้นที่ไม่ใช่ศูนย์ในการปัดเศษของตัวแปรตาม ตัวอย่างเช่นการปัดเศษตัวแปรที่ขึ้นต่อกันเป็นจำนวนเต็มที่ใกล้ที่สุดจะหายไปอย่างมีประสิทธิภาพ 1/12 จากความแปรปรวนที่แท้จริงของมันการแนะนำค่าเริ่มต้นที่สมเหตุสมผลควรอย่างน้อย 1/12 (ค่านั้นไม่ได้ทำงานที่ไม่ดีกับข้อมูลเหล่านี้การใช้ค่าอื่น ๆ ที่สูงกว่า 1 ไม่ได้เปลี่ยนแปลงภาพมากนักเพียงแค่เพิ่มค่าทั้งหมดในพล็อตล่างขวาเกือบเท่ากัน)

มีเหตุผลลึกเพื่อใช้ลอการิทึม (หรือเข้าสู่ระบบเริ่มต้น) เพื่อประเมินความแปรปรวนเป็น: ยกตัวอย่างเช่นความลาดเอียงของพล็อตของความแปรปรวนกับค่าประมาณในระดับเข้าสู่ระบบเข้าสู่ระบบประมาณการพารามิเตอร์ Box-Cox สำหรับการรักษาเสถียรภาพความแปรปรวน อำนาจทางกฎหมายเช่นนี้เหมาะสมกับความแปรปรวนของตัวแปรที่เกี่ยวข้อง (นี่คือคำแถลงเชิงประจักษ์ไม่ใช่เชิงทฤษฎี)

หากจุดประสงค์ของคุณคือการนำเสนอผลต่างให้ดำเนินการด้วยความระมัดระวัง ผู้ชมจำนวนมาก (นอกเหนือจากคนวิทยาศาสตร์) ไม่สามารถเข้าใจลอการิทึมซึ่งน้อยกว่าผู้เริ่มต้นมาก การใช้ค่าเริ่มต้นอย่างน้อย 1 อย่างนั้นมีข้อดีที่จะอธิบายและตีความได้ง่ายกว่าค่าเริ่มต้นอื่น ๆ เล็กน้อย สิ่งที่ต้องพิจารณาคือการพล็อตรากของพวกเขาซึ่งเป็นค่าเบี่ยงเบนมาตรฐานแน่นอน มันจะมีลักษณะเช่นนี้:

ข้อความแสดงแทน

ไม่ว่าหากวัตถุประสงค์ของคุณคือการสำรวจข้อมูลเรียนรู้จากพวกเขาเพื่อให้พอดีกับแบบจำลองหรือประเมินแบบจำลองจากนั้นอย่าปล่อยให้สิ่งใดเข้าไปขัดขวางการหาตัวแทนกราฟิกที่สมเหตุสมผลของข้อมูลและค่าที่ได้จากข้อมูลของคุณ เช่นความแปรปรวนเหล่านี้


1
ขอบคุณสำหรับคำอธิบายและคำศัพท์ / การอ้างอิงที่เหมาะสม ผู้ชมเป็นผู้อ่านวารสารทางวิทยาศาสตร์และหัวข้อคือการย่อยสลายความแปรปรวน การทำความเข้าใจแนวคิดของการแปลงไฟล์บันทึกเป็นสิ่งที่ต้องมีมาก่อน แต่ฉันก็ยังไม่แน่ใจว่างานนำเสนอนี้จำเป็นต้องมีเหตุผลเพิ่มเติมหรือไม่ - รากเป็นทางเลือกที่ดี ขอบคุณ
David LeBauer

3

มันอาจจะสมเหตุสมผล คำถามที่ดีกว่าที่จะถามคือ 1 คือจำนวนที่เหมาะสมที่จะเพิ่ม ขั้นต่ำของคุณคืออะไร หากเริ่มต้นด้วย 1 คุณจะกำหนดช่วงเวลาเฉพาะระหว่างรายการที่มีค่าเป็นศูนย์และรายการที่มีค่า 1 ทั้งนี้ขึ้นอยู่กับโดเมนของการศึกษาอาจทำให้มีความเหมาะสมมากกว่าที่จะเลือก 0.5 หรือ 1 / e เป็นออฟเซ็ต ความหมายของการเปลี่ยนเป็นสเกลล็อกคือตอนนี้คุณมีสเกลอัตราส่วน

แต่ฉันถูกรบกวนด้วยแผนการ ฉันจะถามว่าแบบจำลองที่มีความแปรปรวนอธิบายส่วนใหญ่ในส่วนท้ายของการแจกแจงแบบเบ้พิจารณาว่ามีคุณสมบัติทางสถิติที่ต้องการหรือไม่ ผมคิดว่าไม่.


ฉันไม่แน่ใจว่าชัดเจนหรือไม่ แต่ฮิสโทแกรมมีค่าความแปรปรวน 30 ค่าและบาร์พล็อตเป็นค่าดิบของความแปรปรวนนั่นคือvar <- c(0,0,1,3,10,100,150), hist(var), barplot(var)ดังนั้นฉันจึงตีความว่านี่เป็นพารามิเตอร์สองสามตัวที่อธิบายความแปรปรวนส่วนใหญ่ไม่ใช่ส่วนใหญ่ ของความแปรปรวนที่อธิบายอยู่ในหาง นั่นทำให้รู้สึกมากขึ้น? ขออภัยถ้ามันไม่ชัดเจน
David LeBauer
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.