เครื่องชั่งน้ำหนักของเครื่องชั่งเหมาะสมเมื่อใด


57

ฉันได้อ่านว่าการใช้เครื่องชั่งบันทึกเมื่อการสร้างแผนภูมิ / กราฟเหมาะสมในบางสถานการณ์เช่นแกน y ในแผนภูมิอนุกรมเวลา อย่างไรก็ตามฉันไม่สามารถหาคำอธิบายที่ชัดเจนว่าทำไมถึงเป็นเช่นนั้นหรือเมื่อใดจะเหมาะสม โปรดจำไว้ว่าฉันไม่ใช่นักสถิติดังนั้นฉันอาจพลาดประเด็นไปโดยสิ้นเชิงและหากเป็นเช่นนั้นฉันขอขอบคุณทิศทางการแก้ไขทรัพยากร


10
นี่ไม่ใช่คำตอบที่เป็นทางการ แต่ - เมื่อตัวแปรครอบคลุมหลายขนาดของคำสั่งมันมักจะง่ายขึ้นในสายตา (และข้อมูลเพิ่มเติม) เพื่อให้เห็นภาพในระดับบันทึก
มาโคร

มาโคร - มันสมเหตุสมผลดี (โดยเฉพาะเมื่อคุณมีผู้ชมที่สามารถเข้าใจมันได้!)
dav

1
คุณอาจพบนี้หัวข้อที่เกี่ยวข้องอย่างใกล้ชิดในการใช้งานในขณะที่คุณกำลังรอการตอบกลับที่เฉพาะเจาะจง: stats.stackexchange.com/questions/298 ในแง่ของการสร้างแผนภูมิคุณอาจตีความ "ตัวแปรตาม" เป็นผลสำเร็จ "แกน y" ได้ จากนั้นลองดูคำถามที่เกี่ยวข้องมากมายซึ่งปรากฏอยู่ที่นี่
whuber

3
นอกจากนี้ FYI Naomi Robbins ยังมีบทความที่ตรงไปตรงมามากในหัวข้อที่ควรเป็นที่สนใจเมื่อใดที่ฉันควรใช้เครื่องชั่งลอการิทึมในแผนภูมิและกราฟของฉัน .
Andy W

Whuber ขอบคุณที่ชี้ให้เห็นลิงก์พิเศษ ฉันเคยเห็นบางคน แต่ไม่ใช่ทั้งหมดและตอนนี้ฉันกำลังทำงานผ่านพวกเขา
dav

คำตอบ:


51

นี่เป็นคำถามที่น่าสนใจมากและเป็นคำถามที่มีคนคิดน้อยเกินไป มีหลายวิธีที่สเกลบันทึกสามารถเหมาะสมได้ สิ่งแรกและที่รู้จักกันดีที่สุดคือแมโครที่กล่าวถึงในความคิดเห็นของเขา: มาตราส่วนบันทึกช่วยให้สามารถแสดงช่วงขนาดใหญ่โดยไม่มีค่าขนาดเล็กที่ถูกบีบอัดลงด้านล่างของกราฟ

เหตุผลที่แตกต่างกันสำหรับการปรับขนาดการบันทึกอยู่ในสถานการณ์ที่ข้อมูลแสดงออกทางเรขาคณิตมากกว่า ตัวอย่างคือเมื่อข้อมูลแสดงถึงความเข้มข้นของสื่อกลางทางชีวภาพ ความเข้มข้นไม่สามารถเป็นค่าลบและความแปรปรวนเกือบจะมาตราส่วนด้วยค่าเฉลี่ย (เช่นมีความแปรปรวนแบบ heteroscedastic) การใช้มาตราส่วนลอการิทึมหรือเทียบเท่าโดยใช้ความเข้มข้นของบันทึกเป็นหลักเป็นการวัด 'แก้ไข' ความแปรปรวนที่ไม่สม่ำเสมอและให้สเกลที่ไม่ จำกัด บนปลายทั้งสอง ความเข้มข้นอาจกระจายตามปกติและการปรับขนาดของบันทึกทำให้เราได้ผลลัพธ์ที่สะดวกมากซึ่งเป็น 'ธรรมชาติ' ในเภสัชวิทยาเราใช้สเกลลอการิทึมสำหรับความเข้มข้นของยาบ่อยกว่าไม่

อีกเหตุผลที่ดีสำหรับสเกลล็อกอาจเป็นสเกลที่คุณสนใจสำหรับข้อมูลอนุกรมเวลามาจากความสามารถของสเกลบันทึกเพื่อทำการเปลี่ยนแปลงเศษส่วนที่เทียบเท่ากัน ลองนึกภาพการแสดงผลระยะยาวของการลงทุนเพื่อการเกษียณอายุของคุณ มันควรจะเพิ่มขึ้นอย่างไม่น่าเชื่อเพราะความสนใจในวันพรุ่งนี้ขึ้นอยู่กับการลงทุนในวันนี้ ดังนั้นแม้ว่าประสิทธิภาพในแง่เปอร์เซ็นต์ค่อนข้างคงที่กราฟของเงินจะปรากฏว่ามีการเติบโตอย่างรวดเร็วที่สุดที่ด้านขวามือ ด้วยมาตราส่วนลอการิทึมการเปลี่ยนแปลงค่าคงที่เปอร์เซ็นต์จะถูกมองว่าเป็นระยะทางแนวตั้งคงที่ดังนั้นอัตราการเติบโตคงที่จะถูกมองว่าเป็นเส้นตรง ซึ่งมักเป็นข้อได้เปรียบอย่างมาก

อีกเหตุผลที่ลึกลับกว่าเล็กน้อยสำหรับการเลือกสเกลบันทึกมาในสถานการณ์ที่ค่าสามารถแสดงได้อย่างสมเหตุสมผลเช่น x หรือ 1 / x ตัวอย่างจากงานวิจัยของฉันคือความต้านทานของหลอดเลือดซึ่งสามารถแสดงออกได้อย่างสมเหตุสมผลว่าเป็นสื่อกระแสไฟฟ้าที่สัมพันธ์กันซึ่งกันและกัน (นอกจากนี้ยังมีเหตุผลในบางกรณีที่จะคิดถึงขนาดเส้นผ่าศูนย์กลางของหลอดเลือดที่ขยายขนาดเป็นพลังแห่งการต่อต้านหรือการเป็นสื่อกระแสไฟฟ้า) มาตรการทั้งสองนั้นไม่มีความเป็นจริงมากกว่าที่อื่นและสามารถพบได้ทั้งในรายงานการวิจัย หากพวกเขาปรับขนาดลอการิทึมแล้วพวกเขาก็เป็นเพียงลบของกันและกันและการเลือกหนึ่งหรืออื่น ๆ ทำให้ไม่มีความแตกต่าง susbstantive (เส้นผ่านศูนย์กลางของหลอดเลือดจะแตกต่างจากความต้านทานและค่าการนำไฟฟ้าโดยตัวคูณคงที่เมื่อพวกเขาทั้งหมดถูกปรับอัตราส่วน)


ขอบคุณสำหรับคำตอบที่ยอดเยี่ยม! คุณสามารถอธิบายรายละเอียดเกี่ยวกับ "ค่าที่สามารถแสดงออกได้อย่างสมเหตุสมผลว่าเป็น x" หรือไม่?
ktdrv

4
@ktdrv มีบางอย่างที่สมเหตุสมผล สมมติว่าคุณต้องการบันทึกความสามารถของชาวประมง คุณสามารถนับจำนวนปลาที่จับได้ต่อวันหรือคุณสามารถวัดช่วงเวลาระหว่างการจับปลาต่อเนื่อง การวัดอย่างใดอย่างหนึ่งทำให้รู้สึก แต่พวกเขาจะไม่เกี่ยวข้องเชิงเส้นซึ่งกันและกัน พวกเขาจะถูกปรับขนาดของกันและกันและสามารถแปลงเป็นแบบหนึ่งต่อหนึ่ง บันทึกของช่วงเวลาและบันทึกของจำนวนต่อวันนั้นมีความสัมพันธ์เชิงเส้นซึ่งกันและกันและแตกต่างกันตามปัจจัยคงที่ (ลบ)
Michael Lew

1
Michael ขอบคุณสำหรับคำตอบที่ดี ฉันต้องยอมรับมันใช้เวลาสักครู่ในการกลั่นกรองคะแนนทั้งหมดของคุณ (และต้อง google ข้อกำหนดสองสามข้อเช่น "ความแปรปรวนแบบ heteroscedastic") ฉันยังคงประกอบสิ่งที่ผลกระทบที่แท้จริงของคำตอบจะมีความหมายต่อการทำงานของฉัน แต่ฉันขอบคุณสำหรับทิศทางทั่วไปและแนวทางบางอย่างที่จะชี้ให้ฉันไปตลอดทาง
dav

Re ย่อหน้าสุดท้าย: สองเหตุผลหลักสำหรับการแสดงค่าซ้ำคือการทำให้เกิดความแปรปรวนและเพื่อสร้างความสัมพันธ์เชิงเส้นกับตัวแปรอื่น มันเกือบจะเสมอกรณีที่เมื่อทำงานจะน่ากลัวและในทางกลับกัน ดังนั้นการใช้เพราะมันสร้างความสัมพันธ์เชิงเส้นระหว่างและดูเหมือนจะไม่สามารถป้องกันได้: ถ้ามันใช้งานได้นั่นหมายความว่าทั้งหรือเป็นการแสดงออกที่มีประสิทธิภาพของค่าและไม่เช่นนั้น ทำงานและคุณควรกำหนดว่าของหรือ (หรือการแสดงออกอื่น ๆ ) มีความเหมาะสม1 / x log ( x ) x 1 / x x 1 / x x 1 / xx1/xlog(x)x1/x x1/xx1/x
whuber

"ในทางเภสัชวิทยาเราใช้มาตราส่วนลอการิทึมสำหรับความเข้มข้นของยาเสพติดมากขึ้นบ่อยกว่าไม่" ให้ฉันเน้นว่าโดยการเพิ่มที่ว่าตัวแปรเป็นจริงบ่อยแล้วกำหนดวิธีการที่เช่น+] การแสดงวิธีการที่เป็นธรรมชาติมากขึ้นหมายถึงความสัมพันธ์จำนวนมากกลายเป็นเรื่องง่าย (เชิงเส้น) การแสดงออกมากขึ้นด้วยการบันทึก pH=log[H+]
cbeleites

29

ตัวอย่างชีวิตจริงที่ฉันต้องมอบให้เพื่อเป็นคำตอบที่ดีมากของ @Michael Lew

ครั้งแรกที่ทั้งสองแปลงอนุกรมเวลาด้านล่างแสดงนักท่องเที่ยวรายเดือนให้กับนิวซีแลนด์ที่มีอยู่จากสถิตินิวซีแลนด์ แผนการทั้งสองมีวัตถุประสงค์ของพวกเขา แต่ฉันพบว่ามีแกนแนวตั้งในระดับลอการิทึมที่มีประโยชน์อย่างงดงามสำหรับวัตถุประสงค์มากมายกว่าคนแรก ตัวอย่างเช่นคุณจะเห็นได้ว่าฤดูกาลที่เดินทางมาถึงนั้นมีสัดส่วนตามสัดส่วนของขาเข้า และคุณสามารถเห็นการเปลี่ยนแปลงที่สำคัญของอัตราการเติบโต (เช่นในช่วงสงครามโลกครั้งที่สอง) ซึ่งมองไม่เห็นในระดับเดิม

ป้อนคำอธิบายรูปภาพที่นี่

ประการที่สองแผนการด้านล่างแสดงการใช้จ่ายที่เกี่ยวข้องกับการเดินทางโดยนักท่องเที่ยวไปนิวซีแลนด์เมื่อเปรียบเทียบกับการใช้จ่ายในขณะที่พวกเขาอยู่ในนิวซีแลนด์ แหล่งที่มาคือการสำรวจผู้เข้าชมระหว่างประเทศโดยกระทรวงการพัฒนาเศรษฐกิจ ความแตกต่างคือค่าใช้จ่ายก่อนการเดินทางเช่นโรงแรมหรือแพ็คเกจที่จ่ายล่วงหน้า พล็อตแรกในระดับเดิมสามารถใช้เพื่อวัตถุประสงค์อื่น ๆ นอกเหนือจากการแสดงผลที่หยาบคายมาก (แต่สำคัญ) ของข้อมูลที่ถูกจัดกลุ่มที่มุมซ้ายล่าง พล็อตที่สองเสียสละความสามารถในการแปลผลทันทีโดยเฉพาะอย่างยิ่งสำหรับผู้ที่ไม่ใช่นักสถิติ (ด้วยเหตุนี้ตอนนี้ฉันจะใช้สเกลลอการิทึมจริง ๆ บนแกนแทนที่จะเปลี่ยนข้อมูลและมีสเกลแสดงค่าลอการิทึม) แต่ให้มาก ความแตกต่างของภาพมากขึ้น

ตัวอย่างเช่นคุณสามารถมองเห็นค่าผิดพลาดเล็กน้อย (ซึ่งกลายเป็นข้อผิดพลาดในการแก้ไขข้อมูล) อย่างชัดเจนซึ่งค่าใช้จ่ายรวมน้อยกว่าการใช้จ่ายในนิวซีแลนด์ บางทีที่สำคัญกว่านั้นคือคุณสามารถใช้กราฟนี้ด้วยสีที่แตกต่างกันหรือการแสดงเพื่อแสดงให้เห็นว่าประเทศตลาดที่แตกต่างหรือจุดประสงค์ในการเยี่ยมชม (เช่นวันหยุด v. เยี่ยมเพื่อนและครอบครัว) ครอบครองส่วนต่าง ๆ ของค่าใช้จ่าย บนแกนดั้งเดิม

การเปลี่ยนพล็อตนี้ให้เป็นสิ่งที่มีประโยชน์จะเกี่ยวข้องกับการจัดการกับข้อมูลความหนาแน่นสูงอย่างใดอย่างหนึ่ง (เช่นโดยการเพิ่มความโปร่งใสให้กับจุดหรือการแทนที่จุดด้วยถังขยะหกเหลี่ยมที่มีสีตามความหนาแน่น)

ป้อนคำอธิบายรูปภาพที่นี่

แก้ไข / เพิ่มเติม

อีกพล็อตที่แสดงให้เห็นถึงสิ่งที่ฉันหมายถึงโดยถังขยะหกเหลี่ยมโดยใช้สีเพื่อแสดงความหนาแน่นเมื่อมีชุดข้อมูลขนาดใหญ่ (ในกรณีนี้ผู้ตอบแบบสอบถามประมาณ 12000 คนจากการสำรวจเกี่ยวกับประสบการณ์การแข่งขันรักบี้โลกในนิวซีแลนด์) โปรดทราบอีกครั้งนี่เป็นอีกตัวอย่างหนึ่งที่ฉันใช้มาตราส่วนลอการิทึมสำหรับค่าใช้จ่าย

ป้อนคำอธิบายรูปภาพที่นี่


ปีเตอร์ขอขอบคุณสำหรับข้อมูลเชิงลึกเพิ่มเติม - กราฟิกช่วยให้เข้าใจประเด็นของคุณได้อย่างแท้จริง คำถามติดตามหนึ่งข้อ (หากคุณเอียงมาก) ทำไมคุณถึงต้องเปลี่ยนคะแนนด้วยถังขยะ "หกเหลี่ยม" นั่นเป็นความคิดเดียวกันกับ "แปลงดอกทานตะวัน" หรือไม่? ฉันไม่เคยได้ยินคำนั้นมาก่อน
dav

ไม่ต่างกับแปลงดอกทานตะวัน จุดคือการแบ่งพื้นที่การพล็อตเป็นถังขยะหกเหลี่ยมแล้วสีพวกเขา (เช่นจากแสงไปมืด) ตามจำนวนจุดที่อยู่ในแต่ละถังขยะ อาจเป็นวิธีที่ดีในการวางแผนชุดข้อมูลขนาดใหญ่ซึ่งมีแนวโน้มที่จะเปลี่ยนเป็นชุดดำ
ปีเตอร์เอลลิส

@DavidVandenbos - ฉันได้เพิ่มตัวอย่าง
Peter Ellis

(ความคิดเห็นที่เหลือ) @PeterEllis ขอบคุณสำหรับการชี้แจง นั่นเป็นวิธีที่ยอดเยี่ยมในการแสดงข้อมูล - มันคล้ายกับแผนที่ความร้อนทางภูมิศาสตร์ที่ฉันใช้ คุณสร้างสิ่งนั้นใน R หรือไม่?
dav

ใช่ R ใช้แพ็คเกจ ggplot2 ดีมากสำหรับจุดประสงค์นี้และค่อนข้างตรงไปตรงมาเมื่อคุณมีพื้นฐาน
ปีเตอร์เอลลิส

9

อีกสิ่งที่ดีเกี่ยวกับเครื่องชั่งล็อกคือพวกมันทำให้อัตราส่วนดูสมมาตร ตัวอย่างเช่นนี้: ป้อนคำอธิบายรูปภาพที่นี่


9
มันจะดีที่ได้เห็นพล็อตเดียวกันในระดับเชิงเส้นสำหรับการเปรียบเทียบ
nico
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.