ตัวแปรมักจะถูกปรับ (เช่นมาตรฐาน) ก่อนที่จะสร้างแบบจำลอง - นี่เป็นความคิดที่ดีเมื่อใดและเมื่อใดจึงเป็นสิ่งที่ไม่ดี


56

ในสถานการณ์ใดที่คุณต้องการหรือไม่ต้องการปรับขนาดหรือทำให้มาตรฐานเป็นตัวแปรก่อนที่จะทำการปรับแบบจำลอง ข้อดีและข้อเสียของการปรับขนาดตัวแปรคืออะไร?


คำถามที่คล้ายกันมากที่นี่: stats.stackexchange.com/q/7112/3748มีอะไรอีกไหมที่คุณกำลังมองหา?
Michael Bishop

ใช่ - ฉันต้องการทราบรุ่นทั่วไปมากกว่ารุ่นเชิงเส้น
Andrew

1
มีรุ่นที่เป็นไปได้มากมายและการใช้แบบจำลองที่เป็นไปได้ หากคุณสามารถทำให้คำถามของคุณเฉพาะเจาะจงมากขึ้นและลดการทับซ้อนกับคำถามอื่น ๆ ที่ดีกว่า
Michael Bishop

นอกเหนือจากลิงก์ข้างต้นแล้วคำถามนี้: เมื่อใดที่คุณควรอยู่กึ่งกลางข้อมูลของคุณเมื่อคุณควรมาตรฐานจะเป็นที่สนใจ
gung - Reinstate Monica

คำตอบ:


37

การกำหนดมาตรฐานเป็นข้อมูลเกี่ยวกับน้ำหนักของตัวแปรที่แตกต่างกันสำหรับแบบจำลอง หากคุณทำมาตรฐาน "เท่านั้น" เพื่อความมั่นคงของตัวเลขอาจมีการแปลงที่ให้คุณสมบัติเชิงตัวเลขที่คล้ายกันมาก แต่ความหมายทางกายภาพที่แตกต่างกันซึ่งอาจเหมาะสมกว่าสำหรับการตีความ เช่นเดียวกับการจัดกึ่งกลางซึ่งโดยปกติจะเป็นส่วนหนึ่งของมาตรฐาน

สถานการณ์ที่คุณอาจต้องการสร้างมาตรฐาน:

  • ตัวแปรมีปริมาณทางกายภาพที่แตกต่างกัน
  • และค่าตัวเลขนั้นมีขนาดแตกต่างกันมาก
  • และไม่มีความรู้ "ภายนอก" ว่าตัวแปรที่มีความแปรปรวนสูง (ตัวเลข) ควรพิจารณาว่ามีความสำคัญมากกว่า

สถานการณ์ที่คุณอาจไม่ต้องการสร้างมาตรฐาน:

  • ถ้าตัวแปรมีปริมาณทางกายภาพเท่ากันและมีขนาดเท่ากัน (เช่นประมาณ)
    • ความเข้มข้นสัมพัทธ์ของสารเคมีชนิดต่าง ๆ
    • การดูดซับที่ความยาวคลื่นต่างกัน
    • ความเข้มของการปล่อย (เงื่อนไขการวัดเดียวกัน) ที่ความยาวคลื่นที่แตกต่างกัน
  • คุณไม่ต้องการสร้างมาตรฐานให้กับตัวแปรที่ไม่เปลี่ยนแปลงระหว่างตัวอย่าง (ช่องสัญญาณพื้นฐาน) - คุณเพียงแค่ระเบิดเสียงวัด (คุณอาจต้องการแยกตัวแปรเหล่านี้ออกจากแบบจำลองแทน)
  • หากคุณมีตัวแปรที่เกี่ยวข้องกับร่างกายเสียงการวัดของคุณอาจเหมือนกันสำหรับตัวแปรทั้งหมด แต่ความเข้มของสัญญาณจะแตกต่างกันมากขึ้น ตัวแปร Ie ที่มีค่าต่ำจะมีสัญญาณรบกวนที่สูงกว่า การกำหนดมาตรฐานจะทำให้เกิดเสียงดังขึ้น กล่าวอีกนัยหนึ่งคุณอาจต้องตัดสินใจว่าคุณต้องการให้เสียงรบกวนแบบสัมพัทธ์หรือเสียงสัมบูรณ์เป็นมาตรฐานหรือไม่
  • อาจมีค่าที่มีความหมายทางร่างกายที่คุณสามารถใช้เพื่อเชื่อมโยงค่าที่วัดได้ของคุณไปเช่นแทนที่จะใช้ความเข้มที่ส่งผ่านใช้เปอร์เซ็นต์ของความเข้มที่ส่งผ่าน (การส่ง T)

คุณอาจทำอะไรบางอย่าง "ระหว่าง" และเปลี่ยนตัวแปรหรือเลือกหน่วยเพื่อให้ตัวแปรใหม่ยังคงมีความหมายทางกายภาพ แต่การเปลี่ยนแปลงในค่าตัวเลขไม่แตกต่างกันเช่น

  • หากคุณทำงานกับหนูให้ใช้น้ำหนักตัว g และความยาวเป็นซม. (ช่วงที่คาดหวังความแปรปรวนประมาณ 5 ทั้งคู่) แทนหน่วยพื้นฐานกิโลกรัมและ m (ช่วงความแปรปรวนที่คาดหวัง 0.005 กก. และ 0.05 ม. - ลำดับหนึ่งของขนาดแตกต่างกัน)
  • สำหรับการส่งผ่าน T ข้างต้นคุณอาจพิจารณาใช้การดูดกลืนแสงA=log10T

คล้ายกันสำหรับการเป็นศูนย์กลาง:

  • อาจมี (ค่าทางกายภาพ / เคมี / ชีวภาพ / ... ) ค่าพื้นฐานที่มีความหมายที่มีอยู่ (เช่นการควบคุมผ้าม่าน ฯลฯ )
  • ค่าเฉลี่ยนั้นมีความหมายจริงหรือไม่? (คนโดยเฉลี่ยมีหนึ่งรังไข่และหนึ่งลูกอัณฑะ)

+1 และยอมรับเนื่องจากรายการที่เป็นประโยชน์ของเวลาและเมื่อไม่เป็นมาตรฐานเกินไปขอบคุณ
Andrew

6
+1 สำหรับ "มนุษย์โดยเฉลี่ยมีหนึ่งรังไข่และหนึ่งลูกอัณฑะหนึ่ง" (และสำหรับคำตอบที่เหลือ ;-)
gung - Reinstate Monica

1
@cbeleites มีโอกาสใดบ้างที่คุณสามารถให้ลิงก์ไปยังแหล่งข้อมูลที่อธิบายถึงช่องสัญญาณพื้นฐานในบริบทที่คุณใช้ในคำตอบของคุณ ฉันไม่เคยได้ยินคำศัพท์มาก่อนและฉันได้รับผลการค้นหาซึ่งไม่เป็นประโยชน์ในการทำความเข้าใจการใช้คำที่นี่ ขอบคุณ!
mahonya

1
@sarikan: ดูรูปที่ 1 ในบทความนี้: americanlaboratory.com/913-Technical-Articles/ …สำหรับเหตุผลทางชีววิทยาและเคมี - ฟิสิกส์ในช่วงระหว่าง 2,000 ถึง 2,700 cmไม่มีสัญญาณใด ๆ ภูมิภาคนี้อาจใช้เพื่อประเมินพื้นฐาน (จากผลกระทบทางกายภาพที่ไม่ใช่รามาน) ซึ่งจะถูกลบออก ตัวแปรเหล่านี้จะมีค่าเป็นศูนย์โดยประมาณบวกกับเสียงรบกวน 1
cbeleites

9

สิ่งหนึ่งที่ฉันถามตัวเองเสมอก่อนที่จะสร้างมาตรฐานคือ "ฉันจะตีความผลลัพธ์ได้อย่างไร" หากมีวิธีการวิเคราะห์ข้อมูลที่ไม่มีการแปลงข้อมูลนี่อาจเป็นสิ่งที่ดีกว่าจากมุมมองการตีความ


7

โดยทั่วไปฉันไม่แนะนำให้ปรับขนาดหรือสร้างมาตรฐานเว้นแต่จะจำเป็นจริงๆ ข้อได้เปรียบหรือการอุทธรณ์ของกระบวนการดังกล่าวคือเมื่อตัวแปรอธิบายมีมิติทางกายภาพและขนาดที่แตกต่างกันอย่างสิ้นเชิงจากตัวแปรตอบสนองการปรับขนาดโดยการหารด้วยการเบี่ยงเบนมาตรฐานอาจช่วยในแง่ของความมั่นคงเชิงตัวเลข ตัวแปรอธิบาย ด้วยมาตรฐานที่พบบ่อยที่สุดผลของตัวแปรคือปริมาณของการเปลี่ยนแปลงในตัวแปรตอบกลับเมื่อตัวแปรอธิบายเพิ่มขึ้นหนึ่งส่วนเบี่ยงเบนมาตรฐาน นอกจากนี้ยังระบุว่าความหมายของผลกระทบของตัวแปร (จำนวนการเปลี่ยนแปลงในตัวแปรตอบสนองเมื่อตัวแปรอธิบายเพิ่มขึ้นหนึ่งหน่วย) จะหายไปแม้ว่าค่าสถิติสำหรับตัวแปรอธิบายจะยังคงไม่เปลี่ยนแปลง อย่างไรก็ตาม เมื่อพิจารณาถึงปฏิสัมพันธ์ในแบบจำลองการปรับสเกลอาจเป็นปัญหาได้แม้แต่ในการทดสอบทางสถิติเนื่องจากภาวะแทรกซ้อนที่เกี่ยวข้องกับการปรับสเกลสุ่มในการคำนวณข้อผิดพลาดมาตรฐานของเอฟเฟกต์การโต้ตอบ (Preacher, 2003) ด้วยเหตุนี้จึงไม่แนะนำให้ปรับขนาดโดยเบี่ยงเบนมาตรฐาน (หรือมาตรฐาน / การทำให้เป็นมาตรฐาน) โดยเฉพาะอย่างยิ่งเมื่อมีการโต้ตอบ

นักเทศน์, KJ, Curran, PJ, และ Bauer, DJ, 2006 เครื่องมือคำนวณสำหรับการตรวจสอบผลกระทบจากการปฏิสัมพันธ์ในการถดถอยเชิงเส้นหลายเส้นการสร้างแบบจำลองหลายระดับและการวิเคราะห์เส้นโค้งแฝง วารสารสถิติการศึกษาและพฤติกรรม, 31 (4), 437-448


4
ฉันถามการเรียกร้องของคุณว่าตัวทำนายมาตรฐานคือ "โดยทั่วไปไม่แนะนำโดยเฉพาะเมื่อมีการโต้ตอบ" ทั้ง Gelman และ Hill และ Raudenbush & Bryk ไม่พูดถึงความกังวลนี้ในข้อความของพวกเขา แต่เมื่อฉันมีโอกาสฉันจะดูข้อมูลอ้างอิงที่คุณพูดถึงด้วยความสนใจ
Michael Bishop

หากเราใช้การสอบเทียบจักรวาล std เป็นตัวแปรการปรับสเกลจะไม่สุ่ม
ดัม

บางคนสามารถยืนยันได้หรือไม่ว่าการปรับสเกลเป็นอันตรายในกรณีที่มีข้อกำหนดในการโต้ตอบ ที่ดูเหมือนจะไม่ได้รับการแก้ไขในการสนทนาข้างต้น
Talik3233
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.