ในการถดถอยเชิงเส้นเมื่อใดที่เหมาะสมที่จะใช้บันทึกของตัวแปรอิสระแทนที่จะเป็นค่าจริง

164

ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?

— d_2
แหล่งที่มา

1

คุณกำลังถามเกี่ยวกับวิธีการลดผลกระทบของค่าผิดปกติหรือเมื่อใช้บันทึกของตัวแปรบางตัว?

— Benjamin Bannier

23

ฉันคิดว่า OP กำลังพูดว่า "ฉันเคยได้ยินคนที่ใช้ตัวแปรเข้าสู่ระบบในการบันทึก: ทำไมพวกเขาถึงทำอย่างนั้น?"

— เชน

ทำไมต้องบันทึก คำถามนี้ไม่ควรนำไปใช้กับเทคนิคการแปลงข้อมูลใด ๆ ที่สามารถนำมาใช้เพื่อลดจำนวนคงเหลือที่เกี่ยวข้องกับ mx + b ได้หรือไม่?

— AsymLabs

1

@AsymLabs - บันทึกอาจมีความพิเศษในการถดถอยเนื่องจากเป็นฟังก์ชันเดียวที่แปลงผลิตภัณฑ์เป็นผลรวม

— ความน่าจะเป็นทางการ

12

คำเตือนแก่ผู้อ่าน: คำถามถามเกี่ยวกับการเปลี่ยน IV แต่คำตอบบางข้อดูเหมือนจะพูดถึงเหตุผลในการเปลี่ยน DV อย่าเข้าใจผิดคิดว่าสิ่งเหล่านี้ล้วนเป็นเหตุผลในการเปลี่ยนแปลง IV - บางอย่างอาจเป็นไปได้ โดยเฉพาะอย่างยิ่งการกระจายของ IV ไม่ได้เกี่ยวข้องกันโดยทั่วไป (แน่นอนว่าการกระจายของระยะขอบของ DV ไม่ใช่อย่างใดอย่างหนึ่ง)

— Glen_b

168

ฉันลังเลเสมอที่จะกระโดดเข้ามาในหัวข้อที่มีคำตอบที่ยอดเยี่ยมมากมายเช่นนี้ แต่มันทำให้ฉันเห็นว่าคำตอบเพียงไม่กี่ข้อให้เหตุผลใด ๆ ที่จะชอบลอการิทึมกับการแปลงอื่น ๆ ที่ "บีบ" ข้อมูลเช่นรากหรือส่วนกลับ

ก่อนที่จะไปให้ลองสรุปภูมิปัญญาในคำตอบที่มีอยู่ในวิธีทั่วไปมากขึ้น การแสดงออกที่ไม่ใช่เชิงเส้นบางส่วนของตัวแปรตามที่ระบุไว้เมื่อใดต่อไปนี้ใช้:

ส่วนที่เหลือมีการแจกแจงแบบเบ้ วัตถุประสงค์ของการเปลี่ยนแปลงคือการได้รับส่วนที่เหลือที่มีการกระจายแบบสมมาตร (ประมาณศูนย์ของหลักสูตร)
การแพร่กระจายของสารตกค้างเปลี่ยนแปลงอย่างเป็นระบบด้วยค่าของตัวแปรตาม ("heteroscedasticity") วัตถุประสงค์ของการเปลี่ยนแปลงคือการลบการเปลี่ยนแปลงที่เป็นระบบในการแพร่กระจายบรรลุ "homoscedasticity"
เพื่อสร้างความสัมพันธ์เชิงเส้น
เมื่อทฤษฎีทางวิทยาศาสตร์ระบุว่า ตัวอย่างเช่นเคมีมักจะแนะนำให้แสดงความเข้มข้นเป็นลอการิทึม (ให้กิจกรรมหรือแม้แต่ค่า pH ที่รู้จักกันดี)
เมื่อทฤษฎีทางสถิติที่คลุมเครือมากขึ้นชี้ให้เห็นสิ่งตกค้างที่สะท้อนให้เห็นถึง "ข้อผิดพลาดแบบสุ่ม" ที่ไม่ได้สะสมเพิ่ม
เพื่อทำให้แบบจำลองง่ายขึ้น ตัวอย่างเช่นบางครั้งลอการิทึมสามารถลดความซับซ้อนของจำนวนและความซับซ้อนของคำว่า "การโต้ตอบ"

(สิ่งบ่งชี้เหล่านี้อาจขัดแย้งกันในกรณีเช่นนี้จำเป็นต้องมีการตัดสิน)

ดังนั้นเมื่อลอการิทึมระบุไว้เป็นพิเศษแทนที่จะเป็นการแปลงแบบอื่น

ส่วนที่เหลือมีการกระจายแบบ "รุนแรง" เชิงบวก ในหนังสือของเขาเกี่ยวกับ EDA John Tukey ให้วิธีเชิงปริมาณในการประเมินการเปลี่ยนแปลง (ภายในตระกูล Box-Cox หรือ power, transformations) โดยยึดตามสถิติอันดับของส่วนที่เหลือ จริง ๆ แล้วลงไปที่ความจริงที่ว่าถ้าการบันทึก symmetrizes ส่วนที่เหลือมันอาจเป็นรูปแบบที่เหมาะสมของการแสดงออกอีกครั้ง; ไม่เช่นนั้นจำเป็นต้องมีการแสดงซ้ำอีกครั้ง
เมื่อ SD ของส่วนที่เหลือเป็นสัดส่วนโดยตรงกับค่าติดตั้ง (และไม่ได้กับกำลังไฟของค่าติดตั้งบางส่วน)
เมื่อความสัมพันธ์ใกล้เคียงกับเลขชี้กำลัง
เมื่อสารตกค้างมีความเชื่อว่าจะสะท้อนให้เห็นถึงข้อผิดพลาดสะสมทวี
คุณต้องการรูปแบบที่การเปลี่ยนแปลงเล็กน้อยในตัวแปรอธิบายจะถูกตีความในแง่ของการเปลี่ยนแปลงหลายตัวแปร (ร้อยละ) ในตัวแปรตาม

สุดท้ายบางที่ไม่ใช่ - เหตุผลที่จะใช้อีกครั้งการแสดงออก :

การทำให้ค่าผิดปกติไม่เหมือนค่าผิดปกติ ค่าผิดปกติเป็นตัวเลขที่ไม่ตรงกับคำอธิบายที่ค่อนข้างเรียบง่ายของข้อมูล การเปลี่ยนคำอธิบายเพื่อทำให้ค่าผิดปกติดูดีขึ้นมักจะเป็นการจัดลำดับความสำคัญที่ไม่ถูกต้องก่อนอื่นให้ขอรับข้อมูลทางวิทยาศาสตร์ที่ถูกต้องและมีสถิติที่ดีและจากนั้นสำรวจค่าผิดปกติใด ๆ อย่าปล่อยให้ค่าผิดปกติเป็นครั้งคราวกำหนดวิธีการอธิบายข้อมูลที่เหลือ!
เพราะซอฟต์แวร์ทำมันโดยอัตโนมัติ (พูดพอแล้ว!)
เพราะข้อมูลทั้งหมดเป็นค่าบวก (Positivity มักแสดงถึงความเบ้บวก แต่ไม่จำเป็นนอกจากนี้การแปลงอื่นสามารถทำงานได้ดีขึ้นตัวอย่างเช่นรูทมักทำงานได้ดีที่สุดกับข้อมูลที่นับ)
ในการทำให้ข้อมูล "ไม่ดี" (อาจมีคุณภาพต่ำ) มีพฤติกรรมที่ดี
เพื่อให้สามารถพล็อตข้อมูล (หากมีการเปลี่ยนแปลงเป็นสิ่งจำเป็นเพื่อให้สามารถแปลงข้อมูลก็อาจจะจำเป็นสำหรับหนึ่งหรือดีมากขึ้นจากเหตุผลดังกล่าวแล้วถ้าเหตุผลเดียวสำหรับการเปลี่ยนแปลงอย่างแท้จริงสำหรับการวางแผนไปข้างหน้าและทำมัน -. แต่เพียงการพล็อต data ปล่อยให้ข้อมูลที่ไม่ได้รับการแปลงเพื่อการวิเคราะห์)

— whuber
แหล่งที่มา

1

สิ่งที่เกี่ยวกับตัวแปรเช่นความหนาแน่นของประชากรในภูมิภาคหรืออัตราส่วนครูต่อเด็กในแต่ละเขตโรงเรียนหรือจำนวนคดีฆาตกรรมต่อ 1,000 คนในประชากร ฉันเห็นอาจารย์ใช้บันทึกของตัวแปรเหล่านี้ มันไม่ชัดเจนสำหรับฉันทำไม ตัวอย่างเช่นอัตราการฆาตกรรมไม่ได้เป็นเปอร์เซ็นต์อยู่แล้ว? บันทึกจะเปลี่ยนอัตราร้อยละของอัตรา? เหตุใดอัตราส่วนของอัตราส่วนครูต่อเด็กจึงเป็นที่ต้องการ ควรมีการแปลงการบันทึกสำหรับตัวแปรต่อเนื่องทุกตัวเมื่อไม่มีทฤษฎีพื้นฐานเกี่ยวกับรูปแบบการทำงานจริงหรือ

— user1690130

1

@JG อัตราส่วนขนาดเล็กมักจะมีการแจกแจงแบบเบ้ ลอการิทึมและรากมีแนวโน้มที่จะทำให้พวกเขาสมมาตรมากขึ้น ฉันไม่เข้าใจคำถามของคุณที่เกี่ยวข้องกับเปอร์เซ็นต์: บางทีคุณกำลังใช้ประโยชน์จากเปอร์เซ็นต์ที่แตกต่างกัน (อย่างใดอย่างหนึ่งเพื่อแสดงสิ่งที่เป็นสัดส่วนของทั้งหมดและอีกเพื่อแสดงการเปลี่ยนแปลงที่สัมพันธ์กัน)? ฉันไม่เชื่อว่าฉันเขียนอะไรก็ตามที่สนับสนุนว่าลอการิทึมจะถูกนำไปใช้เสมอ - ห่างไกลจากมัน! ดังนั้นฉันจึงไม่เข้าใจพื้นฐานสำหรับคำถามสุดท้ายของคุณ

— whuber

2

"เมื่อเชื่อว่าสิ่งตกค้างจะสะท้อนความผิดพลาดสะสมหลายหลาก" ฉันมีปัญหาในการตีความวลีนี้ เป็นไปได้หรือไม่ที่จะเพิ่มเนื้อหาให้กับประโยคอื่นหรืออีกสองประโยค? การสะสมที่คุณอ้างถึงคืออะไร?

— Hatshepsut

@ user1690130 สำหรับอัตราส่วนและความหนาแน่นโดยทั่วไปแล้วสิ่งเหล่านี้ควรติดตั้งเป็นการกระจายแบบปัวซอง - ตระกูลสำหรับการนับด้วยการชดเชยสำหรับการเปิดรับ เช่นจำนวนคนคือการนับและการชดเชยคือพื้นที่ของภูมิภาค ดูคำถามนี้เพื่อคำอธิบายที่ดี - stats.stackexchange.com/questions/11182/ …

— Michael Barton

2

@Hatshepsut ตัวอย่างง่ายๆของข้อผิดพลาดทวีคูณสะสมจะเป็นปริมาณเป็นตัวแปรตามและข้อผิดพลาดในการวัดของแต่ละมิติเชิงเส้น

— หยุดงาน

73

ฉันมักจะบอกนักเรียนว่ามีสามเหตุผลในการแปลงตัวแปรโดยการหาลอการิทึมธรรมชาติ เหตุผลในการบันทึกตัวแปรจะกำหนดว่าคุณต้องการบันทึกตัวแปรอิสระขึ้นอยู่กับหรือทั้งสองอย่าง เพื่อให้ชัดเจนตลอดฉันกำลังพูดถึงการลอการิทึมธรรมชาติ

ประการแรกเพื่อปรับปรุงแบบให้พอดีกับโปสเตอร์อื่น ๆ ตัวอย่างเช่นหากส่วนที่เหลือของคุณไม่ได้กระจายตามปกติแล้วการลอการิทึมของตัวแปรที่เบ้อาจปรับปรุงให้พอดีโดยการเปลี่ยนสเกลและทำให้ตัวแปรกระจายตัว "ปกติ" มากขึ้น ตัวอย่างเช่นรายได้ถูกตัดทอนที่ศูนย์และมักจะแสดงความเบ้เชิงบวก หากตัวแปรมีความเบ้เป็นลบคุณสามารถกลับด้านตัวแปรก่อนที่จะทำการลอการิทึม ฉันคิดว่าที่นี่โดยเฉพาะอย่างยิ่ง Likert เกล็ดที่ถูกป้อนเป็นตัวแปรต่อเนื่อง ในขณะที่สิ่งนี้มักจะนำไปใช้กับตัวแปรตามคุณบางครั้งมีปัญหากับส่วนที่เหลือ (เช่น heteroscedasticity) ที่เกิดจากตัวแปรอิสระซึ่งบางครั้งสามารถแก้ไขได้โดยการลอการิทึมของตัวแปรนั้น ตัวอย่างเช่นเมื่อใช้แบบจำลองที่อธิบายการประเมินของผู้บรรยายในชุดของอาจารย์และชั้นเรียนตัวแปร "ขนาดชั้นเรียน" (เช่นจำนวนนักเรียนในการบรรยาย) มีค่าผิดปกติซึ่งทำให้เกิด heteroscedasticity เนื่องจากความแปรปรวนในการประเมินผู้สอนมีขนาดเล็ก ผองเพื่อนมีขนาดเล็กกว่า การบันทึกตัวแปรนักเรียนจะช่วยได้แม้ว่าในตัวอย่างนี้การคำนวณข้อผิดพลาดมาตรฐานที่แข็งแกร่งหรือการใช้กำลังสองน้อยที่สุดอาจทำให้การตีความง่ายขึ้น

เหตุผลที่สองสำหรับการบันทึกหนึ่งหรือหลายตัวแปรในรูปแบบคือการตีความ ฉันเรียกเหตุผลนี้ว่าสะดวก หากคุณบันทึกทั้งตัวแปร dependent (Y) และตัวแปรอิสระ (X) ของคุณสัมประสิทธิ์การถดถอย ( ) ของคุณจะยืดหยุ่นและการตีความจะเป็นดังนี้: การเพิ่มขึ้น 1% ใน X จะนำไปสู่ceteris paribus % เพิ่มขึ้นใน Y (โดยเฉลี่ย) การบันทึกเพียงด้านเดียวของการถดถอย "สมการ" จะนำไปสู่การตีความทางเลือกตามที่อธิบายไว้ด้านล่าง: $\beta$ $\beta$

Y และ X - การเพิ่มขึ้นหนึ่งหน่วยใน X จะนำไปสู่เพิ่ม / ลดใน Y $\beta$

Log Y และ Log X - การเพิ่มขึ้น 1% ใน X จะนำไปสู่ % การเพิ่ม / ลดใน Y $\beta$

Log Y และ X - การเพิ่ม X หนึ่งหน่วยจะนำไปสู่เพิ่ม / ลดลง % ใน Y $\beta*100$

Y และ Log X - การเพิ่มขึ้น 1% ใน X จะนำไปสู่เพิ่ม / ลดลงใน Y $\beta/100$

และในที่สุดอาจมีเหตุผลทางทฤษฎีสำหรับการทำเช่นนั้น ตัวอย่างเช่นบางรุ่นที่เราต้องการประเมินนั้นเป็นแบบหลายค่าและไม่เชิงเส้น การทำลอการิทึมอนุญาตให้แบบจำลองเหล่านี้ประเมินโดยการถดถอยเชิงเส้น ตัวอย่างที่ดีของเรื่องนี้รวมถึงฟังก์ชั่นการผลิต Cobb-Douglas ทางเศรษฐศาสตร์และสมการ Mincer ในการศึกษา ฟังก์ชันการผลิต Cobb-Douglas อธิบายวิธีการแปลงอินพุตเป็นเอาต์พุต:

Y = A L^{α} K^{β}

$Y = A L^\alpha K^\beta$

ที่ไหน

$Y$ คือการผลิตหรือผลผลิตทั้งหมดของกิจการบางอย่างเช่น บริษัท ฟาร์ม ฯลฯ

$A$ คือผลผลิตทั้งหมด (การเปลี่ยนแปลงของเอาต์พุตไม่ได้เกิดจากอินพุตเช่นการเปลี่ยนแปลงของเทคโนโลยีหรือสภาพอากาศ)

$L$ คืออินพุตแรงงาน

$K$ คืออินพุตตัวพิมพ์ใหญ่

$\alpha$ &คือความยืดหยุ่นของเอาต์พุต $\beta$

การหาลอการิทึมของสิ่งนี้ทำให้ฟังก์ชั่นประเมินได้ง่ายโดยใช้การถดถอยเชิงเส้นของ OLS เช่น:

\log (Y) = \log (A) + α \log (L) + β \log (K)

$\log(Y) = \log(A) + \alpha\log(L) + \beta\log(K)$

— เกรแฮมคุกสัน
แหล่งที่มา

5

"Log Y และ X - การเพิ่มขึ้นหนึ่งหน่วยใน X จะนำไปสู่การเพิ่ม / ลดลง 100% ใน Y": ฉันคิดว่าสิ่งนี้ใช้ได้เฉพาะเมื่อ applies มีขนาดเล็กดังนั้น exp (β) ≈ 1 + β

— Ida

1

ขอบคุณที่ดีและชัดเจน! คำถามหนึ่งคุณตีความ intercepts ในกรณี Log Y และ X อย่างไร และโดยทั่วไปฉันมีความกังวลเกี่ยวกับวิธีการรายงานการเปลี่ยนแปลงการถดถอย ...

— Bakaburg

2

ฉันเป็นคนดูดคำตอบที่มีตัวอย่างจากเศรษฐศาสตร์ ["คุณมีฉันที่ ' Cobb-Douglas Production Function '"] .... สิ่งหนึ่งที่แม้ว่า: คุณควรเปลี่ยนคำดักจับในสมการที่สองเพื่อเข้าสู่ระบบ (A )เพื่อให้สอดคล้องกับสมการแรก

— Steve S

@Ida แน่นอน สำหรับผู้อ่านที่สนใจโพสต์ของฉันที่นี่จะอธิบายว่าทำไมสำหรับการเข้าสู่ระบบ "y" นักวิเคราะห์ควร interpetเป็นการเปลี่ยนแปลงเปอร์เซ็นต์

100 \times (e^{β} - 1)

$100 \times (e^\beta-1)$

— AdamO

21

สำหรับจุดที่ยอดเยี่ยมของ whuber เกี่ยวกับเหตุผลที่ต้องการลอการิทึมกับการแปลงอื่น ๆ เช่น root หรือ reciprocal แต่เพ่งความสนใจไปที่การตีความเฉพาะของสัมประสิทธิ์การถดถอยอันเป็นผลมาจากการเปลี่ยนแปลง log เมื่อเทียบกับการแปลงอื่น ๆ ดู:

โอลิเวอร์เอ็นคีน การแปลงบันทึกเป็นพิเศษ สถิติทางการแพทย์ 2538; 14 (8): 811-819 DOI: 10.1002 / sim.4780140810 (PDF กฎหมายที่น่าสงสัยมีให้ที่http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf )

หากคุณเข้าสู่ระบบอิสระตัวแปรx ไปยังฐานขคุณสามารถแปลความหมายของค่าสัมประสิทธิ์การถดถอย (และ CI) ในขณะที่การเปลี่ยนแปลงในตัวแปรY ต่อขเพิ่มขึ้นเท่าในx (บันทึกไปที่ฐาน 2 จึงมักมีประโยชน์เนื่องจากสอดคล้องกับการเปลี่ยนแปลงในyต่อการเพิ่มเป็นสองเท่าในxหรือบันทึกไปยังฐาน 10 หากxแปรผันตามลำดับความสำคัญจำนวนมากซึ่งหายาก) การแปลงอื่น ๆ เช่นสแควร์รูทไม่มีการตีความอย่างง่าย

หากคุณบันทึกตัวแปรที่ขึ้นต่อกันy (ไม่ใช่คำถามดั้งเดิม แต่เป็นคำตอบที่ได้ตอบไปแล้วหลายข้อก่อนหน้านี้) ฉันก็จะพบว่าแนวคิดของ Tim Cole เกี่ยวกับ 'sympercents' น่าดึงดูดใจสำหรับการนำเสนอผลลัพธ์ (ฉันยังใช้มันในกระดาษอีกครั้ง) แม้ว่าพวกเขาดูเหมือนจะไม่ได้จับทุกอย่างที่:

ทิมเจโคล Sympercents: ความแตกต่างของเปอร์เซ็นต์แบบสมมาตรบนมาตราส่วน 100 log (e) ช่วยให้การนำเสนอข้อมูลการแปลงบันทึกง่ายขึ้น สถิติทางการแพทย์ปี 2543; 19 (22): 3109-3125 DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [ฉันดีใจมากที่Stat Medหยุดใช้SICIsเหมือน DOI ... ]

— OneStop
แหล่งที่มา

1

ขอบคุณสำหรับการอ้างอิงและจุดที่ดีมาก คำถามที่น่าสนใจคือว่าปัญหานี้นำไปใช้กับการเปลี่ยนแปลงทั้งหมดไม่ใช่แค่การบันทึก สำหรับเราแล้วสถิติ / ความน่าจะเป็นยังมีประโยชน์เนื่องจากช่วยให้การคาดการณ์ประสิทธิภาพมีประสิทธิภาพหรือเกณฑ์ / แนวทางที่มีประสิทธิภาพ ในช่วงหลายปีที่ผ่านมาเราได้ใช้การแปลงพลังงาน (บันทึกโดยใช้ชื่ออื่น) การแปลงพหุนามและอื่น ๆ (แม้แต่การแปลงทีละส่วน) เพื่อพยายามลดปริมาณที่เหลือลดความเชื่อมั่นและปรับปรุงความสามารถในการทำนายจากชุดข้อมูลที่กำหนด ตอนนี้เรากำลังพูดว่าสิ่งนี้ไม่ถูกต้องหรือไม่?

— AsymLabs

1

@ AsymLabs สองวัฒนธรรมของ Breiman แตกต่างกันอย่างไร (ตัวประมาณและตัวดัดแปลงแบบประมาณ) cf เลย สองวัฒนธรรม - ถกเถียงกัน

— เดนิส

15

โดยทั่วไปจะใช้บันทึกของตัวแปรอินพุตเพื่อปรับมาตราส่วนและเปลี่ยนการกระจาย (เช่นเพื่อให้กระจายตามปกติ) มันไม่สามารถทำได้แบบสุ่มสี่สุ่มห้า; คุณต้องระมัดระวังเมื่อทำการปรับขนาดเพื่อให้แน่ใจว่าผลลัพธ์ยังคงสามารถตีความได้

สิ่งนี้ถูกกล่าวถึงในตำราสถิติเบื้องต้น นอกจากนี้คุณยังสามารถอ่านกระดาษของ Andrew Gelman ได้ที่"อินพุตการถดถอยสเกลโดยการหารด้วยค่าเบี่ยงเบนมาตรฐานสองค่า"สำหรับการอภิปรายในเรื่องนี้ นอกจากนี้เขายังมีการอภิปรายที่ดีมากเกี่ยวกับเรื่องนี้ที่จุดเริ่มต้นของ"การวิเคราะห์ข้อมูลโดยใช้การถดถอยและหลายระดับ / โมเดลลำดับชั้น"

การบันทึกไม่ใช่วิธีที่เหมาะสมในการจัดการกับข้อมูล / ค่าผิดปกติ

— เชน
แหล่งที่มา

12

คุณมักจะทำการบันทึกข้อมูลเมื่อมีปัญหากับส่วนที่เหลือ ตัวอย่างเช่นหากคุณพล็อตส่วนที่เหลือกับ covariate ที่เฉพาะเจาะจงและสังเกตรูปแบบการเพิ่ม / ลดลง (รูปร่างของช่องทาง) การแปลงอาจเหมาะสม ส่วนที่เหลือที่ไม่ใช่แบบสุ่มมักจะบ่งบอกว่าข้อสันนิษฐานของแบบจำลองของคุณนั้นผิดเช่นข้อมูลที่ไม่ปกติ

บางชนิดข้อมูลยืมโดยอัตโนมัติเพื่อการแปลงลอการิทึม ตัวอย่างเช่นฉันมักจะใช้บันทึกเมื่อจัดการกับความเข้มข้นหรืออายุ

แม้ว่าการเปลี่ยนรูปจะไม่ได้ใช้เพื่อจัดการกับค่าผิดปกติ แต่อย่างใดพวกเขาช่วยนับตั้งแต่การบันทึกทำให้ข้อมูลของคุณเสียหาย

— csgillespie
แหล่งที่มา

1

แต่ถึงกระนั้นการใช้บันทึกการเปลี่ยนแปลงรูปแบบ - สำหรับการถดถอยเชิงเส้นมันคือ y ~ a * x + b, สำหรับการถดถอยเชิงเส้นบนบันทึกมันคือ y ~ y0 * exp (x / x0)

1

ฉันเห็นด้วย - การบันทึกการเปลี่ยนแปลงแบบจำลองของคุณ แต่ถ้าคุณต้องแปลงข้อมูลนั่นก็หมายความว่าแบบจำลองของคุณไม่เหมาะในตอนแรก

— csgillespie

2

@cgillespie: ความเข้มข้นใช่; แต่อายุ นั่นเป็นเรื่องแปลก

— whuber

@whuber: ฉันคิดว่ามันขึ้นอยู่กับข้อมูลมาก แต่ชุดข้อมูลที่ฉันใช้คุณจะเห็นความแตกต่างอย่างมากระหว่างอายุ 10 ถึง 18 ปี แต่แตกต่างกันเล็กน้อยระหว่างอายุ 20 ถึง 28 ปี แม้กระทั่งสำหรับเด็กเล็กความแตกต่างระหว่างเด็กอายุ 0-1 ปีนั้นไม่เหมือนกับความแตกต่างระหว่าง 1-2

— csgillespie

1

@landroni มันพูดสั้น ๆ ฉันจะไม่พูดว่ามันไม่ดียกเว้นเป็นไปได้ว่า "เช่น" มีจุดมุ่งหมายแทน "คือ" ฉันเข้าใจการใช้ "สุ่ม" ที่นี่ในแง่ของ "ความเป็นอิสระและการกระจายตัวเหมือนกัน" ซึ่งเป็นสมมติฐานทั่วไปที่สันนิษฐานโดย OLS ในบางการตั้งค่าผู้คนยังถือว่าการแจกแจงพื้นฐานทั่วไปนี้เป็นเรื่องปกติ แต่ก็ไม่จำเป็นอย่างเคร่งครัดในทางปฏิบัติหรือในทางทฤษฎี: สิ่งที่จำเป็นคือการกระจายตัวตัวอย่างของสถิติที่เกี่ยวข้องนั้นใกล้เคียงกับปกติ

— whuber

10

การเปลี่ยนแปลงของตัวแปรอิสระเป็นหนึ่งครั้งที่หนึ่งสามารถเป็นประจักษ์พยานได้โดยไม่ต้องทำการอนุมานตราบเท่าที่มีความซื่อสัตย์เกี่ยวกับจำนวนองศาอิสระในการเล่น วิธีหนึ่งคือการใช้เส้นโค้งการถดถอยสำหรับอย่างต่อเนื่องซึ่งไม่ทราบว่าเป็นเส้น สำหรับฉันแล้วมันไม่ใช่คำถามของบันทึกเทียบกับมาตราส่วนดั้งเดิม มันเป็นคำถามที่การแปลงสอดคล้องกับข้อมูล ความธรรมดาของสิ่งตกค้างไม่ใช่เกณฑ์ที่นี่ $X$ $X$ $X$

เมื่อบิดเบี้ยวมากการ cubingตามต้องการในฟังก์ชันลูกบาศก์ spline ส่งผลให้เกิดค่ามากซึ่งบางครั้งอาจทำให้เกิดปัญหาเชิงตัวเลข ผมแก้ปัญหานี้โดยการปรับฟังก์ชั่นเส้นโค้งลูกบาศก์บน{X} แพ็กเกจR พิจารณาตัวแปรด้านในสุดเป็นตัวทำนายดังนั้นการวางแผนค่าที่คาดการณ์จะมีบนแกน -ax ตัวอย่าง: $X$ $X$ $\sqrt[3]{X}$ rms $X$ $x$

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

นี่เหมาะกับลูกบาศก์ spline ที่ จำกัด ในมี 5 knots ที่ตำแหน่ง quantile เริ่มต้น พอดีมี 4 DF (ระยะหนึ่งเส้น 3 วาระไม่เชิงเส้น) แถบความเชื่อมั่นและการทดสอบการเชื่อมโยงเคารพ 4 df เหล่านี้รับรู้อย่างเต็มที่ "ความไม่แน่นอนของการเปลี่ยนแปลง" $\sqrt[3]{X}$ $X$

— Frank Harrell
แหล่งที่มา

(+1) หากมีความคลุมเครือเกี่ยวกับรูปแบบการทำงานของหากมีข้อมูลเพียงพอนักวิเคราะห์ควรใช้ขั้นตอนการปรับให้เรียบเช่นเส้นโค้งหรือการถดถอยในท้องถิ่นแทนที่จะเป็น " สำหรับการอนุมานแนวโน้มการบันทึกและการเชิงเส้นมักจะเห็นด้วยกับทิศทางและขนาดของการเชื่อมโยง ประโยชน์หลักของการแปลงบันทึกคือการตีความ

E [Y | X] = f (X)

$E[Y|X] = f(X)$

— AdamO

9

ฉันต้องการตอบคำถามของผู้ใช้ 1690130 ที่ถูกทิ้งไว้เป็นความคิดเห็นต่อคำตอบแรกในวันที่ 26 ตุลาคม 2555 และอ่านดังนี้: "ตัวแปรเกี่ยวกับความหนาแน่นของประชากรในภูมิภาคหรืออัตราส่วนครู - เด็กสำหรับแต่ละเขตโรงเรียนหรือ จำนวนคดีฆาตกรรมต่อประชากร 1,000 คนฉันเคยเห็นอาจารย์นำบันทึกของตัวแปรเหล่านี้มันไม่ชัดเจนสำหรับฉันว่าทำไมตัวอย่างเช่นอัตราการฆาตกรรมไม่ได้เป็นเปอร์เซ็นต์อยู่แล้วบันทึกจะเปลี่ยนเปอร์เซ็นต์ของ เพราะเหตุใดอัตราส่วนของอัตราส่วนครูต่อเด็กจึงเป็นที่ต้องการ?

ฉันต้องการหาคำตอบสำหรับปัญหาที่คล้ายกันและต้องการแบ่งปันสิ่งที่สมุดสถิติเก่าของฉัน ( เจฟฟรีย์โวลด์ริดจ์ 2006. เศรษฐมิติการแนะนำ - แนวทางที่ทันสมัยรุ่นที่ 4 บทที่ 6 การวิเคราะห์การถดถอยหลายประการ: ปัญหาเพิ่มเติม 191 ) ให้คำแนะนำแก่ Wooldridge:

ตัวแปรที่ปรากฏในรูปแบบสัดส่วนหรือเปอร์เซ็นต์เช่นอัตราการว่างงานอัตราการมีส่วนร่วมในแผนเงินบำนาญเปอร์เซ็นต์ของนักเรียนที่สอบผ่านมาตรฐานและอัตราการจับกุมอาชญากรรมที่รายงานสามารถปรากฏได้ทั้งในรูปแบบดั้งเดิมหรือแบบลอการิทึม , ถึงแม้จะมีแนวโน้มที่จะใช้พวกเขาในรูปแบบที่ระดับ นี่เป็นเพราะสัมประสิทธิ์การถดถอยใด ๆ ที่เกี่ยวข้องกับตัวแปรดั้งเดิม - ไม่ว่าจะเป็นตัวแปรอิสระหรือตัวแปรอิสระ - จะมีการตีความการเปลี่ยนแปลงจุดร้อยละ ถ้าเราใช้พูด log ( unem ) ในการถดถอยโดยที่unemเป็นเปอร์เซ็นต์ของผู้ว่างงานเราต้องระมัดระวังอย่างมากที่จะแยกแยะความแตกต่างระหว่างการเปลี่ยนค่าร้อยละของคะแนน จำเอาไว้ถ้าunemเปลี่ยนจาก 8 เป็น 9 นี่เป็นการเพิ่มขึ้นของหนึ่งเปอร์เซ็นต์ แต่เพิ่มขึ้น 12.5% จากระดับการว่างงานเริ่มต้น การใช้บันทึกหมายถึงเรากำลังดูเปอร์เซ็นต์การเปลี่ยนแปลงของอัตราการว่างงาน: บันทึก (9) - บันทึก (8) = 0.118 หรือ 11.8% ซึ่งเป็นการประมาณลอการิทึมเพื่อเพิ่มขึ้น 12.5% จริง

จากสิ่งนี้และ piggybanking จากความเห็นก่อนหน้าของ whuber ต่อคำถามของ user1690130 ฉันจะหลีกเลี่ยงการใช้ลอการิทึมของความหนาแน่นหรือตัวแปรอัตราร้อยละเพื่อให้การตีความเป็นเรื่องง่ายเว้นแต่การใช้แบบฟอร์มบันทึกจะสร้างข้อแลกเปลี่ยนที่สำคัญเช่นลดความเบ้ ตัวแปรอัตรา

— Sannita
แหล่งที่มา

บ่อยครั้งสำหรับเปอร์เซ็นต์ (เช่นสัดส่วนใน (0,1), การแปลง logit ถูกนำมาใช้เนื่องจากข้อมูลตามสัดส่วนมักจะละเมิดข้อสันนิษฐานของภาวะปกติของเศษซากในลักษณะที่การเปลี่ยนแปลงบันทึกจะไม่ถูกต้อง

— colin

3

จุดของเชนที่ใช้บันทึกเพื่อจัดการกับข้อมูลที่ไม่ดีนั้นได้ถูกนำมาใช้ ในฐานะที่เป็นโคลินเกี่ยวกับความสำคัญของสารตกค้างตามปกติ ในทางปฏิบัติฉันพบว่าโดยปกติคุณจะได้รับค่าคงที่ปกติถ้าตัวแปรอินพุตและเอาต์พุตนั้นค่อนข้างปกติ ในทางปฏิบัติสิ่งนี้หมายถึงการกระจายชุดข้อมูลที่แปลงสภาพและไม่ได้แปลงสภาพและทำให้มั่นใจว่าพวกเขาได้กลายเป็นปกติมากขึ้นและ / หรือดำเนินการทดสอบตามปกติ (เช่น Shapiro-Wilk หรือ Kolmogorov-Smirnov) และพิจารณาว่าผลลัพธ์นั้นเป็นเรื่องปกติมากขึ้น การตีความและประเพณีก็มีความสำคัญเช่นกัน ตัวอย่างเช่นในบันทึกจิตวิทยาการแปลงเวลาปฏิกิริยามักใช้อย่างไรก็ตามสำหรับฉันอย่างน้อยการตีความของบันทึก RT นั้นไม่ชัดเจน นอกจากนี้

— russellpierce
แหล่งที่มา

2

คำตอบจะถูกจัดลำดับใหม่ตามคะแนนโหวตดังนั้นโปรดอย่าอ้างอิงคำตอบอื่น ๆ

— Vebjorn Ljosa

4

การทดสอบภาวะปกติมักจะรุนแรงเกินไป บ่อยครั้งที่มันพอเพียงที่จะได้รับส่วนที่เหลือกระจายสมมาตร (ในทางปฏิบัติส่วนที่เหลือมีแนวโน้มที่จะกระจายอย่างแหลมคมส่วนหนึ่งเป็นสิ่งประดิษฐ์ของการประมาณค่าที่ฉันสงสัยและดังนั้นจะทดสอบเป็น "สำคัญ" ไม่ปกติไม่ว่าใครจะแสดงข้อมูลอีกครั้ง)

— whuber

@whuber: ตกลง นั่นคือเหตุผลที่ฉันระบุว่า "ปกติมากกว่า" เป้าหมายควรที่จะทำให้สถิติการทดสอบเปลี่ยนไปมากกว่าการตัดสินใจยอมรับ / ปฏิเสธตามค่า p ของการทดสอบ

— russellpierce

เราควรอ้างถึงคำตอบอื่น ๆ ตามความเหมาะสมเสมอ

— ปิดบัง

@abalter? ฉันไม่ทำตาม

— russellpierce