ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?
ฉันกำลังมองหาการกระจายการประพฤติที่ดีขึ้นสำหรับตัวแปรอิสระที่เป็นปัญหาหรือเพื่อลดผลกระทบของค่าผิดปกติหรืออย่างอื่นหรือไม่?
คำตอบ:
ฉันลังเลเสมอที่จะกระโดดเข้ามาในหัวข้อที่มีคำตอบที่ยอดเยี่ยมมากมายเช่นนี้ แต่มันทำให้ฉันเห็นว่าคำตอบเพียงไม่กี่ข้อให้เหตุผลใด ๆ ที่จะชอบลอการิทึมกับการแปลงอื่น ๆ ที่ "บีบ" ข้อมูลเช่นรากหรือส่วนกลับ
ก่อนที่จะไปให้ลองสรุปภูมิปัญญาในคำตอบที่มีอยู่ในวิธีทั่วไปมากขึ้น การแสดงออกที่ไม่ใช่เชิงเส้นบางส่วนของตัวแปรตามที่ระบุไว้เมื่อใดต่อไปนี้ใช้:
ส่วนที่เหลือมีการแจกแจงแบบเบ้ วัตถุประสงค์ของการเปลี่ยนแปลงคือการได้รับส่วนที่เหลือที่มีการกระจายแบบสมมาตร (ประมาณศูนย์ของหลักสูตร)
การแพร่กระจายของสารตกค้างเปลี่ยนแปลงอย่างเป็นระบบด้วยค่าของตัวแปรตาม ("heteroscedasticity") วัตถุประสงค์ของการเปลี่ยนแปลงคือการลบการเปลี่ยนแปลงที่เป็นระบบในการแพร่กระจายบรรลุ "homoscedasticity"
เพื่อสร้างความสัมพันธ์เชิงเส้น
เมื่อทฤษฎีทางวิทยาศาสตร์ระบุว่า ตัวอย่างเช่นเคมีมักจะแนะนำให้แสดงความเข้มข้นเป็นลอการิทึม (ให้กิจกรรมหรือแม้แต่ค่า pH ที่รู้จักกันดี)
เมื่อทฤษฎีทางสถิติที่คลุมเครือมากขึ้นชี้ให้เห็นสิ่งตกค้างที่สะท้อนให้เห็นถึง "ข้อผิดพลาดแบบสุ่ม" ที่ไม่ได้สะสมเพิ่ม
เพื่อทำให้แบบจำลองง่ายขึ้น ตัวอย่างเช่นบางครั้งลอการิทึมสามารถลดความซับซ้อนของจำนวนและความซับซ้อนของคำว่า "การโต้ตอบ"
(สิ่งบ่งชี้เหล่านี้อาจขัดแย้งกันในกรณีเช่นนี้จำเป็นต้องมีการตัดสิน)
ดังนั้นเมื่อลอการิทึมระบุไว้เป็นพิเศษแทนที่จะเป็นการแปลงแบบอื่น
ส่วนที่เหลือมีการกระจายแบบ "รุนแรง" เชิงบวก ในหนังสือของเขาเกี่ยวกับ EDA John Tukey ให้วิธีเชิงปริมาณในการประเมินการเปลี่ยนแปลง (ภายในตระกูล Box-Cox หรือ power, transformations) โดยยึดตามสถิติอันดับของส่วนที่เหลือ จริง ๆ แล้วลงไปที่ความจริงที่ว่าถ้าการบันทึก symmetrizes ส่วนที่เหลือมันอาจเป็นรูปแบบที่เหมาะสมของการแสดงออกอีกครั้ง; ไม่เช่นนั้นจำเป็นต้องมีการแสดงซ้ำอีกครั้ง
เมื่อ SD ของส่วนที่เหลือเป็นสัดส่วนโดยตรงกับค่าติดตั้ง (และไม่ได้กับกำลังไฟของค่าติดตั้งบางส่วน)
เมื่อความสัมพันธ์ใกล้เคียงกับเลขชี้กำลัง
เมื่อสารตกค้างมีความเชื่อว่าจะสะท้อนให้เห็นถึงข้อผิดพลาดสะสมทวี
คุณต้องการรูปแบบที่การเปลี่ยนแปลงเล็กน้อยในตัวแปรอธิบายจะถูกตีความในแง่ของการเปลี่ยนแปลงหลายตัวแปร (ร้อยละ) ในตัวแปรตาม
สุดท้ายบางที่ไม่ใช่ - เหตุผลที่จะใช้อีกครั้งการแสดงออก :
การทำให้ค่าผิดปกติไม่เหมือนค่าผิดปกติ ค่าผิดปกติเป็นตัวเลขที่ไม่ตรงกับคำอธิบายที่ค่อนข้างเรียบง่ายของข้อมูล การเปลี่ยนคำอธิบายเพื่อทำให้ค่าผิดปกติดูดีขึ้นมักจะเป็นการจัดลำดับความสำคัญที่ไม่ถูกต้องก่อนอื่นให้ขอรับข้อมูลทางวิทยาศาสตร์ที่ถูกต้องและมีสถิติที่ดีและจากนั้นสำรวจค่าผิดปกติใด ๆ อย่าปล่อยให้ค่าผิดปกติเป็นครั้งคราวกำหนดวิธีการอธิบายข้อมูลที่เหลือ!
เพราะซอฟต์แวร์ทำมันโดยอัตโนมัติ (พูดพอแล้ว!)
เพราะข้อมูลทั้งหมดเป็นค่าบวก (Positivity มักแสดงถึงความเบ้บวก แต่ไม่จำเป็นนอกจากนี้การแปลงอื่นสามารถทำงานได้ดีขึ้นตัวอย่างเช่นรูทมักทำงานได้ดีที่สุดกับข้อมูลที่นับ)
ในการทำให้ข้อมูล "ไม่ดี" (อาจมีคุณภาพต่ำ) มีพฤติกรรมที่ดี
เพื่อให้สามารถพล็อตข้อมูล (หากมีการเปลี่ยนแปลงเป็นสิ่งจำเป็นเพื่อให้สามารถแปลงข้อมูลก็อาจจะจำเป็นสำหรับหนึ่งหรือดีมากขึ้นจากเหตุผลดังกล่าวแล้วถ้าเหตุผลเดียวสำหรับการเปลี่ยนแปลงอย่างแท้จริงสำหรับการวางแผนไปข้างหน้าและทำมัน -. แต่เพียงการพล็อต data ปล่อยให้ข้อมูลที่ไม่ได้รับการแปลงเพื่อการวิเคราะห์)
ฉันมักจะบอกนักเรียนว่ามีสามเหตุผลในการแปลงตัวแปรโดยการหาลอการิทึมธรรมชาติ เหตุผลในการบันทึกตัวแปรจะกำหนดว่าคุณต้องการบันทึกตัวแปรอิสระขึ้นอยู่กับหรือทั้งสองอย่าง เพื่อให้ชัดเจนตลอดฉันกำลังพูดถึงการลอการิทึมธรรมชาติ
ประการแรกเพื่อปรับปรุงแบบให้พอดีกับโปสเตอร์อื่น ๆ ตัวอย่างเช่นหากส่วนที่เหลือของคุณไม่ได้กระจายตามปกติแล้วการลอการิทึมของตัวแปรที่เบ้อาจปรับปรุงให้พอดีโดยการเปลี่ยนสเกลและทำให้ตัวแปรกระจายตัว "ปกติ" มากขึ้น ตัวอย่างเช่นรายได้ถูกตัดทอนที่ศูนย์และมักจะแสดงความเบ้เชิงบวก หากตัวแปรมีความเบ้เป็นลบคุณสามารถกลับด้านตัวแปรก่อนที่จะทำการลอการิทึม ฉันคิดว่าที่นี่โดยเฉพาะอย่างยิ่ง Likert เกล็ดที่ถูกป้อนเป็นตัวแปรต่อเนื่อง ในขณะที่สิ่งนี้มักจะนำไปใช้กับตัวแปรตามคุณบางครั้งมีปัญหากับส่วนที่เหลือ (เช่น heteroscedasticity) ที่เกิดจากตัวแปรอิสระซึ่งบางครั้งสามารถแก้ไขได้โดยการลอการิทึมของตัวแปรนั้น ตัวอย่างเช่นเมื่อใช้แบบจำลองที่อธิบายการประเมินของผู้บรรยายในชุดของอาจารย์และชั้นเรียนตัวแปร "ขนาดชั้นเรียน" (เช่นจำนวนนักเรียนในการบรรยาย) มีค่าผิดปกติซึ่งทำให้เกิด heteroscedasticity เนื่องจากความแปรปรวนในการประเมินผู้สอนมีขนาดเล็ก ผองเพื่อนมีขนาดเล็กกว่า การบันทึกตัวแปรนักเรียนจะช่วยได้แม้ว่าในตัวอย่างนี้การคำนวณข้อผิดพลาดมาตรฐานที่แข็งแกร่งหรือการใช้กำลังสองน้อยที่สุดอาจทำให้การตีความง่ายขึ้น
เหตุผลที่สองสำหรับการบันทึกหนึ่งหรือหลายตัวแปรในรูปแบบคือการตีความ ฉันเรียกเหตุผลนี้ว่าสะดวก หากคุณบันทึกทั้งตัวแปร dependent (Y) และตัวแปรอิสระ (X) ของคุณสัมประสิทธิ์การถดถอย ( ) ของคุณจะยืดหยุ่นและการตีความจะเป็นดังนี้: การเพิ่มขึ้น 1% ใน X จะนำไปสู่ceteris paribus % เพิ่มขึ้นใน Y (โดยเฉลี่ย) การบันทึกเพียงด้านเดียวของการถดถอย "สมการ" จะนำไปสู่การตีความทางเลือกตามที่อธิบายไว้ด้านล่าง:
Y และ X - การเพิ่มขึ้นหนึ่งหน่วยใน X จะนำไปสู่เพิ่ม / ลดใน Y
Log Y และ Log X - การเพิ่มขึ้น 1% ใน X จะนำไปสู่ % การเพิ่ม / ลดใน Y
Log Y และ X - การเพิ่ม X หนึ่งหน่วยจะนำไปสู่เพิ่ม / ลดลง % ใน Y
Y และ Log X - การเพิ่มขึ้น 1% ใน X จะนำไปสู่เพิ่ม / ลดลงใน Y
และในที่สุดอาจมีเหตุผลทางทฤษฎีสำหรับการทำเช่นนั้น ตัวอย่างเช่นบางรุ่นที่เราต้องการประเมินนั้นเป็นแบบหลายค่าและไม่เชิงเส้น การทำลอการิทึมอนุญาตให้แบบจำลองเหล่านี้ประเมินโดยการถดถอยเชิงเส้น ตัวอย่างที่ดีของเรื่องนี้รวมถึงฟังก์ชั่นการผลิต Cobb-Douglas ทางเศรษฐศาสตร์และสมการ Mincer ในการศึกษา ฟังก์ชันการผลิต Cobb-Douglas อธิบายวิธีการแปลงอินพุตเป็นเอาต์พุต:
ที่ไหน
คือการผลิตหรือผลผลิตทั้งหมดของกิจการบางอย่างเช่น บริษัท ฟาร์ม ฯลฯ
คือผลผลิตทั้งหมด (การเปลี่ยนแปลงของเอาต์พุตไม่ได้เกิดจากอินพุตเช่นการเปลี่ยนแปลงของเทคโนโลยีหรือสภาพอากาศ)
คืออินพุตแรงงาน
คืออินพุตตัวพิมพ์ใหญ่
&คือความยืดหยุ่นของเอาต์พุต
การหาลอการิทึมของสิ่งนี้ทำให้ฟังก์ชั่นประเมินได้ง่ายโดยใช้การถดถอยเชิงเส้นของ OLS เช่น:
สำหรับจุดที่ยอดเยี่ยมของ whuber เกี่ยวกับเหตุผลที่ต้องการลอการิทึมกับการแปลงอื่น ๆ เช่น root หรือ reciprocal แต่เพ่งความสนใจไปที่การตีความเฉพาะของสัมประสิทธิ์การถดถอยอันเป็นผลมาจากการเปลี่ยนแปลง log เมื่อเทียบกับการแปลงอื่น ๆ ดู:
โอลิเวอร์เอ็นคีน การแปลงบันทึกเป็นพิเศษ สถิติทางการแพทย์ 2538; 14 (8): 811-819 DOI: 10.1002 / sim.4780140810 (PDF กฎหมายที่น่าสงสัยมีให้ที่http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf )
หากคุณเข้าสู่ระบบอิสระตัวแปรx ไปยังฐานขคุณสามารถแปลความหมายของค่าสัมประสิทธิ์การถดถอย (และ CI) ในขณะที่การเปลี่ยนแปลงในตัวแปรY ต่อขเพิ่มขึ้นเท่าในx (บันทึกไปที่ฐาน 2 จึงมักมีประโยชน์เนื่องจากสอดคล้องกับการเปลี่ยนแปลงในyต่อการเพิ่มเป็นสองเท่าในxหรือบันทึกไปยังฐาน 10 หากxแปรผันตามลำดับความสำคัญจำนวนมากซึ่งหายาก) การแปลงอื่น ๆ เช่นสแควร์รูทไม่มีการตีความอย่างง่าย
หากคุณบันทึกตัวแปรที่ขึ้นต่อกันy (ไม่ใช่คำถามดั้งเดิม แต่เป็นคำตอบที่ได้ตอบไปแล้วหลายข้อก่อนหน้านี้) ฉันก็จะพบว่าแนวคิดของ Tim Cole เกี่ยวกับ 'sympercents' น่าดึงดูดใจสำหรับการนำเสนอผลลัพธ์ (ฉันยังใช้มันในกระดาษอีกครั้ง) แม้ว่าพวกเขาดูเหมือนจะไม่ได้จับทุกอย่างที่:
ทิมเจโคล Sympercents: ความแตกต่างของเปอร์เซ็นต์แบบสมมาตรบนมาตราส่วน 100 log (e) ช่วยให้การนำเสนอข้อมูลการแปลงบันทึกง่ายขึ้น สถิติทางการแพทย์ปี 2543; 19 (22): 3109-3125 DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [ฉันดีใจมากที่Stat Medหยุดใช้SICIsเหมือน DOI ... ]
โดยทั่วไปจะใช้บันทึกของตัวแปรอินพุตเพื่อปรับมาตราส่วนและเปลี่ยนการกระจาย (เช่นเพื่อให้กระจายตามปกติ) มันไม่สามารถทำได้แบบสุ่มสี่สุ่มห้า; คุณต้องระมัดระวังเมื่อทำการปรับขนาดเพื่อให้แน่ใจว่าผลลัพธ์ยังคงสามารถตีความได้
สิ่งนี้ถูกกล่าวถึงในตำราสถิติเบื้องต้น นอกจากนี้คุณยังสามารถอ่านกระดาษของ Andrew Gelman ได้ที่"อินพุตการถดถอยสเกลโดยการหารด้วยค่าเบี่ยงเบนมาตรฐานสองค่า"สำหรับการอภิปรายในเรื่องนี้ นอกจากนี้เขายังมีการอภิปรายที่ดีมากเกี่ยวกับเรื่องนี้ที่จุดเริ่มต้นของ"การวิเคราะห์ข้อมูลโดยใช้การถดถอยและหลายระดับ / โมเดลลำดับชั้น"
การบันทึกไม่ใช่วิธีที่เหมาะสมในการจัดการกับข้อมูล / ค่าผิดปกติ
คุณมักจะทำการบันทึกข้อมูลเมื่อมีปัญหากับส่วนที่เหลือ ตัวอย่างเช่นหากคุณพล็อตส่วนที่เหลือกับ covariate ที่เฉพาะเจาะจงและสังเกตรูปแบบการเพิ่ม / ลดลง (รูปร่างของช่องทาง) การแปลงอาจเหมาะสม ส่วนที่เหลือที่ไม่ใช่แบบสุ่มมักจะบ่งบอกว่าข้อสันนิษฐานของแบบจำลองของคุณนั้นผิดเช่นข้อมูลที่ไม่ปกติ
บางชนิดข้อมูลยืมโดยอัตโนมัติเพื่อการแปลงลอการิทึม ตัวอย่างเช่นฉันมักจะใช้บันทึกเมื่อจัดการกับความเข้มข้นหรืออายุ
แม้ว่าการเปลี่ยนรูปจะไม่ได้ใช้เพื่อจัดการกับค่าผิดปกติ แต่อย่างใดพวกเขาช่วยนับตั้งแต่การบันทึกทำให้ข้อมูลของคุณเสียหาย
การเปลี่ยนแปลงของตัวแปรอิสระเป็นหนึ่งครั้งที่หนึ่งสามารถเป็นประจักษ์พยานได้โดยไม่ต้องทำการอนุมานตราบเท่าที่มีความซื่อสัตย์เกี่ยวกับจำนวนองศาอิสระในการเล่น วิธีหนึ่งคือการใช้เส้นโค้งการถดถอยสำหรับอย่างต่อเนื่องซึ่งไม่ทราบว่าเป็นเส้น สำหรับฉันแล้วมันไม่ใช่คำถามของบันทึกเทียบกับมาตราส่วนดั้งเดิม มันเป็นคำถามที่การแปลงสอดคล้องกับข้อมูล ความธรรมดาของสิ่งตกค้างไม่ใช่เกณฑ์ที่นี่
เมื่อบิดเบี้ยวมากการ cubingตามต้องการในฟังก์ชันลูกบาศก์ spline ส่งผลให้เกิดค่ามากซึ่งบางครั้งอาจทำให้เกิดปัญหาเชิงตัวเลข ผมแก้ปัญหานี้โดยการปรับฟังก์ชั่นเส้นโค้งลูกบาศก์บน{X} แพ็กเกจR พิจารณาตัวแปรด้านในสุดเป็นตัวทำนายดังนั้นการวางแผนค่าที่คาดการณ์จะมีบนแกน -ax ตัวอย่าง:rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
นี่เหมาะกับลูกบาศก์ spline ที่ จำกัด ในมี 5 knots ที่ตำแหน่ง quantile เริ่มต้น พอดีมี 4 DF (ระยะหนึ่งเส้น 3 วาระไม่เชิงเส้น) แถบความเชื่อมั่นและการทดสอบการเชื่อมโยงเคารพ 4 df เหล่านี้รับรู้อย่างเต็มที่ "ความไม่แน่นอนของการเปลี่ยนแปลง"
ฉันต้องการตอบคำถามของผู้ใช้ 1690130 ที่ถูกทิ้งไว้เป็นความคิดเห็นต่อคำตอบแรกในวันที่ 26 ตุลาคม 2555 และอ่านดังนี้: "ตัวแปรเกี่ยวกับความหนาแน่นของประชากรในภูมิภาคหรืออัตราส่วนครู - เด็กสำหรับแต่ละเขตโรงเรียนหรือ จำนวนคดีฆาตกรรมต่อประชากร 1,000 คนฉันเคยเห็นอาจารย์นำบันทึกของตัวแปรเหล่านี้มันไม่ชัดเจนสำหรับฉันว่าทำไมตัวอย่างเช่นอัตราการฆาตกรรมไม่ได้เป็นเปอร์เซ็นต์อยู่แล้วบันทึกจะเปลี่ยนเปอร์เซ็นต์ของ เพราะเหตุใดอัตราส่วนของอัตราส่วนครูต่อเด็กจึงเป็นที่ต้องการ?
ฉันต้องการหาคำตอบสำหรับปัญหาที่คล้ายกันและต้องการแบ่งปันสิ่งที่สมุดสถิติเก่าของฉัน ( เจฟฟรีย์โวลด์ริดจ์ 2006. เศรษฐมิติการแนะนำ - แนวทางที่ทันสมัยรุ่นที่ 4 บทที่ 6 การวิเคราะห์การถดถอยหลายประการ: ปัญหาเพิ่มเติม 191 ) ให้คำแนะนำแก่ Wooldridge:
ตัวแปรที่ปรากฏในรูปแบบสัดส่วนหรือเปอร์เซ็นต์เช่นอัตราการว่างงานอัตราการมีส่วนร่วมในแผนเงินบำนาญเปอร์เซ็นต์ของนักเรียนที่สอบผ่านมาตรฐานและอัตราการจับกุมอาชญากรรมที่รายงานสามารถปรากฏได้ทั้งในรูปแบบดั้งเดิมหรือแบบลอการิทึม , ถึงแม้จะมีแนวโน้มที่จะใช้พวกเขาในรูปแบบที่ระดับ นี่เป็นเพราะสัมประสิทธิ์การถดถอยใด ๆ ที่เกี่ยวข้องกับตัวแปรดั้งเดิม - ไม่ว่าจะเป็นตัวแปรอิสระหรือตัวแปรอิสระ - จะมีการตีความการเปลี่ยนแปลงจุดร้อยละ ถ้าเราใช้พูด log ( unem ) ในการถดถอยโดยที่unemเป็นเปอร์เซ็นต์ของผู้ว่างงานเราต้องระมัดระวังอย่างมากที่จะแยกแยะความแตกต่างระหว่างการเปลี่ยนค่าร้อยละของคะแนน จำเอาไว้ถ้าunemเปลี่ยนจาก 8 เป็น 9 นี่เป็นการเพิ่มขึ้นของหนึ่งเปอร์เซ็นต์ แต่เพิ่มขึ้น 12.5% จากระดับการว่างงานเริ่มต้น การใช้บันทึกหมายถึงเรากำลังดูเปอร์เซ็นต์การเปลี่ยนแปลงของอัตราการว่างงาน: บันทึก (9) - บันทึก (8) = 0.118 หรือ 11.8% ซึ่งเป็นการประมาณลอการิทึมเพื่อเพิ่มขึ้น 12.5% จริง
จากสิ่งนี้และ piggybanking จากความเห็นก่อนหน้าของ whuber ต่อคำถามของ user1690130 ฉันจะหลีกเลี่ยงการใช้ลอการิทึมของความหนาแน่นหรือตัวแปรอัตราร้อยละเพื่อให้การตีความเป็นเรื่องง่ายเว้นแต่การใช้แบบฟอร์มบันทึกจะสร้างข้อแลกเปลี่ยนที่สำคัญเช่นลดความเบ้ ตัวแปรอัตรา
จุดของเชนที่ใช้บันทึกเพื่อจัดการกับข้อมูลที่ไม่ดีนั้นได้ถูกนำมาใช้ ในฐานะที่เป็นโคลินเกี่ยวกับความสำคัญของสารตกค้างตามปกติ ในทางปฏิบัติฉันพบว่าโดยปกติคุณจะได้รับค่าคงที่ปกติถ้าตัวแปรอินพุตและเอาต์พุตนั้นค่อนข้างปกติ ในทางปฏิบัติสิ่งนี้หมายถึงการกระจายชุดข้อมูลที่แปลงสภาพและไม่ได้แปลงสภาพและทำให้มั่นใจว่าพวกเขาได้กลายเป็นปกติมากขึ้นและ / หรือดำเนินการทดสอบตามปกติ (เช่น Shapiro-Wilk หรือ Kolmogorov-Smirnov) และพิจารณาว่าผลลัพธ์นั้นเป็นเรื่องปกติมากขึ้น การตีความและประเพณีก็มีความสำคัญเช่นกัน ตัวอย่างเช่นในบันทึกจิตวิทยาการแปลงเวลาปฏิกิริยามักใช้อย่างไรก็ตามสำหรับฉันอย่างน้อยการตีความของบันทึก RT นั้นไม่ชัดเจน นอกจากนี้