คำถามติดแท็ก data-transformation

การแสดงออกทางคณิตศาสตร์บ่อยครั้งไม่เชิงเส้นของค่าข้อมูล ข้อมูลมักถูกแปลงเพื่อให้เป็นไปตามสมมติฐานของแบบจำลองทางสถิติหรือเพื่อให้ผลลัพธ์ของการวิเคราะห์สามารถตีความได้มากขึ้น

4
การใช้เดซิเบลในสถิติ
ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับการอ่านแท็ก RFID และเปรียบเทียบความแรงของสัญญาณที่ผู้อ่านเห็นเมื่อคุณเปลี่ยนการกำหนดค่าเสาอากาศ (จำนวนเสาอากาศ, ตำแหน่ง, ฯลฯ ... ) เป็นส่วนหนึ่งของโครงการฉันต้องเปรียบเทียบการตั้งค่าเพื่อดูว่ามีประสิทธิภาพมากที่สุด เป็นการดีที่ฉันจะสามารถทำการทดสอบ Unpaired t-Test หรือ ANOVA ระหว่างตำแหน่งเสาอากาศสองตำแหน่ง (หรือ MANOVA ระหว่างหลายตำแหน่ง) อย่างไรก็ตามเนื่องจากการตอบสนองอยู่ในเดซิเบลซึ่งเป็นลอการิทึมฉันสงสัยว่าวิธีที่ดีที่สุดในการดำเนินการต่อคืออะไร เป็นการดีที่สุดหรือไม่ที่จะแปลงผลลัพธ์ให้เป็นสเกลเชิงเส้นแล้วเปรียบเทียบโดยใช้หนึ่งในวิธีที่ฉันกล่าวถึงหรือฉันควรใช้เดซิเบลเนื่องจากมีการทดสอบทางสถิติที่แตกต่างกันเพื่อทำการเปรียบเทียบ

2
การทดสอบของ Bartlett เทียบกับการทดสอบของ Levene
ฉันกำลังพยายามที่จะแก้ไขการละเมิดข้อสมมติฐานของ ANOVA ฉันใช้ชาปิโร - วิลค์เพื่อทดสอบกฎเกณฑ์และได้ทดสอบกับทั้งการทดสอบของ Levene และการทดสอบความแปรปรวนของ Bartlett ตั้งแต่ฉันบันทึกการเปลี่ยนแปลงข้อมูลของฉันเพื่อพยายามแก้ไขความแปรปรวนที่ไม่เท่ากัน ฉันเรียกใช้การทดสอบของ Bartlett ใหม่ในบันทึกการแปลงข้อมูลและยังคงได้รับค่า p อย่างมีนัยสำคัญและจากความอยากรู้อยากเห็นก็ทำการทดสอบของ Levene และได้ค่า p-value ที่ไม่สำคัญ ฉันควรใช้การทดสอบแบบไหน

1
เปรียบเทียบความพอดีของโมเดลกับการตอบสนองที่เปลี่ยนแปลงและไม่แปลงรูปแบบ
ฉันต้องการเปรียบเทียบข้อมูลที่มีสัดส่วนระหว่างกลุ่มต่าง ๆ สามกลุ่มเช่น: ID Group Prop.Nitrogen 1 A 0.89 2 A 0.85 3 B 0.92 4 B 0.97 ติดตาม Wharton และ Hui (ดอย: 10.1890 / 10-0340.1 1 ) ฉันว่าฉันจะดูว่าข้อมูลเหล่านี้จะจัดการกับการใช้ logit ที่ดีขึ้นหรือไม่ เมื่อฉันดูพล็อตการวินิจฉัยสำหรับตัวแบบเชิงเส้นบนข้อมูลที่ถูกแปลงและไม่ถูกแปลงพวกมันดูคล้ายกันมากโดยไม่มีปัญหาที่ชัดเจนและมีความแตกต่างเพียงเล็กน้อยในพารามิเตอร์ที่ประมาณไว้ อย่างไรก็ตามฉันยังต้องการที่จะพูดอะไรบางอย่างเกี่ยวกับรูปแบบที่เหมาะกับข้อมูลที่ถูกแปลงและไม่มีการแปลงรูปแบบได้อย่างไร - ฉันรู้ว่าฉันไม่สามารถเปรียบเทียบค่า AIC ได้โดยตรง มีการแก้ไขและฉันสามารถตรวจสอบสิ่งนี้ได้หรือไม่? หรือฉันควรจะใช้วิธีการที่แตกต่างกันอย่างไร

3
สูตรเหล่านี้สำหรับการเปลี่ยน P, LSD, MSD, HSD, CI เพื่อ SE เป็นประมาณการแน่นอนหรือพอง / อนุลักษณ์ของ
พื้นหลัง ฉันกำลังทำการวิเคราะห์เมตาซึ่งรวมถึงข้อมูลที่เผยแพร่ก่อนหน้านี้ บ่อยครั้งที่รายงานความแตกต่างระหว่างการรักษาด้วยค่า P, ความแตกต่างอย่างมีนัยสำคัญน้อยที่สุด (LSD) และสถิติอื่น ๆ แต่ไม่มีการประมาณความแปรปรวนโดยตรง ในบริบทของแบบจำลองที่ฉันใช้ความแปรปรวนสูงเกินไปก็โอเค ปัญหา นี่คือรายการของการแปลงเป็นโดยที่S E = √SESESE (Saville 2003)ที่ฉันกำลังพิจารณาข้อเสนอแนะชื่นชม; ด้านล่างฉันสมมติว่าα=0.05ดังนั้น1- α / 2=0.975 และตัวแปรจะกระจายตามปกติเว้นแต่จะระบุไว้เป็นอย่างอื่น:SE= MSE/ n-------√SE=MSE/nSE=\sqrt{MSE/n} α = 0.05α=0.05\alpha=0.051 -α/2= 0.9751-α/2=0.9751-^{\alpha}/_2=0.975 คำถาม: กำหนด , nและการรักษาหมายถึงˉ X 1และˉ X 2 S E = ˉ X 1 - ˉ X 2PPPnnnX¯1X¯1\bar X_1X¯2X¯2\bar X_2 SE= …

3
การแปรรูปเปลี่ยนความเบ้โดยไม่กระทบต่อ kurtosis?
ฉันอยากรู้อยากเห็นหากมีการเปลี่ยนแปลงที่เปลี่ยนแปลงความลาดเอียงของตัวแปรสุ่มโดยไม่ส่งผลกระทบต่อ kurtosis นี่จะคล้ายกับวิธีการแปลงเลียนแบบของ RV ส่งผลต่อค่าเฉลี่ยและความแปรปรวน แต่ไม่ใช่ความเบ้และความโด่ง (ส่วนหนึ่งเป็นเพราะความเบ้และความโด่งนั้นถูกกำหนดให้เปลี่ยนแปลงอย่างต่อเนื่อง) นี่เป็นปัญหาที่ทราบหรือไม่?

1
ช่วงความมั่นใจเปลี่ยนกลับ
เมื่อพบการสนทนานี้ฉันกำลังตั้งคำถามเกี่ยวกับการประชุมช่วงเปลี่ยนความมั่นใจ ตามบทความนี้ความครอบคลุมเล็กน้อยเปลี่ยนกลับ CI สำหรับความหมายของตัวแปรสุ่มเข้าสู่ระบบปกติคือ: UCL(X)=exp(Y+var(Y)2+zvar(Y)n+var(Y)22(n−1)−−−−−−−−−−−−√) UCL(X)=exp⁡(Y+var(Y)2+zvar(Y)n+var(Y)22(n−1))\ UCL(X)= \exp\left(Y+\frac{\text{var}(Y)}{2}+z\sqrt{\frac{\text{var}(Y)}{n}+\frac{\text{var}(Y)^2}{2(n-1)}}\right) LCL(X)=exp(Y+var(Y)2−zvar(Y)n+var(Y)22(n−1)−−−−−−−−−−−−√) LCL(X)=exp⁡(Y+var(Y)2−zvar(Y)n+var(Y)22(n−1))\ LCL(X)= \exp\left(Y+\frac{\text{var}(Y)}{2}-z\sqrt{\frac{\text{var}(Y)}{n}+\frac{\text{var}(Y)^2}{2(n-1)}}\right) / และไม่ใช่ naive /exp((Y)+zvar(Y)−−−−−−√)exp⁡((Y)+zvar(Y))\exp((Y)+z\sqrt{\text{var}(Y)}) ตอนนี้อะไรคือ CIs สำหรับการเปลี่ยนแปลงดังต่อไปนี้: x−−√x\sqrt{x}และx1/3x1/3x^{1/3} arcsin(x−−√)arcsin(x)\text{arcsin}(\sqrt{x}) log(x1−x)log⁡(x1−x)\log(\frac{x}{1-x}) 1/x1/x1/x วิธีการเกี่ยวกับช่วงเวลาความอดทนสำหรับตัวแปรสุ่มตัวเอง (ฉันหมายถึงค่าตัวอย่างเดียวที่สุ่มมาจากประชากร) มีปัญหาเดียวกันกับช่วงเปลี่ยนกลับหรือพวกเขาจะมีความคุ้มครองเล็กน้อย?

1
การจัดการกับการถดถอยของตัวแปรตอบสนองที่มีขอบเขตผิดปกติ
ฉันกำลังพยายามที่จะสร้างแบบจำลองตัวแปรการตอบสนองที่ถูกผูกไว้ในทางทฤษฎีระหว่าง -225 และ +225 ตัวแปรคือคะแนนรวมที่ผู้เล่นได้รับเมื่อเล่นเกม แม้ว่าในทางทฤษฎีมันเป็นไปได้สำหรับวิชาที่จะทำคะแนน +225 แม้จะเป็นเช่นนี้เพราะคะแนนขึ้นอยู่กับการกระทำของอาสาสมัครเท่านั้น แต่ยังรวมถึงการกระทำของการกระทำอื่นที่คะแนนสูงสุดที่ทุกคนทำคือ 125 (นี่คือผู้เล่นสูงสุด 2 คนที่เล่นกันสามารถทำคะแนนได้) เกิดขึ้นด้วยความถี่สูงมาก คะแนนต่ำสุดคือ +35 ขอบเขตของ 125 นี้ทำให้เกิดปัญหากับการถดถอยเชิงเส้น สิ่งเดียวที่ฉันคิดได้คือการปรับขนาดการตอบสนองใหม่ให้อยู่ระหว่าง 0 ถึง 1 และใช้การถดถอยเบต้า ถ้าฉันทำเช่นนี้แม้ว่าฉันไม่แน่ใจว่าฉันสามารถพิสูจน์ได้ว่า 125 เป็นขอบเขตสูงสุด (หรือ 1 หลังจากการเปลี่ยนแปลง) เนื่องจากเป็นไปได้ที่จะได้คะแนน +225 นอกจากนี้ถ้าฉันทำสิ่งนี้ขอบเขตด้านล่างของฉันคือ 35 ขอบคุณ โจนาธาน

2
แปลงตัวแปรต่อเนื่องสำหรับการถดถอยโลจิสติก
ฉันมีข้อมูลการสำรวจขนาดใหญ่ตัวแปรผลลัพธ์ไบนารีและตัวแปรอธิบายมากมายรวมถึงไบนารีและต่อเนื่อง ฉันกำลังสร้างชุดแบบจำลอง (ทดลองกับทั้ง GLM และ GLM แบบผสม) และใช้วิธีการทางทฤษฎีข้อมูลเพื่อเลือกแบบจำลองชั้นนำ ฉันตรวจสอบคำอธิบายอย่างระมัดระวัง (ทั้งแบบต่อเนื่องและแบบแบ่งหมวดหมู่) สำหรับความสัมพันธ์และฉันใช้เฉพาะในรูปแบบเดียวกันที่มีค่าสัมประสิทธิ์ Pearson หรือ Phicorr น้อยกว่า 0.3 ฉันต้องการให้โอกาสต่อเนื่องของตัวแปรทั้งหมดในการแข่งขันกับนางแบบชั้นนำ จากประสบการณ์ของฉันการเปลี่ยนสิ่งที่ต้องการโดยยึดตามความเบ้ปรับปรุงโมเดลที่พวกเขาเข้าร่วม (AIC ที่ต่ำกว่า) คำถามแรกของฉันคือ: การปรับปรุงนี้เพราะการเปลี่ยนแปลงช่วยเพิ่มความเป็นเชิงเส้นกับ logit หรือไม่ หรือการแก้ไขความเบ้ช่วยปรับปรุงความสมดุลของตัวแปรอธิบายอย่างใดด้วยการทำให้ข้อมูลสมมาตรมากขึ้น? ฉันหวังว่าฉันจะเข้าใจเหตุผลทางคณิตศาสตร์ที่อยู่เบื้องหลังเรื่องนี้ แต่สำหรับตอนนี้ถ้าใครบางคนสามารถอธิบายสิ่งนี้ในแง่ง่ายนั่นจะเป็นการดี หากคุณมีการอ้างอิงใด ๆ ที่ฉันสามารถใช้ได้ฉันจะขอบคุณมันจริงๆ เว็บไซต์อินเทอร์เน็ตหลายแห่งบอกว่าเพราะความเป็นมาตรฐานไม่ใช่ข้อสันนิษฐานในการถดถอยโลจิสติกแบบไบนารีอย่าเปลี่ยนตัวแปร แต่ฉันรู้สึกว่าถ้าไม่เปลี่ยนตัวแปรของฉันฉันจะเสียเปรียบเมื่อเทียบกับคนอื่น ๆ และอาจส่งผลกระทบต่อสิ่งที่โมเดลชั้นนำและเปลี่ยนการอนุมาน (ดีมันมักจะไม่ได้ ตัวแปรของฉันบางอย่างทำงานได้ดีขึ้นเมื่อบันทึกการเปลี่ยนแปลงบางอย่างเมื่อยกกำลังสอง (ทิศทางที่แตกต่างกันของความลาดเอียง) และบางตัวแปรที่ไม่ได้เปลี่ยนแปลง ใครบางคนจะสามารถให้แนวทางแก่ฉันในการระวังการเปลี่ยนตัวแปรอธิบายสำหรับการถดถอยโลจิสติกและถ้าไม่ทำมันทำไมไม่

2
ปัญหาการแปลงจากปัจจัยเป็นตัวแปรตัวเลขใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน7 ปีที่ผ่านมา ฉันต้องการแปลงตัวแปรปัจจัยเป็นตัวเลข แต่as.numericไม่มีผลกระทบที่ฉันคาดหวัง ด้านล่างฉันได้รับสถิติสรุปสำหรับรุ่นตัวเลขของตัวแปรตามตัวแปรดั้งเดิม หมายถึงการนับต่อ 1 ... บางที (เขาคาดเดา) ระดับของปัจจัยที่มีทั้งชื่อและหมายเลขและฉันคาดหวังว่าค่าของตัวแปรใหม่จะมาจากชื่อเมื่อas.numericถูกออกแบบมาเพื่อใช้หมายเลข? > describe.by(as.numeric(df$sch), df$sch) group: var n mean sd median trimmed mad min max range skew kurtosis se 1 1 5389 1 0 1 1 0 1 1 0 NaN NaN 0 --------------------------------------------------------- group: 001 …

2
การจัดกลุ่มข้อมูลที่เบ้มากนับจำนวน: คำแนะนำใด ๆ ที่จะดำเนินการ (แปลง ฯลฯ )
ปัญหาพื้นฐาน นี่คือปัญหาพื้นฐานของฉัน: ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่มีตัวแปรที่เบ้อย่างมากพร้อมจำนวน ตัวแปรประกอบด้วยศูนย์จำนวนมากและดังนั้นจึงไม่ค่อยมีข้อมูลสำหรับขั้นตอนการจัดกลุ่มของฉัน - ซึ่งน่าจะเป็นอัลกอริทึม k-mean คุณพูดได้แค่แปลงตัวแปรโดยใช้สแควร์รูทบ็อกซ์คอกซ์หรือลอการิทึม แต่เนื่องจากตัวแปรของฉันขึ้นอยู่กับตัวแปรเด็ดขาดฉันกลัวว่าฉันอาจแนะนำอคติโดยจัดการกับตัวแปร (ขึ้นอยู่กับค่าหนึ่งของตัวแปรเด็ดขาด) ในขณะที่ปล่อยให้ผู้อื่น (ขึ้นอยู่กับค่าอื่น ๆ ของตัวแปรเด็ดขาด) ในแบบที่พวกเขาเป็น . ลองดูรายละเอียดเพิ่มเติม ชุดข้อมูล ชุดข้อมูลของฉันแสดงถึงการซื้อสินค้า รายการมีหมวดหมู่ต่างกันเช่นสี: น้ำเงินแดงและเขียว การซื้อจะถูกจัดกลุ่มเข้าด้วยกันเช่นจากลูกค้า ลูกค้าเหล่านี้แต่ละคนมีชุดข้อมูลหนึ่งแถวของฉันดังนั้นฉันจึงต้องรวมการซื้อกับลูกค้า วิธีที่ฉันทำคือการนับจำนวนการซื้อโดยที่รายการนั้นมีสีที่แน่นอน ดังนั้นแทนที่จะตัวแปรเดียวcolorผมจบลงด้วยสามตัวแปรcount_red, และcount_bluecount_green นี่คือตัวอย่างสำหรับภาพประกอบ: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | …

4
ทำไมไม่บันทึกการแปลงตัวแปรทั้งหมดที่ไม่เป็นที่สนใจหลัก?
หนังสือและการอภิปรายมักระบุว่าเมื่อเผชิญกับปัญหา (ซึ่งมีไม่กี่) กับตัวทำนาย, log-transformimg มันเป็นไปได้ ตอนนี้ฉันเข้าใจว่าสิ่งนี้ขึ้นอยู่กับการแจกแจงและความปกติในตัวทำนายไม่ได้เป็นข้อสันนิษฐานของการถดถอย แต่การบันทึกการเปลี่ยนแปลงจะทำให้ข้อมูลมีความสม่ำเสมอมากขึ้นได้รับผลกระทบจากค่าผิดปกติน้อยลงเรื่อย ๆ ฉันคิดเกี่ยวกับการบันทึกการเปลี่ยนตัวแปรต่อเนื่องทั้งหมดของฉันซึ่งไม่ได้เป็น interesr หลักเช่นตัวแปรที่ฉันปรับเท่านั้น มันผิดหรือเปล่า? ดี? ไร้ประโยชน์?

2
การถดถอยด้วยตัวแปรอิสระผกผัน
สมมุติว่าฉันมี -vectorของตัวแปรตามและ -vectorของตัวแปรอิสระ เมื่อได้วางแผนกับฉันเห็นว่ามีความสัมพันธ์เชิงเส้น (แนวโน้มสูงขึ้น) ระหว่างทั้งสอง ตอนนี้ก็หมายความว่ามีแนวโน้มลดลงเชิงเส้นตรงระหว่างและXY N X Y 1ยังไม่มีข้อความNNYYYยังไม่มีข้อความNNXXXYYY YX1X1X\frac{1}{X}YYYXXX ตอนนี้ถ้าฉันใช้การถดถอย: และรับค่าที่ติดตั้งY = β XY= β∗ X+ ϵY=β∗X+ϵY = \beta * X + \epsilonY^= β^XY^=β^X\hat{Y} = \hat{\beta}X จากนั้นฉันก็ทำการถดถอย:และรับค่าติดตั้ง ~ Y = α 1Y= α ∗ 1X+ ϵY=α∗1X+ϵY = \alpha * \frac{1}{X} + \epsilonY~= α^1XY~=α^1X\tilde{Y} = \hat{\alpha} \frac{1}{X} ค่าสองค่าที่คาดการณ์ไว้และจะเท่ากันหรือไม่? …

3
ข้อมูลความหลากหลายของการสำรวจชุมชนอเมริกันใหม่จะมีผลต่อระยะขอบของข้อผิดพลาดอย่างไร
ความเป็นมา: ปัจจุบันองค์กรของฉันเปรียบเทียบสถิติความหลากหลายของพนักงาน (เช่น% คนที่มีความพิการผู้หญิง% ทหารผ่านศึก%) กับความพร้อมของกำลังแรงงานทั้งหมดสำหรับกลุ่มเหล่านั้นจากการสำรวจชุมชนอเมริกัน (โครงการสำรวจโดยสำนักสำรวจสำมะโนประชากรของสหรัฐ) นี่คือมาตรฐานที่ไม่ถูกต้องเนื่องจากเรามีงานที่เฉพาะเจาะจงมากซึ่งมีข้อมูลประชากรแตกต่างจากกำลังแรงงานโดยรวม พูดเช่นว่าองค์กรของฉันส่วนใหญ่เป็นวิศวกร วิศวกรรมเป็นเพียงผู้หญิงประมาณ 20% ในรัฐของฉัน หากเราเปรียบเทียบตัวเองกับเกณฑ์มาตรฐานแรงงานโดยรวมซึ่งมีลักษณะเหมือนผู้หญิง 50% ก็ส่งผลให้เกิดความตื่นตระหนกว่า“ เรามีผู้หญิงเพียง 20% นี่เป็นหายนะ! เมื่อจริง 20% คือสิ่งที่เราควรคาดหวังเพราะนั่นคือลักษณะของแรงงาน เป้าหมายของฉัน: สิ่งที่ฉันต้องการจะทำคือใช้ข้อมูลอาชีพการสำรวจชุมชนชาวอเมริกัน (ตามหมวดหมู่ความหลากหลาย) และปรับน้ำหนักใหม่ตามองค์ประกอบของงานในธุรกิจของฉัน นี่คือชุดข้อมูลตัวอย่างสำหรับคนงานสังคมและบริการชุมชน ฉันต้องการเพิ่มรหัสงานเหล่านี้ไว้ด้วยกัน (เพราะทางม้าลายของเราคือกลุ่มงานไม่ใช่รหัสงานเฉพาะ) จากนั้นฉันต้องการให้น้ำหนักเกณฑ์มาตรฐานนั้นตามจำนวนคนที่เรามีในหมวดนั้น (เช่น 3,000 Social and พนักงานบริการชุมชน) จากนั้นฉันต้องการทำเช่นเดียวกันกับกลุ่มงานอื่น ๆ ทั้งหมดเพิ่มหมายเลขเหล่านั้นเข้าด้วยกันและหารด้วยจำนวนพนักงานทั้งหมดของเรา สิ่งนี้จะทำให้ฉันมีมาตรการวัดความหลากหลายใหม่อีกครั้ง (เช่นจาก 6% คนที่มีความพิการถึง 2% คนที่มีความพิการ) คำถามของฉัน: ฉันจะปรับระยะขอบของข้อผิดพลาดให้สอดคล้องกับเกณฑ์มาตรฐานสุดท้ายได้อย่างไร ฉันไม่มีชุดข้อมูลสำมะโนดิบ (ชัดเจน) แต่คุณสามารถดูระยะขอบของข้อผิดพลาดสำหรับแต่ละหมายเลขในลิงก์ที่ฉันให้ไว้โดยการสลับฟิลด์ "ประมาณ" เป็น …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
ฉันบันทึกการแปลงตัวแปรตามของฉันฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นการเชื่อมโยงเข้าสู่ระบบ?
ฉันมีคำถามเกี่ยวกับโมเดลเชิงเส้นทั่วไป (GLM) ตัวแปรตามของฉัน (DV) นั้นต่อเนื่องและไม่ปกติ ดังนั้นฉันเข้าสู่ระบบเปลี่ยนมัน (ยังไม่ปกติ แต่ปรับปรุงมัน) ฉันต้องการเชื่อมโยง DV กับตัวแปรเด็ดขาดสองรายการและหนึ่งตัวแปรแปรปรวนต่อเนื่อง สำหรับสิ่งนี้ฉันต้องการดำเนินการ GLM (ฉันใช้ SPSS) แต่ฉันไม่แน่ใจว่าจะตัดสินใจเกี่ยวกับการกระจายและฟังก์ชั่นที่จะเลือกได้อย่างไร ฉันได้ทำการทดสอบแบบไม่มีพารามิเตอร์ของ Levene และฉันมีความแปรปรวนเหมือนกันดังนั้นฉันจึงอยากใช้การแจกแจงแบบปกติ ฉันได้อ่านว่าสำหรับการถดถอยเชิงเส้นข้อมูลไม่จำเป็นต้องเป็นปกติส่วนที่เหลือทำ ดังนั้นฉันได้พิมพ์ส่วนที่เหลือของเพียร์สันที่ได้มาตรฐานและค่าทำนายสำหรับตัวทำนายเชิงเส้นจากแต่ละ GLM แยกกัน (ฟังก์ชั่นประจำตัวปกติ GLM และฟังก์ชั่นบันทึกปกติ) ฉันได้ทำการทดสอบภาวะปกติ (ฮิสโตแกรมและชาปิโร - วิลค์) และวางแผนส่วนที่เหลือกับค่าที่คาดการณ์ไว้ (เพื่อตรวจสอบการสุ่มและความแปรปรวน) สำหรับทั้งสองแบบแยกกัน ส่วนที่เหลือจากฟังก์ชั่นตัวตนไม่ปกติ แต่ส่วนที่เหลือจากฟังก์ชั่นบันทึกเป็นเรื่องปกติ ฉันมีแนวโน้มที่จะเลือกปกติด้วยฟังก์ชั่นบันทึกการเชื่อมโยงเพราะเพียร์สันส่วนที่เหลือมีการกระจายตามปกติ ดังนั้นคำถามของฉันคือ: ฉันสามารถใช้การกระจายปกติ GLM กับฟังก์ชั่นบันทึกการเชื่อมโยงใน DV ที่ได้รับการแปลงบันทึกได้หรือไม่? การทดสอบความสม่ำเสมอของความแปรปรวนเพียงพอที่จะพิสูจน์การใช้การแจกแจงแบบปกติหรือไม่? ขั้นตอนการตรวจสอบส่วนที่เหลือถูกต้องหรือไม่เพื่อปรับการเลือกรุ่นฟังก์ชั่นลิงก์? รูปภาพของการกระจาย DV ทางด้านซ้ายและส่วนที่เหลือจาก GLM ปกติพร้อมฟังก์ชั่นบันทึกลิงค์ทางด้านขวา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.