คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

3
จะตัดสินใจได้อย่างไรว่าตระกูล GLM ใดที่จะใช้?
ฉันมีข้อมูลความหนาแน่นของปลาที่ฉันพยายามเปรียบเทียบระหว่างเทคนิคการรวบรวมที่แตกต่างกันหลายอย่างข้อมูลมีค่าเป็นศูนย์จำนวนมากและฮิสโตแกรมมีลักษณะเป็น vaugley ที่เหมาะสมสำหรับการแจกแจงปัวซองยกเว้นว่าเป็นความหนาแน่นไม่ใช่ข้อมูลจำนวนเต็ม ฉันค่อนข้างใหม่สำหรับ GLM และใช้เวลาหลายวันที่ผ่านมาในการค้นหาทางออนไลน์เพื่อบอกวิธีการแจกจ่ายที่ใช้ แต่ล้มเหลวอย่างมากในการค้นหาแหล่งข้อมูลใด ๆ ที่ช่วยในการตัดสินใจ ฮิสโตแกรมตัวอย่างของข้อมูลมีลักษณะดังนี้: ฉันไม่รู้ว่าจะเลือกครอบครัวที่เหมาะสมเพื่อใช้กับ GLM อย่างไร หากใครมีคำแนะนำใด ๆ หรือสามารถให้ทรัพยากรฉันฉันควรตรวจสอบที่จะยอดเยี่ยม

3
R-squared เชิงลบหมายถึงอะไร
สมมติว่าฉันมีข้อมูลบางส่วนแล้วฉันก็พอดีกับข้อมูลด้วยแบบจำลอง (การถดถอยเชิงเส้น) จากนั้นฉันคำนวณ R-squared ( )R2R2R^2 เมื่อ R-squared เป็นลบนั่นหมายความว่าอย่างไร นั่นหมายความว่าแบบจำลองของฉันไม่ดีหรือไม่? ฉันรู้ว่าช่วงสามารถเป็น [-1,1] เมื่อเป็น 0 นั่นหมายความว่าอย่างไรR2R2R^2R2R2R^2

3
การถดถอยโลจิสติกหรือการทดสอบ T?
กลุ่มบุคคลตอบคำถามหนึ่งข้อ คำตอบอาจเป็น "ใช่" หรือ "ไม่" ผู้วิจัยต้องการทราบว่าอายุนั้นเกี่ยวข้องกับประเภทของคำตอบหรือไม่ ความสัมพันธ์ถูกประเมินโดยทำการถดถอยโลจิสติกโดยอายุเป็นตัวแปรอธิบายและประเภทของคำตอบ (ใช่ไม่ใช่) เป็นตัวแปรตาม มันถูกแยกจากกันโดยการคำนวณอายุเฉลี่ยของกลุ่มที่ตอบว่า "ใช่" และ "ไม่" ตามลำดับและทำการทดสอบTเพื่อเปรียบเทียบค่าเฉลี่ย การทดสอบทั้งสองดำเนินการตามคำแนะนำของบุคคลที่แตกต่างกันและไม่มีการทดสอบใดที่แน่นอนว่าเป็นวิธีที่เหมาะสม ในมุมมองของคำถามการวิจัยซึ่งจะเป็นการทดสอบที่ดีกว่า สำหรับการทดสอบสมมติฐานค่า p ไม่มีนัยสำคัญ (การถดถอย) และนัยสำคัญ (การทดสอบ T) ตัวอย่างน้อยกว่า 20 ราย

2
ใช้เมทริกซ์สหสัมพันธ์เพื่อเลือกตัวทำนายสำหรับการถดถอยที่ถูกต้องหรือไม่?
ไม่กี่วันที่ผ่านมานักวิจัยของฉันบอกฉันเกี่ยวกับวิธีการของเขาในการเลือกตัวแปรให้เป็นแบบจำลองการถดถอยเชิงเส้น ฉันเดาว่ามันไม่ดี แต่ฉันต้องถามคนอื่นเพื่อให้แน่ใจ วิธีการคือ: ดูเมทริกซ์สหสัมพันธ์ระหว่างตัวแปรทั้งหมด (รวมถึงตัวแปร Dependent Y) และเลือกตัวทำนาย X เหล่านั้นซึ่งสัมพันธ์กับ Y มากที่สุด เขาไม่ได้พูดถึงเกณฑ์ใด ๆ ถาม:เขาพูดถูกมั้ย [ฉันคิดว่าวิธีการเลือกนี้ไม่ถูกต้องเนื่องจากมีหลายสิ่งหลายอย่างเช่นเป็นทฤษฎีที่บอกว่าควรเลือกตัวทำนายหรือละเว้นอคติตัวแปร (OVB)

2
มันเหมาะสมหรือไม่ที่จะใช้ตัวแปรวันที่ในการถดถอย
ฉันไม่คุ้นเคยกับการใช้ตัวแปรในรูปแบบวันที่ในอาร์ฉันแค่สงสัยว่ามันเป็นไปได้ที่จะเพิ่มตัวแปรวันที่เป็นตัวแปรอธิบายในรูปแบบการถดถอยเชิงเส้น ถ้าเป็นไปได้เราจะตีความค่าสัมประสิทธิ์ได้อย่างไร มันเป็นผลของหนึ่งวันกับตัวแปรผลลัพธ์หรือไม่? ดูของฉันเค้าด้วยตัวอย่างสิ่งที่ฉันพยายามที่จะทำ

2
การทบทวนวรรณกรรมเกี่ยวกับการถดถอยแบบไม่เชิงเส้น
ไม่มีใครรู้บทความตรวจสอบที่ดีสำหรับวรรณกรรมทางสถิติเกี่ยวกับการถดถอยแบบไม่เชิงเส้นหรือไม่? ฉันสนใจหลักในผลลัพธ์ที่สอดคล้องและ asymptotics สิ่งที่น่าสนใจเป็นพิเศษคือรูปแบบ yit=m(xit,θ)+ϵit,yit=m(xit,θ)+ϵit,y_{it} = m(x_{it},\theta) + \epsilon_{it}, สำหรับข้อมูลแผง ที่น่าสนใจน้อยกว่าคือวิธีการที่ไม่ใช่พารามิเตอร์ ข้อเสนอแนะสำหรับวารสารที่มองเข้าไปก็ยินดีต้อนรับเช่นกัน ในขณะนี้ฉันกำลังอ่าน Amemiya (1983) ในคู่มือเศรษฐมิติแต่ฉันหวังว่าจะได้รับบางสิ่งที่ทันสมัยกว่านี้ Wooldridge, JM (1996) "การประมาณค่าระบบของสมการด้วยเครื่องมือต่าง ๆ สำหรับสมการที่แตกต่างกัน" ในJournal of Econometricsเป็นตัวอย่างของการมีส่วนร่วมในภายหลังกว่าการตรวจสอบข้างต้นดังนั้นจึงไม่รวม

3
ตัวแบบโมฆะในการถดถอยคืออะไรและเกี่ยวข้องกับสมมติฐานว่างอย่างไร
ตัวแบบโมฆะในการถดถอยคืออะไรและความสัมพันธ์ระหว่างตัวแบบโมฆะกับสมมติฐานว่างคืออะไร? เพื่อความเข้าใจของฉันมันหมายถึงอะไร ใช้ "ค่าเฉลี่ยของตัวแปรตอบสนอง" เพื่อทำนายตัวแปรตอบสนองต่อเนื่องหรือไม่ ใช้ "การกระจายฉลาก" ในการทำนายตัวแปรการตอบสนองแบบแยก? หากเป็นกรณีนี้ดูเหมือนว่าจะไม่มีการเชื่อมต่อระหว่างสมมติฐานว่าง

1
การย้อนกลับของการถดถอยสัน: รับเมทริกซ์การตอบสนองและค่าสัมประสิทธิ์การถดถอยค้นหาตัวทำนายที่เหมาะสม
พิจารณาปัญหาการถดถอย OLS มาตรฐาน\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}: ฉันมีเมทริกซ์YY\YและXX\Xและฉันต้องการหาเพื่อลด โซลูชันได้รับโดย\ hat \ B = \ argmin_ \ B \ {L \} = (\ X ^ \ top \ X) ^ + \ X ^ \ top \ Yββ\B β = argmin β { L } = ( X ⊤ X ) + X …

2
ทำไมการถดถอยของสันเขาถึงไม่ลดทอนสัมประสิทธิ์ให้เป็นศูนย์อย่างเช่นบ่วงบาศ?
เมื่ออธิบายการถดถอยของ LASSO ไดอะแกรมของเพชรและวงกลมมักถูกนำมาใช้ ได้มีการกล่าวกันว่าเนื่องจากรูปร่างของข้อ จำกัด ใน LASSO เป็นเพชรวิธีแก้ปัญหาที่น้อยที่สุดที่ได้รับอาจแตะที่มุมของเพชรเพื่อให้เกิดการหดตัวของตัวแปรบางตัว อย่างไรก็ตามในการถดถอยของสันเขาเนื่องจากมันเป็นวงกลมมันมักจะไม่ได้สัมผัสกับแกน ฉันไม่เข้าใจว่าทำไมมันไม่สามารถแตะแกนหรืออาจมีความน่าจะเป็นต่ำกว่า LASSO เพื่อลดขนาดพารามิเตอร์บางอย่าง ทำไม LASSO และสันถึงมีความแปรปรวนต่ำกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุด? ข้างต้นคือความเข้าใจของฉันเกี่ยวกับสันและ LASSO และฉันอาจผิด ใครสามารถช่วยฉันเข้าใจว่าทำไมวิธีการถดถอยทั้งสองนี้จึงมีความแปรปรวนต่ำกว่า

1
ในการถดถอยเชิงเส้นแบบหลายจุดเหตุใดพล็อตของจุดที่คาดการณ์ไม่ได้อยู่ในแนวเส้นตรง
ฉันใช้การถดถอยเชิงเส้นหลายเส้นเพื่ออธิบายความสัมพันธ์ระหว่าง Y และ X1, X2 จากทฤษฎีฉันเข้าใจว่าการถดถอยหลายครั้งถือว่าความสัมพันธ์เชิงเส้นระหว่าง Y กับแต่ละ X (Y และ X1, Y และ X2) ฉันไม่ได้ใช้การแปลง X ใด ๆ ดังนั้นฉันได้โมเดลที่มี R = 0.45 และ X สำคัญทั้งหมด (P <0.05) จากนั้นฉันวางแผน Y กับ X1 ฉันไม่เข้าใจว่าเพราะเหตุใดวงกลมสีแดงที่เป็นตัวทำนายของแบบจำลองจึงไม่ก่อตัวเป็นเส้น อย่างที่ฉันพูดไปก่อนหน้านี้ฉันคาดว่าแต่ละคู่ของ Y และ X จะถูกต่อด้วยเส้น พล็อตถูกสร้างในไพ ธ อนด้วยวิธีนี้: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], …

1
เพียร์สัน VS Deviance ตกค้างในการถดถอยโลจิสติก
ฉันรู้ว่าเพียร์สันที่เหลือมาตรฐานได้รับในความน่าจะเป็นแบบดั้งเดิม: ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} และ Deviance Residuals ได้มาจากวิธีการทางสถิติที่มากขึ้น (การสนับสนุนของแต่ละจุดสู่โอกาส): di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} โดยที่sisis_i = 1 ถ้าyiyiy_i = 1 และsisis_i = -1 ถ้าyiyiy_i = 0 คุณสามารถอธิบายให้ฉันอย่างสังหรณ์ใจได้อย่างไรวิธีการตีความสูตรการเบี่ยงเบนที่เหลืออยู่? ยิ่งไปกว่านั้นถ้าฉันต้องการเลือกอันไหนอันไหนที่เหมาะกว่าและทำไม? BTW การอ้างอิงบางอย่างอ้างว่าเราได้รับค่าเบี่ยงเบนเหลืออยู่จากคำว่า −12ri2−12ri2-\frac{1}{2}{r_i}^2 ที่ถูกกล่าวถึงข้างต้นririr_i

1
ภายใต้เงื่อนไขอะไรคือการถดถอยสันสามารถให้การปรับปรุงมากกว่าการถดถอยกำลังสองน้อยที่สุดธรรมดาได้?
สันเขาถดถอยประมาณการพารามิเตอร์ในแบบจำลองเชิงเส้นโดย\ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y โดยที่\ lambdaเป็นพารามิเตอร์การทำให้เป็นมาตรฐาน เป็นที่ทราบกันดีว่ามันมักจะทำงานได้ดีกว่าการถดถอย OLS (ด้วย\ lambda = 0 ) เมื่อมีตัวทำนายที่สัมพันธ์กันจำนวนมากββ\boldsymbol \betay=Xβy=Xβ\mathbf y = …

3
วรรณกรรมเกี่ยวกับการถดถอยแบบควอนไทล์ IV
ในช่วงหลายเดือนที่ผ่านมาฉันได้อ่านอย่างละเอียดเกี่ยวกับการถดถอยเชิงปริมาณเพื่อเตรียมสำหรับวิทยานิพนธ์ปริญญาโทของฉันในฤดูร้อนนี้ โดยเฉพาะฉันได้อ่านหนังสือของ Roger Koenker 2005 ส่วนใหญ่ในหัวข้อ ตอนนี้ฉันต้องการที่จะขยายความรู้ที่มีอยู่นี้เพื่อเทคนิคการถดถอยเชิงปริมาณที่อนุญาตให้ตัวแปรเครื่องมือ (IV) นี่ดูเหมือนจะเป็นงานวิจัยที่กำลังเติบโตอย่างรวดเร็ว อาจมีคนแนะนำให้ฉัน: เอกสารหรือวรรณกรรมอื่น ๆ เกี่ยวกับการถดถอยเชิงปริมาณ IV ภาพรวมสั้น ๆ ของเทคนิคทางสถิติที่แตกต่างกันเหล่านี้ ข้อดีข้อเสียของเทคนิคต่าง ๆ ฉันกำลังมองหาวรรณกรรมเพื่อให้ฉันเริ่มต้นและมีภาพรวมที่ดีของสิ่งที่มีอยู่ ดังนั้นประเด็นแรกคือสิ่งที่สำคัญ ที่สองและสามจะดีที่มี! ความสนใจของฉันยังอยู่ที่วิธีการแบบตัดขวางเป็นหลัก แต่ก็ยินดีต้อนรับวิธีการแบบแผง ขอบคุณล่วงหน้า.

2
แสดงความสัมพันธ์เชิงพื้นที่และเชิงเวลาบนแผนที่
ฉันมีข้อมูลสำหรับเครือข่ายสถานีตรวจอากาศทั่วสหรัฐอเมริกา สิ่งนี้ทำให้ฉันมีกรอบข้อมูลที่ประกอบด้วยวันที่ละติจูดลองจิจูดและค่าที่วัดได้บางส่วน สมมติว่ามีการรวบรวมข้อมูลวันละครั้งและขับเคลื่อนด้วยสภาพอากาศระดับภูมิภาค (ไม่เราจะไม่เข้าร่วมการสนทนานั้น) ฉันต้องการแสดงให้เห็นชัดเจนว่าค่าที่วัดได้พร้อมกันนั้นมีความสัมพันธ์กันตลอดเวลาและพื้นที่อย่างไร เป้าหมายของฉันคือการแสดงให้เห็นถึงความเป็นเนื้อเดียวกันในภูมิภาค (หรือไม่มีในนั้น) ของค่าที่จะถูกตรวจสอบ ชุดข้อมูล เริ่มต้นด้วยฉันเอากลุ่มของสถานีในแมสซาชูเซตส์และเมน ฉันเลือกไซต์ตามละติจูดและลองจิจูดจากไฟล์ดัชนีที่มีอยู่ในไซต์ FTP ของ NOAA ทันทีที่คุณเห็นปัญหาหนึ่ง: มีเว็บไซต์จำนวนมากที่มีตัวระบุที่คล้ายกันหรือใกล้เคียงกันมาก FWIW ฉันระบุว่าพวกเขาใช้ทั้งรหัส USAF และ WBAN เมื่อมองลึกลงไปที่เมทาดาทาฉันเห็นว่าพวกเขามีพิกัดและระดับความสูงต่างกันและข้อมูลหยุดที่ไซต์หนึ่งจากนั้นเริ่มที่อีกไซต์หนึ่ง ดังนั้นเนื่องจากฉันไม่รู้อะไรเลยฉันจึงต้องปฏิบัติต่อพวกเขาเป็นสถานีแยก ซึ่งหมายความว่าข้อมูลมีคู่สถานีที่ใกล้กันมาก การวิเคราะห์เบื้องต้น ฉันพยายามจัดกลุ่มข้อมูลตามเดือนปฏิทินจากนั้นคำนวณการถดถอยกำลังสองน้อยสุดธรรมดาระหว่างข้อมูลที่แตกต่างกัน จากนั้นฉันวางแผนความสัมพันธ์ระหว่างคู่ทั้งหมดเป็นเส้นเชื่อมต่อสถานี (ด้านล่าง) สีเส้นแสดงค่า R2 จาก OLS พอดี จากนั้นตัวเลขแสดงให้เห็นว่าจุดข้อมูล 30+ จุดตั้งแต่เดือนมกราคมกุมภาพันธ์เป็นต้นไปมีความสัมพันธ์กันอย่างไรระหว่างสถานีต่างๆในพื้นที่ที่น่าสนใจ ฉันได้เขียนโค้ดที่สำคัญเพื่อที่ค่าเฉลี่ยรายวันจะถูกคำนวณเฉพาะในกรณีที่มีจุดข้อมูลทุก 6 ชั่วโมงดังนั้นข้อมูลควรเปรียบเทียบได้ในทุกไซต์ ปัญหาที่เกิดขึ้น น่าเสียดายที่มีข้อมูลมากเกินไปที่จะเข้าใจในหนึ่งพล็อต ไม่สามารถแก้ไขได้ด้วยการลดขนาดของเส้น kkk เครือข่ายดูเหมือนจะซับซ้อนเกินไปดังนั้นฉันคิดว่าฉันต้องหาวิธีที่จะลดความซับซ้อนหรือใช้เคอร์เนลเชิงพื้นที่บางประเภท ฉันไม่แน่ใจว่าสิ่งที่เป็นตัวชี้วัดที่เหมาะสมที่สุดในการแสดงความสัมพันธ์ แต่สำหรับผู้ชมที่ตั้งใจ (ไม่ใช่ด้านเทคนิค) สัมประสิทธิ์สหสัมพันธ์จาก OLS อาจเป็นวิธีที่ง่ายที่สุดในการอธิบาย …

1
คำถามเกี่ยวกับวิธีการทำให้ค่าสัมประสิทธิ์การถดถอยเป็นปกติ
ไม่แน่ใจว่าคำว่า normalize เป็นคำที่ถูกต้องที่จะใช้ที่นี่หรือไม่ แต่ฉันจะพยายามอย่างดีที่สุดเพื่ออธิบายสิ่งที่ฉันพยายามถาม ตัวประมาณที่ใช้ในที่นี้คือกำลังสองน้อยสุด สมมติว่าคุณมีy = β 0 + β 1 x 1y=β0+β1x1y=\beta_0+\beta_1x_1คุณสามารถจัดให้อยู่กึ่งกลางค่าเฉลี่ยโดยy = β ′ 0 + β 1 x ′ 1y=β′0+β1x′1y=\beta_0'+\beta_1x_1'โดยที่β ′ 0 = β 0 + β 1 ˉ x 1β′0=β0+β1x¯1\beta_0'=\beta_0+\beta_1\bar x_1และx ′ 1 = x - ˉ xx′1=x−x¯x_1'=x-\bar x , ดังนั้นβ ′ 0β′0\beta_0'ไม่มีอิทธิพลต่อการประมาณβ 1β1\beta_1อีกต่อไป โดยที่ผมหมายถึงนี้β …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.