สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ความน่าจะเป็นในการบันทึกใน GLM รับประกันการลู่เข้าสู่ maxima ทั่วโลกหรือไม่?
คำถามของฉันคือ: แบบจำลองเชิงเส้นทั่วไป (GLMs) รับประกันว่าจะรวมกันเป็นค่าสูงสุดทั่วโลกหรือไม่? ถ้าเป็นเช่นนั้นทำไม นอกจากนี้สิ่งที่มีข้อ จำกัด ในฟังก์ชั่นการเชื่อมโยงเพื่อประกันความนูน? ความเข้าใจของฉันเกี่ยวกับ GLMs คือพวกเขาเพิ่มฟังก์ชั่นความน่าจะเป็นแบบไม่เชิงเส้นอย่างมาก ดังนั้นฉันคิดว่ามี maxima ท้องถิ่นหลายชุดและพารามิเตอร์ที่คุณรวมเข้าด้วยกันนั้นขึ้นอยู่กับเงื่อนไขเริ่มต้นสำหรับอัลกอริธึมการปรับให้เหมาะสม อย่างไรก็ตามหลังจากทำการวิจัยบางอย่างฉันไม่ได้พบแหล่งเดียวซึ่งบ่งชี้ว่ามีหลายท้องถิ่นสูงสุด นอกจากนี้ฉันไม่คุ้นเคยกับเทคนิคการปรับให้เหมาะสม แต่ฉันรู้ว่าวิธี Newton-Raphson และอัลกอริทึม IRLS มีแนวโน้มที่จะสูงสุดในท้องถิ่น กรุณาอธิบายว่าเป็นไปได้ทั้งบนพื้นฐานที่ใช้งานง่ายและทางคณิตศาสตร์! แก้ไข: dksahuji ตอบคำถามเดิมของฉัน แต่ฉันต้องการเพิ่มคำถามติดตาม [ 2 ] ด้านบน ("มีข้อ จำกัด อะไรบ้างในฟังก์ชั่นลิงค์เพื่อประกันความนูน?")

2
ข้อกำหนดความคงที่ของการใช้การถดถอยกับข้อผิดพลาด ARIMA สำหรับการอนุมานคืออะไร?
ข้อกำหนดความคงที่ของการใช้การถดถอยกับข้อผิดพลาด ARIMA (การถดถอยแบบไดนามิก) สำหรับการอนุมานคืออะไร? โดยเฉพาะผมมีความไม่หยุดนิ่งตัวแปรผลอย่างต่อเนื่องที่ไม่หยุดนิ่งทำนายอย่างต่อเนื่องตัวแปรและชุดรักษาตัวแปรหุ่นx_bฉันต้องการทราบว่าการรักษานั้นมีความสัมพันธ์กับการเปลี่ยนแปลงของตัวแปรผลลัพธ์ที่มากกว่าข้อผิดพลาดสองมาตรฐานจากการเปลี่ยนแปลงศูนย์หรือไม่YYyxaxax_axขxขx_b ฉันไม่แน่ใจว่าฉันต้องการสร้างความแตกต่างให้กับซีรี่ส์เหล่านี้ก่อนดำเนินการถดถอยด้วยการทำโมเดลข้อผิดพลาด ARIMA หรือไม่ ในคำตอบของคำถามอื่นIrishStat กล่าวว่าwhile the original series exhibit non-stationarity this does not necessarily imply that differencing is needed in a causal model.จากนั้นเขาก็จะเพิ่ม เข้าไปunwarranted usage [of differencing] can create statistical/econometric nonsenseอีก SAS คู่มือการใช้งานที่แสดงให้เห็นว่ามันจะปรับรูปแบบการถดถอยพอดีกับข้อผิดพลาด ARIMA แบบไม่หยุดนิ่งโดยไม่ต้อง differencing ตราบใดที่เหลือจะไม่หยุดนิ่ง: โปรดทราบว่าข้อกำหนดของความคงที่จะมีผลกับชุดเสียง หากไม่มีตัวแปรอินพุตชุดการตอบกลับ (หลังจากแตกต่างและลบด้วยค่าเฉลี่ย) และชุดเสียงจะเหมือนกัน อย่างไรก็ตามหากมีอินพุตชุดเสียงเป็นส่วนที่เหลือหลังจากเอาเอฟเฟกต์ของอินพุตออก ไม่มีข้อกำหนดว่าชุดข้อมูลป้อนเข้าสู่โหมดนิ่ง หากอินพุตเป็นแบบไม่คงที่ชุดตอบสนองจะเป็นแบบไม่คงที่แม้ว่ากระบวนการสัญญาณรบกวนอาจหยุดนิ่ง เมื่อใช้ชุดอินพุตแบบไม่ต่อเนื่องคุณสามารถปรับตัวแปรอินพุตก่อนโดยไม่มีแบบจำลอง …

3
การเรียนรู้แบบออนไลน์และแบบกลุ่มแตกต่างกันอย่างไร
ฉันกำลังอ่านกระดาษอย่างมีประสิทธิภาพออนไลน์และการเรียนรู้แบบแบตช์โดยใช้การแยกไปข้างหน้า - ถอยหลังโดย John Duchi และ Yoram Singer ฉันสับสนมากเกี่ยวกับการใช้คำว่า 'ออนไลน์' และ 'แบทช์' ฉันคิดว่า 'ออนไลน์' หมายถึงเราอัปเดตพารามิเตอร์น้ำหนักหลังจากประมวลผลข้อมูลการฝึกอบรมหนึ่งหน่วย จากนั้นเราใช้พารามิเตอร์น้ำหนักใหม่เพื่อประมวลผลหน่วยถัดไปของข้อมูลการฝึกอบรม อย่างไรก็ตามในกระดาษข้างต้นการใช้งานไม่ชัดเจน

4
หนังสือที่ดีที่สุดเกี่ยวกับโมเดลเชิงเส้นทั่วไปสำหรับผู้เริ่มหัดคืออะไร
ฉันยังค่อนข้างใหม่กับโมเดลเชิงเส้นทั่วไปและฉันต่อสู้กับสัญกรณ์จำนวนมากในตำรา GLM ส่วนใหญ่ที่ฉันหยิบขึ้นมา มีหนังสือ GLM ที่ได้รับความนิยมอย่างมากที่ให้ตัวเองอ่านง่ายขึ้นหรือไม่?

2
วิธีการเลือกอัลกอริทึมการเพิ่มประสิทธิภาพที่เหมาะสม?
ฉันต้องการค้นหาฟังก์ชันขั้นต่ำ การอ่านเอกสารที่http://docs.scipy.org/doc/scipy/reference/optimize.htmlฉันเห็นว่ามีอัลกอริทึมหลายอย่างที่ทำสิ่งเดียวกันคือหาขั้นต่ำ ฉันจะรู้ได้อย่างไรว่าควรเลือกอันไหน อัลกอริทึมบางส่วนที่ระบุไว้ ย่อขนาดฟังก์ชั่นโดยใช้อัลกอริธึมลงเขา ย่อขนาดฟังก์ชันโดยใช้อัลกอริทึม BFGS ย่อเล็กสุดของฟังก์ชันด้วยอัลกอริทึมการไล่ระดับสีแบบคอนจูเกตแบบไม่เชิงเส้น ลดฟังก์ชั่น f โดยใช้วิธี Newton-CG ย่อขนาดฟังก์ชั่นโดยใช้วิธีของ Powell ที่แก้ไขแล้ว ฟังก์ชั่นของฉันคือเส้นตรง มีมิติประมาณ 232750 (นี่คือจำนวนการไล่ระดับสีที่แตกต่างกันที่ฉันต้องคำนวณในแต่ละครั้ง) ใช้เวลาประมาณ 2 นาทีในการคำนวณการไล่ระดับสีและค่าใช้จ่ายเพียงครั้งเดียวจึงไม่ถูก ฉันไม่คิดว่าฉันมีข้อ จำกัด มันกำหนดและต่อเนื่อง

3
การเพิ่มตัวแปรเพิ่มเติมลงในสัมประสิทธิ์การเปลี่ยนแปลงการถดถอยหลายตัวแปรของตัวแปรที่มีอยู่หรือไม่?
ว่าฉันมีการถดถอยหลายตัวแปร (ตัวแปรอิสระหลาย) ที่ประกอบด้วย 3 ตัวแปร ตัวแปรแต่ละตัวนั้นมีค่าสัมประสิทธิ์ที่กำหนด หากฉันตัดสินใจที่จะแนะนำตัวแปรที่ 4 และรันการถดถอยอีกครั้งสัมประสิทธิ์ของตัวแปรดั้งเดิม 3 ตัวจะเปลี่ยนไปหรือไม่ กว้างมากขึ้น: ในการถดถอยหลายตัวแปร (ตัวแปรอิสระหลายตัว) สัมประสิทธิ์ของตัวแปรที่กำหนดได้รับอิทธิพลจากสัมประสิทธิ์ของตัวแปรอื่นหรือไม่?

5
การกระจายตัวตัวอย่างของกลุ่มตัวอย่างมีความหมายอย่างไรกับค่าเฉลี่ยประชากร
ฉันพยายามเรียนรู้สถิติเพราะฉันพบว่ามันแพร่หลายมากจนห้ามไม่ให้ฉันเรียนรู้บางสิ่งหากฉันไม่เข้าใจอย่างถูกต้อง ฉันมีปัญหาในการทำความเข้าใจแนวคิดเรื่องการกระจายตัวตัวอย่างของค่าเฉลี่ยตัวอย่าง ฉันไม่เข้าใจวิธีที่หนังสือและเว็บไซต์อธิบาย ฉันคิดว่าฉันมีความเข้าใจ แต่ไม่แน่ใจว่าถูกต้องหรือไม่ ด้านล่างนี้เป็นความพยายามของฉันที่จะเข้าใจ เมื่อเราพูดถึงปรากฏการณ์บางอย่างที่เกิดจากการแจกแจงแบบปกติมันเป็นเรื่องปกติ (ไม่เสมอไป) เกี่ยวกับประชากร เราต้องการใช้สถิติเชิงอนุมานเพื่อทำนายบางสิ่งเกี่ยวกับประชากรบางคน แต่ไม่มีข้อมูลทั้งหมด เราใช้การสุ่มตัวอย่างและแต่ละตัวอย่างของขนาด n เท่ากันน่าจะเลือก เราเอาตัวอย่างจำนวนมากมาบอกว่า 100 แล้วการกระจายตัวของตัวอย่างเหล่านั้นจะเป็นปกติประมาณตามทฤษฎีลิมิตที่ศูนย์กลาง ค่าเฉลี่ยของค่าเฉลี่ยตัวอย่างจะประมาณค่าเฉลี่ยของประชากร ตอนนี้สิ่งที่ฉันไม่เข้าใจคือหลายครั้งที่คุณเห็น "ตัวอย่าง 100 คน ... " เราจะไม่ต้องการตัวอย่าง 10s หรือ 100s จาก 100 คนเพื่อประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเป็นกรณีที่เราสามารถนำตัวอย่างเดียวที่มีขนาดใหญ่พอบอก 1,000 แล้วบอกว่าค่าเฉลี่ยจะประมาณค่าเฉลี่ยประชากรหรือไม่ หรือเราใช้ตัวอย่าง 1,000 คนจากนั้นสุ่ม 100 ตัวอย่าง 100 คนในแต่ละตัวอย่างจากเดิม 1,000 คนที่เราเอามาแล้วใช้เป็นการประมาณของเรา การใช้ตัวอย่างที่มีขนาดใหญ่พอที่จะประมาณค่าเฉลี่ย (เกือบ) ใช้ได้หรือไม่ ประชากรจำเป็นต้องเป็นปกติหรือเปล่าสำหรับการทำงานนี้?

3
การใช้แพ็กเกจการคาดการณ์ R พร้อมค่าที่ขาดหายไปและ / หรืออนุกรมเวลาที่ผิดปกติ
ฉันประทับใจในforecastแพ็คเกจR เช่นเดียวกับzooแพ็คเกจสำหรับอนุกรมเวลาที่ผิดปกติและการแก้ไขค่าที่หายไป ใบสมัครของฉันอยู่ในพื้นที่ของการพยากรณ์การจราจร Call Center เพื่อให้ข้อมูลเกี่ยวกับวันหยุดสุดสัปดาห์เป็น (เกือบ) zooเสมอหายไปซึ่งสามารถจัดการได้เป็นอย่างดีโดย นอกจากนี้บางจุดที่ขาดหายไปอาจหายไปฉันแค่ใช้ R NAเพื่อจุดนั้น สิ่งที่เป็นทุกมายากลที่ดีของแพคเกจการคาดการณ์เช่นeta(), auto.arima()ฯลฯ ดูเหมือนจะคาดหวังธรรมดาtsวัตถุเช่น equispaced อนุกรมเวลาไม่ได้มีข้อมูลที่ขาดหายไป ฉันคิดว่าแอปพลิเคชันในโลกแห่งความเป็นจริงสำหรับซีรี่ย์เวลาที่เท่ากันเท่านั้นนั้นมีอยู่จริง แต่สำหรับความเห็นของฉันนั้นมี จำกัด ปัญหาของการต่อเนื่องไม่กี่NAค่าจะสามารถแก้ไขได้อย่างง่ายดายโดยใช้ใด ๆ ของฟังก์ชั่นการแก้ไขที่นำเสนอในเช่นเดียวกับzoo forecast::interpหลังจากนั้นฉันก็ทำการพยากรณ์ คำถามของฉัน: ไม่มีใครแนะนำวิธีแก้ปัญหาที่ดีกว่า? (คำถามหลักของฉัน)อย่างน้อยที่สุดในโดเมนแอปพลิเคชันของฉันการคาดคะเนปริมาณการใช้งานศูนย์บริการข้อมูล (และเท่าที่ฉันสามารถจินตนาการได้ว่าโดเมนปัญหาอื่น ๆ ส่วนใหญ่) อนุกรมเวลาไม่เท่ากัน อย่างน้อยเราก็มีรูปแบบ "วันทำการ" ที่เกิดขึ้นซ้ำ ๆ หรือบางอย่าง อะไรคือวิธีที่ดีที่สุดในการจัดการสิ่งนั้นและยังคงใช้เวทย์มนตร์เท่ห์ ๆ ของแพ็คเกจพยากรณ์? ฉันควรเพียงแค่ "บีบอัด" อนุกรมเวลาเพื่อเติมวันหยุดสุดสัปดาห์ทำการพยากรณ์แล้ว "ขยาย" ข้อมูลอีกครั้งเพื่อแทรกค่า NA ในวันหยุดสุดสัปดาห์อีกครั้งหรือไม่ (นั่นจะเป็นความอัปยศฉันคิดว่า?) มีแผนใดที่จะทำให้แพ็คเกจพยากรณ์ใช้งานได้กับแพคเกจอนุกรมเวลาที่ผิดปกติอย่างสวนสัตว์หรือ ถ้าใช่เมื่อใดและถ้าไม่ทำไมไม่ ฉันค่อนข้างใหม่ต่อการคาดการณ์ (และสถิติโดยทั่วไป) …

2
การตรวจสอบความถูกต้องข้าม PCA และ k-fold ในชุด Caret ใน R
ฉันเพิ่งดูการบรรยายอีกครั้งจากหลักสูตรการเรียนรู้ของเครื่องใน Coursera ในส่วนที่อาจารย์กล่าวถึง PCA สำหรับการประมวลผลข้อมูลล่วงหน้าในแอปพลิเคชันการเรียนรู้ภายใต้การดูแลเขาบอกว่า PCA ควรจะดำเนินการกับข้อมูลการฝึกอบรมเท่านั้นและจากนั้นการทำแผนที่จะใช้ในการแปลง ดูเพิ่มเติมPCA และรถไฟ / ทดสอบแยก อย่างไรก็ตามในcaretแพ็คเกจ R ข้อมูลการฝึกอบรมที่คุณส่งผ่านไปยังtrain()ฟังก์ชั่นนั้นได้รับการประมวลผลโดย PCA แล้ว ดังนั้นเมื่ออัลกอริทึมทำการตรวจสอบความถูกต้องของ k-fold cross ชุดการตรวจสอบความถูกต้องได้ถูกประมวลผลด้วย PCA ผ่านทางpreProcess()และpredict()ในความเป็นจริงแล้วใช้ใน PCA "fitting" ฉันเข้าใจสถานการณ์ถูกต้องหรือไม่? ขั้นตอนของ IET Caret สำหรับการตรวจสอบข้ามกับ PCA (หรือในความเป็นจริงด้วยวิธีการลดขนาด / การจัดตำแหน่งใด ๆ ) เป็น "ผิด" เนื่องจากการประมวลผลข้อมูลล่วงหน้าจะดำเนินการในชุดการตรวจสอบความถูกต้อง และถ้าเป็นเช่นนั้นผลกระทบนี้จะมีขนาดใหญ่เพียงใด?

2
เมื่อมีคนบอกว่าส่วนเบี่ยงเบน / df ที่เหลือควร ~ 1 สำหรับโมเดลปัวซองค่าประมาณเป็นอย่างไร
ฉันมักจะเห็นคำแนะนำสำหรับการตรวจสอบว่าแบบจำลองของปัวซองนั้นเต็มไปด้วยการแยกส่วนเบี่ยงเบนที่เหลือด้วยองศาอิสระหรือไม่ อัตราส่วนผลลัพธ์ควรเป็น "ประมาณ 1" คำถามคือช่วงที่เรากำลังพูดถึงสำหรับ "โดยประมาณ" - อัตราส่วนที่ควรตั้งปิดสัญญาณเตือนเพื่อพิจารณารูปแบบรูปแบบทางเลือกคืออะไร?

5
การเพิ่มข้อมูลการฝึกอบรมมีผลกระทบต่อความแม่นยำของระบบโดยรวมอย่างไร
บางคนสามารถสรุปให้ฉันด้วยตัวอย่างที่เป็นไปได้ในสถานการณ์ใดที่เพิ่มข้อมูลการฝึกอบรมจะช่วยปรับปรุงระบบโดยรวมได้ เมื่อใดที่เราตรวจพบว่าการเพิ่มข้อมูลการฝึกอบรมมากขึ้นอาจเป็นข้อมูลที่เกินความเหมาะสมและไม่ให้ความแม่นยำที่ดีกับข้อมูลการทดสอบ นี่เป็นคำถามที่ไม่เฉพาะเจาะจงมาก แต่ถ้าคุณต้องการที่จะตอบเฉพาะสถานการณ์ที่เฉพาะเจาะจงโปรดทำเช่นนั้น

2
ทดสอบการสุ่มตัวอย่าง IID
คุณจะทดสอบหรือตรวจสอบว่าการสุ่มตัวอย่างเป็น IID (เป็นอิสระและกระจายตัวเหมือนกัน) โปรดทราบว่าฉันไม่ได้หมายถึง Gaussian และการกระจายแบบเหมือนจริงเพียง IID และความคิดที่อยู่ในใจของฉันคือการแบ่งตัวอย่างซ้ำ ๆ เป็นสองตัวอย่างย่อยที่มีขนาดเท่ากันทำการทดสอบ Kolmogorov-Smirnov และตรวจสอบว่าการกระจายตัวของค่า p มีค่าเท่ากันหรือไม่ ความคิดเห็นใด ๆ เกี่ยวกับวิธีการนั้นและข้อเสนอแนะใด ๆ ยินดีต้อนรับ ความชัดเจนหลังจากเริ่มรับรางวัล: ฉันกำลังมองหาการทดสอบทั่วไปที่สามารถนำไปใช้กับข้อมูลอนุกรมที่ไม่ใช่เวลา

3
มีวิธีการทั่วไปในการจำลองข้อมูลจากสูตรหรือการวิเคราะห์หรือไม่?
การจำลองข้อมูลจากกรอบข้อมูลการออกแบบการทดลอง ด้วยการมุ่งเน้นไปที่ R (แม้ว่าภาษาอื่น ๆ จะดีมาก) ในการออกแบบการทดสอบหรือการสำรวจการจำลองข้อมูลและการวิเคราะห์ข้อมูลจำลองนี้สามารถให้ข้อมูลเชิงลึกที่ยอดเยี่ยมเกี่ยวกับข้อดีและจุดอ่อนของการออกแบบ วิธีการดังกล่าวยังเป็นสิ่งจำเป็นต่อความเข้าใจและการใช้การทดสอบทางสถิติที่เหมาะสม อย่างไรก็ตามกระบวนการนี้มีแนวโน้มที่จะค่อนข้างน่าเบื่อและหลายคนถูกพาข้ามขั้นตอนสำคัญนี้ในการทดสอบหรือสำรวจ แบบจำลองทางสถิติและการทดสอบมีข้อมูลส่วนใหญ่ที่จำเป็นในการจำลองข้อมูล (รวมถึงข้อสันนิษฐานหรือคำสั่งที่ชัดเจนของการกระจาย) ด้วยรูปแบบการวิเคราะห์ (และสมมติฐานที่เกี่ยวข้องเช่นความเป็นปกติและความสมดุล) ระดับของปัจจัยและการวัดความสำคัญ (เช่น p-value) ฉันต้องการได้รับข้อมูลจำลอง (ในอุดมคติที่มีฟังก์ชันทั่วไปคล้าย พิมพ์ (), คาดการณ์ (), จำลอง ()) เป็นกรอบการจำลองแบบทั่วไปที่เป็นไปได้หรือไม่? ถ้าเป็นเช่นนั้นกรอบดังกล่าวสามารถใช้ได้ในปัจจุบัน? ตัวอย่างฉันต้องการฟังก์ชั่นเช่น: sim(aov(response~factor1+factor2*factor3), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", "B", "C"), factor3=c("A", "B", "C"))) เช่นเวอร์ชันทั่วไปของ: sim.lm<-function(){ library(DoE.base) design<-fac.design(nlevels=c(10,3,3), factor.names=c("factor1", "factor2", "factor3"), replications=3, randomize=F) response<-with(design, as.numeric(factor1)+ …

4
การทำให้เป็นมาตรฐานก่อนการตรวจสอบความถูกต้องข้าม
การทำให้ข้อมูลเป็นมาตรฐาน (มีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานที่เป็นเอกภาพ) ก่อนดำเนินการตรวจสอบความถูกต้องข้าม k-fold ซ้ำแล้วซ้ำอีกจะมีผลเสียเชิงลบใด ๆ เช่น overfitting หรือไม่? หมายเหตุ: นี่เป็นสถานการณ์ที่ #case> ยอดรวม #features ฉันกำลังแปลงข้อมูลบางส่วนของฉันโดยใช้การแปลงบันทึกจากนั้นปรับข้อมูลทั้งหมดให้เป็นปกติ ฉันกำลังทำการเลือกคุณสมบัติ ต่อไปฉันใช้คุณสมบัติที่เลือกและข้อมูลที่ได้มาตรฐานกับการตรวจสอบความถูกต้องข้าม 10 เท่าเพื่อลองและประเมินประสิทธิภาพของตัวจําแนกทั่วไปและฉันกังวลว่าการใช้ข้อมูลทั้งหมดเพื่อปรับมาตรฐานอาจไม่เหมาะสม ฉันควรทำให้ข้อมูลการทดสอบเป็นปกติสำหรับแต่ละเท่าโดยใช้ข้อมูลการทำให้เป็นปกติที่ได้จากข้อมูลการฝึกอบรมสำหรับการพับนั้นหรือไม่ ความคิดเห็นใด ๆ ที่ได้รับสุดซึ้ง! ขอโทษถ้าคำถามนี้ดูเหมือนชัดเจน แก้ไข: จาก การทดสอบนี้ (ตามคำแนะนำด้านล่าง) ฉันพบว่าการทำให้เป็นมาตรฐานก่อน CV ไม่ได้ทำให้ประสิทธิภาพแตกต่างกันมากนักเมื่อเทียบกับการทำให้ปกติใน CV

3
คุณจะอธิบายโมเดลเชิงเส้นทั่วไปให้กับผู้ที่ไม่มีพื้นฐานทางสถิติอย่างไร
ฉันมักจะลำบากในการอธิบายเทคนิคทางสถิติให้กับผู้ชมที่ไม่มีพื้นฐานทางสถิติ หากฉันต้องการอธิบายว่า GLM คืออะไรสำหรับผู้ชมดังกล่าว (โดยไม่ทิ้งศัพท์แสงทางสถิติ) สิ่งใดจะเป็นวิธีที่ดีที่สุดหรือมีประสิทธิภาพมากที่สุด ฉันมักจะอธิบาย GLM ด้วยสามส่วน - (1) องค์ประกอบสุ่มซึ่งเป็นตัวแปรตอบสนอง (2) องค์ประกอบของระบบซึ่งเป็นตัวทำนายเชิงเส้นและ (3) ฟังก์ชั่นลิงค์ซึ่งเป็น "กุญแจ" ต่อการเชื่อมต่อ (1) และ (2) จากนั้นฉันจะให้ตัวอย่างของการถดถอยเชิงเส้นหรือโลจิสติกและอธิบายวิธีการเลือกฟังก์ชั่นลิงค์ตามตัวแปรการตอบสนอง ดังนั้นมันทำหน้าที่เป็นกุญแจสำคัญในการเชื่อมต่อสององค์ประกอบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.