สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
คำนวณปริมาณโดยประมาณสำหรับจำนวนเต็มโดยใช้ช่วงเวลา?
อพยพมาจากmath.stackexchange ฉันกำลังประมวลผลจำนวนเต็มจำนวนมากและกำลังพิจารณาการติดตามสักครู่เพื่อให้สามารถคำนวณเปอร์เซ็นต์ไทล์สำหรับสตรีมได้โดยไม่ต้องจัดเก็บข้อมูลมากนัก วิธีที่ง่ายที่สุดในการคำนวณหาเปอร์เซ็นต์ไทล์คืออะไร มีวิธีที่ดีกว่าที่เกี่ยวข้องกับการจัดเก็บข้อมูลจำนวนเล็กน้อยเท่านั้นหรือไม่?

2
การแปลงข้อมูลสัดส่วน: เมื่อ arcsin สแควร์รูทไม่เพียงพอ
มีทางเลือก (ที่แข็งแกร่งกว่า) ในการแปลงอาร์ซินสแควร์รูทสำหรับข้อมูลเปอร์เซ็นต์ / สัดส่วนหรือไม่ ในชุดข้อมูลที่ฉันกำลังทำงานอยู่ในขณะนี้การทำเครื่องหมายเฮเทอโรเซซิติกยังคงอยู่หลังจากฉันใช้การแปลงนี้นั่นคือพล็อตของค่าคงค้างเทียบกับค่าติดตั้งยังคงเป็นรูปสี่เหลี่ยมด้านขนานมาก แก้ไขเพื่อตอบกลับความคิดเห็น: ข้อมูลเป็นการตัดสินใจลงทุนโดยผู้เข้าร่วมทดลองซึ่งอาจลงทุน 0-100% ของเงินบริจาคในทวีคูณ 10% ฉันได้ดูข้อมูลเหล่านี้โดยใช้การถดถอยแบบลอจิสติกอันดับแล้ว แต่ต้องการดูว่า GLM ที่ถูกต้องจะผลิตอะไร ฉันเห็นคำตอบว่ามีประโยชน์สำหรับการทำงานในอนาคตเนื่องจากอาร์ซินสแควร์รูทดูเหมือนจะถูกใช้เป็นโซลูชั่นขนาดเดียวที่เหมาะกับทุกสาขาของฉันและฉันไม่ได้เจอทางเลือกอื่นใด

6
การตีความผลลัพธ์การถดถอยเชิงเส้นอย่างง่าย
ฉันใช้การถดถอยเชิงเส้นอย่างง่ายของล็อกธรรมชาติของตัวแปร 2 ตัวเพื่อตรวจสอบว่ามีความสัมพันธ์กันหรือไม่ ผลลัพธ์ของฉันคือ: R^2 = 0.0893 slope = 0.851 p < 0.001 ฉันสับสน. มองไปที่มูลค่าฉันจะบอกว่าตัวแปรทั้งสองจะไม่ได้มีความสัมพันธ์เพราะมันเป็นให้ใกล้เคียงกับ0อย่างไรก็ตามความชันของเส้นการถดถอยมีค่าเกือบ (แม้จะดูราวกับว่ามันเกือบจะเป็นแนวนอนในพล็อต) และค่า p ระบุว่าการถดถอยมีความสำคัญสูง 0 1R2R2R^2000111 นี่หมายความว่าตัวแปรทั้งสองมีความสัมพันธ์สูงหรือไม่? ถ้าเป็นเช่นนั้นค่าระบุว่าอะไร?R2R2R^2 ฉันควรเพิ่มว่าสถิติ Durbin-Watson ถูกทดสอบในซอฟต์แวร์ของฉันและไม่ปฏิเสธสมมติฐานว่าง (มันเท่ากับ ) ฉันคิดว่าสิ่งนี้ทดสอบความเป็นอิสระระหว่างตัวแปร ในกรณีนี้ฉันคาดว่าตัวแปรจะขึ้นอยู่กับเนื่องจากเป็นการวัดของนกแต่ละตัว ฉันใช้การถดถอยนี้เป็นส่วนหนึ่งของวิธีการตีพิมพ์เพื่อกำหนดสภาพร่างกายของแต่ละคนดังนั้นฉันจึงสันนิษฐานว่าการใช้การถดถอยแบบนี้สมเหตุสมผล อย่างไรก็ตามด้วยผลลัพธ์เหล่านี้ฉันคิดว่าอาจเป็นเพราะนกเหล่านี้วิธีนี้ไม่เหมาะ นี่เป็นข้อสรุปที่สมเหตุสมผลหรือไม่?2 21.3571.3571.357222222

2
ใช้แบบจำลองสมการโครงสร้างเพื่อวิเคราะห์การศึกษาเชิงสังเกตในจิตวิทยาหรือไม่
ฉันสังเกตเห็นปัญหานี้มากขึ้นในการตั้งค่าการให้คำปรึกษาทางสถิติและฉันก็กระตือรือร้นที่จะรับความคิดของคุณ บริบท ฉันมักจะพูดคุยกับนักศึกษาวิจัยที่ได้ทำการศึกษาโดยประมาณดังนี้: การศึกษาแบบสังเกต ขนาดตัวอย่างอาจเป็น 100, 200, 300, ฯลฯ มีการวัดระดับจิตวิทยาหลายครั้ง (เช่นอาจวิตกกังวลซึมเศร้าบุคลิกภาพทัศนคติมาตราส่วนทางคลินิกอื่น ๆ อาจเป็นความฉลาด ฯลฯ ) นักวิจัยได้อ่านวรรณกรรมที่เกี่ยวข้องและมีความคิดบางอย่างเกี่ยวกับกระบวนการสาเหตุที่เป็นไปได้ บ่อยครั้งที่จะมีแนวคิดทั่วไปของตัวแปรในสิ่งที่มาจากบรรพบุรุษตัวแปรกระบวนการและตัวแปรผลลัพธ์ พวกเขายังเคยได้ยินด้วยว่าการสร้างแบบจำลองสมการเชิงโครงสร้างนั้นเหมาะสมกว่าสำหรับการทดสอบแบบจำลองโดยรวมของความสัมพันธ์ระหว่างชุดของตัวแปรที่พวกเขากำลังศึกษาอยู่ คำถาม ภายใต้เงื่อนไขใดที่คุณคิดว่าการสร้างแบบจำลองสมการเชิงโครงสร้างเป็นเทคนิคที่เหมาะสมสำหรับการวิเคราะห์การศึกษาดังกล่าว หากคุณไม่แนะนำการสร้างแบบจำลองสมการเชิงโครงสร้างคุณจะแนะนำเทคนิคทางเลือกใด? คุณมีคำแนะนำอะไรให้กับนักวิจัยที่พิจารณาการใช้แบบจำลองสมการโครงสร้างในกรณีเช่นนี้?

2
การเลือกวิธีการสลายตัวตามฤดูกาล
การปรับตามฤดูกาลเป็นขั้นตอนสำคัญในการประมวลผลข้อมูลล่วงหน้าเพื่อการวิจัยเพิ่มเติม อย่างไรก็ตามนักวิจัยมีตัวเลือกมากมายสำหรับการแยกย่อยของแนวโน้มตามฤดูกาล ที่พบมากที่สุด (ตัดสินโดยจำนวนของการอ้างอิงในวรรณคดีเชิงประจักษ์) คู่แข่งวิธีการสลายตัวตามฤดูกาล X-11 (12) -ARIMA, TRAMO / ที่นั่ง (ทั้งการดำเนินการในDemetra + ) และ 's STL การค้นหาเพื่อหลีกเลี่ยงการสุ่มเลือกระหว่างเทคนิคการสลายตัวที่กล่าวถึงข้างต้น (หรือวิธีการง่าย ๆ เช่นตัวแปรตัวแปรตามฤดูกาล) ฉันต้องการทราบกลยุทธ์พื้นฐานที่นำไปสู่การเลือกวิธีการสลายตัวตามฤดูกาลได้อย่างมีประสิทธิภาพRRR คำถามย่อยที่สำคัญหลายอย่าง (ยินดีต้อนรับลิงก์ไปยังการสนทนาด้วย) อาจเป็น: อะไรคือความเหมือนและความแตกต่างจุดแข็งและจุดอ่อนของวิธีการคืออะไร? มีกรณีพิเศษหรือไม่เมื่อวิธีการหนึ่งเป็นที่นิยมมากกว่าวิธีอื่น? คุณสามารถให้คำแนะนำทั่วไปกับสิ่งที่อยู่ในกล่องดำของวิธีการสลายตัวที่แตกต่างกันได้อย่างไร มีเทคนิคพิเศษในการเลือกพารามิเตอร์สำหรับวิธีการ (ฉันไม่พอใจกับค่าเริ่มต้นเสมอstlตัวอย่างเช่นมีพารามิเตอร์จำนวนมากที่ต้องจัดการกับบางครั้งฉันรู้สึกว่าฉันไม่รู้วิธีเลือกสิ่งเหล่านี้อย่างถูกวิธี) เป็นไปได้หรือไม่ที่จะแนะนำเกณฑ์บางอย่าง (สถิติ) ว่าอนุกรมเวลาได้รับการปรับตามฤดูกาลอย่างมีประสิทธิภาพ (การวิเคราะห์ความสัมพันธ์, ความหนาแน่นของสเปกตรัมหรือไม่? เกณฑ์ขนาดตัวอย่างขนาดเล็ก - ความทนทาน?)

10
อันไหนคือสมมติฐานว่าง? ความขัดแย้งระหว่างทฤษฎีวิทยาศาสตร์ตรรกะและสถิติ?
ฉันมีปัญหาในการทำความเข้าใจตรรกะพื้นฐานในการตั้งสมมติฐานว่าง ในเรื่องนี้คำตอบข้อเสนอที่เป็นที่ยอมรับกันโดยทั่วไประบุไว้ว่าสมมติฐานว่างเป็นสมมติฐานว่าจะไม่มีผลกระทบทุกอย่างยังคงเหมือนเดิมคือไม่มีอะไรใหม่ภายใต้ดวงอาทิตย์ สมมติฐานทางเลือกคือสิ่งที่คุณพยายามพิสูจน์เช่นยาตัวใหม่ที่ส่งมอบตามสัญญา ตอนนี้ทฤษฎีทางวิทยาศาสตร์แบบฟอร์มและตรรกะทั่วไปที่เรารู้ว่าเราสามารถปลอมแปลงข้อเสนอได้เท่านั้นเราไม่สามารถพิสูจน์อะไรได้ (ไม่มีหงส์ขาวจำนวนหนึ่งที่สามารถพิสูจน์ได้ว่าหงส์ทั้งหมดเป็นสีขาว แต่หงส์ดำหนึ่งคนพิสูจน์ได้) นี่คือเหตุผลที่เราพยายามพิสูจน์สมมติฐานว่างซึ่งไม่เทียบเท่ากับการพิสูจน์สมมติฐานทางเลือก - และนี่คือจุดที่ความสงสัยของฉันเริ่มต้น - ฉันจะยกตัวอย่างง่ายๆ: สมมติว่าฉันต้องการค้นหาสัตว์ชนิดใดที่อยู่หลังม่าน น่าเสียดายที่ฉันไม่สามารถสังเกตสัตว์โดยตรง แต่ฉันมีการทดสอบที่ให้จำนวนขาของสัตว์นี้ ตอนนี้ฉันมีเหตุผลเชิงตรรกะดังต่อไปนี้: หากสัตว์เป็นสุนัขก็จะมี 4 ขา ถ้าฉันทำการทดสอบและพบว่ามันมี 4 ขานี่ไม่ใช่ข้อพิสูจน์ว่ามันเป็นสุนัข (อาจเป็นม้าแรดหรือสัตว์ 4 ขาอื่น ๆ ) แต่ถ้าฉันพบว่ามันไม่มีขา 4 ตัวนี่เป็นข้อพิสูจน์ที่ชัดเจนว่ามันไม่สามารถเป็นสุนัขได้ (สมมติว่าเป็นสัตว์ที่มีสุขภาพดี) แปลเป็นยาแล้วฉันอยากรู้ว่ายาที่อยู่ข้างหลังม่านนั้นมีประสิทธิภาพหรือไม่ สิ่งเดียวที่ฉันจะได้คือตัวเลขที่ให้เอฟเฟกต์กับฉัน หากเอฟเฟกต์เป็นบวกจะไม่มีสิ่งใดพิสูจน์ได้ (4 ขา) หากไม่มีผลใด ๆ ฉันจะพิสูจน์ประสิทธิภาพของยาเสพติด พูดทั้งหมดนี้ฉันคิดว่า - ตรงกันข้ามกับภูมิปัญญาสามัญ - สมมติฐานว่างที่ถูกต้องเท่านั้นจะต้อง ยาเสพติดที่มีประสิทธิภาพ (เช่น: ถ้ายาที่มีประสิทธิภาพคุณจะเห็นผล) เพราะนี่เป็นสิ่งเดียวที่ฉันสามารถหักล้างได้ - จนถึงรอบต่อไปที่ฉันพยายามจะเจาะจงมากขึ้นเรื่อย ๆ …

2
ฟังก์ชัน“ น่าสนใจ” สำหรับคำถาม StackExchange
คำถามนี้ถูกย้ายจาก Mathematics Stack Exchange เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 8 ปีที่ผ่านมา ฉันกำลังพยายามรวบรวมแพ็คเกจการขุดข้อมูลสำหรับเว็บไซต์ StackExchange และโดยเฉพาะฉันติดอยู่ในการพยายามที่จะกำหนดคำถาม "น่าสนใจที่สุด" ฉันต้องการใช้คะแนนคำถาม แต่ลบอคติเนื่องจากจำนวนการดู แต่ฉันไม่ทราบวิธีเข้าหานี้อย่างจริงจัง ในโลกอุดมคติฉันสามารถเรียงลำดับคำถามด้วยการคำนวณโดยที่คือจำนวนโหวตทั้งหมดและคือจำนวนการดู หลังจากนั้นมันจะวัดเปอร์เซ็นต์ของผู้ที่ upvote คำถามลบด้วยเปอร์เซ็นต์ของคนที่ downvote คำถามโวลต์nโวลต์n\frac{v}{n}โวลต์โวลต์vnnn น่าเสียดายที่รูปแบบการลงคะแนนมีความซับซ้อนมากขึ้น การลงคะแนนมีแนวโน้มที่จะ "ที่ราบสูง" ในระดับหนึ่งและสิ่งนี้มีผลกระทบจากการประเมินคำถามยอดนิยมอย่างรุนแรง ในทางปฏิบัติคำถามที่มี 1 มุมมองและ 1 upvote จะให้คะแนนและเรียงลำดับสูงกว่าคำถามอื่น ๆ ที่มี 10,000 ครั้ง แต่น้อยกว่า 10,000 คะแนน ขณะนี้ฉันใช้เป็นสูตรเชิงประจักษ์ แต่ฉันต้องการความแม่นยำ ฉันจะแก้ไขปัญหานี้ด้วยความเข้มงวดทางคณิตศาสตร์ได้อย่างไรโวลต์เข้าสู่ระบบn +1โวลต์เข้าสู่ระบบ⁡n+1\frac{v}{\log{n}+1} เพื่อที่จะแสดงความคิดเห็นบางส่วนฉันจะพยายามแก้ไขปัญหาด้วยวิธีที่ดีกว่า: สมมติว่าผมมีคำถามกับคะแนนโหวตทั้งหมดและมุมมอง ฉันต้องการที่จะสามารถที่จะประเมินสิ่งที่คะแนนโหวตทั้งหมดมีแนวโน้มมากที่สุดเมื่อมุมมองถึงn_1โวลต์0โวลต์0v_0n0n0n_0โวลต์1โวลต์1v_1n1n1n_1 ด้วยวิธีนี้ฉันสามารถเลือกค่าเล็กน้อยสำหรับและสั่งซื้อคำถามทั้งหมดตามผลรวมคาดไว้n1n1n_1โวลต์1โวลต์1v_1 ฉันสร้างแบบสอบถามสองรายการบน SO datadump เพื่อให้แสดงผลที่ฉันพูดถึงได้ดีขึ้น: …

3
วิธีการตั้งค่าและประเมินโมเดล logom แบบมัลติโนเมียลใน R
ฉันใช้โมเดล login แบบหลายมิติใน JMP และได้ผลลัพธ์กลับมาซึ่งรวมถึง AIC และค่า p-chi-squared สำหรับการประมาณพารามิเตอร์แต่ละตัว แบบจำลองมีผลลัพธ์เด็ดขาดหนึ่งรายการและมีคำอธิบายอย่างละเอียด 7 ข้อ ฉันพอดีกับสิ่งที่ฉันคิดว่าจะสร้างรูปแบบเดียวกันใน R โดยใช้multinomฟังก์ชั่นในแพ็คเกจnnet รหัสนั้นเป็นพื้น: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); อย่างไรก็ตามทั้งสองให้ผลลัพธ์ที่แตกต่าง ด้วย JMP AIC คือ 2923.21 และnnet::multinomAIC คือ 3116.588 ดังนั้นคำถามแรกของฉันคือ: หนึ่งในรุ่นผิดหรือเปล่า? สิ่งที่สองคือ JMP ให้ค่า chi-squared สำหรับการประมาณการพารามิเตอร์แต่ละครั้งซึ่งฉันต้องการ การสรุปผลการทำงานบน multinom fit1ไม่ได้ - เพียงแค่ให้ค่าประมาณ, AIC และ Deviance คำถามที่สองของฉันคือ: มีวิธีรับค่า p สำหรับแบบจำลองและการประมาณค่าเมื่อใช้nnet::multinomหรือไม่ …
20 r  logistic  multinomial  logit  jmp 

2
ข้อมูลชาวประมงในรูปแบบลำดับชั้น
ให้เป็นแบบลำดับชั้น และ โดยที่เป็นการแจกแจงแบบปกติ มีวิธีที่จะได้รับการแสดงออกที่แน่นอนสำหรับข้อมูลฟิชเชอร์ของการกระจายร่อแร่ของได้รับคนั่นคือสิ่งที่เป็นข้อมูลฟิชเชอร์ของ: ฉันจะได้รับการแสดงออกสำหรับการกระจายส่วนเพิ่มของได้รับ , แต่การแยกแยะความแตกต่าง wrtและจากนั้นการรับความคาดหวังดูเหมือนยากมาก ฉันขาดอะไรที่ชัดเจนหรือไม่ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมμ ∼ l a p l a c e ( 0 , c ) N ( ⋅ , ⋅ ) X c p ( x | c ) = ∫ p ( x | μ ) p ( μ …

4
ค่าเฉลี่ยความสัมพันธ์
สมมุติว่าฉันทดสอบว่าตัวแปรYขึ้นอยู่กับตัวแปรอย่างไรXภายใต้เงื่อนไขการทดลองที่แตกต่างกันและรับกราฟต่อไปนี้: เส้นประในกราฟด้านบนแสดงการถดถอยเชิงเส้นสำหรับชุดข้อมูลแต่ละชุด (การตั้งค่าการทดลอง) และตัวเลขในตำนานแสดงถึงสหสัมพันธ์ของเพียร์สันของชุดข้อมูลแต่ละชุด ผมอยากจะคำนวณ "ความสัมพันธ์เฉลี่ย" (หรือ "หมายถึงความสัมพันธ์") ระหว่างและX Yฉันขอเฉลี่ยrค่าได้ไหม สิ่งที่เกี่ยวกับ "การกำหนดเกณฑ์ค่าเฉลี่ย", ? ฉันควรจะคำนวณค่าเฉลี่ยและกว่าจะใช้ตารางของค่าว่าหรือฉันควรคำนวณค่าเฉลี่ยของแต่ละ 's?R 2R2R2R^2rR2R2R^2

2
วิธีตั้งชื่อให้เห็บในกล่องงูเหลือม matplotlib
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ งูหลามmatplotlibมีคำสั่ง Boxplot โดยปกติทุกส่วนของกราฟจะถูกเลือกเป็นตัวเลข ฉันจะเปลี่ยนเห็บเป็นชื่อแทนตำแหน่งได้อย่างไร สำหรับภาพประกอบฉันหมายถึงป้ายกำกับจันทร์อังคารที่เหมือนในกล่องนี้:

2
อะไรคือข้อดี / ข้อเสียของการใช้เส้นโค้ง, เส้นโค้งเรียบและตัวเลียนแบบกระบวนการ Gaussian?
ฉันสนใจที่จะเรียนรู้ (และการนำไปใช้) เป็นทางเลือกในการแก้ไขพหุนาม อย่างไรก็ตามฉันมีปัญหาในการหาคำอธิบายที่ดีเกี่ยวกับวิธีการทำงานของวิธีการที่เกี่ยวข้องและวิธีเปรียบเทียบ ฉันขอขอบคุณอินพุตของคุณเกี่ยวกับข้อดี / ข้อเสีย / เงื่อนไขซึ่งวิธีการหรือทางเลือกเหล่านี้จะมีประโยชน์ แต่การอ้างอิงที่ดีบางอย่างเกี่ยวกับข้อความสไลด์หรือพอดคาสต์ก็เพียงพอแล้ว

3
ผลรวมของผลต่างกำลังสอง t คืออะไร?
ปล่อยให้ถูกดึงออกมาจากการแจกแจงของนักเรียนโดยมีองศาอิสระสำหรับขนาดปานกลาง(พูดน้อยกว่า 100) กำหนด คือกระจายเกือบเป็นไคสแควร์กับองศาอิสระ? มีทฤษฎีบท จำกัด กลางสำหรับผลรวมของตัวแปรสุ่มกำลังสองหรือไม่?เสื้อผมtit_innnnnnT= ∑1 ≤ ฉัน≤ kเสื้อ2ผมT=∑1≤i≤kti2T = \sum_{1\le i \le k} t_i^2TTTkkk

1
บทความเกี่ยวกับการใช้สถิติใน NYTimes
ฉันหมายถึงบทความนี้: http://www.nytimes.com/2011/01/11/science/11esp.html พิจารณาการทดลองต่อไปนี้ สมมติว่ามีเหตุผลที่เชื่อได้ว่าเหรียญถูกถ่วงน้ำหนักไว้ที่หัวเล็กน้อย ในการทดสอบเหรียญขึ้นมา 527 ครั้งจาก 1,000 ครั้ง นี่เป็นหลักฐานสำคัญที่บ่งบอกว่าเหรียญมีน้ำหนัก การวิเคราะห์แบบดั้งเดิมบอกว่าใช่ ด้วยเหรียญที่ยุติธรรมโอกาสที่จะได้รับ 527 หรือมากกว่าในการโยน 1,000 ครั้งนั้นน้อยกว่า 1 ใน 20 หรือ 5 เปอร์เซ็นต์ซึ่งเป็นการตัดแบบธรรมดา เพื่อนำไปใช้อีกทางหนึ่ง: การทดลองค้นหาหลักฐานของเหรียญถ่วงน้ำหนัก“ ที่มีความมั่นใจ 95 เปอร์เซ็นต์” แต่นักสถิติหลายคนไม่ซื้อ หนึ่งใน 20 คือความน่าจะเป็นที่จะได้รับจำนวนหัวมากกว่า 526 ต่อ 1,000 ในการโยน นั่นคือมันคือผลรวมของความน่าจะเป็นในการพลิก 527, ความน่าจะเป็นของการพลิก 528, 529 และอื่น ๆ แต่การทดสอบไม่พบตัวเลขทั้งหมดในช่วงนั้น พบว่ามีเพียงหนึ่ง - 527 มันจึงแม่นยำยิ่งขึ้นผู้เชี่ยวชาญเหล่านี้พูดว่าเพื่อคำนวณความน่าจะเป็นที่จะได้เลขหนึ่งนั่นคือ 527 - ถ้าเหรียญนั้นมีน้ำหนักและเปรียบเทียบกับความน่าจะเป็นที่จะได้หมายเลขเดียวกันถ้าเหรียญนั้น …

2
การประมาณค่า R-squared และนัยสำคัญทางสถิติจากโมเดลการถดถอยเชิงลงโทษ
ฉันใช้แพ็กเกจ R ที่ถูกลงโทษเพื่อให้ได้ค่าสัมประสิทธิ์การหดตัวสำหรับชุดข้อมูลที่ฉันมีตัวทำนายจำนวนมากและมีความรู้เพียงเล็กน้อยซึ่งเป็นสิ่งที่สำคัญ หลังจากที่ฉันเลือกพารามิเตอร์การปรับแต่ง L1 และ L2 และฉันพอใจกับค่าสัมประสิทธิ์ของฉันจะมีวิธีทางสถิติที่จะสรุปรูปแบบที่เหมาะสมกับ R-squared หรือไม่? นอกจากนี้ฉันสนใจที่จะทดสอบความสำคัญโดยรวมของโมเดล (เช่นR² = 0 หรือทำทั้งหมด = 0) ฉันได้อ่านคำตอบของคำถามที่คล้ายกันแล้วที่นี่แต่ก็ไม่ได้ตอบคำถามของฉัน มีการสอนที่ยอดเยี่ยมเกี่ยวกับแพ็คเกจ R ที่ฉันใช้ที่นี่และผู้เขียน Jelle Goeman มีหมายเหตุต่อไปนี้ในตอนท้ายของบทช่วยสอนเกี่ยวกับช่วงความมั่นใจจากโมเดลการถดถอยที่ถูกลงโทษ: มันเป็นคำถามที่ธรรมดามากที่จะถามถึงข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยหรือปริมาณที่ประมาณไว้อื่น ๆ ในหลักการข้อผิดพลาดมาตรฐานดังกล่าวสามารถคำนวณได้ง่ายเช่นการใช้ bootstrap ยังคงแพคเกจนี้โดยเจตนาไม่ได้ให้พวกเขา เหตุผลของเรื่องนี้คือข้อผิดพลาดมาตรฐานไม่ได้มีความหมายมากสำหรับการประเมินแบบเอนเอียงอย่างรุนแรงเช่นเกิดจากวิธีการประเมินที่ถูกลงโทษ การประมาณค่าแบบลงโทษเป็นกระบวนการที่ช่วยลดความแปรปรวนของตัวประมาณค่าโดยการแนะนำอคติอย่างมีนัยสำคัญ ความเอนเอียงของตัวประมาณแต่ละตัวจึงเป็นองค์ประกอบหลักของความคลาดเคลื่อนกำลังสองเฉลี่ยในขณะที่ความแปรปรวนอาจมีส่วนเพียงเล็กน้อยเท่านั้น แต่น่าเสียดายที่ในการใช้งานส่วนใหญ่ของการถดถอยเชิงลงโทษนั้นเป็นไปไม่ได้ที่จะได้รับการประเมินความลำเอียงที่แม่นยำเพียงพอ การคำนวณตาม bootstrap ใด ๆ สามารถให้การประเมินความแปรปรวนของการประมาณการเท่านั้น การประมาณการที่น่าเชื่อถือของอคตินั้นจะมีให้เฉพาะในกรณีที่การประมาณการที่เป็นกลางไม่น่าเชื่อถือมีอยู่ซึ่งโดยทั่วไปจะไม่เกิดขึ้นในกรณีที่มีการใช้การประมาณการที่ถูกลงโทษ การรายงานข้อผิดพลาดมาตรฐานของการประเมินที่ถูกลงโทษจึงบอกเพียงส่วนหนึ่งของเรื่องราว มันสามารถสร้างความประทับใจที่ผิดพลาดอย่างแม่นยำโดยไม่สนใจความไม่ถูกต้องที่เกิดจากอคติอย่างสมบูรณ์ มันเป็นความผิดพลาดอย่างแน่นอนในการสร้างคำแถลงความเชื่อมั่นซึ่งตั้งอยู่บนพื้นฐานของการประเมินความแปรปรวนของการประมาณการเช่นช่วงความเชื่อมั่นที่ใช้ bootstrap

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.