สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
การถดถอยเชิงเส้นพร้อมข้อ จำกัด ความชัน
Rฉันต้องการที่จะดำเนินการถดถอยเชิงเส้นง่ายมากในการ สูตรง่ายเหมือนB อย่างไรก็ตามฉันอยากให้ความชัน ( ) อยู่ในช่วงเวลาสมมติว่าระหว่าง 1.4 ถึง 1.6y=ax+by=ax+by = ax + baaa สิ่งนี้สามารถทำได้?

1
ข้อผิดพลาดมาตรฐานแบบกลุ่มเทียบกับการสร้างแบบจำลองหลายระดับ?
ฉันอ่านผ่านหนังสือหลายเล่ม (Raudenbush & Bryk, Snijders & Bosker, Gelman & Hill ฯลฯ ) และอีกหลายบทความ (Gelman, Jusko, Primo & Jacobsmeier ฯลฯ ) และฉันก็ยังไม่ได้คาดหัว ความแตกต่างที่สำคัญระหว่างการใช้ข้อผิดพลาดมาตรฐานแบบกลุ่มการสร้างแบบจำลองหลายระดับ ฉันเข้าใจส่วนต่าง ๆ ที่เกี่ยวข้องกับคำถามการวิจัยในมือ มีคำตอบบางประเภทที่คุณจะได้รับจากการสร้างแบบจำลองหลายระดับเท่านั้น อย่างไรก็ตามตัวอย่างเช่นสำหรับแบบจำลองสองระดับที่ค่าสัมประสิทธิ์ที่คุณสนใจอยู่ที่ระดับที่สองข้อดีของการทำหนึ่งวิธีเหนืออีกวิธีหนึ่งคืออะไร ในกรณีนี้ฉันไม่กังวลเกี่ยวกับการคาดการณ์หรือแยกค่าสัมประสิทธิ์บุคคลสำหรับกลุ่ม ข้อแตกต่างที่สำคัญที่ฉันสามารถพบได้คือข้อผิดพลาดมาตรฐานที่กลุ่มประสบเมื่อกลุ่มมีขนาดตัวอย่างไม่เท่ากันและการสร้างแบบจำลองหลายระดับนั้นอ่อนแอเมื่อพิจารณาว่าเป็นข้อกำหนดของการกระจายสัมประสิทธิ์แบบสุ่ม (ในขณะที่ใช้ข้อผิดพลาดมาตรฐาน . และท้ายที่สุดแล้วทั้งหมดนี้หมายความว่าสำหรับแบบจำลองที่สามารถใช้วิธีใดวิธีหนึ่งอย่างชัดเจนเราควรได้ผลลัพธ์ที่คล้ายคลึงกันในแง่ของค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานหรือไม่ คำตอบหรือแหล่งข้อมูลที่เป็นประโยชน์จะได้รับการชื่นชมอย่างมาก

4
เราจะพัฒนากฎการหยุดในการวิเคราะห์พลังงานของสองสัดส่วนอิสระได้อย่างไร
ฉันเป็นนักพัฒนาซอฟต์แวร์ที่ทำงานกับระบบทดสอบ A / B ฉันไม่มีภูมิหลังที่มั่นคง แต่ได้รับความรู้ในช่วงไม่กี่เดือนที่ผ่านมา สถานการณ์จำลองการทดสอบทั่วไปเกี่ยวข้องกับการเปรียบเทียบ URL สองรายการบนเว็บไซต์ เข้าชมผู้เข้าชมLANDING_URLแล้วจะถูกส่งต่อไปยังสุ่มอย่างใดอย่างหนึ่งหรือURL_CONTROL URL_EXPERIMENTALผู้เข้าชมเป็นตัวอย่างและเงื่อนไขแห่งชัยชนะจะเกิดขึ้นเมื่อผู้เข้าชมดำเนินการที่ต้องการบนไซต์นั้น นี่ถือเป็นการแปลงและอัตราของอัตราการแปลงคืออัตราการแปลง (โดยทั่วไปจะแสดงเป็นเปอร์เซ็นต์) อัตราการแปลงทั่วไปสำหรับ URL ที่ระบุคือบางสิ่งในขอบเขต 0.01% ถึง 0.08% เราทำการทดสอบเพื่อกำหนดว่า URL ใหม่เปรียบเทียบกับ URL เก่าอย่างไร ถ้าURL_EXPERIMENTALแสดงให้เห็นว่าดีกว่าURL_CONTROLเราแทนด้วยURL_CONTROLURL_EXPERIMENTAL เราได้พัฒนาระบบโดยใช้เทคนิคการทดสอบสมมติฐานอย่างง่าย ฉันใช้คำตอบของคำถาม CrossValidated อื่นที่นี่เพื่อพัฒนาระบบนี้ มีการตั้งค่าการทดสอบดังนี้: การประมาณการอัตราการแปลงCRE_CONTROLของURL_CONTROLถูกคำนวณโดยใช้ข้อมูลประวัติ อัตราการแปลงเป้าหมายที่ต้องการCRE_EXPERIMENTALของURL_EXPERIMENTALการตั้งค่า โดยทั่วไปจะใช้ระดับนัยสำคัญ 0.95 โดยทั่วไปจะใช้พลังงาน 0.8 เมื่อรวมกันค่าเหล่านี้ทั้งหมดจะถูกใช้เพื่อคำนวณขนาดตัวอย่างที่ต้องการ ฉันใช้ฟังก์ชัน R power.prop.testเพื่อให้ได้ขนาดตัวอย่างนี้ การทดสอบจะทำงานจนกว่าจะมีการเก็บตัวอย่างทั้งหมด ณ จุดนี้ช่วงความเชื่อมั่นสำหรับ CR_CONTROLและCR_EXPERIMENTALถูกคำนวณ หากพวกเขาไม่ทับซ้อนกันผู้ชนะสามารถประกาศได้ที่ระดับนัยสำคัญ 0.95 และพลังของ 0.8 ผู้ใช้การทดสอบของเรามีข้อกังวลหลักสองประการ: 1. …

1
วิธีจัดการกับ SVM ด้วยคุณลักษณะที่เป็นหมวดหมู่
ฉันมีช่องว่าง 35 มิติ (คุณลักษณะ) ปัญหาการวิเคราะห์ของฉันคือการจำแนกอย่างง่าย จาก 35 มิติมากกว่า 25 รายการเป็นหมวดหมู่และแต่ละแอตทริบิวต์มีค่ามากกว่า 50 ประเภท ในสถานการณ์สมมตินั้นการแนะนำตัวแปรตัวจำลองก็ไม่ได้ผลสำหรับฉันเช่นกัน ฉันจะเรียกใช้ SVM บนพื้นที่ซึ่งมีแอตทริบิวต์ที่กำหนดไว้มากมายได้อย่างไร

2
ความไม่ลงรอยกันครั้งใหญ่ในการประเมินความชันเมื่อกลุ่มได้รับการปฏิบัติแบบสุ่มและคงที่ในรูปแบบผสม
ฉันเข้าใจว่าเราใช้แบบจำลองเอฟเฟกต์แบบสุ่ม (หรือเอ็ฟเฟ็กต์แบบผสม) เมื่อเราเชื่อว่าพารามิเตอร์โมเดลบางตัวมีการสุ่มแตกต่างกันตามปัจจัยการจัดกลุ่ม ฉันมีความปรารถนาที่จะสร้างแบบจำลองที่การตอบสนองได้รับการทำให้เป็นมาตรฐานและเป็นศูนย์กลาง (ไม่สมบูรณ์แบบ แต่ใกล้เคียงกันมาก) กับปัจจัยการจัดกลุ่ม แต่ตัวแปรอิสระxไม่ได้ถูกปรับในทางใดทางหนึ่ง สิ่งนี้นำฉันไปสู่การทดสอบต่อไปนี้ (โดยใช้ข้อมูลที่สร้างขึ้น ) เพื่อให้แน่ใจว่าฉันจะพบผลกระทบที่ฉันกำลังมองหาถ้ามันมีอยู่จริง ฉันใช้โมเดลเอฟเฟ็กต์แบบผสมหนึ่งแบบโดยมีการสกัดแบบสุ่ม (ข้ามกลุ่มที่กำหนดโดยf) และแบบจำลองเอฟเฟกต์คงที่ที่สองโดยใช้ปัจจัย f เป็นตัวทำนายผลคงที่ ฉันใช้แพ็คเกจ R lmerสำหรับโมเดลเอฟเฟกต์ผสมและฟังก์ชั่นพื้นฐานlm()สำหรับโมเดลเอฟเฟกต์คงที่ ต่อไปนี้เป็นข้อมูลและผลลัพธ์ โปรดสังเกตว่าyโดยไม่คำนึงถึงกลุ่มจะมีค่าประมาณ 0 และxแตกต่างกันไปyตามกลุ่ม แต่จะแตกต่างกันมากในกลุ่มมากกว่าy > data y x f 1 -0.5 2 1 2 0.0 3 1 3 0.5 4 1 4 -0.6 -4 2 5 0.0 -3 2 …

3
เมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมใน lmer
ฉันรู้ว่าข้อดีอย่างหนึ่งของแบบผสมคือพวกมันอนุญาตให้ระบุเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมสำหรับข้อมูล (สมมาตรผสม, อัตชีวประวัติ, ไม่มีโครงสร้าง, ฯลฯ ) อย่างไรก็ตามlmerฟังก์ชันใน R ไม่อนุญาตสเปคง่ายของเมทริกซ์นี้ ไม่มีใครรู้ว่าโครงสร้างที่lmerใช้โดยค่าเริ่มต้นและทำไมไม่มีวิธีการระบุได้อย่างง่ายดาย?

1
ทฤษฎีบทขีด จำกัด กลางและกฎของจำนวนมาก
ฉันมีคำถามของผู้เริ่มต้นเกี่ยวกับทฤษฎีบทขีด จำกัด กลาง (CLT): ฉันทราบว่า CLT ระบุว่าค่าเฉลี่ยของตัวแปรสุ่มของ iid นั้นมีการแจกแจงแบบปกติโดยประมาณ (สำหรับโดยที่คือดัชนีของการสรุป) หรือตัวแปรสุ่มมาตรฐานจะมีการแจกแจงแบบปกติมาตรฐานn→∞n→∞n \to \inftynnn ตอนนี้กฎจำนวนมากระบุอย่างคร่าว ๆ ว่าค่าเฉลี่ยของตัวแปรสุ่มของ iid มาบรรจบกัน (ในความน่าจะเป็นหรือเกือบจะแน่นอน) ตามมูลค่าที่คาดหวัง สิ่งที่ฉันไม่เข้าใจคือ: ถ้าตามที่ CLT ระบุค่าเฉลี่ยจะกระจายไปตามปกติแล้วจะสามารถรวมเข้ากับค่าที่คาดหวังในเวลาเดียวกันได้อย่างไร การบรรจบกันจะบอกฉันว่าเมื่อเวลาผ่านไปความน่าจะเป็นที่ค่าเฉลี่ยนั้นไม่ใช่ค่าที่คาดหวังคือเกือบเป็นศูนย์ดังนั้นการกระจายจะไม่เป็นเรื่องปกติ แต่เป็นศูนย์เกือบทุกที่ยกเว้นตามค่าที่คาดหวัง คำอธิบายใด ๆ ยินดีต้อนรับ

4
วิธีสร้าง Bernoulli ต่อเนื่องไม่สำเร็จเป็นจำนวนเท่าใด?
ได้รับ: เหรียญกับที่ไม่รู้จักอคติppp (หัวหน้า) บวกอย่างเคร่งครัดจริง > 0a>0a>0a > 0 ปัญหา: สร้างตัวแปร Bernoulli สุ่มที่มีอคติpapap^{a} ไม่มีใครรู้วิธีการทำเช่นนี้? ตัวอย่างเช่นเมื่อเป็นจำนวนเต็มบวกแล้วหนึ่งสามารถพลิกเหรียญครั้งและดูว่าผลลัพธ์ทั้งหมดเป็นหัว: ถ้าพวกเขาอยู่แล้วปัญหา '0' มิฉะนั้นปัญหา '1' ความยากลำบากอยู่ในความจริงที่ว่าไม่จำเป็นต้องเป็นจำนวนเต็ม นอกจากนี้ถ้าฉันรู้อคติpฉันก็สามารถสร้างเหรียญอื่นด้วยอคติที่ต้องการ aaaaaaaaappp
18 sampling 

1
ป่าสุ่มสุดขั้วแตกต่างจากป่าสุ่มอย่างไร
การใช้ ER มีประสิทธิภาพมากขึ้นหรือไม่ (เหมือนกันExtreme Gradient Boostingคือการเพิ่มระดับความลาดชัน) - ความแตกต่างสำคัญจากมุมมองของภาคปฏิบัติหรือไม่? มีแพ็คเกจ R ซึ่งใช้งานได้ มันเป็นอัลกอริธึมใหม่ที่เอาชนะการใช้งานแบบ "ทั่วไป" (แพคเกจ RandomForest จาก R) ไม่เพียง แต่ในแง่ของประสิทธิภาพหรือในบางพื้นที่เท่านั้น? Extreme Random Forest http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

3
ระยะเวลาในประวัติศาสตร์ของสถิติ
ประวัติศาสตร์ของวิทยาศาสตร์หลายแขนงสามารถแบ่งออกเป็นช่วงเวลาเล็ก ๆ น้อย ๆ ที่มักจะเริ่มต้นด้วยการค้นพบที่สำคัญบางอย่าง แต่ฉันไม่เคยเห็นอะไรที่คล้ายกันในช่วงเวลาของสถิติ เห็นได้ชัดว่ามีบางวันที่สำคัญที่ถือได้ว่าเป็นจุดเริ่มต้นของช่วงเวลาใหม่ (Pascal + Fermat, Bayes, Pearson, Tukey, .. ) อย่างน้อยที่สุดเราสามารถแบ่งประวัติของสถิติออกเป็นระยะเวลาสั้น ๆ ได้หรือไม่? โปรดทราบว่าคำถามที่คล้ายกันเพียงข้อเดียวนี้เกี่ยวข้องกับนักสถิติที่มีชื่อเสียงเท่านั้นไม่เกี่ยวกับช่วงเวลาในประวัติศาสตร์
18 history 

1
วิธีการจัดการกับความสัมพันธ์สูงในหมู่ผู้ทำนายในการถดถอยหลายครั้ง?
ฉันพบข้อมูลอ้างอิงในบทความที่ชอบ: ตาม Tabachnick & Fidell (1996) ตัวแปรอิสระที่มีความสัมพันธ์แบบ bivariate มากกว่า 0.70 ไม่ควรรวมอยู่ในการวิเคราะห์การถดถอยหลายครั้ง ปัญหา:ฉันใช้ในการออกแบบการถดถอยหลายตัวมีความสัมพันธ์กับตัวแปร 3 ตัวแปร> .80, VIF ที่ประมาณ. 2 - .3, ความอดทน ~ 4-5 ฉันไม่สามารถยกเว้นตัวแปรใด ๆ (ตัวพยากรณ์และผลลัพธ์ที่สำคัญ) เมื่อฉันถดถอยผลลัพธ์ของตัวทำนาย 2 ตัวที่มีความสัมพันธ์กับ. 80 พวกเขายังคงมีนัยสำคัญแต่ละตัวทำนายความแปรปรวนที่สำคัญแต่ละตัวและตัวแปรสองตัวเดียวกันนี้มีค่าสัมประสิทธิ์สหสัมพันธ์ส่วนใหญ่และกึ่งกลางระหว่าง 10 ตัวแปรทั้งหมด คำถาม:แบบจำลองของฉันใช้ได้แม้มีสหสัมพันธ์สูงหรือไม่ การอ้างอิงใด ๆ ยินดีอย่างมาก! ขอบคุณสำหรับคำตอบ! ฉันไม่ได้ใช้ Tabachnick และ Fidell เป็นแนวทางฉันพบการอ้างอิงนี้ในบทความที่เกี่ยวข้องกับ collinearity สูงในหมู่ผู้ทำนาย ดังนั้นโดยทั่วไปฉันมีกรณีน้อยเกินไปสำหรับจำนวนของตัวทำนายในโมเดล (ตัวแปรเด็ดขาด, ตัวแปรควบคุมการเข้ารหัสหลอกตา - อายุ, …

1
, จำลองสถานการณ์ในช่วงการพยากรณ์
ฉันมีข้อมูลอนุกรมเวลาและฉันใช้เป็นโมเดลเพื่อให้พอดีกับข้อมูล เอ็กซ์ทีเป็นตัวบ่งชี้ตัวแปรสุ่มที่เป็นทั้ง 0 (เมื่อฉันไม่เห็นเหตุการณ์ที่ยาก) หรือ 1 (เมื่อฉันเห็นเหตุการณ์ที่หายาก) จากการสังเกตก่อนหน้านี้ที่ฉันมีสำหรับX tฉันสามารถพัฒนาแบบจำลองสำหรับX tโดยใช้วิธีการแบบ Variable Length Markov Chain สิ่งนี้ทำให้ฉันสามารถจำลองX tตลอดช่วงเวลาการพยากรณ์และให้ลำดับของศูนย์และอัน เนื่องจากนี่เป็นเหตุการณ์ที่หายากฉันจะไม่เห็นARIMA(p,d,q)+XtARIMA(p,d,q)+XtARIMA(p,d,q)+X_tXtXtX_tXtXtX_tXtXtX_tXtXtX_tXt=1Xt=1X_t=1 บ่อยครั้ง ฉันสามารถคาดการณ์และได้รับการคาดการณ์ช่วงเวลาที่อยู่บนพื้นฐานของค่าจำลองสำหรับที XtXtX_t คำถาม: ฉันจะพัฒนาขั้นตอนการจำลองที่มีประสิทธิภาพที่จะคำนึงถึงการเกิดขึ้นของ 1 ในจำลองในช่วงคาดการณ์หรือไม่ ฉันต้องได้รับค่าเฉลี่ยและช่วงการพยากรณ์ XtXtX_t ความน่าจะเป็นของการสังเกต 1 นั้นน้อยเกินไปสำหรับฉันที่จะคิดว่าการจำลองแบบมอนติคาร์โลปกติจะทำงานได้ดีในกรณีนี้ บางทีฉันสามารถใช้“ การสุ่มตัวอย่างที่สำคัญ” แต่ฉันไม่แน่ใจอย่างแน่นอน ขอขอบคุณ.

6
เหตุใดสถิติจึงมีประโยชน์เมื่อมีหลายสิ่งที่สำคัญว่าเป็นสิ่งที่มีคนนัด
ฉันไม่รู้ว่ามันเป็นเพียงฉัน แต่ฉันเป็นคนที่ไม่เชื่อในสถิติโดยทั่วไป ฉันสามารถเข้าใจได้ในเกมลูกเต๋าเกมโป๊กเกอร์ ฯลฯ เล็กมากง่าย ๆ เกมที่เล่นซ้ำในตัวเองส่วนใหญ่นั้นใช้ได้ ตัวอย่างเช่นการเชื่อมโยงไปถึงเหรียญบนขอบของมันมีขนาดเล็กพอที่จะยอมรับความน่าจะเป็นที่หัวเชื่อมโยงไปถึงหรือก้อย ~ 50% การเล่นโป๊กเกอร์เกม $ 10 โดยมีเป้าหมายเพื่อให้ได้ชัยชนะ 95% นั้นเป็นเรื่องปกติ แต่จะเกิดอะไรขึ้นถ้าการออมทั้งชีวิต + มากกว่านั้นขึ้นอยู่กับว่าคุณจะชนะหรือไม่ จะรู้ได้อย่างไรว่าคุณชนะในเวลา 95% ในสถานการณ์นั้นจะช่วยฉันได้อย่างไร ค่าที่คาดหวังไม่ได้ช่วยอะไรมาก ตัวอย่างอื่น ๆ ได้แก่ การผ่าตัดที่คุกคามชีวิต นั่นช่วยให้รู้ได้อย่างไรว่าเป็นอัตราการรอดชีวิต 51% เทียบกับอัตราการรอดชีวิต 99% จากข้อมูลที่มีอยู่ ในทั้งสองกรณีฉันไม่คิดว่ามันจะสำคัญสำหรับฉันในสิ่งที่แพทย์บอกฉันและฉันจะไปหามัน หากข้อมูลจริงคือ 75% เขาอาจบอกฉัน (ยกเว้นจรรยาบรรณและกฎหมาย) ว่ามีโอกาสรอดชีวิต 99.99999% ดังนั้นฉันจะรู้สึกดีขึ้น กล่าวอีกนัยหนึ่งข้อมูลที่มีอยู่ไม่สำคัญยกเว้นเป็นแบบทวินาม ถึงอย่างนั้นมันก็ไม่สำคัญว่าจะมีอัตราการรอดชีวิต 99.99999% หรือไม่ถ้าฉันตายจากไป นอกจากนี้ความน่าจะเป็นของแผ่นดินไหว ไม่สำคัญว่าจะเกิดแผ่นดินไหวรุนแรงทุก ๆ x (โดยที่ x> …

6
ตัวเลือกการวิเคราะห์ข้อมูลนอกหลัก
ฉันใช้ SAS อย่างมืออาชีพมาเกือบ 5 ปีแล้ว ฉันติดตั้งไว้ในแล็ปท็อปของฉันและต้องวิเคราะห์ชุดข้อมูลด้วยตัวแปร 1,000-2,000 ชุดและการสังเกตนับแสนครั้ง ฉันกำลังมองหาทางเลือกอื่นสำหรับ SAS ที่ให้ฉันทำการวิเคราะห์ในชุดข้อมูลขนาดใกล้เคียงกัน ฉันอยากรู้ว่าคนอื่นใช้อะไรในสถานการณ์เช่นนี้ นี่ไม่ใช่ "ข้อมูลขนาดใหญ่" ในลักษณะที่ใช้ในปัจจุบัน หรือชุดข้อมูลของฉันมีขนาดเล็กพอที่จะเก็บไว้ในหน่วยความจำ ฉันต้องการโซลูชันที่สามารถใช้อัลกอริทึมกับข้อมูลที่เก็บไว้ในฮาร์ดไดรฟ์ นี่คือสิ่งที่ฉันได้ตรวจสอบเพื่อประโยชน์: R - BigMemory สามารถสร้างเมทริกซ์ที่เก็บไว้นอกหน่วยความจำได้ แต่องค์ประกอบจะต้องเป็นโหมดเดียวกัน ฉันทำงานกับข้อมูลที่เกือบ 50/50 แยกระหว่างตัวละครและตัวเลข แพ็คเกจ FF เข้าใกล้สิ่งที่ฉันต้องการ แต่ฉันไม่เข้าใจเลยว่าขั้นตอนใดบ้างที่เข้ากันได้ ฉันคิดว่าการสนับสนุนค่อนข้าง จำกัด Pandas - ฉันตื่นเต้นมากเกี่ยวกับทางเลือก Pythonic กับ R อย่างไรก็ตามมันก็ต้องเก็บข้อมูลทั้งหมดไว้ในหน่วยความจำด้วย Revolution R - อันนี้แสดงค่อนข้างสัญญา ฉันมีสำเนาบนคอมพิวเตอร์ที่บ้านของฉัน (ฟรีหากคุณสมัคร Kaggle) และยังไม่ได้ทดสอบว่าเป็นทางเลือกที่ทำงานได้กับ SAS ความคิดเห็นเกี่ยวกับ Revolution …
18 r  sas  large-data 

2
ทฤษฎีของความแปรปรวนขั้นต่ำการประมาณค่าที่ไม่เอนเอียงในโรงเรียนระดับบัณฑิตศึกษามากเกินไปหรือไม่?
เมื่อเร็ว ๆ นี้ฉันรู้สึกเขินอายมากเมื่อฉันให้คำตอบแบบชกมวยเกี่ยวกับการประมาณค่าความแปรปรวนขั้นต่ำที่ไม่เอนเอียงสำหรับพารามิเตอร์ของการแจกแจงแบบสม่ำเสมอที่ผิดอย่างสมบูรณ์ โชคดีที่ฉันได้รับการแก้ไขได้ทันทีโดยพระคาร์ดินัลและเฮนรี่กับเฮนรี่ให้คำตอบที่ถูกต้องสำหรับสหกรณ์ เรื่องนี้ทำให้ฉันคิดว่า ฉันเรียนรู้ทฤษฎีการประมาณค่าที่ไม่เอนเอียงที่ดีที่สุดในวิชาคณิตศาสตร์ระดับบัณฑิตศึกษาของฉันที่ Stanford เมื่อ 37 ปีก่อน ฉันมีความทรงจำเกี่ยวกับทฤษฎีบท Rao-Blackwell, Cramer - Rao ซึ่งเป็นขอบเขตล่างและทฤษฎีบท Lehmann-Scheffe แต่ในฐานะนักสถิติประยุกต์ฉันไม่ได้คิดถึง UMVUE มากนักในชีวิตประจำวันของฉันในขณะที่การประเมินความเป็นไปได้สูงสุดจะเกิดขึ้นมากมาย ทำไมถึงเป็นอย่างนั้น? เราเน้นทฤษฎี UMVUE มากเกินไปในบัณฑิตวิทยาลัยหรือไม่? ฉันคิดอย่างนั้น ประการแรกความเป็นกลางไม่ได้เป็นคุณสมบัติที่สำคัญ MLE ที่ดีอย่างสมบูรณ์แบบหลายลำเอียง ตัวประมาณการหดตัวของสไตน์นั้นมีอคติ แต่มีอิทธิพลเหนือ MLE ที่เป็นกลางในแง่ของการสูญเสียความคลาดเคลื่อนกำลังสองเฉลี่ย มันเป็นทฤษฎีที่สวยงามมาก (การประมาณค่า UMVUE) แต่ไม่สมบูรณ์มากและฉันคิดว่าไม่มีประโยชน์มาก คนอื่นคิดอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.