สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
แยกจุดข้อมูลจากค่าเฉลี่ยเคลื่อนที่หรือไม่
เป็นไปได้หรือไม่ที่จะดึงจุดข้อมูลออกจากข้อมูลเฉลี่ยเคลื่อนที่? กล่าวอีกนัยหนึ่งถ้าชุดข้อมูลมีค่าเฉลี่ยเคลื่อนที่อย่างง่ายจาก 30 คะแนนก่อนหน้าเป็นไปได้หรือไม่ที่จะแยกจุดข้อมูลดั้งเดิมออก ถ้าเป็นเช่นนั้นได้อย่างไร

2
แบน, คอนจูเกต, และไฮเปอร์ไพรเมอร์ พวกเขาคืออะไร
ฉันกำลังอ่านเกี่ยวกับวิธีการแบบเบย์ในการคำนวณวิวัฒนาการโมเลกุลของหยาง ในหัวข้อที่ 5.2 พูดถึงนักบวช นี่อาจเป็นการขอให้มีการพูดเกินจริง แต่มีคนอธิบายความแตกต่างระหว่างนักบวชประเภทนี้และวิธีการที่มีผลต่อผลลัพธ์ของการวิเคราะห์ / การตัดสินใจที่ฉันจะทำในระหว่างกระบวนการวิเคราะห์แบบเบย์ (ฉันไม่ใช่นักสถิติและฉันเพิ่งเริ่มออกเดินทางเพื่อเรียนรู้การวิเคราะห์แบบเบย์ดังนั้นยิ่งเป็นคนธรรมดามากเท่าไรก็ยิ่งดี)
15 bayesian  prior 

2
ความหมายที่แม่นยำและการเปรียบเทียบระหว่างจุดที่มีอิทธิพลจุดยกระดับสูงและค่าผิดปกติ?
จากวิกิพีเดีย การสังเกตที่มีอิทธิพลคือการสังเกตที่มีผลกระทบค่อนข้างมากต่อการทำนายของตัวแบบการถดถอย จากวิกิพีเดีย คะแนนการใช้ประโยชน์คือการสังเกตเหล่านั้นถ้าทำที่ค่าสุดขีดหรือค่าที่อยู่ภายนอกของตัวแปรอิสระเช่นการขาดการสังเกตที่อยู่ใกล้เคียงหมายความว่าแบบจำลองการถดถอยที่เหมาะสมจะผ่านเข้าใกล้การสังเกตนั้น ทำไมการเปรียบเทียบดังต่อไปนี้จาก Wikipedia แม้ว่าจะเป็นจุดที่มีอิทธิพลโดยทั่วไปแล้วจะมีการยกระดับสูงซึ่งเป็นจุดที่ยกระดับสูงไม่จำเป็นต้องเป็นจุดที่มีอิทธิพล

2
กฎของความแปรปรวนรวมเป็นทฤษฎีบทพีทาโกรัส
สมมติว่าXXXและYYYมีช่วงเวลาที่สองแน่นอน ในช่องว่างของฮิลแบร์ตของตัวแปรสุ่มด้วยช่วงเวลาที่ จำกัด (ด้วยผลิตภัณฑ์ภายในของT1, T2T1,T2T_1,T_2กำหนดโดยE( T1T2)E(T1T2)E(T_1T_2) , | | T| |2= E( T2)||T||2=E(T2)||T||^2=E(T^2) ) เราอาจตีความE( Y|X)E(Y|X)E(Y|X)เมื่อการฉายภาพของYYYบนพื้นที่ของฟังก์ชั่นของXXX X เรายังไม่ทราบว่ากฎหมายของรวมแปรปรวนอ่าน VR ( Y) = E( ฉบับที่R ( Y| X) ) + VR ( E( Y| X) )VaR(Y)=E(VaR(Y|X))+VaR(E(Y|X))Var(Y)=E(Var(Y|X)) + Var(E(Y|X)) มีวิธีตีความกฎหมายนี้ในรูปของรูปเรขาคณิตข้างต้นหรือไม่? ผมได้รับการบอกว่ากฎหมายเป็นเช่นเดียวกับพีทาโกรัสทฤษฎีบทเหลี่ยมมุมฉากกับด้านY, E( Y| X) , Y- E( Y| X)Y,E(Y|X),Y-E(Y|X)Y, E(Y|X), Y-E(Y|X) ) …

1
จะตีความค่าสัมประสิทธิ์จากการถดถอยเบต้าได้อย่างไร?
ฉันมีข้อมูลบางอย่างที่ถูกล้อมรอบระหว่าง 0 และ 1 ฉันได้ใช้betaregแพคเกจใน R เพื่อให้พอดีกับรูปแบบการถดถอยกับข้อมูลที่ถูกผูกไว้เป็นตัวแปรตาม คำถามของฉันคือฉันจะตีความสัมประสิทธิ์จากการถดถอยได้อย่างไร

1
สามารถใช้ bootstrap เพื่อแทนที่การทดสอบที่ไม่ใช่พารามิเตอร์ได้หรือไม่?
ฉันค่อนข้างใหม่สำหรับสถิติ แนวคิดของ bootstrapping ทำให้ฉันสับสน ฉันรู้ว่าปกติของการแจกแจงตัวอย่างจะต้องใช้การทดสอบบางอย่างเช่นการทดสอบที ในกรณีที่ข้อมูลไม่กระจายตามปกติโดยการขอ "bootstrapping" ในการทดสอบ t ใน SPSS สิ่งนี้จะหลีกเลี่ยงปัญหาที่ไม่เป็นไปตามปกติหรือไม่? ถ้าเป็นเช่นนั้นสถิติ t- ถูกรายงานในผลลัพธ์ตามการกระจายตัวตัวอย่าง bootstrapped หรือไม่ และนี่จะเป็นการทดสอบที่ดีขึ้นเมื่อเทียบกับการใช้การทดสอบแบบไม่มีพารามิเตอร์เช่น Mann-Whitney หรือ Kruskal-Wallis ในกรณีที่ฉันมีข้อมูลที่ไม่ปกติ ในสถานการณ์ที่ข้อมูลไม่ปกติและฉันใช้ bootstrap ฉันจะไม่รายงานสถิติ t: ใช่ไหม?

5
สร้างตัวเลขสุ่มที่กระจายแบบกระจายด้วยเมทริกซ์ความแปรปรวนร่วมแบบไม่แน่นอนที่แน่นอน
ฉันประเมินเมทริกซ์ความแปรปรวนร่วมตัวอย่างของตัวอย่างและรับเมทริกซ์สมมาตร ด้วย , ผมอยากจะสร้าง -variate rn กระจายปกติ แต่เพราะฉะนั้นเราจึงจำเป็นต้องมีการสลายตัว Cholesky ของCฉันควรทำอย่างไรถ้าไม่แน่นอนแน่นอนC n CCCCCCCnnnCCCCCC

4
มี "การถดถอยแบบไม่มีผู้ดูแล" หรือไม่?
หากฉันถูกต้อง "การจำแนกประเภทที่ไม่ได้รับการสำรอง" นั้นเหมือนกับการทำคลัสเตอร์ ถ้าเช่นนั้นจะมี "การถดถอยที่ไม่ได้รับอนุญาต" ขอบคุณ!

5
การสร้างแบบจำลองทางสถิติคืออะไร
การสร้างแบบจำลองทางสถิติคืออะไร ทุกวันนี้เมื่อฉันสมัครงานวิจัยหรืองานที่ปรึกษามักจะมีคำว่า "การสร้างแบบจำลอง" หรือ "การสร้างแบบจำลอง" ขึ้นมา คำนี้ฟังดูเท่ห์ แต่พวกเขาหมายถึงอะไรกันแน่ วิธีทำคุณสร้างแบบจำลองของคุณ? ฉันค้นหาแบบจำลองการคาดการณ์ซึ่งรวมถึง k-nn และการถดถอยโลจิสติก
15 modeling 

1
การพยากรณ์อนุกรมเวลาด้วยข้อมูลรายวัน: ARIMA พร้อม regressor
ฉันใช้ชุดข้อมูลการขายรายวันที่มีจุดข้อมูลรายวันประมาณ 2 ปี จากบทเรียนออนไลน์ / ตัวอย่างบางส่วนฉันพยายามระบุฤดูกาลในข้อมูล ดูเหมือนว่ามีรายสัปดาห์รายเดือนและอาจเป็นระยะ / ปีตามฤดูกาล ตัวอย่างเช่นมีวันจ่ายเงินโดยเฉพาะอย่างยิ่งในวันที่ 1 ของเดือนที่มีผลในสองสามวันในช่วงสัปดาห์ นอกจากนี้ยังมีเอฟเฟกต์วันหยุดบางอย่างซึ่งสามารถระบุได้อย่างชัดเจนโดยสังเกตจากการสังเกต เมื่อติดตั้งกับข้อสังเกตเหล่านี้ฉันได้ลองทำสิ่งต่อไปนี้: ARIMA (พร้อมArimaและauto.arimaจากแพคเกจ R- คาดการณ์) โดยใช้ regressor (และค่าเริ่มต้นอื่น ๆ ที่จำเป็นในการทำงาน) regressor ที่ฉันสร้างนั้นเป็นเมทริกซ์ที่มีค่า 0/1: ตัวแปร 11 เดือน (n-1) 12 ตัวแปรวันหยุด ไม่สามารถหาส่วนของวันจ่ายเงินได้ ... เนื่องจากมันมีผลกระทบที่ซับซ้อนกว่าที่ฉันคิดเล็กน้อย เอฟเฟกต์ payday ทำงานแตกต่างกันไปขึ้นอยู่กับวันทำงานของวันที่ 1 ของเดือน ฉันใช้ 7 (เช่นความถี่รายสัปดาห์) เพื่อทำโมเดลอนุกรมเวลา ฉันลองทดสอบ - คาดการณ์ครั้งละ 7 วัน ผลลัพธ์มีความสมเหตุสมผล: …

1
อัตราส่วนความเป็นอันตรายสามารถแปลเป็นอัตราส่วนของค่ามัธยฐานของเวลารอดหรือไม่
ในบทความหนึ่งที่อธิบายผลลัพธ์ของการวิเคราะห์การอยู่รอดฉันได้อ่านข้อความที่บอกเป็นนัยว่าสามารถแปลอัตราส่วนอันตราย (HR) เป็นอัตราส่วนของเวลาเฉลี่ยการเอาตัวรอด (และ ) โดยใช้สูตร:M1M1M_1M2M2M_2 HR=M1M2HR=M1M2HR = \frac{M_1}{M_2} ฉันแน่ใจว่ามันไม่ถือเมื่อไม่มีใครสามารถคิดแบบจำลองความเป็นอันตรายตามสัดส่วนได้ แต่ฉันสงสัยว่าถึงอย่างนั้นมันก็ไม่ได้ผลกับการแจกแจงการอยู่รอดยกเว้นการยกกำลัง สัญชาตญาณของฉันถูกต้องหรือไม่
15 survival  hazard 

3
บทสรุปของ Neyman-Pearson สามารถนำไปใช้กับกรณีที่โมฆะอย่างง่ายและทางเลือกไม่ได้อยู่ในตระกูลเดียวกันของการแจกแจงหรือไม่?
บทแทรกของ Neyman-Pearson สามารถนำไปใช้กับกรณีที่เป็นโมฆะง่ายและทางเลือกง่าย ๆ ไม่ได้เป็นของครอบครัวเดียวกันของการแจกแจง? จากการพิสูจน์ฉันไม่เห็นว่าทำไมถึงทำไม่ได้ ตัวอย่างเช่นเมื่อ Simple Null เป็นการแจกแจงแบบปกติและทางเลือกง่าย ๆ คือการแจกแจงแบบเอ็กซ์โพเนนเชียล คือการทดสอบอัตราส่วนความน่าจะเป็นวิธีที่ดีในการทดสอบ null คอมโพสิตกับทางเลือกคอมโพสิตเมื่อทั้งสองเป็นของครอบครัวที่แตกต่างกันของการกระจาย? ขอบคุณและขอแสดงความนับถือ!

1
ผลคูณของตัวแปรสุ่มอิสระสองตัว
ฉันมีตัวอย่างประมาณ 1,000 ค่า ข้อมูลเหล่านี้จะได้รับจากผลิตภัณฑ์ของทั้งสองตัวแปรสุ่มอิสระξ∗ψξ∗ψ\xi \ast \psi ψ ตัวแปรสุ่มครั้งแรกที่มีการกระจายชุดξ∼U(0,1)ξ∼U(0,1)\xi \sim U(0,1) ) ไม่รู้จักการแจกแจงของตัวแปรสุ่มตัวที่สอง ฉันจะประเมินการกระจายตัวของตัวแปรสุ่มตัวที่สอง ( ) ได้อย่างไรψψ \psi

1
ความแตกต่างระหว่างการทดสอบการสุ่มและการทดสอบการเปลี่ยนแปลง
ในวรรณคดีคำว่า Randomization and Permutation นั้นใช้แทนกันได้ ด้วยผู้เขียนหลายคนระบุว่าการทดสอบ "การเปลี่ยนแปลง (การสุ่ม) หรือ" ในทางกลับกัน อย่างดีที่สุดฉันเชื่อว่าความแตกต่างนั้นบอบบางและอยู่ในสมมติฐานของพวกเขาเกี่ยวกับข้อมูลและข้อสรุปที่อาจเกิดขึ้นซึ่งสามารถวาดได้ ฉันแค่ต้องตรวจสอบว่าความเข้าใจของฉันนั้นถูกต้องหรือว่ามีความแตกต่างที่ลึกซึ้งกว่าที่ฉันขาดหายไป การทดสอบการเปลี่ยนรูปสันนิษฐานว่าข้อมูลถูกสุ่มตัวอย่างจากการแจกแจงประชากรพื้นฐาน (แบบจำลองประชากร) ซึ่งหมายความว่าข้อสรุปที่ได้จากการทดสอบการเปลี่ยนรูปมักใช้กับข้อมูลอื่นจากประชากร [3] การทดสอบการสุ่ม (แบบจำลองการสุ่ม) "อนุญาตให้เราทิ้งสมมติฐานที่ไม่น่าเชื่อของการวิจัยทางจิตวิทยาทั่วไป --- การสุ่มตัวอย่างจากการแจกแจงที่ระบุ" [2] อย่างไรก็ตามนั่นหมายความว่าข้อสรุปที่ดึงมาใช้ได้เฉพาะกับตัวอย่างที่ใช้ในการทดสอบ [3] แน่นอนแม้ว่าความแตกต่างเป็นเพียงในแง่ของความหมายของประชากร หากเรากำหนดประชากรให้เป็น 'ผู้ป่วยทุกรายที่มีอาการป่วยและมีความเหมาะสมสำหรับการรักษา' การทดสอบการเปลี่ยนรูปนั้นมีผลต่อประชากร แต่เนื่องจากเราได้ จำกัด ประชากรให้เหมาะกับการรักษาจึงเป็นการทดสอบแบบสุ่ม การอ้างอิง: [1] การทดสอบการเปลี่ยนรูปของฟิลิปที่ดี: คู่มือปฏิบัติเพื่อทดสอบวิธีการทดสอบสมมติฐานอีกครั้ง [2] Eugene Edgington และ Patric Onghena การทดสอบการสุ่ม [3] Michael Ernst, วิธีการเรียงสับเปลี่ยน: พื้นฐานสำหรับการอนุมานที่แน่นอน

3
เหตุใดจึงปรับ R-squared น้อยกว่า R-squared หากปรับ R-squared ทำนายว่าแบบจำลองดีกว่า
เท่าที่ฉันเข้าใจอธิบายว่าตัวแบบทำนายการสังเกตได้ดีเพียงใด Adjusted R 2คือสิ่งที่คำนึงถึงการสังเกตมากขึ้น (หรือองศาอิสระ) ดังนั้น Adjusted R 2จะทำนายโมเดลได้ดีขึ้นหรือไม่ แล้วทำไมนี้จะน้อยกว่าR 2 ? ดูเหมือนว่ามันควรจะมากขึ้นR2R2R^2R2R2R^2R2R2R^2R2R2R^2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.