สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เรขาคณิตเชิงอนุพันธ์นั้นเกี่ยวข้องกับสถิติหรือไม่?
ฉันกำลังทำต้นแบบในสถิติและฉันแนะนำให้เรียนเรขาคณิตที่แตกต่างกัน ฉันยินดีที่จะได้ยินเกี่ยวกับการใช้งานทางสถิติสำหรับเรขาคณิตเชิงอนุพันธ์เนื่องจากสิ่งนี้จะทำให้ฉันมีแรงบันดาลใจ ไม่มีใครรู้ว่าแอปพลิเคชันสำหรับเรขาคณิตเชิงอนุพันธ์ในสถิติหรือไม่

3
จะประเมินความเบ้จาก boxplot ได้อย่างไร?
วิธีการตัดสินใจความเบ้โดยดูที่ boxplot ที่สร้างจากข้อมูลนี้: 340, 300, 520, 340, 320, 290, 260, 330 หนังสือเล่มหนึ่งบอกว่า "ถ้าควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบนแล้วการแจกแจงจะเบ้ในทางลบ" แหล่งข้อมูลอื่นหลายแห่งกล่าวว่าเหมือนกันมากหรือน้อย ฉันสร้าง boxplot โดยใช้ R มันเหมือนดังต่อไปนี้: ฉันคิดว่ามันเอียงเชิงลบเพราะควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบน แต่ปัญหาคือเมื่อฉันใช้วิธีอื่นเพื่อกำหนดความเบ้: หมายถึง (337.5)> ค่ามัธยฐาน (325) นี้แสดงให้เห็นข้อมูลเป็นเบ้บวก ฉันพลาดอะไรไปหรือเปล่า?

2
เป็นถ่วงน้ำหนัก
ฉันประเมินโมเดลเชิงเส้นที่ทนทานRด้วยน้ำหนัก MM โดยใช้rlm()แพคเกจ MASS `R`` ไม่ได้ให้ค่าสำหรับแบบจำลอง แต่ฉันต้องการให้มีค่าหากเป็นปริมาณที่มีความหมาย ฉันยังสนใจที่จะทราบว่ามีความหมายใด ๆ ในการมีค่าR 2ที่ชั่งน้ำหนักความแปรปรวนทั้งหมดและส่วนที่เหลือในลักษณะเดียวกับที่การสังเกตนั้นมีน้ำหนักในการถดถอยที่แข็งแกร่งหรือไม่ ความคิดทั่วไปของฉันคือถ้าสำหรับวัตถุประสงค์ของการถดถอยเรามีน้ำหนักที่ให้อิทธิพลน้อยกว่าเพราะพวกมันมีค่าผิดปกติในทางใดทางหนึ่งบางทีอาจจะเพื่อการคำนวณr 2เราควรให้ค่าเหล่านั้นด้วย ประมาณการเดียวกันมีอิทธิพลน้อยลงหรือไม่R2R2R^2R2R2R^2r2r2r^2 ฉันเขียนฟังก์ชันง่าย ๆ สองอย่างสำหรับและR 2ถ่วงน้ำหนักพวกมันอยู่ด้านล่าง ฉันยังรวมผลลัพธ์ของการเรียกใช้ฟังก์ชันเหล่านี้สำหรับแบบจำลองของฉันซึ่งเรียกว่า HI9 แก้ไข: ฉันพบหน้าเว็บของ Adelle Coster ของ UNSW ที่ให้สูตรสำหรับการรวมเวกเตอร์ตุ้มน้ำหนักในการคำนวณการคำนวณของทั้งสองและอย่างที่ฉันทำและขอให้เธออ้างอิงอย่างเป็นทางการเพิ่มเติม: http: //web.maths unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (ยังคงต้องการความช่วยเหลือจาก Cross Validated เกี่ยวกับวิธีการตีความน้ำหนักr 2นี้)R2R2R^2R2R2R^2R2SSeSStr2r2r^2 #I used this function to calculate a basic r-squared from the robust linear model r2 …

2
Bootstrapping - ฉันต้องลบค่าผิดปกติก่อนหรือไม่
เราได้ทำการทดสอบแยกคุณลักษณะของผลิตภัณฑ์ใหม่และต้องการวัดว่าการเพิ่มขึ้นของรายได้นั้นสำคัญหรือไม่ โดยทั่วไปการสังเกตของเราจะไม่ได้รับการเผยแพร่อย่างแน่นอน (ผู้ใช้ส่วนใหญ่ของเราไม่ใช้จ่ายและภายในที่ทำนั้นจะมีการบิดเบือนอย่างมากต่อผู้ใช้รายย่อยจำนวนมากและผู้ใช้รายใหญ่สองสามราย) เราได้ตัดสินใจใช้ bootstrapping เพื่อเปรียบเทียบวิธีการเพื่อให้ได้ข้อมูลที่ไม่ได้รับการเผยแพร่ตามปกติ (คำถามด้านข้าง: นี่เป็นการใช้ bootstrapping ที่ถูกกฎหมายหรือไม่) คำถามของฉันคือฉันจำเป็นต้องตัดค่าชุดข้อมูล (เช่นผู้ใช้จ่ายจำนวนน้อยมาก) ก่อนที่จะเรียกใช้ bootstrapping หรือไม่นั้นสำคัญหรือไม่?

1
เมื่อมีการวิเคราะห์จาโคเบียนจะดีกว่าหรือไม่ที่จะประมาณชาวเฮสเซียนโดยหรือโดยความแตกต่างที่ จำกัด ของจาโคเบียน
สมมติว่าฉันกำลังคำนวณพารามิเตอร์ของแบบจำลองฉันลดจำนวนผลรวมส่วนที่เหลือกำลังสองลดลงและฉันสมมติว่าข้อผิดพลาดของฉันคือเกาส์เซียน แบบจำลองของฉันสร้างอนุพันธ์การวิเคราะห์ดังนั้นเครื่องมือเพิ่มประสิทธิภาพจึงไม่จำเป็นต้องใช้ความแตกต่างที่แน่นอน เมื่อพอดีแล้วฉันต้องการคำนวณข้อผิดพลาดมาตรฐานของพารามิเตอร์ที่ติดตั้ง โดยทั่วไปในสถานการณ์นี้ Hessian ของฟังก์ชั่นข้อผิดพลาดจะต้องเกี่ยวข้องกับเมทริกซ์ความแปรปรวนร่วมโดย: โดยที่เป็นความแปรปรวนของเศษเหลือσ 2σ2H−1=Cσ2H−1=C \sigma^2 H^{-1} = C σ2σ2\sigma^2 เมื่อไม่มีการวิเคราะห์อนุพันธ์ของข้อผิดพลาดก็มักจะไม่สามารถคำนวณ Hessian ดังนั้นจึงถูกนำมาใช้เป็นค่าประมาณที่ดีJTJJTJJ^TJ อย่างไรก็ตามในกรณีของฉันฉันมีการวิเคราะห์ J ดังนั้นมันค่อนข้างถูกสำหรับฉันที่จะคำนวณ H โดยการหาผลต่าง จำกัด ดังนั้นคำถามของฉันคือ: มันจะแม่นยำกว่าถ้าประมาณ H โดยใช้ J ที่แน่นอนของฉันและใช้การประมาณข้างต้นหรือใช้ H ประมาณโดยการหาผลต่าง จำกัด J?

4
GEE: เลือกโครงสร้างความสัมพันธ์ในการทำงานที่เหมาะสม
ฉันเป็นนักระบาดวิทยาที่พยายามเข้าใจ GEEs เพื่อวิเคราะห์การศึกษาแบบกลุ่ม (ใช้การถดถอยปัวซองกับลิงค์บันทึกเพื่อประเมินความเสี่ยงสัมพัทธ์) ฉันมีคำถามสองสามข้อเกี่ยวกับ "ความสัมพันธ์ในการทำงาน" ที่ฉันต้องการให้ใครบางคนมีความรู้มากขึ้นในการชี้แจง: (1) หากฉันทำการวัดซ้ำในบุคคลเดียวกันเป็นปกติแล้วจะสมเหตุสมผลหรือไม่ที่จะถือว่าโครงสร้างที่แลกเปลี่ยนได้ (หรือการวัดอัตชีวประวัติหากการวัดแสดงแนวโน้ม)? สิ่งที่เกี่ยวกับความเป็นอิสระ - มีกรณีใดบ้างที่เราสามารถยอมรับความเป็นอิสระสำหรับการวัดในบุคคลเดียวกันได้หรือไม่? (2) มีวิธีที่เรียบง่ายพอสมควรในการประเมินโครงสร้างที่เหมาะสมโดยการตรวจสอบข้อมูลหรือไม่? (3) ฉันสังเกตเห็นว่าเมื่อเลือกโครงสร้างความเป็นอิสระฉันได้รับการประเมินจุดเดียวกัน (แต่มีข้อผิดพลาดมาตรฐานต่ำกว่า) เช่นเดียวกับเมื่อเรียกใช้การถดถอยแบบปัวซองอย่างง่าย (โดยใช้ R ฟังก์ชั่นglm()และgeeglm()จากแพ็คเกจgeepack) ทำไมสิ่งนี้จึงเกิดขึ้น ฉันเข้าใจว่าด้วย GEEs คุณประเมินโมเดลเฉลี่ยประชากร (ตรงกันข้ามกับเรื่องเฉพาะ) ดังนั้นคุณควรได้รับการประมาณจุดเดียวกันในกรณีการถดถอยเชิงเส้นเท่านั้น (4) ถ้ากลุ่มของฉันอยู่ในหลาย ๆ ที่ตั้ง (แต่วัดหนึ่งต่อคน) ฉันควรเลือกความเป็นอิสระหรือความสัมพันธ์ในการทำงานที่แลกเปลี่ยนได้และทำไม? ฉันหมายความว่าคนในแต่ละไซต์ยังคงเป็นอิสระจากกันใช่มั้ย? ดังนั้นสำหรับรูปแบบเฉพาะเรื่องเช่นฉันจะระบุไซต์เป็นเอฟเฟกต์แบบสุ่ม อย่างไรก็ตามด้วย GEE ความเป็นอิสระและแลกเปลี่ยนได้ให้การประมาณการที่แตกต่างกันและฉันไม่แน่ใจว่าข้อใดที่ดีกว่าในแง่ของสมมติฐานพื้นฐาน (5) GEE สามารถจัดการกับการจัดกลุ่มแบบลำดับชั้นได้สองระดับหรือไม่นั่นคือการศึกษาแบบหลายไซต์พร้อมการวัดซ้ำ ๆ ต่อบุคคลหรือไม่? ถ้าใช่ฉันควรระบุว่าอะไรเป็นตัวแปรการทำคลัสเตอร์ในgeeglm()และสิ่งที่ควรมีความสัมพันธ์ในการทำงานหากมีใครสมมติเช่น "ความเป็นอิสระ" สำหรับระดับแรก (ไซต์) และ "แลกเปลี่ยน" …
19 gee 

1
คาเร็ตและค่าสัมประสิทธิ์ (glmnet)
ฉันสนใจที่จะใช้คาเร็ตเพื่อทำการอนุมานบนชุดข้อมูลเฉพาะ เป็นไปได้ที่จะทำดังต่อไปนี้: สร้างค่าสัมประสิทธิ์ของรูปแบบ glmnet ที่ฉันฝึกในคาเร็ต ฉันต้องการใช้ glmnet เนื่องจากการเลือกคุณสมบัติโดยธรรมชาติเพราะฉันไม่เชื่อว่า glm มีหรือไม่ นอกเหนือจากตัวชี้วัด ROC มีอีกตัวชี้วัดหนึ่งที่ฉันสามารถใช้เพื่อประเมินแบบจำลองหรือไม่ เช่นการปรับ ?R2R2R^2 จุดประสงค์ของการวิเคราะห์นี้คือการหาข้อสรุปเกี่ยวกับผลกระทบของตัวแปรเฉพาะมากกว่าการคาดการณ์ ฉันชอบชุดคาเร็ตเพราะมันง่ายต่อการใช้งานด้วยการใช้เมทริกซ์
19 caret  glmnet 

4
ในทางปฏิบัติผู้คนจัดการกับ ANOVA อย่างไรเมื่อข้อมูลไม่เป็นไปตามสมมติฐาน
นี่ไม่ใช่คำถามเกี่ยวกับสถิติอย่างเด็ดขาด - ฉันสามารถอ่านหนังสือเรียนทั้งหมดเกี่ยวกับสมมติฐานของ ANOVA ได้ - ฉันพยายามคิดว่านักวิเคราะห์การทำงานจริงจัดการกับข้อมูลที่ไม่ตรงตามสมมติฐาน ฉันได้ผ่านคำถามมากมายในเว็บไซต์นี้เพื่อค้นหาคำตอบและฉันค้นหาโพสต์เกี่ยวกับเวลาที่จะไม่ใช้ ANOVA (ในบริบททางคณิตศาสตร์นามธรรมในอุดมคติ) หรือวิธีการทำสิ่งที่ฉันอธิบายด้านล่างใน R. พยายามคิดให้ดีว่าการตัดสินใจของผู้คนเป็นอย่างไรและทำไม ฉันกำลังทำการวิเคราะห์ข้อมูลที่จัดกลุ่มจากต้นไม้ (ต้นไม้จริงไม่ใช่ต้นไม้ทางสถิติ) ในสี่กลุ่ม ฉันได้รับข้อมูลเกี่ยวกับคุณลักษณะ 35 รายการสำหรับต้นไม้แต่ละต้นและฉันจะผ่านแต่ละแอตทริบิวต์เพื่อตรวจสอบว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญในคุณลักษณะนั้นหรือไม่ อย่างไรก็ตามในสองกรณีสมมติฐาน ANOVA นั้นถูกละเมิดเล็กน้อยเนื่องจากความแปรปรวนไม่เท่ากัน (ตามการทดสอบของ Levene โดยใช้ alpha = .05) ตามที่ฉันเห็นตัวเลือกของฉันคือ: 1. พลังแปลงข้อมูลและดูว่ามันเปลี่ยน Levene p-val หรือไม่ 2. ใช้การทดสอบแบบไม่อิงพารามิเตอร์เช่น Wilcoxon (ถ้าเป็นเช่นนั้นแบบไหน?) 3. การแก้ไขผลลัพธ์ ANOVA บางอย่างเช่น Bonferroni (ฉันไม่แน่ใจว่ามีอะไรเช่นนี้หรือไม่) ฉันได้ลองสองตัวเลือกแรกและได้ผลลัพธ์ที่แตกต่างกันเล็กน้อย - ในบางกรณีวิธีการหนึ่งมีความสำคัญและอีกวิธีหนึ่งไม่ ฉันกลัวที่จะตกอยู่ในกับดักจับปลา p-value และฉันกำลังมองหาคำแนะนำที่จะช่วยให้ฉันพิสูจน์ว่าวิธีการใช้งานแบบใด …

3
ความสัมพันธ์ระหว่างการถดถอยของสันเขากับการถดถอย PCA
ฉันจำได้ว่ามีการอ่านการเชื่อมต่อระหว่างสันเขา (กับการทำให้เป็นมาตรฐานℓ2ℓ2\ell_2 ) และการถดถอย PCA: ในขณะที่ใช้การถดถอยปกติกับ hyperparameterถ้าแล้วการถดถอยนั้นเทียบเท่ากับการลบ ตัวแปร PC ที่มีค่าลักษณะเฉพาะน้อยที่สุด λ λ →การ0ℓ2ℓ2\ell_2λλ\lambdaλ→0λ→0\lambda \to 0 ทำไมเรื่องนี้ถึงเป็นจริง? สิ่งนี้เกี่ยวข้องกับกระบวนการเพิ่มประสิทธิภาพหรือไม่ ฉันจะคาดหวังให้เทียบเท่ากับ OLS อย่างไร้เดียงสา ใครบ้างมีการอ้างอิงสำหรับเรื่องนี้?

2
ป่าที่สุ่มขึ้นมามากเกินไป?
ฉันกำลังทดลองกับป่าสุ่มที่มี scikit เรียนรู้และฉันได้รับผลลัพธ์ที่ยอดเยี่ยมจากชุดการฝึกอบรมของฉัน แต่ผลลัพธ์ที่ได้ค่อนข้างแย่ในชุดการทดสอบของฉัน ... นี่คือปัญหา (ได้รับแรงบันดาลใจจากโป๊กเกอร์) ที่ฉันพยายามจะแก้ไข: เมื่อได้ไพ่ของผู้เล่น A, ไพ่ในหลุมของผู้เล่น B และไพ่ปัด (3 ใบ), ผู้เล่นคนไหนมีมือที่ดีที่สุด? ในทางคณิตศาสตร์นี่คือ 14 อินพุต (7 ใบ - หนึ่งอันดับและหนึ่งชุดสำหรับแต่ละคน) และหนึ่งเอาต์พุต (0 หรือ 1) นี่คือผลลัพธ์บางส่วนของฉัน: Training set size: 600k, test set size: 120k, number of trees: 25 Success rate in training set: 99.975% Success rate in testing …

4
ปัญหาเกี่ยวกับการพิสูจน์ความคาดหวังตามเงื่อนไขว่าเป็นตัวพยากรณ์ที่ดีที่สุด
ฉันมีปัญหากับการพิสูจน์ E(Y|X)∈argming(X)E[(Y−g(X))2]E(Y|X)∈arg⁡ming(X)E[(Y−g(X))2]E(Y|X) \in \arg \min_{g(X)} E\Big[\big(Y - g(X)\big)^2\Big] ซึ่งน่าจะเปิดเผยความเข้าใจผิดที่คาดการณ์ไว้อย่างลึกซึ้งและความคาดหวังตามเงื่อนไข หลักฐานที่ฉันรู้จะเป็นดังนี้ (สามารถพบหลักฐานอีกรุ่นหนึ่งได้ที่นี่ ) ===หาเรื่องนาทีก.( X)E[ ( Y)- กรัม( x ) )2]หาเรื่องนาทีก.( X)E[ ( Y)- E( Y| X) + E( Y| X) - g( X) )2]หาเรื่องนาทีก.( x )E[ ( Y)- E( Y| X) )2+ 2 ( Y)- E( Y| X) ) ( …

1
วิธีการแสดงภาพฟังก์ชั่นความหนาแน่น 3 มิติ
อะไรคือวิธีที่ดีที่สุดในการแสดงภาพกราฟิกด้วยฟังก์ชั่นความหนาแน่น 3 มิติ ในขณะที่ฉันต้องการเห็นภาพ Z= fX, วาย( x , y)Z=ฉX,Y(x,Y)z=f_{X,Y}(x,y) ? ไม่จำเป็น แต่Rรหัสสำหรับสิ่งนี้จะดีมาก

4
การวิเคราะห์พลังงานจำเป็นในสถิติแบบเบย์หรือไม่?
ฉันค้นคว้า Bayesian แล้วเมื่อไม่นานมานี้ หลังจากอ่านเกี่ยวกับปัจจัย Bayes ฉันถูกทิ้งสงสัยว่าการวิเคราะห์พลังงานเป็นสิ่งจำเป็นในมุมมองของสถิตินี้หรือไม่ เหตุผลหลักของฉันสำหรับการสงสัยว่านี่คือปัจจัยของเบย์จริง ๆ แล้วดูเหมือนจะเป็นอัตราส่วนความน่าจะเป็น เมื่อเป็นเช่น 25: 1 ดูเหมือนว่าฉันสามารถเรียกคืน ฉันอยู่ไกลไหม การอ่านอื่นใดที่ฉันสามารถทำได้เพื่อเรียนรู้เพิ่มเติม กำลังอ่านหนังสือเล่มนี้: รู้เบื้องต้นเกี่ยวกับสถิติแบบเบย์โดย WM Bolstad (Wiley-Interscience; 2nd ed., 2007)

1
รับค่า p สำหรับ“ multinom” ใน R (แพ็คเกจ nnet)
ฉันจะรับค่า p โดยใช้multinomฟังก์ชันของnnetแพ็คเกจได้Rอย่างไร ฉันมีชุดข้อมูลซึ่งประกอบด้วย“ คะแนนพยาธิวิทยา” (ขาด, อ่อน, รุนแรง) เป็นตัวแปรผลลัพธ์และสองผลหลัก: อายุ (สองปัจจัย: ยี่สิบ / สามสิบวัน) และกลุ่มการรักษา (สี่ปัจจัย: การติดเชื้อโดยไม่ต้อง ATB; ATB1; ที่ติดเชื้อ + ATB2; ที่ติดเชื้อ + ATB3) ก่อนอื่นฉันพยายามจัดรูปแบบการถดถอยตามลำดับซึ่งดูเหมือนจะเหมาะสมกว่าเนื่องจากลักษณะของตัวแปรตาม (ลำดับ) ของฉัน อย่างไรก็ตามข้อสันนิษฐานของอัตราต่อรองถูกละเมิดอย่างรุนแรง (กราฟิก) ซึ่งทำให้ฉันใช้โมเดล multinomial แทนโดยใช้nnetแพ็คเกจ ก่อนอื่นฉันเลือกระดับผลลัพธ์ที่ฉันต้องใช้เป็นหมวดหมู่พื้นฐาน: Data$Path <- relevel(Data$Path, ref = "Absent") จากนั้นฉันต้องตั้งค่าหมวดหมู่พื้นฐานสำหรับตัวแปรอิสระ: Data$Age <- relevel(Data$Age, ref = "Twenty") Data$Treat <- relevel(Data$Treat, …

1
ฉันจะค้นหาค่าที่ไม่ได้ระบุใน (ตารางสอดแทรก) ในตารางสถิติได้อย่างไร
บ่อยครั้งที่ผู้คนใช้โปรแกรมเพื่อรับค่า p แต่บางครั้งด้วยเหตุผลใดก็ตามอาจจำเป็นต้องได้รับคุณค่าที่สำคัญจากชุดของตาราง ให้ตารางสถิติที่มีระดับนัยสำคัญที่ จำกัด และจำนวนองศาอิสระที่ จำกัด ฉันจะรับค่าวิกฤตที่ระดับความสำคัญอื่น ๆ หรือองศาอิสระได้อย่างไร (เช่นกับตาราง , chi-square หรือ ) ?FtttFFF นั่นคือฉันจะค้นหาค่า "ในระหว่าง" ค่าในตารางได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.