สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
มีวิธีง่ายๆในการตรวจจับผู้ผิดหรือไม่
ฉันสงสัยว่ามีวิธีง่ายๆในการตรวจจับค่าผิดปกติหรือไม่ สำหรับหนึ่งในโครงการของฉันซึ่งโดยทั่วไปมีความสัมพันธ์กันระหว่างจำนวนครั้งที่ผู้ตอบแบบสอบถามมีส่วนร่วมในการออกกำลังกายในหนึ่งสัปดาห์และจำนวนครั้งที่พวกเขากินนอกบ้าน (อาหารจานด่วน) ในหนึ่งสัปดาห์ฉันดึง scatterplot และถอด จุดข้อมูลที่รุนแรง (Scatterplot มีความสัมพันธ์เชิงลบ) สิ่งนี้ขึ้นอยู่กับการตัดสินคุณค่า (ขึ้นอยู่กับแผนการกระจายที่จุดข้อมูลเหล่านี้รุนแรงมาก) ฉันไม่ได้ทำการทดสอบทางสถิติใด ๆ ฉันแค่สงสัยว่านี่เป็นวิธีที่ดีในการจัดการกับคนผิด ฉันมีข้อมูลจาก 350 คนดังนั้นการสูญเสีย (พูด) 20 จุดข้อมูลไม่ได้เป็นสิ่งที่ฉันกังวล

3
ทางเลือกของฟังก์ชั่นการเปิดใช้งานตาข่ายซ่อนเร้น
ฉันได้อ่านที่อื่นแล้วว่าฟังก์ชั่นการเปิดใช้งานเลเยอร์ที่ซ่อนอยู่ใน NN ควรเป็นไปตามความต้องการเช่นถ้าคุณต้องการค่าในช่วง -1 ถึง 1 ใช้ tanh และใช้ sigmoid สำหรับช่วง 0 ถึง 1 คำถามของฉันคือใครจะรู้ว่าสิ่งที่ต้องการคืออะไร? มันขึ้นอยู่กับช่วงของเลเยอร์อินพุทเช่นใช้ฟังก์ชั่นที่สามารถครอบคลุมช่วงเต็มของเลเยอร์ของค่าหรือไม่ก็สะท้อนการกระจายของเลเยอร์อินพุท (ฟังก์ชั่นเกาส์) หรือไม่? หรือต้องการปัญหา / โดเมนที่เฉพาะเจาะจงและจำเป็นต้องมีประสบการณ์ / วิจารณญาณในการเลือกตัวเลือกนี้หรือไม่? หรือเป็นเพียง "ใช้สิ่งที่ให้ข้อผิดพลาดในการฝึกอบรมขั้นต่ำที่ผ่านการตรวจสอบความถูกต้องขั้นต่ำ"

2
ในการเลือกตั้งเราจะบอกความมั่นใจได้อย่างไรว่าผู้สมัครจะเป็นผู้ชนะ
มีการเลือกตั้งทั่วไปที่ฉันอาศัยอยู่เมื่อวานนี้และเครือข่ายโทรทัศน์เริ่มเรียกผู้ชนะมานานก่อนที่จะมีการเปิดบัตรลงคะแนนทั้งหมด พวกเขาเปิดใช้งานได้ดีในทุกบัญชีและฉันไม่แปลกใจเลยที่พวกเขาทำ ฉันรู้ว่าสถิติเป็นไปได้อย่างแน่นอน ยังฉันอยากรู้ สมมติว่า: เราได้เปิดออกจากบัตรลงคะแนนj ;iiijjj เรามีผู้สมัครที่มีคะแนนในปัจจุบันมีค1 , ค2 , ค3 , . . c n ;nnnc1,c2,c3,...cnc1,c2,c3,...cnc_1, c_2, c_3, ... c_n เราจะคำนวณความแน่นอนที่ผู้สมัครชั้นนำเป็นผู้ชนะได้อย่างไร?
14 elections 

1
มีทางเลือกอื่นสำหรับการทดสอบ Kolmogorov-Smirnov สำหรับข้อมูลที่เชื่อมโยงกับการแก้ไขหรือไม่?
ฉันได้รับข้อมูลจำนวนมากจากตัวอย่างสองตัวอย่าง (ควบคุมและจัดการ) แต่ละค่ามีหลายพันค่าซึ่งต้องผ่านการทดสอบที่สำคัญใน R. ตามทฤษฎีค่าควรจะต่อเนื่อง แต่เนื่องจากการปัดเศษทำโดยซอฟต์แวร์การวัดที่พวกเขาไม่ได้ ' และพวกเขามีความผูกพัน การแจกแจงไม่เป็นที่รู้จักและรูปร่างของการควบคุมและการแจกแจงที่ได้รับการรักษาอาจแตกต่างกันดังนั้นฉันต้องการใช้การทดสอบแบบไม่อิงพารามิเตอร์เพื่อเปรียบเทียบว่าความแตกต่างระหว่างตัวอย่างมีความสำคัญสำหรับ 10 ปัจจัยที่แตกต่างกันหรือไม่ ฉันคิดว่าจะใช้การทดสอบ Kolmogorov-Smirnov แต่มันไม่เหมาะสำหรับความสัมพันธ์ ฉันเพิ่งสะดุดกับห้องสมุด R ใหม่ที่เรียกว่าการจับคู่ที่ดำเนินการทดสอบรุ่น bootstrap ของ KS และยอมรับความสัมพันธ์ ตอนนี้เป็นความคิดที่ดีจริง ๆ หรือฉันควรใช้การทดสอบอื่นแทนหรือไม่ และฉันจำเป็นต้องปรับค่า p หรือไม่?

5
เหตุใดการเลือกใช้แบบจำลองโดยใช้ AIC จึงให้ค่า p ที่ไม่สำคัญสำหรับตัวแปร
ฉันมีคำถามบางอย่างเกี่ยวกับ AIC และหวังว่าคุณจะสามารถช่วยฉันได้ ฉันใช้การเลือกแบบจำลอง (ย้อนกลับหรือไปข้างหน้า) ตาม AIC กับข้อมูลของฉัน และตัวแปรที่เลือกบางตัวก็จบลงด้วยค่า p> 0.05 ฉันรู้ว่าผู้คนกำลังพูดว่าเราควรเลือกแบบจำลองตาม AIC แทนค่า p ดังนั้นดูเหมือนว่า AIC และค่า p เป็นแนวคิดสองประการที่แตกต่างกัน มีคนบอกฉันว่าอะไรคือความแตกต่าง? สิ่งที่ฉันเข้าใจคือ: สำหรับการเลือกย้อนหลังโดยใช้ AIC สมมติว่าเรามี 3 ตัวแปร (var1, var2, var3) และ AIC ของรุ่นนี้คือ AIC * หากไม่รวมหนึ่งในสามของตัวแปรเหล่านี้จะไม่จบลงด้วย AIC ซึ่งต่ำกว่า AIC * อย่างมาก (ในแง่ของการกระจาย ch-square ด้วย df = 1) จากนั้นเราจะบอกว่าตัวแปรทั้งสามนี้เป็นผลลัพธ์สุดท้าย p-value ที่สำคัญสำหรับตัวแปร …

2
MCMC Geweke การวินิจฉัย
ฉันกำลังเรียกใช้ตัวอย่างเมือง (C ++) และต้องการใช้ตัวอย่างก่อนหน้านี้เพื่อประมาณอัตราการลู่เข้า สิ่งหนึ่งที่ง่ายต่อการใช้การวินิจฉัยที่ฉันพบคือการวินิจฉัยของ Gewekeซึ่งคำนวณความแตกต่างระหว่างตัวอย่างสองวิธีหมายถึงหารด้วยข้อผิดพลาดมาตรฐานโดยประมาณ ข้อผิดพลาดมาตรฐานประมาณจากความหนาแน่นสเปกตรัมที่ศูนย์ Zn=θ¯A−θ¯B1nASAθ^(0)+1nBSBθ^(0)−−−−−−−−−−−−−−−−√,Zn=θ¯A−θ¯B1nASθA^(0)+1nBSθB^(0),Z_n=\frac{\bar{\theta}_A-\bar{\theta}_B}{\sqrt{\frac{1}{n_A}\hat{S_{\theta}^A}(0)+\frac{1}{n_B}\hat{S_{\theta}^B}(0)}}, โดยที่ , Bเป็นหน้าต่างสองบานภายในเชนมาร์คอฟ ฉันได้ทำการวิจัยเกี่ยวกับ^ S A θ ( 0 )และ^ S B θ ( 0 )แต่อ่านความยุ่งเหยิงของวรรณคดีเรื่องความหนาแน่นสเปกตรัมพลังงานและความหนาแน่นสเปกตรัมพลังงานแต่ฉันไม่ใช่ผู้เชี่ยวชาญในหัวข้อเหล่านี้ ฉันต้องการคำตอบด่วน: ปริมาณเหล่านี้เหมือนกับความแปรปรวนตัวอย่างหรือไม่ ถ้าไม่เป็นสูตรในการคำนวณพวกเขาคืออะไร?AAABBBSAθ^(0)SθA^(0)\hat{S_{\theta}^A}(0)SBθ^(0)SθB^(0)\hat{S_{\theta}^B}(0) θθ\thetaθ(X)θ(X)\theta(X)SAθ^(0)SθA^(0)\hat{S_{\theta}^A}(0) SSS
14 mcmc  diagnostic 

5
ลบจุดที่ไม่เกี่ยวข้องใกล้กับจุดศูนย์กลางของ QQ-plot
ฉันพยายามพล็อต QQ-plot ด้วยชุดข้อมูลสองชุดประมาณ 1.2 ล้านจุดใน R (ใช้ qqplot และป้อนข้อมูลลงใน ggplot2) การคำนวณนั้นง่ายพอ แต่กราฟผลลัพธ์นั้นโหลดช้าอย่างเจ็บปวดเนื่องจากมีหลายจุด ฉันได้ลองใช้การประมาณเชิงเส้นเพื่อลดจำนวนคะแนนเป็น 10,000 (นี่คือสิ่งที่ฟังก์ชั่น qqplot ทำอยู่แล้วถ้าหนึ่งในชุดข้อมูลของคุณมีขนาดใหญ่กว่าอีกชุดหนึ่ง) แต่คุณสูญเสียรายละเอียดจำนวนมากในหาง จุดข้อมูลส่วนใหญ่ที่อยู่ตรงกลางนั้นไร้ประโยชน์ - มันซ้อนทับกันมากจนอาจมีประมาณ 100 ต่อพิกเซล มีวิธีง่ายๆในการลบข้อมูลที่อยู่ใกล้กันเกินไปโดยไม่ปล่อยข้อมูลที่กระจัดกระจายไปทางหางหรือไม่?

1
มีแบนด์วิดธ์ที่เหมาะสมที่สุดสำหรับการประมาณความหนาแน่นเคอร์เนลของอนุพันธ์หรือไม่?
ฉันต้องการประเมินฟังก์ชันความหนาแน่นตามชุดการสังเกตโดยใช้ตัวประมาณความหนาแน่นของเคอร์เนล จากการสังเกตเดียวกันฉันต้องประเมินอนุพันธ์อันดับหนึ่งและสองของความหนาแน่นโดยใช้อนุพันธ์ของเครื่องประมาณความหนาแน่นเคอร์เนล แบนด์วิดท์จะมีผลอย่างมากจากผลลัพธ์สุดท้าย ก่อนอื่นฉันรู้ว่ามีฟังก์ชั่น R สองตัวที่ให้แบนด์วิดท์ของ KDE ฉันไม่แน่ใจว่าจะเลือกอันไหนมากกว่า ใครช่วยแนะนำหนึ่งในฟังก์ชั่น R เหล่านี้สำหรับแบนด์วิดธ์ของ KDE ได้หรือไม่? ประการที่สองสำหรับอนุพันธ์ของ KDE ฉันควรเลือกแบนด์วิดธ์เดียวกันหรือไม่

3
แนวคิดเบื้องหลังโมเดลเอฟเฟกต์แบบคงที่ / แบบสุ่ม
ใครสามารถช่วยฉันเข้าใจโมเดลเอฟเฟกต์แบบสุ่มและแบบคงที่ได้หรือไม่? คุณอาจอธิบายด้วยวิธีของคุณเองหากคุณได้แยกย่อยแนวคิดเหล่านี้หรือนำฉันไปยังแหล่งข้อมูล (หนังสือโน้ตเว็บไซต์) ด้วยที่อยู่เฉพาะ (หมายเลขหน้าบทที่ ฯลฯ ) เพื่อให้ฉันสามารถเรียนรู้ได้โดยไม่มีความสับสน นี่เป็นความจริงหรือไม่: "เรามีผลกระทบคงที่โดยทั่วไปและผลกระทบแบบสุ่มเป็นกรณีเฉพาะ" โดยเฉพาะอย่างยิ่งฉันจะขอบคุณเป็นอย่างยิ่งที่จะได้รับความช่วยเหลือเมื่อคำอธิบายเปลี่ยนไปจากรุ่นทั่วไปไปยังรุ่นที่เฉพาะเจาะจงที่มีเอฟเฟกต์แบบคงที่และแบบสุ่ม

1
การตีความเอาต์พุตการถดถอยจากโมเดลผสมเมื่อการโต้ตอบระหว่างตัวแปรเด็ดขาดถูกรวมไว้
ฉันมีคำถามเกี่ยวกับการใช้โมเดลผสม / Lmer ของฉัน โมเดลพื้นฐานคือ: lmer(DV ~ group * condition + (1|pptid), data= df) กลุ่มและเงื่อนไขเป็นทั้งสองปัจจัย: กลุ่มมีสองระดับ (groupA, groupB) และเงื่อนไขมีสามระดับ (เงื่อนไข 1, เงื่อนไข 2, เงื่อนไข 3) มันเป็นข้อมูลจากวิชามนุษย์ดังนั้น pptid จึงเป็นผลแบบสุ่มสำหรับแต่ละคน โมเดลพบสิ่งต่อไปนี้พร้อมกับเอาต์พุตค่า p: Estimate MCMCmean HPD95lower HPD95upper pMCMC Pr(>|t|) (Intercept) 6.1372 6.1367 6.0418 6.2299 0.0005 0.0000 groupB -0.0614 -0.0602 -0.1941 0.0706 0.3820 0.3880 …

3
ช่วงความมั่นใจสำหรับรุ่น GAM
mgcv::gamหน้าความช่วยเหลือของReading : ความมั่นใจ / ช่วงเวลาที่น่าเชื่อถือนั้นพร้อมใช้งานสำหรับปริมาณใด ๆ ที่คาดการณ์ไว้โดยใช้แบบจำลองที่ติดตั้งไว้ อย่างไรก็ตามฉันไม่สามารถหาวิธีที่จะได้รับจริง ฉันคิดว่าpredict.gamจะมีtype=confidenceและlevelพารามิเตอร์ แต่ไม่ได้ คุณช่วยฉันเกี่ยวกับวิธีการสร้างมันได้หรือไม่

2
ตรวจสอบจุดสูงสุดที่มีนัยสำคัญทางสถิติ
ฉันมีชุดของข้อมูลที่เป็นและxฉันต้องการทดสอบสมมติฐานต่อไปนี้: มีจุดสูงสุดใน ; นั่นคือเมื่อเพิ่มขึ้นเพิ่มขึ้นก่อนแล้วจึงลดลงYYyxxxYYyxxxYYy ความคิดแรกของฉันคือการติดตั้งและใน SLR นั่นคือถ้าฉันพบว่าสัมประสิทธิ์ก่อนเป็นบวกอย่างมีนัยสำคัญและสัมประสิทธิ์ก่อนเป็นลบอย่างมีนัยสำคัญฉันก็สนับสนุนสมมติฐาน อย่างไรก็ตามสิ่งนี้จะตรวจสอบความสัมพันธ์ประเภทเดียวเท่านั้น (สมการกำลังสอง) และอาจไม่จำเป็นต้องมีอยู่ของจุดสูงสุดxxxx2x2x^2xxxx2x2x^2 จากนั้นฉันก็คิดว่าจะหาเช่นภูมิภาค (ค่าเรียงลำดับ)นั่นคืออยู่ระหว่างและสองส่วนอื่น ๆ ของที่มีคะแนนอย่างน้อยที่สุดเท่ากับและ และอย่างมีนัยสำคัญ หากสมมติฐานที่เป็นความจริงที่เราควรคาดหวังว่าภูมิภาคดังกล่าวจำนวนมากขดังนั้นหากจำนวนมีขนาดใหญ่พอสมควรก็ควรมีการสนับสนุนสมมติฐานขขbxxxขขbaaaคคcxxxขขbYข¯> ya¯Yข¯>Ya¯\bar{y_b}>\bar{y_a}Yข¯> yค¯Yข¯>Yค¯\bar{y_b}>\bar{y_c}ขขbขขb คุณคิดว่าฉันอยู่ในเส้นทางที่ถูกต้องเพื่อหาแบบทดสอบที่เหมาะสมสำหรับสมมติฐานของฉันหรือไม่? หรือฉันจะประดิษฐ์วงล้อและมีวิธีการที่กำหนดไว้สำหรับปัญหานี้หรือไม่? ฉันจะซาบซึ้งในความคิดเห็นของคุณ UPDATE ขึ้นอยู่กับตัวแปรของฉันคือนับ (จำนวนเต็มไม่เป็นลบ)YYy

2
ชุดซอฟต์แวร์ที่เหมาะสมที่สุดสำหรับการวิเคราะห์แบบเบย์
ฉันสงสัยว่าพวกคุณแนะนำแพคเกจทางสถิติสำหรับการดำเนินการอนุมานแบบเบย์ ตัวอย่างเช่นฉันรู้ว่าคุณสามารถเรียกใช้ openBUGS หรือ winBUGS เป็น standalones หรือคุณสามารถเรียกพวกเขาจาก R แต่ R ยังมีแพ็คเกจของตัวเองหลายตัว (MCMCPack, BACCO) ซึ่งสามารถทำการวิเคราะห์แบบเบส์ ไม่มีใครมีคำแนะนำใด ๆ ที่เป็นแพคเกจสถิติเบย์ใน R ที่ดีที่สุดหรือเกี่ยวกับทางเลือกอื่น ๆ (Matlab หรือ Mathematica?) คุณสมบัติหลักที่ฉันต้องการเปรียบเทียบคือประสิทธิภาพการใช้งานง่ายความเสถียรและความยืดหยุ่น

1
วิธีการจัดการกับการผสมผสานของไบนารีและอินพุตอย่างต่อเนื่องในเครือข่ายประสาทเทียม?
ฉันใช้แพ็คเกจ nnet ใน R เพื่อพยายามสร้าง ANN เพื่อคาดการณ์ราคาอสังหาริมทรัพย์สำหรับคอนโด (โครงการส่วนตัว) ฉันยังใหม่กับสิ่งนี้และไม่มีพื้นฐานทางคณิตศาสตร์ดังนั้นโปรดเปลือยกับฉัน ฉันมีตัวแปรอินพุตที่เป็นทั้งไบนารีและต่อเนื่อง ตัวอย่างเช่นตัวแปรไบนารีบางตัวที่ แต่เดิมใช่ / ไม่ใช่ถูกแปลงเป็น 1/0 สำหรับโครงข่ายประสาท ตัวแปรอื่น ๆ Sqftที่มีอย่างต่อเนื่องเช่น ตัวอย่างการป้อนข้อมูล ฉันปรับมาตรฐานทั้งหมดให้อยู่ในระดับ 0-1 อาจBedroomsและBathroomsไม่ควรเป็นมาตรฐานเนื่องจากช่วงของพวกเขานั้นมีเพียง 0-4 ใช่ไหม อินพุตผสมเหล่านี้มีปัญหาสำหรับ ANN หรือไม่ ฉันได้ผลลัพธ์ที่ถูกต้อง แต่เมื่อตรวจสอบน้ำหนักของ ANN ที่เลือกไว้อย่างละเอียดแล้วดูเหมือนว่าไม่สมเหตุสมผล รหัสของฉันอยู่ด้านล่างคำแนะนำใด ๆ ANN <- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + …

3
เหตุใดข้อความที่ตัดตอนมานี้บอกว่าการประมาณค่าเบี่ยงเบนมาตรฐานโดยปกติจะไม่เกี่ยวข้องกัน
ฉันอ่านเกี่ยวกับการคำนวณการประมาณค่าเบี่ยงเบนมาตรฐานและแหล่งข้อมูลที่ฉันอ่านระบุไว้ (... ) ยกเว้นในบางสถานการณ์ที่สำคัญงานมีความเกี่ยวข้องเพียงเล็กน้อยกับการใช้งานสถิติเนื่องจากความต้องการของมันถูกหลีกเลี่ยงโดยขั้นตอนมาตรฐานเช่นการใช้การทดสอบที่สำคัญและช่วงความเชื่อมั่นหรือโดยใช้การวิเคราะห์แบบเบย์ ฉันสงสัยว่าถ้าใครสามารถอธิบายเหตุผลของข้อความนี้ได้ตัวอย่างเช่นช่วงความมั่นใจไม่ได้ใช้ค่าเบี่ยงเบนมาตรฐานเป็นส่วนหนึ่งของการคำนวณหรือไม่ ดังนั้นช่วงความเชื่อมั่นจะไม่ได้รับผลกระทบจากค่าเบี่ยงเบนมาตรฐานแบบเอนเอียงหรือไม่? แก้ไข: ขอบคุณสำหรับคำตอบจนถึงตอนนี้ แต่ฉันไม่แน่ใจว่าฉันทำตามเหตุผลบางอย่างของพวกเขาดังนั้นฉันจะเพิ่มตัวอย่างง่าย ๆ ประเด็นก็คือว่าถ้าแหล่งข้อมูลนั้นถูกต้องแล้วก็มีบางอย่างผิดปกติจากการสรุปตัวอย่างและฉันอยากให้ใครสักคนชี้ให้เห็นว่าค่า p ไม่ได้ขึ้นอยู่กับค่าเบี่ยงเบนมาตรฐานอย่างไร สมมติว่านักวิจัยต้องการทดสอบว่าคะแนนเฉลี่ยของนักเรียนระดับประถมห้าในการทดสอบในเมืองของเขาหรือเธอแตกต่างจากค่าเฉลี่ยของชาติที่ 76 ด้วยระดับนัยสำคัญ 0.05 หรือไม่ ผู้วิจัยสุ่มตัวอย่างนักเรียน 20 คน ค่าเฉลี่ยตัวอย่างเท่ากับ 80.85 ค่าเบี่ยงเบนมาตรฐานตัวอย่างเท่ากับ 8.87 ซึ่งหมายความว่า: t = (80.85-76) / (8.87 / sqrt (20)) = 2.44 จากนั้นใช้ตาราง t เพื่อคำนวณว่าค่าความน่าจะเป็นแบบสองด้านที่เท่ากับ 2.44 กับ 19 df เท่ากับ 0.025 นี่ต่ำกว่าระดับนัยสำคัญ 0.05 เราจึงปฏิเสธสมมติฐานว่าง ดังนั้นในตัวอย่างนี้ค่า p …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.