สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
หากเคอร์เนล Epanechnikov เหมาะสมที่สุดในทางทฤษฎีเมื่อทำการประมาณค่าความหนาแน่นเคอร์เนลทำไมจึงไม่ใช้บ่อยกว่านี้
ฉันได้อ่าน (เช่นที่นี่ ) ว่าเคอร์เนล Epanechnikov เหมาะสมที่สุดอย่างน้อยก็ในทางทฤษฎีเมื่อทำการประมาณความหนาแน่นของเคอร์เนล หากเป็นจริงแล้วทำไมเกาส์เซียนถึงปรากฏบ่อยขึ้นในฐานะเคอร์เนลเริ่มต้นหรือในหลาย ๆ กรณีเป็นเคอร์เนลเพียงตัวเดียวในไลบรารีการประเมินความหนาแน่น

3
วิธีจัดการกับตัวแปรเด็ดขาดลำดับเป็นตัวแปรอิสระ
ฉันใช้โมเดล logit ตัวแปรตามของฉันคือไบนารี 1.very good, 2.good, 3.average, 4.poor and 5.very poorแต่ฉันมีตัวแปรอิสระซึ่งเป็นเด็ดขาดและมีการตอบ: ดังนั้นมันจึงเป็นอันดับ ("เด็ดขาดเชิงปริมาณ") ฉันไม่แน่ใจว่าจะจัดการกับสิ่งนี้อย่างไรในแบบจำลอง gretlฉันใช้ [หมายเหตุจาก @ttnphns: แม้ว่าคำถามจะบอกว่าตัวแบบนั้นเป็น logit (เนื่องจากการพึ่งพานั้นจัดอยู่ในหมวดหมู่) แต่ประเด็นสำคัญ - ตัวแปรอิสระลำดับ- มีความเหมือนกัน ดังนั้นคำถามก็มีความเกี่ยวข้องเท่าเทียมกันกับการพูดการถดถอยเชิงเส้นเช่นกันเช่นเดียวกับการถดถอยแบบโลจิสติกหรือแบบจำลองการบันทึกอื่น ๆ ]

2
ข้อได้เปรียบของการเพิ่มประสิทธิภาพจับกลุ่มอนุภาคเหนือการปรับแต่งแบบเบย์สำหรับการปรับจูนพารามิเตอร์?
มีการวิจัยร่วมสมัยจำนวนมากเกี่ยวกับการเพิ่มประสิทธิภาพแบบเบส์ (1) สำหรับการปรับแต่งพารามิเตอร์ไฮเปอร์พารามิเตอร์ ML แรงจูงใจในการขับขี่ที่นี่คือจำเป็นต้องมีจุดข้อมูลจำนวนน้อยที่สุดเพื่อทำการเลือกอย่างชาญฉลาดเกี่ยวกับจุดที่คุ้มค่าที่จะลอง (การเรียกใช้ฟังก์ชันตามวัตถุประสงค์มีราคาแพง - ปัญหา SVM ขนาดใหญ่ที่ฉันทำงานอยู่อาจใช้เวลาระหว่างนาทีและชั่วโมงให้เสร็จสมบูรณ์ ในอีกทางหนึ่งOptunityคือการนำอนุภาคไปจับที่ที่อยู่สำหรับงานเดียวกัน ฉันไม่คุ้นเคยกับ PSO อย่างท่วมท้น แต่ดูเหมือนว่ามันจะต้องมีประสิทธิภาพน้อยกว่าในแง่ของการต้องใช้จำนวนจุดทดลองมากขึ้นดังนั้นการประเมินฟังก์ชันวัตถุประสงค์เพื่อประเมินพื้นผิวพารามิเตอร์ ฉันไม่มีรายละเอียดสำคัญที่ทำให้ PSO เป็นที่ต้องการของ BO ในบริบทการเรียนรู้ของเครื่องหรือไม่ หรือเป็นตัวเลือกระหว่างทั้งสองบริบทโดยเนื้อแท้เสมอสำหรับงานการปรับจูนพารามิเตอร์? (1) Shahriari et al, "นำมนุษย์ออกจากวง: การทบทวน Bayesian Optimizaiton"

2
วิธีการสร้างฟังก์ชั่นตอบแทนในการเรียนรู้เสริม
ในขณะที่เรียนเสริมการเรียนรู้ฉันได้พบฟังก์ชั่นของรางวัลหลายรูปแบบ: , R ( s , a , s ′ )และแม้แต่ฟังก์ชั่นของรางวัลที่ขึ้นอยู่กับสถานะปัจจุบันเท่านั้น ต้องบอกว่าฉันรู้ว่ามันไม่ใช่เรื่องง่ายที่จะ 'สร้าง' หรือ 'กำหนด' ฟังก์ชั่นของรางวัลR(s,a)R(s,a)R(s,a)R(s,a,s′)R(s,a,s′)R(s,a,s') นี่คือคำถามของฉัน: มีกฎเกี่ยวกับวิธีการทำฟังก์ชั่นของรางวัลหรือไม่ มีฟังก์ชั่นของรางวัลในรูปแบบอื่น ๆ หรือไม่? ตัวอย่างเช่นรูปแบบพหุนามที่อาจขึ้นอยู่กับรัฐหรือไม่

2
สามารถใช้การไล่ระดับสีแบบลาดเอียงกับฟังก์ชั่นที่ไม่นูนได้หรือไม่?
ฉันแค่เรียนรู้เกี่ยวกับการปรับให้เหมาะสมและมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างการเพิ่มประสิทธิภาพของนูนและที่ไม่นูน จากความเข้าใจของฉันฟังก์ชั่นนูนคือหนึ่งที่ "ส่วนของเส้นตรงระหว่างจุดสองจุดใด ๆ บนกราฟของฟังก์ชันอยู่เหนือหรือบนกราฟ" ในกรณีนี้สามารถใช้อัลกอริทึมการไล่ระดับสีได้เนื่องจากมีค่าต่ำสุดเพียงครั้งเดียวและการไล่ระดับสีจะนำคุณไปสู่ระดับต่ำสุดเสมอ อย่างไรก็ตามสิ่งที่เกี่ยวกับฟังก์ชั่นในรูปนี้: ที่นี่ส่วนของเส้นสีน้ำเงินตัดผ่านฟังก์ชันสีแดง อย่างไรก็ตามฟังก์ชั่นยังคงมีค่าต่ำสุดเพียงครั้งเดียวดังนั้นการไล่ระดับสีแบบลาดชันจะยังคงนำคุณไปสู่ระดับต่ำสุดนี้ ดังนั้นคำถามของฉันคือ: 1) ฟังก์ชั่นในรูปนี้นูนหรือไม่นูน? 2) ถ้าไม่ใช่แบบนูนสามารถใช้วิธีการหาค่าเหมาะที่สุดแบบนูน (การไล่ระดับสี) ได้หรือไม่

1
ข้อมูลควรอยู่กึ่งกลาง + สเกลก่อนใช้ t-SNE หรือไม่
คุณสมบัติของข้อมูลบางอย่างของฉันมีค่ามากในขณะที่คุณสมบัติอื่นมีค่าน้อยกว่ามาก จำเป็นหรือไม่ที่จะรวมศูนย์ + ข้อมูลสเกลก่อนใช้ t-SNE เพื่อป้องกันอคติต่อค่าที่มากขึ้น ฉันใช้การปฏิบัติ sklearn.manifold.TSNE ของ Python กับการวัดระยะทางแบบปริภูมิแบบปริยาย

2
ขนาดของเอฟเฟกต์สำหรับ Wilcoxon ได้ลงลายมือชื่อทดสอบยศแล้วหรือยัง?
ผู้เขียนบางคน (เช่น Pallant, 2007, p. 225; ดูภาพด้านล่าง) แนะนำให้คำนวณขนาดของเอฟเฟกต์สำหรับการทดสอบยศของวิลคอกซันโดยการแบ่งสถิติการทดสอบด้วยสแควร์รูทของจำนวนการสังเกต: r = Znx+ nY√R=Znx+nYr = \frac{Z}{\sqrt{n_x + n_y}} Zคือผลลัพธ์สถิติการทดสอบโดย SPSS (ดูภาพด้านล่าง) และโดยwilcoxsign_testใน R (ดูคำถามที่เกี่ยวข้องของฉัน: teststatistic vs linearstatistic ใน wilcoxsign_test ) คนอื่น ๆ แนะนำ Bravais-Pearson ( ) หรือ Spearman ( ) สัมประสิทธิ์สหสัมพันธ์ (ขึ้นอยู่กับชนิดของข้อมูล)r = c o v ( XY)s d( X) × s …


2
REML หรือ ML เพื่อเปรียบเทียบโมเดลเอฟเฟกต์ผสมสองแบบที่มีเอฟเฟกต์คงที่แตกต่างกัน แต่มีเอฟเฟกต์แบบสุ่มเหมือนกันหรือไม่
พื้นหลัง: หมายเหตุ: ชุดข้อมูลและรหัส r ของฉันรวมอยู่ด้านล่างข้อความ ฉันต้องการใช้ AIC เพื่อเปรียบเทียบแบบจำลองเอฟเฟกต์สองแบบที่สร้างขึ้นโดยใช้แพ็คเกจ lme4 ในอาร์แต่ละรุ่นมีเอฟเฟกต์คงที่หนึ่งแบบและเอฟเฟกต์แบบสุ่มหนึ่งแบบ เอฟเฟกต์คงที่นั้นแตกต่างกันระหว่างรุ่น แต่เอฟเฟกต์แบบสุ่มยังคงเหมือนเดิมระหว่างรุ่น ฉันพบว่าถ้าฉันใช้ REML = T, model2 มีคะแนน AIC ที่ต่ำกว่า, แต่ถ้าฉันใช้ REML = F, model1 มีคะแนน AIC ที่ต่ำกว่า รองรับการใช้ ML: Zuur และคณะ (2009; PAGE 122) แนะนำว่า "ในการเปรียบเทียบโมเดลที่มีเอฟเฟกต์แบบซ้อน (แต่มีโครงสร้างแบบสุ่มเดียวกัน) ต้องใช้การประเมิน ML ไม่ใช่ REML" สิ่งนี้บ่งบอกว่าฉันควรใช้ ML เนื่องจากเอฟเฟกต์แบบสุ่มของฉันเหมือนกันในทั้งสองรุ่น แต่เอฟเฟกต์คงที่ของฉันแตกต่างกัน [Zuur et al. 2552. …

5
ไม่
ฉันดูเหมือนจะสับสนตัวเองพยายามที่จะเข้าใจว่าค่า -squared ยังมีค่าrrrppp ตามที่ฉันเข้าใจแล้วความสัมพันธ์เชิงเส้นกับชุดของจุดข้อมูลสามารถมีค่าตั้งแต่ถึงและค่านี้ไม่ว่าจะเป็นอะไรก็ตามสามารถมีซึ่งแสดงว่าแตกต่างอย่างมีนัยสำคัญจาก (เช่น หากมีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรทั้งสอง)rrr−1−1-1111ppprrr000 ย้ายไปยังถดถอยเชิงเส้น, ฟังก์ชั่นสามารถติดตั้งได้กับข้อมูลที่อธิบายโดยสมการbX และ (การสกัดกั้นและความชัน) ยังมีค่าเพื่อแสดงว่าพวกเขาแตกต่างจากอย่างมีนัยสำคัญหรือไม่Y=a+bXY=a+bXY = a + bXaaabbbppp000 สมมติว่าผมเพื่อให้ห่างไกลมีความเข้าใจที่ถูกต้องทุกอย่างเป็น -value สำหรับและ -value สำหรับเพียงสิ่งเดียวกันได้หรือไม่ แล้วมันเป็นที่ถูกต้องที่จะบอกว่ามันไม่ได้เป็น -squared ที่มี -value แต่หรือที่ไม่?ppprrrpppbbbrrrppprrrbbb

5
อะไรคือเหตุผลที่การเปลี่ยนแปลงการบันทึกใช้กับการแจกแจงแบบเบ้ขวา?
ฉันเคยได้ยินว่า การแปลงท่อนซุงเป็นที่นิยมกันมากที่สุดสำหรับการแจกแจงแบบเบ้ด้านขวาในการถดถอยเชิงเส้นหรือการถดถอยเชิงปริมาณ ฉันต้องการทราบว่ามีเหตุผลใดบ้างที่อยู่ภายใต้ข้อความนี้? ทำไมการแปลงบันทึกจึงเหมาะสมสำหรับการแจกแจงเบ้ที่ถูกต้อง วิธีการกระจายซ้ายเอียง?

5
ความแปรปรวนในผลลัพธ์ cv.glmnet
ฉันใช้cv.glmnetเพื่อค้นหาผู้ทำนาย การตั้งค่าที่ฉันใช้มีดังนี้: lassoResults&lt;-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda&lt;-lassoResults$lambda.min results&lt;-predict(lassoResults,s=bestlambda,type="coefficients") choicePred&lt;-rownames(results)[which(results !=0)] set.seed(1)เพื่อให้แน่ใจว่าผลจะทำซ้ำฉัน ผลลัพธ์มีความแปรปรวนสูง ฉันใช้รหัสเดียวกัน 100 เพื่อดูว่าผลลัพธ์เป็นอย่างไร ในการวิ่ง 98/100 มีตัวพยากรณ์หนึ่งตัวเลือกเสมอ (บางครั้งก็เป็นของตัวเอง); มีการเลือกตัวทำนายอื่น ๆ (co-efficient เป็น non-zero) โดยปกติ 50/100 ครั้ง ดังนั้นมันบอกกับฉันว่าทุกครั้งที่การตรวจสอบความถูกต้องไขว้ทำงานมันอาจจะเป็นการเลือกแลมบ์ดาที่ดีที่สุดเพราะการสุ่มเริ่มต้นของโฟลเดอร์สำคัญ คนอื่น ๆ ได้เห็นปัญหานี้ ( ผลลัพธ์ CV.glmnet ) แต่ไม่มีวิธีการแก้ไขที่แนะนำ ฉันคิดว่าบางทีสิ่งที่แสดงให้เห็นว่า 98/100 น่าจะสัมพันธ์กับคนอื่น ๆ ผลจะมีเสถียรภาพถ้าฉันเพียงแค่เรียกใช้ LOOCV ( fold-size=nfold-size=n\text{fold-size} = n ) แต่ผมอยากรู้ว่าทำไมพวกเขาจึงตัวแปรเมื่อnfold&lt;nnfold&lt;n\text{nfold} < n n

3
การใส่ร้ายก่อนหรือหลังแยกออกเป็นรถไฟและทดสอบ?
ฉันมีชุดข้อมูลที่มี N ~ 5,000 และประมาณ 1/2 หายไปกับตัวแปรสำคัญอย่างน้อยหนึ่งตัว วิธีการวิเคราะห์หลักจะเป็นอันตรายตามสัดส่วนของคอคส์ ฉันวางแผนที่จะใช้การใส่หลายแบบ ฉันจะแยกเป็นชุดรถไฟและชุดทดสอบ ฉันควรแยกข้อมูลแล้วใส่ข้อมูลแยกต่างหากหรือใส่ร้ายแล้วแยก? ถ้ามันเป็นเรื่องสำคัญผมจะใช้ในPROC MISAS

4
คำพ้องความหมาย“ ตัวอย่างสุ่ม” และ“ ตัวแปรสุ่ม iid” หรือไม่
ฉันได้รับความยากลำบากในการทำความเข้าใจความหมายของ "ตัวอย่างแบบสุ่ม" เช่นเดียวกับ "ตัวแปรแบบสุ่มของ iid" ฉันพยายามหาความหมายจากหลาย ๆ แหล่ง แต่สับสนมากขึ้นเรื่อย ๆ ฉันโพสต์ที่นี่สิ่งที่ฉันพยายามและได้รู้: ความน่าจะเป็นและสถิติของ Degroot บอกว่า: ตัวอย่างสุ่ม / IID / ตัวอย่างขนาด: พิจารณากระจายความน่าจะได้รับในบรรทัดจริงที่สามารถแสดงโดยทั้ง PF หรือไฟล์ PDF ฉได้มีการกล่าวกันว่าตัวแปรสุ่มรูปแบบตัวอย่างที่สุ่มจากการกระจายนี้ถ้าตัวแปรสุ่มเหล่านี้มีความเป็นอิสระและ PF ร่อแร่หรือ PDF ของแต่ละของพวกเขาคือฉตัวแปรสุ่มดังกล่าวถูกกล่าวถึงว่ามีความเป็นอิสระและมีการกระจายเหมือนกันโดยย่อ iid เราอ้างถึงหมายเลข n ของตัวแปรสุ่มเป็นขนาดตัวอย่างn X 1 , . . , X n ffffnnnX1,...,XnX1,...,XnX_1 , . . . , X_nfฉf แต่หนึ่งในหนังสือสถิติอื่น ๆ ที่ฉันได้พูดไป: …

1
ความแตกต่างระหว่าง Primal, Dual และ Kernel Ridge Regression
ความแตกต่างระหว่างPrimal , DualและKernel Ridge Regression คืออะไร? ผู้คนกำลังใช้ทั้งสามและเนื่องจากความแตกต่างของสัญลักษณ์ที่ทุกคนใช้ในแหล่งที่แตกต่างกันเป็นเรื่องยากสำหรับฉันที่จะติดตาม ดังนั้นใครบางคนสามารถบอกฉันด้วยคำพูดง่ายๆสิ่งที่แตกต่างระหว่างสามคนนี้คืออะไร? นอกจากนี้สิ่งที่อาจเป็นข้อดีหรือข้อเสียของแต่ละคนและสิ่งที่มีความซับซ้อนของพวกเขา?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.