สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
มีผลลัพธ์ที่ให้ bootstrap ถูกต้องหรือไม่หากสถิตินั้นราบรื่นหรือไม่?
ตลอดเราคิดของเราสถิติเป็นฟังก์ชั่นบางข้อมูลซึ่งถูกดึงมาจากฟังก์ชันการกระจาย ; ฟังก์ชั่นการกระจายเชิงประจักษ์ของกลุ่มตัวอย่างของเราคือ{F} ดังนั้นคือสถิติที่ถูกมองว่าเป็นตัวแปรสุ่มและเป็นเวอร์ชั่นบูตของสถิติ เราใช้เป็นระยะทาง KSX 1 , ... X n F F θ ( F )θ(⋅)θ(⋅)\theta(\cdot)X1,…XnX1,…XnX_1, \ldots X_nFFFF^F^\hat{F}θ(F)θ(F)\theta(F)d ∞θ(F^)θ(F^)\theta(\hat{F})d∞d∞d_\infty มีผลลัพธ์ "if and only ถ้า" สำหรับความถูกต้องของ bootstrap หากสถิติเป็นสถิติเชิงเส้นอย่างง่าย ตัวอย่างเช่นทฤษฎีบทที่ 1 จาก Mammen "bootstrap ทำงานเมื่อไหร่?" ถ้าสำหรับบางฟังก์ชั่นโดยพลการจากนั้น bootstrap ทำงานในแง่ที่ถ้าและ เฉพาะในกรณีที่มีและเช่นนั้น เราสามารถนิยามเป็นฟังก์ชั่นบางอย่างของตัวอย่างของเราและเอชnd∞[L(θ( F ) -เสื้อ n),L(θ(F)-เสื้อn)]→หน้า0σnTnd∞[L(θ(F)-tn)θ(F)=1n∑ni−1hn(Xi)θ(F)=1n∑i−1nhn(Xi)\theta(F) = \frac{1}{n} \sum_{i-1}^n h_n(X_i)hnhnh_nd∞[L(θ(F^)−t^n),L(θ(F)−tn)]→p0d∞[L(θ(F^)−t^n),L(θ(F)−tn)]→p0d_\infty\big[\mathscr{L}(\theta(\hat{F})-\hat{t}_n), \mathscr{L}(\theta(F)-t_n)\big] \underset{p}{\rightarrow} 0σnσn\sigma_ntntnt_nd∞[L(θ(F)−tn),N(0,σ2n)]→p0d∞[L(θ(F)−tn),N(0,σn2)]→p0d_\infty\big[\mathscr{L}(\theta(F)-t_n), …

1
เหตุใดหน่วยโฆษณาเชิงเส้นที่แก้ไขแล้วจึงถือว่าเป็นแบบไม่เชิงเส้น
ทำไมฟังก์ชั่นการเปิดใช้งานของหน่วยเชิงเส้นที่ถูกแก้ไข (ReLU) จึงไม่ถือว่าเป็นแบบเชิงเส้น ฉ( x ) = สูงสุด( 0 , x )f(x)=max(0,x) f(x) = \max(0,x) พวกเขาเป็นเส้นตรงเมื่ออินพุตเป็นบวกและจากความเข้าใจของฉันที่จะปลดล็อคพลังตัวแทนของเครือข่ายลึกนั้นต้องมีการเปิดใช้งานที่ไม่ใช่เชิงเส้นมิฉะนั้นเครือข่ายทั้งหมดอาจแสดงเป็นเลเยอร์เดียว

5
อัลกอริทึมการเรียนรู้ของเครื่องเพื่อจัดการข้อมูลที่หายไป
ฉันพยายามที่จะพัฒนารูปแบบการทำนายโดยใช้ข้อมูลทางคลินิกมิติสูงรวมถึงค่าห้องปฏิบัติการ พื้นที่ข้อมูลเบาบางด้วยตัวอย่าง 5k และตัวแปร 200 ตัว แนวคิดคือการจัดอันดับตัวแปรโดยใช้วิธีการเลือกคุณสมบัติ (IG, RF ฯลฯ ) และใช้คุณสมบัติการจัดอันดับสูงสุดสำหรับการพัฒนาแบบจำลองการทำนาย ในขณะที่การเลือกคุณสมบัติเป็นไปได้ดีกับแนวทางของNaïve Bayes ตอนนี้ฉันกำลังตีปัญหาในการใช้แบบจำลองการทำนายเนื่องจากข้อมูลที่หายไป (NA) ในพื้นที่ตัวแปรของฉัน มีอัลกอริทึมการเรียนรู้ของเครื่องที่สามารถจัดการกับตัวอย่างที่มีข้อมูลที่ขาดหายไปอย่างระมัดระวังหรือไม่?

4
หน้าที่ของตัวแปรสุ่มอิสระ
การอ้างว่าฟังก์ชันของตัวแปรสุ่มอิสระนั้นเป็นอิสระหรือไม่จริงหรือ ฉันเห็นว่าผลลัพธ์มักจะใช้โดยนัยในการพิสูจน์บางอย่างเช่นในการพิสูจน์ความเป็นอิสระระหว่างค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่างของการแจกแจงแบบปกติ แต่ฉันไม่สามารถหาเหตุผลได้ ดูเหมือนว่าผู้เขียนบางคนใช้มันตามที่กำหนด แต่ฉันไม่แน่ใจว่าเป็นเช่นนี้เสมอ

2
การวาดภาพจากการกระจาย Dirichlet
สมมติว่าเรามีการกระจาย Dirichlet กับมิติเวกเตอร์พารามิเตอร์alpha_K] ฉันจะวาดตัวอย่าง ( เวกเตอร์ Dimensional) จากการแจกแจงนี้ได้อย่างไร? ฉันต้องการคำอธิบายง่ายๆ→การα = [ α 1 , α 2 , . . , α K ] KKKKα⃗ = [ α1, α2, . . . , αK]α→=[α1,α2,...,αK]\vec\alpha = [\alpha_1, \alpha_2,...,\alpha_K]KKK

2
สัญชาตญาณเบื้องหลังการถดถอยโลจิสติก
เร็ว ๆ นี้ผมเริ่มศึกษาเรียนรู้ของเครื่อง แต่ฉันล้มเหลวที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังการถดถอยโลจิสติก ต่อไปนี้เป็นข้อเท็จจริงเกี่ยวกับการถดถอยโลจิสติกที่ฉันเข้าใจ ในฐานะที่เป็นพื้นฐานสำหรับสมมติฐานที่เราใช้ฟังก์ชั่น sigmoid ฉันเข้าใจว่าทำไมมันถึงเป็นตัวเลือกที่ถูกต้อง แต่ทำไมมันเป็นตัวเลือกเดียวที่ฉันไม่เข้าใจ สมมุติฐานแสดงถึงความน่าจะเป็นที่ผลลัพธ์ที่เหมาะสมคือดังนั้นโดเมนของฟังก์ชันของเราควรเป็นนี่คือคุณสมบัติเดียวของฟังก์ชัน sigmoid ที่ฉันพบว่ามีประโยชน์และเหมาะสมที่นี่ นอกจากนี้ฟังก์ชัน sigmoid มีอนุพันธ์ในรูปแบบนี้แต่ฉันไม่เห็นประโยชน์ของรูปแบบพิเศษนี้ในการถดถอยโลจิสติก111[0,1][0,1][0,1]f(x)(1−f(x))f(x)(1−f(x))f(x)(1-f(x)) คำถาม : ดังนั้นสิ่งที่พิเศษเกี่ยวกับฟังก์ชั่น sigmoid และทำไมเราไม่สามารถใช้ฟังก์ชั่นอื่น ๆ ที่มีโดเมน ?[0,1][0,1][0,1] ฟังก์ชันต้นทุนประกอบด้วยสองพารามิเตอร์ถ้าถ้า 0 ในทำนองเดียวกันเป็นข้างต้นฉันเข้าใจว่าทำไมมันถูกต้อง แต่ทำไมมันเป็นรูปแบบเดียว? ตัวอย่างเช่นทำไมไม่สามารถเป็นทางเลือกที่ดีสำหรับฟังก์ชันต้นทุนหรือไม่Cost(hθ(x),y)=−log(hθ(x))Cost(hθ(x),y)=−log⁡(hθ(x)){\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))y=1,Cost(hθ(x),y)=−log(1−hθ(x))y=1,Cost(hθ(x),y)=−log⁡(1−hθ(x))y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))y=0y=0y=0|hθ(x)−y||hθ(x)−y||h_{\theta(x)}-y| คำถาม : อะไรเป็นพิเศษเกี่ยวกับรูปแบบของฟังก์ชั่นค่าใช้จ่าย; ทำไมเราไม่สามารถใช้รูปแบบอื่นได้? ฉันจะขอบคุณถ้าคุณสามารถแบ่งปันความเข้าใจของการถดถอยโลจิสติก

5
คุณควรสร้างมาตรฐานให้กับตัวแปรไบนารีหรือไม่?
ฉันมีชุดข้อมูลที่มีชุดคุณสมบัติ บางคนก็มีไบนารีใช้งานหรือไล่ออกใช้งานหรืออยู่เฉยๆ) และส่วนที่เหลือจะมีมูลค่าที่แท้จริงเช่น4564.342( 1 =(1=(1=0 =0=0=4564.3424564.3424564.342 ฉันต้องการที่จะเลี้ยงข้อมูลนี้ไปยังขั้นตอนวิธีการเรียนรู้ของเครื่องดังนั้นฉัน -score คุณสมบัติมูลค่าจริงทั้งหมด ฉันได้พวกมันมาระหว่างช่วงและโดยประมาณ ตอนนี้ค่าไบนารีนอกจากนี้ยังมี -scored ดังนั้นศูนย์กลายเป็นและคนที่กลายเป็น0.5555ZZz333- 2-2-2ZZz- 0.222-0.222-0.2220.55550.55550.5555 การทำให้เป็นมาตรฐานตัวแปรไบนารีเช่นนี้เหมาะสมหรือไม่

3
Bayesians เปรียบเทียบการแจกแจงอย่างไร
ดังนั้นฉันคิดว่าฉันมีความเข้าใจที่ดีเกี่ยวกับพื้นฐานของความน่าจะเป็นที่พบบ่อยและการวิเคราะห์ทางสถิติ (และสามารถใช้งานได้ไม่ดี) ในโลกที่พบบ่อยมันสมเหตุสมผลที่จะถามคำถามเช่น "คือการกระจายนี้แตกต่างจากการแจกแจงนั้น" เนื่องจากการแจกแจงจะถือว่าเป็นจริงวัตถุประสงค์และไม่เปลี่ยนแปลง (สำหรับสถานการณ์ที่กำหนดอย่างน้อย) และเพื่อให้เราสามารถคิด ดูว่ามีโอกาสมากน้อยเพียงใดที่ตัวอย่างหนึ่งจะถูกดึงมาจากการแจกแจงที่มีรูปร่างเหมือนตัวอย่างอื่น ในมุมมองโลก Bayesian เราสนใจเฉพาะสิ่งที่เราคาดหวังที่จะเห็นได้รับประสบการณ์ที่ผ่านมาของฉัน (ฉันยังคงคลุมเครือเล็กน้อยในส่วนนี้ แต่ฉันเข้าใจแนวคิดของการปรับปรุง Bayesian) หากเป็นเช่นนั้น Bayesian จะพูดว่า "ชุดข้อมูลนี้แตกต่างจากชุดข้อมูลนั้นได้อย่างไร" สำหรับจุดประสงค์ของคำถามนี้ฉันไม่สนใจนัยสำคัญทางสถิติหรือวิธีการหาปริมาณที่แตกต่างกัน ฉันสนใจเท่าเทียมกันในการแจกแจงพารามิเตอร์และไม่ใช่พารามิเตอร์

3
ROC curve สำหรับตัวแยกประเภทอย่างต่อเนื่องเช่น SVM: ทำไมเราถึงเรียกมันว่า“ เส้นโค้ง”, ไม่ใช่แค่“ จุด” หรือไม่?
ในการอภิปราย: วิธีสร้างเส้นโค้ง roc สำหรับการจำแนกเลขฐานสองฉันคิดว่าความสับสนคือ "ตัวจําแนกแบบไบนารี" (ซึ่งเป็นลักษณนามใด ๆ ที่แยก 2 คลาส) สำหรับหยางสิ่งที่เรียกว่า "ตัวจําแนกแบบแยก" (ซึ่งผลิต ผลลัพธ์ที่ไม่ต่อเนื่อง 0/1 เหมือน SVM) และไม่ใช่เอาต์พุตต่อเนื่องเช่นตัวแยกประเภท ANN หรือ Bayes ... ฯลฯ ดังนั้นการอภิปรายเกี่ยวกับวิธีการที่ ROC ถูกพล็อตสำหรับ "ตัวแยกประเภทไบนารีต่อเนื่อง" และคำตอบก็คือเรียงลำดับผลลัพธ์ ด้วยคะแนนของพวกเขาเนื่องจากผลลัพธ์เป็นแบบต่อเนื่องและมีการใช้เกณฑ์เพื่อสร้างจุดแต่ละจุดบนกราฟ ROC คำถามของฉันสำหรับ "ตัวแยกประเภทไบนารีไม่ต่อเนื่อง" เช่น SVM ค่าเอาต์พุตเป็น 0 หรือ 1 ดังนั้น ROC จะสร้างเพียงจุดเดียวและไม่ใช่เส้นโค้ง ฉันงงว่าทำไมเราถึงเรียกมันว่าเป็นเส้นโค้ง !! เรายังพูดถึงเกณฑ์ได้หรือไม่? หนึ่งสามารถใช้ thresholds ใน SVM โดยเฉพาะได้อย่างไร คนเราสามารถคำนวณ …

1
การตรวจสอบความถูกต้องของการลาออกใช้งานไม่ได้อย่างไร วิธีการเลือกรุ่นสุดท้ายจากรุ่นที่แตกต่างกันอย่างไร
ฉันมีข้อมูลบางส่วนและฉันต้องการสร้างแบบจำลอง (พูดแบบจำลองการถดถอยเชิงเส้น) จากข้อมูลนี้ ในขั้นตอนถัดไปฉันต้องการใช้การตรวจสอบความถูกต้องแบบข้ามใบ (LOOCV) กับโมเดลเพื่อดูว่ามันทำงานได้ดีเพียงใด ถ้าฉันเข้าใจ LOOCV ถูกต้องฉันจะสร้างแบบจำลองใหม่สำหรับตัวอย่างแต่ละชุด (ชุดทดสอบ) โดยใช้ทุกตัวอย่างยกเว้นตัวอย่างนี้ (ชุดฝึกอบรม) แล้วฉันจะใช้รูปแบบในการทำนายชุดทดสอบและคำนวณข้อผิดพลาด{จริง})( ทำนาย- จริง)(ที่คาดการณ์ไว้-ที่จริง)(\text{predicted} - \text{actual}) ในขั้นตอนต่อไปฉันรวมข้อผิดพลาดทั้งหมดที่สร้างขึ้นโดยใช้ฟังก์ชั่นที่เลือกตัวอย่างเช่นหมายถึงข้อผิดพลาดกำลังสอง ฉันสามารถใช้ค่าเหล่านี้เพื่อตัดสินคุณภาพ (หรือความเหมาะสมของแบบ) ของโมเดล คำถาม:แบบจำลองใดเป็นแบบจำลองคุณภาพค่าเหล่านี้ใช้สำหรับแบบใดฉันควรเลือกแบบใดหากฉันพบว่าตัวชี้วัดที่สร้างจาก LOOCV เหมาะสมกับกรณีของฉัน LOOCV ดูที่รุ่นที่แตกต่างกัน (โดยที่คือขนาดตัวอย่าง); ฉันควรเลือกรุ่นใดnnnnnn มันเป็นรุ่นที่ใช้ตัวอย่างทั้งหมดหรือไม่ แบบจำลองนี้ไม่เคยคำนวณในระหว่างกระบวนการ LOOCV! เป็นรุ่นที่มีข้อผิดพลาดน้อยที่สุดหรือไม่

1
เมทริกซ์สุ่มที่มีข้อ จำกัด ด้านความยาวของแถวและคอลัมน์
ฉันต้องการสร้างเมทริกซ์ที่ไม่เป็นสแควร์แบบสุ่มด้วยแถวและคอลัมน์องค์ประกอบที่กระจายแบบสุ่มด้วยค่าเฉลี่ย = 0 และถูก จำกัด เช่นนั้นความยาว (บรรทัดฐาน L2) ของแต่ละแถวคือและความยาวของแต่ละคอลัมน์คือ{C}} ผลรวมของค่าสแควร์คือ 1 สำหรับแต่ละแถวและสำหรับแต่ละคอลัมน์RRRCCC111RC−−√RC\sqrt{\frac{R}{C}}RCRC\frac{R}{C} จนถึงขณะนี้ผมได้พบวิธีการอย่างใดอย่างหนึ่งเพื่อให้บรรลุนี้: เพียงแค่เริ่มต้นเมทริกซ์แบบสุ่ม (เช่นจากเครื่องแบบปกติหรือการกระจาย Laplace กับศูนย์ความแปรปรวนค่าเฉลี่ยและพล) แล้วแถวปกติสลับกันและคอลัมน์ที่จะสิ้นสุดด้วยการนอร์มัลไลซ์แถว สิ่งนี้ดูเหมือนว่าจะมาบรรจบกับผลลัพธ์ที่ต้องการอย่างรวดเร็ว (เช่นสำหรับและความแปรปรวนของความยาวคอลัมน์มักเป็น ~หลังจากการทำซ้ำครั้ง) แต่ฉันไม่แน่ใจว่าฉันจะขึ้นอยู่กับอัตราการบรรจบกันอย่างรวดเร็วนี้หรือไม่ โดยทั่วไป (สำหรับขนาดเมทริกซ์ต่างๆและการแจกแจงองค์ประกอบเริ่มต้น)length=1length=1{\rm length} = 1R=40R=40R=40C=80C=80C=80 0.00001 0.00001~0.00001222 คำถามของฉันคือ: มีวิธีที่จะบรรลุผลลัพธ์ที่ต้องการ ( , ) โดยตรงโดยไม่ต้องวนซ้ำ การนอร์มัลไลซ์แถว / คอลัมน์? เช่นบางอย่างเช่นอัลกอริทึมสำหรับการทำให้เวกเตอร์สุ่มเป็นปกติ (เริ่มต้นองค์ประกอบแบบสุ่ม, วัดผลรวมของค่าสแควร์, จากนั้นขยายสเกลแต่ละองค์ประกอบด้วยสเกลาร์ทั่วไป) ถ้าไม่มีมีการจำแนกลักษณะอย่างง่ายสำหรับอัตราการรวมกัน (เช่นการวนซ้ำจนเกิดข้อผิดพลาด ) ของวิธีการวนซ้ำที่อธิบายไว้ข้างต้นหรือไม่row lengths=1row lengths=1{\rm row \ …

3
การปรับเมทริกซ์คอลัมน์แบบชาญฉลาดใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ฉันต้องการดำเนินการ normalization คอลัมน์ที่ชาญฉลาดของเมทริกซ์ในอาร์รับเมทริกซ์mฉันต้องการที่จะทำให้ปกติคอลัมน์แต่ละคอลัมน์โดยการหารแต่ละองค์ประกอบด้วยผลรวมของคอลัมน์ วิธีหนึ่ง (แฮ็ค) ที่ทำเช่นนี้มีดังนี้ m / t(replicate(nrow(m), colSums(m))) มีวิธีสังเขป / ฉลาด / มีประสิทธิภาพมากขึ้นในการบรรลุภารกิจเดียวกันหรือไม่?

2
การจัดกลุ่มเวกเตอร์อนุกรมเวลา R
ฉันมีอนุกรมเวลาและฉันต้องการเซตย่อยในขณะที่เก็บเป็นอนุกรมเวลารักษาจุดเริ่มต้นจุดจบและความถี่ ตัวอย่างเช่นสมมติว่าฉันมีอนุกรมเวลา: > qs <- ts(101:110, start=c(2009, 2), frequency=4) > qs Qtr1 Qtr2 Qtr3 Qtr4 2009 101 102 103 2010 104 105 106 107 2011 108 109 110 ตอนนี้ฉันจะเซตย่อย: > qs[time(qs) >= 2010 & time(qs) < 2011] [1] 104 105 106 107 โปรดสังเกตว่าฉันได้ผลลัพธ์ที่ถูกต้อง แต่ฉันสูญเสีย "wrappings" จากอนุกรมเวลา (เช่นเริ่มต้นสิ้นสุดความถี่) ฉันกำลังมองหาฟังก์ชั่นสำหรับสิ่งนี้ การไม่แบ่งเวลาอนุกรมเป็นสถานการณ์ทั่วไปใช่หรือไม่ เนื่องจากฉันยังไม่พบหนึ่งต่อไปนี้เป็นฟังก์ชันที่ฉันเขียน: …
25 r  time-series 

1
คำอธิบายของปัจจัยการแก้ไข จำกัด
ฉันเข้าใจว่าเมื่อการสุ่มตัวอย่างจากประชากร จำกัด และขนาดตัวอย่างของเรามากกว่า 5% ของประชากรเราจำเป็นต้องแก้ไขค่าเฉลี่ยและข้อผิดพลาดมาตรฐานของตัวอย่างโดยใช้สูตรนี้: FPC= N- nยังไม่มีข้อความ- 1----√FPC=ยังไม่มีข้อความ-nยังไม่มีข้อความ-1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} โดยที่คือขนาดประชากรและคือขนาดตัวอย่างยังไม่มีข้อความยังไม่มีข้อความNnnn ฉันมีคำถาม 3 ข้อเกี่ยวกับสูตรนี้: ทำไมเกณฑ์ถูกตั้งไว้ที่ 5% สูตรได้มาอย่างไร มีแหล่งข้อมูลออนไลน์อื่น ๆ ที่อธิบายสูตรนี้นอกเหนือจากเอกสารนี้หรือไม่

4
จะเกิดอะไรขึ้นถ้าการโต้ตอบลบล้างผลกระทบโดยตรงของฉันในการถดถอย
ในการถดถอยคำปฏิสัมพันธ์จะลบล้างผลกระทบโดยตรงที่เกี่ยวข้องทั้งสองอย่าง ฉันจะทิ้งการโต้ตอบหรือรายงานผลลัพธ์หรือไม่ ปฏิสัมพันธ์ไม่ได้เป็นส่วนหนึ่งของสมมติฐานดั้งเดิม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.