สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
การย้อนกลับของการถดถอยสัน: รับเมทริกซ์การตอบสนองและค่าสัมประสิทธิ์การถดถอยค้นหาตัวทำนายที่เหมาะสม
พิจารณาปัญหาการถดถอย OLS มาตรฐาน\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}: ฉันมีเมทริกซ์YY\YและXX\Xและฉันต้องการหาเพื่อลด โซลูชันได้รับโดย\ hat \ B = \ argmin_ \ B \ {L \} = (\ X ^ \ top \ X) ^ + \ X ^ \ top \ Yββ\B β = argmin β { L } = ( X ⊤ X ) + X …

2
กรณีการใช้งานที่ทันสมัยของเครื่องจักร Boltzmann ที่ จำกัด (RBM's)?
ความเป็นมา:งานวิจัยสมัยใหม่จำนวนมากในช่วง 4 ปีที่ผ่านมา (โพสต์เล็กซ์เน็ต ) ดูเหมือนว่าจะไม่ได้ใช้การเตรียมการล่วงหน้าสำหรับเครือข่ายประสาทเทียมเพื่อให้ได้ผลลัพธ์การจำแนกประเภทที่ทันสมัย ตัวอย่างเช่นผลลัพธ์อันดับต้น ๆ สำหรับผู้ที่จำไม่ได้ที่นี่มีเพียง 2 เอกสารจาก 50 อันดับแรกที่ดูเหมือนว่าจะใช้แบบจำลองกำเนิดซึ่งทั้งสองเป็น RBM เอกสารที่ได้รับรางวัลอีก 48 ฉบับเกี่ยวกับสถาปัตยกรรมการส่งต่อการเลือกปฏิบัติที่แตกต่างกันด้วยความพยายามอย่างมากในการค้นหาการเริ่มต้นน้ำหนักที่ดีขึ้น / แปลกใหม่และฟังก์ชั่นการเปิดใช้งานที่แตกต่างจาก sigmoid ที่ใช้ใน RBM คำถาม:มีเหตุผลที่ทันสมัยในการใช้เครื่อง Boltzmann ที่ จำกัด อีกต่อไปหรือไม่? หากไม่มีมีการดัดแปลงตามความเป็นจริงที่สามารถนำไปใช้กับสถาปัตยกรรมการส่งต่อฟีดเหล่านี้เพื่อสร้างเลเยอร์ใด ๆ แรงจูงใจ:ฉันถามเพราะบางรุ่นที่ฉันเห็นมีให้ใช้งานโดยปกติจะเป็นรุ่นต่าง ๆ ใน RBM ไม่จำเป็นต้องมีคู่ที่แยกแยะความแตกต่างแบบอะนาล็อกที่ชัดเจนกับเลเยอร์ / โมเดลเชิงกำเนิดเหล่านี้และวีซ่าในทางกลับกัน ตัวอย่างเช่น: mcRBM ssRBM CRBM (แม้ว่าใครจะเถียง CNN ที่ใช้ฟีดไปข้างหน้าสถาปัตยกรรมคือสถาปัตยกรรมแบบอะนาล็อกที่เลือกปฏิบัติ) นอกจากนี้สิ่งเหล่านี้ก็ชัดเจนก่อน alexnet เช่นกันจาก 2010, 2011 และ 2009 …

2
ข้อผิดพลาดมาตรฐานที่เหลือแตกต่างระหว่างการเพิ่มประสิทธิภาพและ glm
ฉันพยายามที่จะทำซ้ำกับoptimผลลัพธ์จากการถดถอยเชิงเส้นอย่างง่ายที่พอดีกับglmหรือแม้แต่nlsฟังก์ชั่น R การประมาณพารามิเตอร์เหมือนกัน แต่การประมาณค่าความแปรปรวนที่เหลือและข้อผิดพลาดมาตรฐานของพารามิเตอร์อื่นจะไม่เหมือนกันโดยเฉพาะเมื่อขนาดตัวอย่างต่ำ ฉันคิดว่านี่เป็นความแตกต่างเนื่องจากวิธีการคำนวณข้อผิดพลาดมาตรฐานที่เหลือระหว่างความน่าจะเป็นสูงสุดและวิธีกำลังสองน้อยที่สุด (หารด้วย n หรือโดย n-k + 1 ดูการร้องในตัวอย่าง) ผมเข้าใจจากการอ่านของฉันบนเว็บที่เพิ่มประสิทธิภาพไม่ได้เป็นงานที่ง่าย แต่ผมสงสัยว่าถ้ามันจะเป็นไปได้ที่จะทำซ้ำในวิธีที่ง่ายประมาณการจากข้อผิดพลาดมาตรฐานในขณะที่ใช้glmoptim จำลองชุดข้อมูลขนาดเล็ก set.seed(1) n = 4 # very small sample size ! b0 <- 5 b1 <- 2 sigma <- 5 x <- runif(n, 1, 100) y = b0 + b1*x + rnorm(n, 0, sigma) ประเมินด้วยประสิทธิภาพ negLL …

2
ความแปรปรวนสูงของการกระจายของค่า p (อาร์กิวเมนต์ใน Taleb 2016)
ฉันพยายามที่จะเข้าใจการเรียกร้องภาพใหญ่ทำในTaleb 2016, The Meta-การแพร่กระจายของมาตรฐาน P-ค่า ในนั้น Taleb ทำให้อาร์กิวเมนต์ต่อไปนี้สำหรับความไม่น่าเชื่อถือของค่า p (ตามที่ฉันเข้าใจ): ขั้นตอนการประเมินดำเนินการกับจุดข้อมูลที่มาจากการแจกจ่ายX outputs ค่า ap หากเราดึงจุด n เพิ่มเติมจากการกระจายนี้และส่งออกค่า p อื่นเราสามารถหาค่า p-values ​​เหล่านี้ที่ได้รับในขีด จำกัด ที่เรียกว่า "ค่า p จริง"nnnXXX "ค่า p จริง" นี้แสดงว่ามีความแปรปรวนสูงรบกวนดังนั้นการแจกแจง + โพรซีเดอร์ที่มี "ค่า p จริง" จะ 60% ของเวลารายงานค่า p-. 05.12.12.12 คำถาม : วิธีนี้จะสามารถคืนดีกับอาร์กิวเมนต์ดั้งเดิมในความโปรดปรานของค่า ดังที่ฉันเข้าใจแล้วค่า p ควรบอกคุณว่าเปอร์เซ็นต์ของเวลาที่กระบวนการของคุณจะให้ช่วงเวลาที่ถูกต้อง (หรืออะไรก็ตาม) อย่างไรก็ตามบทความนี้ดูเหมือนจะโต้แย้งว่าการตีความนี้ทำให้เข้าใจผิดเนื่องจากค่า p จะไม่เหมือนกันถ้าคุณเรียกใช้ขั้นตอนอีกครั้งppp …

3
ทำไมไม่ทำงาน CLT สำหรับ
ดังนั้นเราจึงรู้ว่าผลรวมของnnn poissons กับพารามิเตอร์λλ\lambdaเป็นตัวเอง Poisson กับ nnλn\lambda λ ดังนั้นสมมุติฐานหนึ่งอาจจะใช้x ~ P o ฉันs s o n ( λ = 1 )x∼poisson(λ=1)x \sim poisson(\lambda = 1) และบอกว่ามันเป็นจริงΣ n 1 x ฉัน ~ P o ฉันs s o n ( λ = 1 )∑n1xi∼poisson(λ=1)\sum_1^n x_i \sim poisson(\lambda = 1) ที่แต่ละx ฉันxix_iคือ: x ฉัน …

3
สัญชาตญาณเบื้องหลังอัตราอันตราย
ฉันสับสนเกี่ยวกับสมการที่ทำหน้าที่เป็นคำจำกัดความของอัตราอันตราย ฉันเข้าใจว่าอัตราอันตรายนั้นเป็นอย่างไร แต่ฉันไม่เห็นว่าสมการแสดงความรู้สึกนั้น ถ้าxxxเป็นตัวแปรสุ่มซึ่งหมายถึงจุดของเวลาของการตายของคนในช่วงเวลา[ 0 , T][0,T][0,T] ] ดังนั้นอัตราความเสี่ยงคือ: h ( x ) = f( x )1 - ฟ( x )ชั่วโมง(x)=ฉ(x)1-F(x)h(x)=\frac{f(x)}{1-F(x)} ที่ไหนF( x )F(x)F(x)แสดงให้เห็นถึงความน่าจะเป็นของการเสียชีวิตจนถึงจุดเวลาx ∈ [ 0 , T]x∈[0,T]x\in[0,T] , 1 - ฟ( x )1-F(x)1-F(x)แสดงให้เห็นถึงความน่าจะเป็นของการมีชีวิตรอดจนถึงจุดเวลาx ∈ [ 0 , T]x∈[0,T]x\in[0,T] , และฉ( x )ฉ(x)f(x)ความน่าจะเป็นของการเสียชีวิตที่จุดxxxx วิธีการที่ไม่หารโดยอัตราการรอดตายอธิบายสัญชาตญาณของความน่าจะเป็นของการเสียชีวิตทันทีในที่อยู่ถัดΔ ที ? ไม่ควรเป็นแค่f ( x …

2
ทำไมการทดสอบ F ถึงมีความละเอียดอ่อนมากสำหรับการสันนิษฐานของภาวะปกติ?
ทำไมเป็นF -test สำหรับความแตกต่างในความแปรปรวนเพื่อให้มีความไวต่อสมมติฐานของการกระจายปกติแม้สำหรับขนาดใหญ่NNN ? ฉันพยายามค้นหาเว็บและเยี่ยมชมห้องสมุด แต่ก็ไม่มีคำตอบที่ดีเลย มันบอกว่าการทดสอบมีความละเอียดอ่อนมากสำหรับการละเมิดสมมติฐานสำหรับการแจกแจงแบบปกติ แต่ฉันไม่เข้าใจว่าทำไม ใครบ้างมีคำตอบที่ดีสำหรับเรื่องนี้?

2
ระบบพลวัตดูทฤษฎีบทขีด จำกัด กลางหรือไม่?
( โพสต์ครั้งแรกใน MSE) ฉันได้เห็นการอภิปรายแบบฮิวริสติกจำนวนมากของทฤษฎีบทขีด จำกัด กลางแบบคลาสสิกพูดถึงการแจกแจงแบบปกติ (หรือการแจกแจงแบบคงที่ใด ๆ ) เป็น "ตัวดึงดูด" ในพื้นที่ความหนาแน่นของความน่าจะเป็น ตัวอย่างเช่นพิจารณาประโยคเหล่านี้ที่ส่วนบนสุดของการรักษาของ Wikipedia : ในการใช้งานทั่วไปมากขึ้นทฤษฎีบทขีด จำกัด กลางคือชุดของทฤษฎีบทการลู่เข้าแบบอ่อนในทฤษฎีความน่าจะเป็น พวกเขาทั้งหมดแสดงความจริงที่ว่าผลรวมของตัวแปรสุ่มแบบอิสระและแบบกระจาย (iid) จำนวนมากหรือมิฉะนั้นตัวแปรสุ่มที่มีการพึ่งพาประเภทเฉพาะจะมีแนวโน้มที่จะกระจายไปตามชุดการกระจายตัวเล็ก ๆ ชุดหนึ่ง เมื่อความแปรปรวนของตัวแปร iid มีจำนวน จำกัด การกระจายตัวดึงดูดจะเป็นการแจกแจงแบบปกติ ภาษาของระบบพลวัตนี้มีการชี้นำอย่างมาก เฟลเลอร์ยังพูดถึง "การดึงดูด" ในการรักษา CLT ในเล่มที่สองของเขา (ฉันสงสัยว่านั่นคือที่มาของภาษา) และ Yuval Flimus ในบันทึกนี้ยังพูดถึง "อ่างแห่งการดึงดูด" (ฉันไม่คิดว่าเขาหมายถึง "รูปแบบที่แน่นอนของแหล่งท่องเที่ยวนั้นสามารถอนุมานได้ล่วงหน้า" แต่ค่อนข้าง "รูปแบบที่แน่นอนของตัวดึงดูดนั้นสามารถอนุมานได้ล่วงหน้า"; ยังมีภาษาอยู่) คำถามของฉันคือ: สามารถ การเปรียบเทียบแบบไดนามิกจะทำให้แม่นยำ?ฉันไม่รู้หนังสือที่พวกเขาเป็นอยู่ - แม้ว่าหนังสือหลายเล่มจะชี้ให้เห็นว่าการแจกแจงแบบปกตินั้นพิเศษสำหรับความมั่นคงภายใต้การบิด …

5
มีการเพิ่มตัวเลือกการตอบกลับลำดับที่ 6 (“ ฉันไม่รู้”) ในระดับ Likert 5 จุด ข้อมูลสูญหายหรือไม่
ฉันต้องการความช่วยเหลือเล็กน้อยในการกู้ข้อมูลจากแบบสอบถาม เพื่อนร่วมงานคนหนึ่งของฉันใช้แบบสอบถาม แต่ไม่ตั้งใจแทนที่จะใช้มาตราส่วน Likert ดั้งเดิม 5 จุด (ไม่เห็นด้วยอย่างยิ่งที่เห็นด้วยอย่างยิ่ง) เขาใส่คำตอบที่ 6 ลงในมาตราส่วน และเพื่อทำให้เรื่องแย่ลงตัวเลือกการตอบกลับข้อที่ 6 คือ…“ ฉันไม่รู้” ปัญหาคือสัดส่วนใหญ่ของผู้ตอบแบบสอบถามที่เลือก“ ฉันไม่รู้” ณ จุดหนึ่งหรืออีกจุดหนึ่ง หากพวกเขามีเปอร์เซ็นต์ที่สมเหตุสมผลฉันจะแยกพวกเขาออกจากฐานข้อมูล อย่างไรก็ตามแกนหลักของการวิจัยวางอยู่บนโมเดลเชิงความคิดและไม่รวมเร็กคอร์ดจำนวนมากดังนั้นจะสร้างปัญหาให้กับโมเดล ใครช่วยชี้ทางฉันให้ถูกทางที่นี่? มี 'แนวปฏิบัติที่ดี' หรือฉันสามารถทำสิ่งใดเพื่อใช้ (แปลงแปลง ฯลฯ ) คำตอบที่ "ฉันไม่รู้" หรือไม่? นอกจากนี้หากฉันทำการปรับเปลี่ยนข้อมูลที่เป็นปัญหา (เช่นถ้าฉันแปลงการตอบสนอง "ฉันไม่รู้" โดยการทดแทนการใส่ความ ฯลฯ ) สิ่งที่ 'ปฏิเสธ', 'คำเตือน', คำอธิบายประกอบ ฉันควรใช้ ฉันรู้ว่ามันเป็นช็อตที่ยาวนาน แต่ฉันยอมรับว่านอกจากคำตอบที่ได้รับแล้วฉันยังสงสัยว่าการปฏิบัติที่ตกลงกันไว้คืออะไร (ถ้ามี) ในกรณีประเภทนี้ PS: ฉันรู้ว่ามันฟังดูเป็นเด็ก แต่ไม่ 'เพื่อนร่วมงาน' …

2
สุดยอดแห่งการเรียนรู้ทั่วไปจากข้อมูลใน '69
ฉันพยายามที่จะเข้าใจบริบทของ Minsky และ Papert book ชื่อ "Perceptrons" ที่มีชื่อเสียงตั้งแต่ปี 1969 ดังนั้นจึงมีความสำคัญต่อเครือข่ายประสาท เท่าที่ฉันรู้แล้วยังไม่มีอัลกอริทึมการเรียนรู้แบบมีผู้ควบคุมอื่นยกเว้นสำหรับ perceptron: ต้นไม้ตัดสินใจเริ่มมีประโยชน์จริง ๆ ในปลายปี 70s ป่าสุ่มและ SVM เป็น 90s ดูเหมือนว่าวิธี jackknife เป็นที่รู้จักกันอยู่แล้ว แต่ไม่ได้ตรวจสอบ k-cross (70s) หรือ bootstrap (1979?) Wikipedia กล่าวว่ากรอบสถิติแบบคลาสสิกของ Neyman-Pearson และ Fisher ยังคงไม่เห็นด้วยใน '50s แม้ว่าจะมีความพยายามครั้งแรกในการอธิบายทฤษฎีลูกผสมอยู่ใน' 40s ดังนั้นคำถามของฉัน: อะไรคือวิธีการที่ทันสมัยของการแก้ปัญหาทั่วไปของการทำนายจากข้อมูล?

1
มีใครนอกเหนือจาก Egon Pearson ที่เข้าถึงกระดาษของ Gosset ในปี 1904?
มีใครนอกเหนือจาก Egon Pearson ที่เข้าถึง 1904 รายงานของ William Sealy Gosset "การประยุกต์ใช้ 'กฎข้อผิดพลาด' ในการทำงานของโรงเบียร์" หรือไม่? ฉันเดาว่ามันเป็นทรัพย์สินของกินเนสส์ แต่ด้วยความสำคัญทางประวัติศาสตร์มันคงเป็นเรื่องที่น่าสนใจมากหากใครบางคนรู้ว่าจะเอามือไปทำอะไร

2
“ จุดข้อมูลทั้งหมดเหล่านี้มาจากการกระจายตัวแบบเดียวกัน” จะทดสอบอย่างไร?
ฉันรู้สึกว่าฉันเคยเห็นหัวข้อนี้ที่กล่าวถึงที่นี่มาก่อน แต่ฉันไม่สามารถหาสิ่งที่เฉพาะเจาะจง จากนั้นอีกครั้งฉันไม่แน่ใจจริงๆว่าจะค้นหาอะไร ฉันมีชุดข้อมูลที่สั่งหนึ่งมิติ ฉันตั้งสมมติฐานว่าทุกจุดในเซตนั้นมาจากการกระจายตัวแบบเดียวกัน ฉันจะทดสอบสมมติฐานนี้ได้อย่างไร มันสมเหตุสมผลหรือไม่ที่จะทดสอบกับทางเลือกทั่วไปของ "การสังเกตในชุดข้อมูลนี้มาจากการแจกแจงสองแบบที่แตกต่างกัน"? เป็นการดีที่ฉันต้องการระบุว่าคะแนนใดมาจากการกระจาย "อื่น ๆ " เนื่องจากข้อมูลของฉันถูกสั่งซื้อฉันจะสามารถระบุจุดตัดหลังจากทำการทดสอบว่า "ถูกต้อง" เพื่อตัดข้อมูลหรือไม่ แก้ไข: ตามคำตอบของ Glen_b ฉันจะสนใจเรื่องการแจกแจงเชิงบวกและแบบอิสระที่เคร่งครัด ฉันยังมีความสนใจในกรณีพิเศษของสมมติกระจายแล้วการทดสอบที่แตกต่างกันสำหรับพารามิเตอร์

1
Caret - การตรวจสอบความถูกต้องแบบข้ามของ K-fold ซ้ำแล้วซ้ำอีกกับการตรวจสอบความถูกต้องแบบข้ามของ K-fold ซ้ำแล้วซ้ำอีกครั้ง
ชุดคาเร็ตเป็นไลบรารี R ที่ยอดเยี่ยมสำหรับการสร้างแบบจำลองการเรียนรู้ของเครื่องหลายแบบและมีฟังก์ชั่นหลายอย่างสำหรับการสร้างแบบจำลองและการประเมินผล สำหรับการปรับพารามิเตอร์และการฝึกอบรมรูปแบบแพคเกจคาเร็ตมี 'repeatcv' เป็นหนึ่งในวิธีการ แนวปฏิบัติที่ดีการปรับพารามิเตอร์อาจทำได้โดยใช้การตรวจสอบความถูกต้องแบบ K-fold แบบซ้อนซึ่งทำหน้าที่ดังต่อไปนี้: แบ่งการฝึกอบรมที่กำหนดไว้ในชุดย่อย 'K' ในการทำซ้ำแต่ละครั้งให้นำชุดย่อย 'K ลบ 1' สำหรับการฝึกอบรมแบบจำลองและเก็บชุดย่อย 1 ชุด (ชุด holdout) สำหรับการทดสอบแบบจำลอง เพิ่มเติมพาร์ติชันการฝึกอบรม 'K ลบ 1' ตั้งค่าเป็นชุดย่อย 'K' และใช้ชุดย่อย 'K ลบ 1' ใหม่และ 'ชุดการตรวจสอบความถูกต้อง' ซ้ำสำหรับการปรับพารามิเตอร์ (การค้นหากริด) พารามิเตอร์ที่ดีที่สุดที่ระบุไว้ในขั้นตอนนี้ใช้สำหรับทดสอบชุดที่มีการพักในขั้นตอนที่ 2 ในทางกลับกันฉันคิดว่าการตรวจสอบความถูกต้องข้าม K-fold ซ้ำอาจทำซ้ำขั้นตอนที่ 1 และ 2 ซ้ำหลายครั้งเราเลือกที่จะค้นหาความแปรปรวนของแบบจำลอง อย่างไรก็ตามการใช้อัลกอริทึมในคู่มือคาเร็ตดูเหมือนว่าวิธีการ 'repeatcv' อาจทำการตรวจสอบความถูกต้องแบบซ้อนข้าม K-fold เช่นกันนอกเหนือจากการตรวจสอบความถูกต้องแบบไขว้ซ้ำ คำถามของฉันคือ: …

1
ควรใช้การตรวจสอบข้ามซ้ำซ้ำเพื่อประเมินแบบจำลองการทำนาย?
ฉันเจอบทความปี 2555 นี้โดย Gitte Vanwinckelen และ Hendrik Blockeel เรียกร้องให้มีการสอบถามการใช้งานข้ามการตรวจสอบซ้ำซึ่งกลายเป็นเทคนิคยอดนิยมสำหรับการลดความแปรปรวนของการตรวจสอบข้าม ผู้เขียนแสดงให้เห็นว่าในขณะที่การตรวจสอบข้ามซ้ำหลายครั้งจะลดความแปรปรวนของการทำนายแบบจำลองเนื่องจากชุดข้อมูลตัวอย่างเดียวกันกำลังถูก resampled ค่าเฉลี่ยของการประมาณการตรวจสอบความถูกต้องแบบข้ามที่ถูกสุ่มใหม่ ควรใช้การตรวจสอบข้ามซ้ำซ้ำทั้งๆที่มีข้อ จำกัด เหล่านี้หรือไม่?

2
ทำไมจึงเรียกว่าส่วนเบี่ยงเบน "มาตรฐาน"
ฉันมีคำถามที่เรียบง่ายและอาจเห็นได้ชัดว่าทำไมค่าเบี่ยงเบนมาตรฐานจึงเรียกว่า " มาตรฐาน " เป็นเพราะมันเป็นมาตรฐานการเปรียบเทียบชุดข้อมูลและผลลัพธ์ที่เกี่ยวกับการกระจายตัวของพวกเขา? การค้นหาใน Exchange Exchange ไม่ได้ทำให้เกิดคำถามนี้ขึ้นและการค้นหาโดย Google ในนิรุกติศาสตร์ของคำนั้นให้คุณค่าอย่างมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.