สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
MCMC แบบปรับได้สามารถเชื่อถือได้หรือไม่?
ฉันกำลังอ่านเกี่ยวกับการปรับตัวMCMC (ดูเช่นบทที่ 4 ของคู่มือของมาร์คอฟเชนมอนติคาร์โล , เอ็ดบรูคส์และคณะ, 2011; และAndrieu & Thoms, 2008 ) ผลลัพธ์หลักของโรเบิร์ตและโรเซนธาล (2007)คือถ้ารูปแบบการปรับตัวสอดคล้องกับเงื่อนไขการปรับตัวที่หายไป (รวมถึงเทคนิคอื่น ๆ ) MCMC ที่ปรับตัวได้นั้นเป็นไปตามหลักสรีรศาสตร์ภายใต้โครงการใด ๆ ยกตัวอย่างเช่นการปรับตัวที่หายไปสามารถรับได้อย่างง่ายดายโดยการปรับผู้ประกอบการเปลี่ยนแปลงที่ซ้ำกับความน่าจะเป็นกับ0nnnp ( n )พี(n)p(n)Limn → ∞p ( n ) = 0Limn→∞พี(n)=0\lim_{n \rightarrow \infty} p(n) = 0 ผลลัพธ์นี้คือ (รูปหลัง) ที่ใช้งานง่ายไม่แสดงอาการ เนื่องจากจำนวนการปรับตัวมีแนวโน้มที่จะเป็นศูนย์ในที่สุดมันจะไม่ยุ่งเหยิงกับการยศาสตร์ ความกังวลของฉันคือสิ่งที่เกิดขึ้นกับเวลาที่จำกัด เราจะรู้ได้อย่างไรว่าการปรับตัวไม่ได้ยุ่งเหยิงในช่วงเวลาที่กำหนดและตัวอย่างนั้นเป็นการสุ่มตัวอย่างจากการแจกแจงที่ถูกต้อง? ถ้ามันสมเหตุสมผลแล้วการเผาไหม้จะต้องทำเท่าไหร่เพื่อให้แน่ใจว่าการปรับตัวก่อนหน้านี้ไม่ได้เป็นการให้น้ำหนักโซ่ ผู้ปฏิบัติงานในสาขาเชื่อถือ MCMC ที่ปรับตัวได้หรือไม่? เหตุผลที่ฉันถามคือเพราะฉันได้เห็นวิธีการล่าสุดหลายอย่างที่พยายามสร้างการปรับตัวในวิธีอื่น ๆ ที่ซับซ้อนกว่าซึ่งเป็นที่รู้กันว่าเคารพการยศาสตร์เช่นการฟื้นฟูหรือวิธีการรวมกัน (เช่นมันเป็นเรื่องปกติที่จะเลือกการเปลี่ยนแปลง …

5
ข้อสันนิษฐานของการถดถอยพหุคูณ: สมมติฐานเชิงบรรทัดฐานแตกต่างจากสมมติฐานความแปรปรวนคงที่อย่างไร
ฉันอ่านว่าสิ่งเหล่านี้เป็นเงื่อนไขสำหรับการใช้แบบจำลองการถดถอยหลายแบบ: รูปแบบที่เหลือเกือบปกติ ความแปรปรวนของส่วนที่เหลือเกือบคงที่ ส่วนที่เหลือมีความเป็นอิสระและ แต่ละตัวแปรมีความสัมพันธ์เชิงเส้นตรงกับผลลัพธ์ 1 และ 2 แตกต่างกันอย่างไร คุณสามารถดูได้ที่นี่: กราฟข้างบนบอกว่าส่วนที่เหลือซึ่งคือ 2 ส่วนเบี่ยงเบนมาตรฐานอยู่ 10 ห่างจาก Y-hat นั่นหมายความว่าส่วนที่เหลือจะเป็นไปตามการแจกแจงแบบปกติ คุณไม่สามารถอนุมาน 2 จากนี้ได้ใช่ไหม ความแปรปรวนของค่าคงที่เกือบคงที่หรือไม่

2
พิสูจน์ว่าสถิติ F ตามการกระจายตัวของ F
ในแง่ของคำถามนี้: พิสูจน์ว่าสัมประสิทธิ์ในแบบจำลอง OLS เป็นไปตามการแจกแจงแบบ t- ด้วย (nk) องศาอิสระ ฉันชอบที่จะเข้าใจว่าทำไม F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, โดยที่คือจำนวนพารามิเตอร์โมเดลและจำนวนการสังเกตและความแปรปรวนรวม,ค่าความแปรปรวนที่เหลือตามการกระจายn T S S R S S F พี- 1 , n - พีpppnnnTSSTSSTSSRSSRSSRSSFp−1,n−pFp−1,n−pF_{p-1,n-p} ฉันต้องยอมรับว่าฉันไม่ได้พยายามพิสูจน์มันเพราะฉันไม่รู้ว่าจะเริ่มจากตรงไหน

3
ทำสถิติที่ถูกต้องในสภาพแวดล้อมการทำงานหรือไม่?
ฉันไม่แน่ใจว่าคำถามนี้อยู่ที่ไหน: ตรวจสอบข้ามหรือตรวจสอบสถานที่ทำงาน แต่คำถามของฉันเกี่ยวข้องกับสถิติอย่างชัดเจน คำถามนี้ (หรือฉันเดาคำถาม) เกิดขึ้นระหว่างการทำงานในฐานะ "ฝึกงานด้านข้อมูล" ฉันกำลังสร้างแบบจำลองการถดถอยเชิงเส้นนี้และตรวจสอบพล็อตที่เหลือ ฉันเห็นสัญญาณชัดเจนของ heteroskedasticity ฉันจำได้ว่า heteroskedasticity บิดเบือนสถิติการทดสอบหลายอย่างเช่นช่วงความมั่นใจและการทดสอบที ดังนั้นฉันจึงใช้น้ำหนักอย่างน้อยกำลังสองตามสิ่งที่ฉันเรียนที่วิทยาลัย ผู้จัดการของฉันเห็นและแนะนำให้ฉันอย่าทำเช่นนั้นเพราะ "ฉันทำสิ่งที่ซับซ้อน" ซึ่งก็ไม่ใช่เหตุผลที่น่าเชื่อถือสำหรับฉันเลย อีกตัวอย่างหนึ่งคือ "การลบตัวแปรอธิบายเนื่องจากค่า p ของมันไม่มีนัยสำคัญ" คำแนะนำนี้ไม่สมเหตุสมผลจากมุมมองเชิงตรรกะ จากสิ่งที่ฉันได้เรียนรู้ค่า p ที่ไม่มีนัยสำคัญอาจเป็นเพราะเหตุผลที่แตกต่าง: โอกาสการใช้โมเดลที่ไม่ถูกต้องละเมิดสมมติฐาน ฯลฯ อีกตัวอย่างหนึ่งก็คือฉันใช้การตรวจสอบความถูกต้องไขว้ของ k-fold เพื่อประเมินโมเดลของฉัน ตามผลเป็นเพียงวิธีที่ดีกว่า2} แต่เราจะมีต่ำกว่ารุ่น 1 และเหตุผลที่มีบางสิ่งบางอย่างจะทำอย่างไรกับตัด หัวหน้างานของฉัน แต่ดูเหมือนว่าจะชอบรุ่น 2 เพราะมันมีสูง 2 เหตุผลของเขา (เช่นนั้นแข็งแกร่งหรือการตรวจสอบข้ามเป็นวิธีการเรียนรู้ของเครื่องจักรไม่ใช่วิธีทางสถิติ) ดูเหมือนจะไม่น่าเชื่อพอที่จะเปลี่ยนความคิดของฉัน C V เมตรo d อีลิตร2 R 2คVm o …
20 careers 

6
การทำเมทริกซ์สหสัมพันธ์ 3x3 ให้สัมประสิทธิ์สองตัวของสามตัว
ฉันถูกถามคำถามนี้ในการสัมภาษณ์ ให้บอกว่าเรามีเมทริกซ์สหสัมพันธ์ของรูปแบบ ⎡⎣⎢10.60.80.61γ0.8γ1⎤⎦⎥[10.60.80.61γ0.8γ1]\begin{bmatrix}1&0.6&0.8\\0.6&1&\gamma\\0.8&\gamma&1\end{bmatrix} ฉันถูกขอให้ค้นหาค่าของแกมม่าเนื่องจากเมทริกซ์สหสัมพันธ์นี้ ฉันคิดว่าฉันสามารถทำบางสิ่งกับค่าลักษณะเฉพาะได้เนื่องจากพวกเขาควรจะมากกว่าหรือเท่ากับ 0 (เมทริกซ์ควรเป็น semidefinite บวก) - แต่ฉันไม่คิดว่าวิธีการนี้จะให้คำตอบ ฉันไม่มีเคล็ดลับ คุณกรุณาให้คำแนะนำเพื่อแก้ปัญหาเดียวกันได้หรือไม่?

1
Howlers เกิดจากการใช้การถดถอยแบบขั้นตอน
ฉันตระหนักดีถึงปัญหาของการเลือกตามขั้นตอน / ไปข้างหน้า / ถอยหลังในตัวแบบการถดถอย มีหลายกรณีที่นักวิจัยประนามวิธีและชี้ทางเลือกที่ดีกว่า ฉันอยากรู้ว่ามีเรื่องราวใดบ้างที่มีอยู่ที่การวิเคราะห์ทางสถิติ: ใช้การถดถอยแบบขั้นตอน ทำข้อสรุปที่สำคัญบางประการตามโมเดลสุดท้าย ข้อสรุปนั้นผิดส่งผลลบต่อบุคคลการวิจัยหรือองค์กรของพวกเขา ความคิดของฉันเกี่ยวกับเรื่องนี้หากวิธีการแบบขั้นตอนไม่ดีแล้วก็ควรจะมีผลตามมาใน "โลกแห่งความจริง" สำหรับการใช้มัน

1
กระบวนการ Gaussian Wavelet-Domain: ความแปรปรวนร่วมคืออะไร?
ฉันได้อ่านMaraun et al , "กระบวนการ Gaussian Nonstationary ในโดเมนเวฟเล็ต: การสังเคราะห์, การประมาณค่าและการทดสอบที่สำคัญ" (2007) ซึ่งกำหนดคลาสของ GP ที่ไม่คงที่ซึ่งสามารถระบุได้โดยตัวคูณในโดเมนเวฟเล็ต การตระหนักถึงหนึ่งใน GP ดังกล่าวคือ: ที่เป็นเสียงสีขาว,คือการแปลงเวฟเล็ตต่อเนื่องที่เกี่ยวข้องกับ wavelet ,เป็นตัวคูณ (kinda เช่นค่าสัมประสิทธิ์ฟูริเยร์) ที่มีขนาดและเวลาและเป็นผกผันแปลงเวฟเล็ตกับการฟื้นฟูเวฟชั่วโมงη ( t ) W g g m ( b , a ) a b M hชมs ( t ) = Mชั่วโมงm ( b , a ) Wก.η( …

5
กลิ้งตายจนกว่ามันจะตกลงสู่หมายเลขอื่นที่ไม่ใช่ 4 ความน่าจะเป็นที่ผลลัพธ์จะเป็นเท่าใด> 4?
ผู้เล่นได้รับการตายอย่างยุติธรรมหกด้าน ในการชนะเธอจะต้องหมุนหมายเลขมากกว่า 4 (เช่น 5 หรือ 6) ถ้าเธอกลิ้ง 4 เธอต้องหมุนอีกครั้ง อัตราต่อรองของเธอในการชนะคืออะไร? ฉันคิดว่าความน่าจะเป็นในการชนะP(W)P(W)P(W)สามารถแสดงซ้ำได้ดังนี้: P(W)=P(r=5∪r=6)+P(r=4)⋅P(W)P(W)=P(r=5∪r=6)+P(r=4)⋅P(W) P(W) = P(r = 5 \cup r = 6) + P(r = 4) \cdot P(W) ฉันได้ประมาณP( ว)P(W)P(W)เป็น0.39990.39990.3999โดยใช้การทดลอง 1 ล้านครั้งใน Java เช่นนี้ import java.util.Random; public class Dice { public static void main(String[] args) { int runs = 1000000000; …

3
เพื่อเพิ่มโอกาสในการเดาผลการพลิกเหรียญอย่างถูกต้องฉันควรเลือกผลลัพธ์ที่เป็นไปได้มากที่สุดหรือไม่?
นี่ไม่ใช่การบ้าน ฉันสนใจที่จะเข้าใจว่าตรรกะของฉันถูกต้องกับปัญหาสถิติอย่างง่ายนี้หรือไม่ สมมติว่าผมมีเหรียญ 2 ด้านที่น่าจะเป็นของการพลิกหัวคือและน่าจะเป็นของการพลิกหางเป็น(H) สมมติว่าการโยนทั้งหมดมีความน่าจะเป็นอิสระ ตอนนี้สมมติว่าฉันต้องการเพิ่มโอกาสในการทำนายว่าเหรียญจะเป็นส่วนหัวหรือส่วนท้ายของการพลิกครั้งต่อไป ถ้า , ฉันสามารถคาดเดาหัวหรือหางที่สุ่มและน่าจะเป็นของฉันเป็นที่ถูกต้องคือ0.51 - P ( H ) P ( H ) = 0.5 0.5P( H)P(H)P(H)1 - พี( H)1−P(H)1-P(H)P( H) = 0.5P(H)=0.5P(H) = 0.50.50.50.5 ทีนี้สมมติว่าถ้าฉันต้องการเพิ่มโอกาสในการคาดเดาให้ถูกต้องมากที่สุดฉันควรจะคาดเดาก้อยที่ความน่าจะเป็นคือหรือไม่?0.8P( H) = 0.2P(H)=0.2P(H) = 0.20.80.80.8 ถ้าฉันมีแบบ 3 ด้านและความน่าจะเป็นในการหมุน 1, 2 หรือ 3 คือ , , และฉันควรเดา 2 เสมอเพื่อเพิ่มโอกาสในการคาดเดาให้ถูกต้องที่สุดหรือไม่? …

1
เราจะจำลองจากส่วนผสมทางเรขาคณิตได้อย่างไร
ถ้าเป็นที่รู้จักกันในความหนาแน่นซึ่งฉันสามารถจำลองคืออัลกอริธึมที่มีอยู่ และถ้าผลิตภัณฑ์สามารถรวมกันได้มีวิธีการทั่วไปในการจำลองจากความหนาแน่นของผลิตภัณฑ์นี้โดยใช้ ซิมูเลเตอร์จากหรือไม่k ∏ i = 1 f i ( x ) α if1,…,fkf1,…,fkf_1,\ldots,f_kf i∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0fifif_i

3
ทำไม AUC = 1 ถึงแม้ตัวแยกประเภทได้แบ่งครึ่งตัวอย่างแล้ว?
ฉันใช้ตัวจําแนกซึ่งส่งกลับความน่าจะเป็น ในการคำนวณ AUC ฉันใช้ pROC R-package ความน่าจะเป็นผลลัพธ์จากลักษณนามคือ: probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probsแสดงความน่าจะเป็นที่อยู่ในระดับ '1' ดังที่แสดงลักษณนามได้จำแนกตัวอย่างทั้งหมดในคลาส '1' True label vector คือ: truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0) ดังที่แสดงลักษณนามได้จำแนก 5 ตัวอย่าง แต่ AUC คือ: pROC::auc(truel, probs) Area under the curve: 1 คุณช่วยอธิบายให้ฉันฟังหน่อยได้ไหมว่าทำไมมันถึงเกิดขึ้น?

9
เราจะรู้ได้อย่างไรว่าความน่าจะเป็นของการหมุน 1 และ 2 เป็น 1/18?
ตั้งแต่ชั้นความน่าจะเป็นครั้งแรกของฉันฉันสงสัยเกี่ยวกับสิ่งต่อไปนี้ การคำนวณความน่าจะเป็นมักจะแนะนำผ่านอัตราส่วนของ "เหตุการณ์ที่โปรดปราน" ต่อเหตุการณ์ที่เป็นไปได้ทั้งหมด ในกรณีของการกลิ้งลูกเต๋า 6 ด้านสองลูกเต๋าจำนวนของเหตุการณ์ที่เป็นไปได้คือดังที่แสดงในตารางด้านล่าง363636 1234561( 1 , 1 )( 2 , 1 )( 3 , 1 )( 4 , 1 )( 5 , 1 )( 6 , 1 )2( 1 , 2 )( 2 , 2 )( 3 , 2 )( 4 , 2 )( 5 , …
20 probability  dice 

4
ความแตกต่างระหว่างการเรียนรู้และการอนุมานคืออะไร?
เอกสารการเรียนรู้การเรียนรู้ด้วยเครื่องมักจะรักษาการเรียนรู้และการอนุมานว่าเป็นภารกิจสองอย่างที่แยกกัน แต่ก็ไม่ชัดเจนสำหรับฉันว่าความแตกต่างคืออะไร ในหนังสือเล่มนี้พวกเขาใช้สถิติแบบเบย์สำหรับงานทั้งสองประเภท แต่ไม่ได้ให้แรงจูงใจสำหรับความแตกต่างนั้น ฉันมีความคิดที่คลุมเครือหลายอย่างเกี่ยวกับสิ่งที่อาจเป็นเกี่ยวกับ แต่ฉันอยากจะเห็นคำจำกัดความที่มั่นคงและบางทีก็อาจเป็นการโต้แย้งหรือการขยายความคิดของฉัน: ความแตกต่างระหว่างการอนุมานค่าของตัวแปรแฝงสำหรับจุดข้อมูลที่แน่นอนและการเรียนรู้รูปแบบที่เหมาะสมสำหรับข้อมูล ความแตกต่างระหว่างการแยกความแปรปรวน (การอนุมาน) และการเรียนรู้การบุกรุกเพื่อที่จะสามารถแยกความแปรปรวน (โดยการเรียนรู้พลวัตของพื้นที่อินพุต / กระบวนการ / โลก) การเปรียบเทียบทางระบบประสาทอาจเป็น potentiation / depression ระยะสั้น (ร่องรอยความจำ) เทียบกับ potentiation / depression ระยะยาว

1
การพิสูจน์ค่าสัมประสิทธิ์การหดตัวโดยใช้การถดถอยแบบสันผ่าน“ การสลายตัวของสเปกตรัม”
ฉันเข้าใจว่าการถดถอยของสันเขาลดค่าสัมประสิทธิ์ไปสู่ศูนย์ทางเรขาคณิต ยิ่งไปกว่านั้นฉันรู้วิธีที่จะพิสูจน์ว่าในกรณีพิเศษ "Orthonormal" แต่ฉันสับสนว่ามันทำงานอย่างไรในกรณีทั่วไปผ่าน "การสลายตัวทางสเปกตรัม"

4
การเข้ารหัสข้อมูลมุมสำหรับโครงข่ายประสาทเทียม
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียม (รายละเอียดไม่สำคัญ) โดยที่ข้อมูลเป้าหมายเป็นเวกเตอร์ของมุม (ระหว่าง 0 ถึง 2 * pi) ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการเข้ารหัสข้อมูลนี้ นี่คือสิ่งที่ฉันกำลังพยายาม (ด้วยความสำเร็จที่ จำกัด ): 1) การเข้ารหัส 1-of-C: ฉันวางมุมที่เป็นไปได้ในการตั้งค่าไว้ที่ 1,000 มุมหรือแยกกันแล้วระบุมุมที่ต้องการโดยการใส่ 1 ที่ดัชนีที่เกี่ยวข้อง ปัญหาเกี่ยวกับสิ่งนี้คือเครือข่ายเรียนรู้ที่จะเอาท์พุททั้งหมด 0 (เนื่องจากเป็นสิ่งที่ถูกต้องเกือบ) 2) การปรับขนาดง่าย: ฉันปรับขนาดช่วงสัญญาณเครือข่าย ([0,1]) ถึง [0,2 * pi] ปัญหาตรงนี้คือมุมโดยธรรมชาติมีลักษณะเป็นวงกลม (เช่น 0.0001 และ 2 * pi นั้นอยู่ติดกัน) ด้วยการเข้ารหัสชนิดนี้ข้อมูลนั้นจะหายไป ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชม!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.