สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เป็นไปได้อย่างไรที่จะได้แบบจำลองการถดถอยเชิงเส้นที่ดีเมื่อไม่มีความสัมพันธ์อย่างมากระหว่างผลลัพธ์กับตัวทำนาย
ฉันได้ฝึกแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดของตัวแปร / คุณสมบัติ และตัวแบบมีประสิทธิภาพที่ดี อย่างไรก็ตามฉันได้ตระหนักว่าไม่มีตัวแปรใดที่มีความสัมพันธ์ที่ดีกับตัวแปรที่ทำนายไว้ มันเป็นไปได้ยังไงกัน?

11
คุณสามารถอนุมานสาเหตุจากความสัมพันธ์ในตัวอย่างของเกมเผด็จการนี้ได้หรือไม่?
ฉันเพิ่งจะได้สอบซึ่งเรานำเสนอด้วยสองตัวแปร ในเกมเผด็จการที่มีเผด็จการจะได้รับ 100 USD และสามารถเลือกได้ว่าจะส่งหรือเก็บรักษาตัวเองเท่าใดมีความสัมพันธ์เชิงบวกระหว่างอายุและจำนวนเงินที่ผู้เข้าร่วมตัดสินใจเก็บไว้ ความคิดของฉันคือคุณไม่สามารถอนุมานสาเหตุจากสิ่งนี้เพราะคุณไม่สามารถอนุมานสาเหตุจากความสัมพันธ์ เพื่อนร่วมชั้นของฉันคิดว่าคุณทำได้เพราะถ้าคุณแยกผู้เข้าร่วมออกเป็นสามกลุ่มคุณจะเห็นว่าพวกเขาต่างกันในเรื่องที่พวกเขารักษาและจำนวนที่พวกเขาแบ่งปันกันและสรุปว่าอายุทำให้พวกเขาเก็บมากขึ้น ใครถูกต้องและทำไม

2
LASSO และสันเขาจากมุมมองแบบเบย์: แล้วพารามิเตอร์การจูนล่ะ?
การประมาณค่าถดถอยแบบปรับโทษเช่น LASSO และสันถูกกล่าวว่าสอดคล้องกับตัวประมาณแบบเบย์กับนักบวชบางคน ฉันเดา (เนื่องจากฉันไม่ทราบเกี่ยวกับสถิติของ Bayesian มากพอ) ว่าสำหรับพารามิเตอร์การปรับค่าคงที่มีรูปธรรมที่สอดคล้องกันมาก่อน ตอนนี้ผู้ใช้งานประจำจะปรับพารามิเตอร์การปรับให้เหมาะสมโดยการตรวจสอบข้าม มีสิ่งที่เทียบเท่ากับการทำแบบเบย์หรือไม่และมีการนำมาใช้ทั้งหมดหรือไม่? หรือวิธีการแบบเบย์แก้ไขพารามิเตอร์การจูนอย่างมีประสิทธิภาพก่อนที่จะเห็นข้อมูลหรือไม่? (ฉันเดาว่าหลังจะเป็นอันตรายต่อประสิทธิภาพการทำนาย)

3
อะไรคือความแตกต่างระหว่าง“ การทดสอบทางสถิติ” และ“ แบบจำลองเชิงสถิติ”?
ฉันกำลังติดตาม AW van der Vaart, สถิติแบบอะซิติกติก (1998) เขาพูดถึงการทดลองทางสถิติโดยอ้างว่าพวกเขาแตกต่างจากแบบจำลองทางสถิติ แต่เขาไม่ได้กำหนด คำถามของฉัน: (1) การทดลองทางสถิติคืออะไร (2) แบบจำลองทางสถิติและ (3) ส่วนประกอบสำคัญที่มักจะทำให้การทดลองทางสถิติแตกต่างจากแบบจำลองทางสถิติใด ๆ เสมอ?

3
ทำไมไม่ใช้ "สมการปกติ" เพื่อหาค่าสัมประสิทธิ์กำลังสองน้อยที่สุดอย่างง่าย?
ฉันเห็นรายการนี้ที่นี่และไม่อยากจะเชื่อว่ามีวิธีมากมายในการแก้ปัญหากำลังสองน้อยที่สุด "การสมปกติ" ในวิกิพีเดียดูเหมือนจะเป็นทางข้างหน้าค่อนข้างตรง: αα^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} ดังนั้นทำไมไม่ใช้เพียงแค่พวกเขา? ฉันสันนิษฐานว่าจะต้องมีปัญหาการคำนวณหรือความแม่นยำเนื่องจากในลิงค์แรกเหนือ Mark L. Stone กล่าวว่า SVD หรือ QR เป็นวิธีที่ได้รับความนิยมในซอฟต์แวร์ทางสถิติและสมการปกติคือ "TERRIBLE จากความน่าเชื่อถือและความแม่นยำเชิงตัวเลข" อย่างไรก็ตามในรหัสต่อไปนี้สมการปกติทำให้ฉันมีความแม่นยำถึง ~ 12 ตำแหน่งทศนิยมเมื่อเทียบกับสามฟังก์ชั่นหลามยอดนิยม: numpy polyfit ; SciPy ของlinregress ; และ scikit การเรียนรู้ของการถดถอยเชิงเส้น สิ่งที่น่าสนใจกว่าคือวิธีสมการปกตินั้นเร็วที่สุดเมื่อ n = 100000000 เวลาในการคำนวณสำหรับฉันคือ: …

7
“ การแจกจ่ายปกติ” จำเป็นต้องมีค่าเฉลี่ย = มัธยฐาน = โหมดหรือไม่?
ฉันกำลังถกเถียงกับอาจารย์สถิติระดับบัณฑิตศึกษาเกี่ยวกับ "การแจกแจงแบบปกติ" ฉันขอยืนยันว่าการได้รับการแจกแจงแบบปกติอย่างแท้จริงต้องมีค่าเฉลี่ย = มัธยฐาน = โหมดข้อมูลทั้งหมดจะต้องอยู่ภายใต้เส้นโค้งรูประฆังและสมมาตรรอบ ๆ ค่าเฉลี่ยอย่างสมบูรณ์ ดังนั้นในทางเทคนิคแล้วไม่มีการแจกแจงแบบปกติในการศึกษาจริงและเราควรเรียกพวกมันอย่างอื่นบางทีอาจจะ "ใกล้เคียงปกติ" เธอบอกว่าฉันจู้จี้จุกจิกมากเกินไปและถ้าความเบ้ / ความโด่งต่ำกว่า 1.0 มันเป็นการแจกแจงแบบปกติและเอาคะแนนไปสอบ ชุดข้อมูลคือจำนวนรวมของน้ำตก / ปีในการสุ่มตัวอย่างจากบ้านพักคนชรา 52 แห่งซึ่งเป็นกลุ่มตัวอย่างที่สุ่มของประชากรขนาดใหญ่ ความเข้าใจใด ๆ ปัญหา: คำถาม: 3. คำนวณหาค่าความเบ้และความโด่งของข้อมูลนี้ รวมฮิสโตแกรมด้วยเส้นโค้งปกติ อภิปรายสิ่งที่คุณค้นพบ มีการกระจายข้อมูลตามปกติหรือไม่ Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a มีหลายโหมด ค่าที่น้อยที่สุดจะปรากฏขึ้น Number of falls …

1
คำถาม: บอกตัวจําแนกตามขอบเขตการตัดสินใจ
รับเป็น 6 ขอบเขตการตัดสินใจด้านล่าง ขอบเขตการตัดสินใจเป็นเส้นสีม่วง จุดและกากบาทเป็นชุดข้อมูลที่แตกต่างกันสองชุด เราต้องตัดสินใจว่าอันไหนคือ: Linear SVM เคอร์เนล SVM (เคอร์เนลโพลิโนเมียลของคำสั่ง 2) Perceptron การถดถอยโลจิสติก Neural Network (1 เลเยอร์ที่ซ่อนอยู่พร้อมหน่วยเชิงเส้น 10 หน่วยแก้ไข) Neural Network (1 เลเยอร์ที่ซ่อนอยู่มี 10 ตัน) ฉันต้องการคำตอบ แต่ที่สำคัญกว่านั้นเข้าใจความแตกต่าง เช่นฉันจะบอกว่า c) เป็น SVM เชิงเส้น ขอบเขตการตัดสินใจเป็นแบบเส้นตรง แต่เรายังสามารถเชื่อมโยงขอบเขตการตัดสินใจ SVM เชิงเส้นเข้าด้วยกันได้ d) Kernelized SVM เนื่องจากเป็นคำสั่งพหุนาม 2. f) แก้ไขโครงข่ายประสาทเนื่องจากขอบ "หยาบ" อาจจะ) การถดถอยโลจิสติก: มันยังเป็นลักษณนามเชิงเส้น แต่ขึ้นอยู่กับความน่าจะเป็น

1
มีการตีความแบบเบย์ของการถดถอยเชิงเส้นพร้อมกับการทำให้เป็นมาตรฐาน L1 และ L2 พร้อมกัน (อาคายืดหยุ่นสุทธิ) หรือไม่?
เป็นที่ทราบกันดีว่าการถดถอยเชิงเส้นที่มีการลงโทษนั้นเทียบเท่ากับการหาค่าประมาณ MAP ที่กำหนดให้ Gaussian ก่อนค่าสัมประสิทธิ์ ในทำนองเดียวกันการใช้การลงโทษนั้นเทียบเท่ากับการใช้การแจกแจงแบบลาปลาซก่อนหน้านี้l2l2l^2l1l1l^1 มันไม่ใช่เรื่องแปลกที่จะใช้บางชุดถ่วงน้ำหนักของและกู เราสามารถพูดได้ไหมว่าสิ่งนี้เทียบเท่ากับการกระจายก่อนหน้ามากกว่าค่าสัมประสิทธิ์ (โดยสังเขปดูเหมือนว่าจะต้องเป็น) เราสามารถให้รูปแบบการวิเคราะห์ที่ดี (อาจเป็นส่วนผสมของ Gaussian และ Laplacian) ได้หรือไม่? ถ้าไม่ทำไมไม่l1l1l^1l2l2l^2

1
โอกาสสูงสุดและวิธีการของช่วงเวลาผลิตตัวประมาณเดียวกันเมื่อใด
ฉันถูกถามคำถามนี้เมื่อวันก่อนและไม่เคยคิดมาก่อน สัญชาตญาณของฉันมาจากข้อดีของตัวประมาณค่าแต่ละตัว ความเป็นไปได้สูงสุดนั้นดีกว่าเมื่อเรามีความมั่นใจในกระบวนการสร้างข้อมูลเพราะต่างจากวิธีการในช่วงเวลาที่ใช้ความรู้ของการกระจายทั้งหมด เนื่องจากตัวประมาณค่า MoM ใช้ข้อมูลที่มีอยู่ในช่วงเวลาเท่านั้นดูเหมือนว่าทั้งสองวิธีควรสร้างค่าประมาณเดียวกันเมื่อสถิติที่เพียงพอสำหรับพารามิเตอร์ที่เราพยายามจะประมาณนั้นเป็นช่วงเวลาของข้อมูล ฉันตรวจสอบผลลัพธ์นี้ด้วยการแจกแจงไม่กี่ครั้ง ปกติ (ค่าเฉลี่ยและความแปรปรวนที่ไม่รู้จัก), เอ็กซ์โปเนนเชียลและปัวซองมีสถิติที่เพียงพอเท่ากับช่วงเวลาของพวกเขาและมีตัวประมาณค่า MLEs และ MoM เหมือนกัน ถ้าเราดู Uniformสถิติที่เพียงพอสำหรับคือและตัวประมาณ MoM และ MLE แตกต่างกัน( 0 , θ )(0,θ)(0,\theta)θθ\thetaสูงสุด( X1, ⋯ , Xยังไม่มีข้อความ)สูงสุด(X1,⋯,Xยังไม่มีข้อความ)\max(X_1,\cdots,X_N) ฉันคิดว่าบางทีนี่อาจเป็นเหตุการณ์ที่แปลกประหลาดของตระกูลเอ็กซ์โพเนนเชียล แต่สำหรับ Laplace ที่มีค่าเฉลี่ยสถิติที่เพียงพอคือ1n∑ | Xผม|1nΣ|Xผม|\frac{1}{n} \sum |X_i| และตัวประมาณค่า MLE และ MoM สำหรับความแปรปรวนไม่เท่ากัน ฉันไม่สามารถแสดงผลลัพธ์ใด ๆ โดยทั่วไปได้ มีใครทราบถึงเงื่อนไขทั่วไปบ้างไหม หรือแม้แต่ตัวอย่างเคาน์เตอร์ก็ช่วยให้ฉันปรับสัญชาตญาณ

2
ทำไมการถดถอยเบต้าไม่สามารถจัดการกับ 0 และ 1 ในตัวแปรตอบกลับได้
การถดถอยแบบเบต้า (เช่น GLM ที่มีการแจกแจงแบบเบต้าและมักจะมีฟังก์ชั่นการเชื่อมโยงแบบ logit) มักจะแนะนำให้จัดการกับการตอบสนองหรือที่เรียกว่าตัวแปรตามค่าระหว่าง 0 และ 1 เช่นเศษส่วนอัตราส่วนหรือความน่าจะเป็น: การถดถอยสำหรับผลลัพธ์ ระหว่าง 0 และ 1 อย่างไรก็ตามมีการอ้างเสมอว่าการถดถอยเบต้าไม่สามารถใช้ได้ทันทีที่ตัวแปรตอบสนองเท่ากับ 0 หรือ 1 อย่างน้อยหนึ่งครั้ง ถ้าไม่จำเป็นต้องใช้ทั้งศูนย์ / รุ่นหนึ่งที่สูงเกินจริงเบต้าหรือทำให้การเปลี่ยนแปลงของการตอบสนองบาง ฯลฯ .: ถดถอยเบต้าของข้อมูลสัดส่วนรวมทั้งที่ 1 และ 0 คำถามของฉันคือคุณสมบัติของการกระจายเบต้าป้องกันการถดถอยเบต้าจากการจัดการกับ 0s และ 1s ที่แน่นอนและเพราะเหตุใด ฉันเดาว่ามันคือและไม่ได้อยู่ในการสนับสนุนของการกระจายเบต้า แต่สำหรับพารามิเตอร์รูปร่างทั้งหมดและทั้งศูนย์และอีกอันหนึ่งอยู่ในการสนับสนุนการแจกแจงแบบเบต้ามันเป็นเพียงพารามิเตอร์รูปร่างขนาดเล็กที่การกระจายไปที่อนันต์ที่หนึ่งหรือทั้งสองด้าน และบางทีข้อมูลตัวอย่างเป็นเช่นที่และให้เหมาะสมที่สุดทั้งคู่ก็จะเปิดออกเพื่อจะเหนือ1000111α>1α>1\alpha>1β>1β>1\beta>1αα\alphaββ\beta111 มันหมายความว่าในบางกรณีเราสามารถใช้การถดถอยแบบเบต้าแม้ว่าจะเป็นศูนย์ / คนก็ตาม แน่นอนว่าแม้ว่า 0 และ 1 จะอยู่ในการสนับสนุนการแจกแจงเบต้าความน่าจะเป็นที่สังเกต 0 หรือ 1 เป็นศูนย์ แต่ความน่าจะเป็นที่จะสังเกตชุดของค่าที่นับได้อื่น …

6
ฉันสามารถเชื่อถือผลลัพธ์สำคัญของการทดสอบ t ได้ไหมถ้าขนาดตัวอย่างเล็ก?
หากผลการทดสอบการทดสอบด้านเดียวของฉันมีความสำคัญ แต่ขนาดตัวอย่างมีขนาดเล็ก (เช่นต่ำกว่า 20 หรือมากกว่านั้น) ฉันจะยังเชื่อถือได้หรือไม่ ถ้าไม่ฉันจะจัดการและ / หรือตีความผลลัพธ์นี้อย่างไร

4
พื้นฐานสำหรับคำจำกัดความ Box และ Whisker Plot ของค่าผิดปกติคืออะไร?
นิยามมาตรฐานของค่าผิดปกติสำหรับพล็อต Box และ Whisker คือจุดที่อยู่นอกช่วงโดยที่และเป็นควอไทล์ตัวแรกและคือควอไทล์ที่สามของข้อมูล{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 พื้นฐานสำหรับคำจำกัดความนี้คืออะไร ด้วยคะแนนจำนวนมากแม้การแจกแจงแบบปกติที่สมบูรณ์แบบก็จะส่งกลับค่าผิดปกติ ตัวอย่างเช่นสมมติว่าคุณเริ่มต้นด้วยลำดับ: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) ลำดับนี้สร้างการจัดอันดับเปอร์เซ็นต์ของข้อมูล 4,000 จุด การทดสอบภาวะปกติสำหรับqnormผลลัพธ์ในซีรี่ส์นี้: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 ผลลัพธ์เป็นไปตามที่คาดไว้: ปกติของการแจกแจงแบบปกติเป็นเรื่องปกติ การสร้างการสร้างข้อมูลแบบตรงqqnorm(qnorm(xseq))(ตามที่คาดไว้): หาก boxplot ของข้อมูลเดียวกันถูกสร้างขึ้นboxplot(qnorm(xseq))ให้สร้างผลลัพธ์: Boxplot แตกต่างshapiro.test, ad.testหรือ …

2
การกระจายตัวตัวอย่างจากประชากร Bernoulli สองคนที่เป็นอิสระ
สมมติว่าเรามีตัวอย่างของทั้งสองตัวแปรสุ่มอิสระ Bernoulli, Ber(θ1)Ber(θ1)\mathrm{Ber}(\theta_1)และBer(θ2)Ber(θ2)\mathrm{Ber}(\theta_2) ) เราจะพิสูจน์ได้อย่างไร(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2−−−−−−−−−−−−−−√→dN(0,1)(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2→dN(0,1)\frac{(\bar X_1-\bar X_2)-(\theta_1-\theta_2)}{\sqrt{\frac{\theta_1(1-\theta_1)}{n_1}+\frac{\theta_2(1-\theta_2)}{n_2}}}\xrightarrow{d} \mathcal N(0,1)? สมมติว่าn1≠n2n1≠n2n_1\neq n_2 2

1
เหตุใดค่า p จึงสูงขึ้นในโมเดลอันตรายตามสัดส่วนของ Cox มากกว่าในการถดถอยโลจิสติก
ฉันได้เรียนรู้เกี่ยวกับรูปแบบอันตรายตามสัดส่วนของค็อกซ์แล้ว ฉันมีจำนวนมากประสบการณ์ที่เหมาะสมรูปแบบการถดถอยโลจิสติกและเพื่อที่จะสร้างสัญชาตญาณของฉันได้รับการเปรียบเทียบรูปแบบให้พอดีกับการใช้coxphจาก R "อยู่รอด" ที่มีรูปแบบการถดถอยโลจิสติกพอดีใช้กับglmfamily="binomial" ถ้าฉันใช้รหัส: library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) ฉันรับค่า p สำหรับอายุ 0.0419 และ 0.0254 ตามลำดับ ในทำนองเดียวกันถ้าฉันใช้เพศเป็นตัวทำนายโดยมีหรือไม่มีอายุ ฉันพบว่ามันทำให้งงเพราะฉันคิดว่าการใช้เวลาเป็นจำนวนมากเมื่อพิจารณาว่าแบบจำลองจะให้พลังงานทางสถิติมากกว่าการรักษาความตายเป็นผลลัพธ์ไบนารีในขณะที่ค่า p จะสอดคล้องกับที่มีกำลังทางสถิติน้อยลง เกิดขึ้นที่นี่คืออะไร?

3
สร้างคะแนนอย่างมีประสิทธิภาพระหว่างหน่วยวงกลมและหน่วยสี่เหลี่ยม
ฉันต้องการสร้างตัวอย่างจากขอบเขตสีฟ้าที่กำหนดไว้ที่นี่: โซลูชันไร้เดียงสาคือใช้การสุ่มตัวอย่างการปฏิเสธในหน่วยสี่เหลี่ยมจัตุรัส แต่ให้ประสิทธิภาพเพียง (~ 21.4%)1−π/41−π/41-\pi/4 มีวิธีที่ฉันสามารถตัวอย่างมีประสิทธิภาพมากขึ้น?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.