สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ใช้ glm () แทนการทดสอบไคสแควร์อย่างง่าย
ฉันสนใจที่จะเปลี่ยนสมมติฐานว่างที่ใช้glm()ใน R ตัวอย่างเช่น: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) การทดสอบสมมติฐานที่ว่า0.5 ถ้าฉันต้องการเปลี่ยนค่า null เป็น = ค่าที่กำหนดเองภายในจะทำอย่างไร p=0.5p=0.5p = 0.5pppglm() ฉันรู้ว่าสิ่งนี้สามารถทำได้ด้วยprop.test()และchisq.test()แต่ฉันต้องการสำรวจความคิดของการใช้glm()เพื่อทดสอบสมมติฐานทั้งหมดที่เกี่ยวข้องกับข้อมูลเด็ดขาด

3
ฉันสามารถใช้ชุดการตรวจสอบความถูกต้องจิ๋วได้ไหม?
ฉันเข้าใจเหตุผลที่อยู่เบื้องหลังการแยกข้อมูลออกเป็นชุดการทดสอบและชุดการตรวจสอบความถูกต้อง ฉันเข้าใจด้วยว่าขนาดของการแยกจะขึ้นอยู่กับสถานการณ์ แต่โดยทั่วไปจะแตกต่างกันจาก 50/50 ถึง 90/10 ฉันสร้าง RNN เพื่อแก้ไขการสะกดและเริ่มต้นด้วยชุดข้อมูลของประโยค ~ 5m ฉันโกนประโยคที่มีขนาด 500k แล้วฝึกด้วยประโยคที่เหลืออีกประมาณ 4.5m เมื่อการฝึกอบรมเสร็จสิ้นฉันจะใช้ชุดการตรวจสอบความถูกต้องและคำนวณความถูกต้อง สิ่งที่น่าสนใจคือหลังจากเพียง 4% ของชุดการตรวจสอบความถูกต้องของฉันฉันมีความแม่นยำ 69.4% และเปอร์เซ็นต์นี้ไม่เปลี่ยนแปลงมากกว่า 0.1% ในทิศทางใดทิศทางหนึ่ง ในที่สุดฉันเพิ่งตัดการตรวจสอบสั้นเพราะจำนวนติดอยู่ที่ 69.5% เหตุใดจึงต้องลดราคา 10% สำหรับการตรวจสอบความถูกต้องเมื่อฉันสามารถหนีไปได้ด้วย 1% มันสำคัญไหม

2
ค่าเฉลี่ยของเมทริกซ์บวกแน่นอนมีค่าบวกแน่นอนเช่นกันหรือไม่?
ค่าเฉลี่ยของเมทริกซ์บวก - แน่นอนหลายค่าจำเป็นต้องมีค่าบวกกึ่งบวกหรือกึ่งบวกแน่นอน? ค่าเฉลี่ยคือค่าเฉลี่ยขององค์ประกอบที่ฉลาด

5
ความแปรปรวนร่วม“ ความจริง” หมายถึงอะไร?
ฉันเป็นคนที่ไม่มีสถิติดังนั้นพวกคุณได้โปรดช่วยฉันที่นี่ด้วย คำถามของฉันมีดังต่อไปนี้: ความแปรปรวนร่วมหมายถึงอะไรจริง ๆ เมื่อฉันมองหาสูตรสำหรับความแปรปรวนแบบรวมในอินเทอร์เน็ตฉันพบวรรณกรรมจำนวนมากที่ใช้สูตรต่อไปนี้ (ตัวอย่างเช่นที่นี่: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html ): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation} แต่จริง ๆ แล้วมันคำนวณอะไร เพราะเมื่อฉันใช้สูตรนี้ในการคำนวณค่าความแปรปรวนรวมของฉันมันให้คำตอบที่ผิด ตัวอย่างเช่นพิจารณา "ตัวอย่างหลัก" เหล่านี้: 2,2,2,2,2,8,8,8,8,82,2,2,2,2,8,8,8,8,8\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation} ความแปรปรวนของกลุ่มตัวอย่างผู้ปกครองนี้เป็นและค่าเฉลี่ยของมันคือˉ x P = 5S2p=10Sp2=10S^2_p=10x¯p=5x¯p=5\bar{x}_p=5 ตอนนี้สมมติว่าฉันแยกตัวอย่างผู้ปกครองนี้ออกเป็นสองตัวอย่างย่อย: ครั้งแรกที่ย่อยตัวอย่างเป็น 2,2,2,2,2 ที่มีค่าเฉลี่ยและแปรปรวนS 2 1 = 0x¯1=2x¯1=2\bar{x}_1=2S21=0S12=0S^2_1=0 ที่สองย่อยตัวอย่างเป็น 8,8,8,8,8 ที่มีค่าเฉลี่ยและแปรปรวนS …
15 variance  mean  pooling 

2
Logistic Regression จะสร้างเส้นโค้งที่ไม่ใช่หน้าที่ดั้งเดิมได้อย่างไร
ฉันคิดว่าฉันมีความสับสนขั้นพื้นฐานเกี่ยวกับวิธีการทำงานของ Logistic ถดถอย (หรืออาจจะเป็นแค่ฟังก์ชั่นโดยรวม) ฟังก์ชั่น h (x) สร้างเส้นโค้งที่เห็นทางด้านซ้ายของภาพอย่างไร ฉันเห็นว่านี่เป็นพล็อตของสองตัวแปร แต่แล้วทั้งสองตัวแปร (x1 & x2) ก็เป็นอาร์กิวเมนต์ของฟังก์ชันเอง ฉันรู้ว่าฟังก์ชั่นมาตรฐานของแผนที่หนึ่งตัวแปรไปยังหนึ่งเอาท์พุท แต่ฟังก์ชั่นนี้ชัดเจนไม่ได้ทำอย่างนั้น - และฉันไม่แน่ใจว่าทำไม สัญชาตญาณของฉันคือเส้นโค้งสีน้ำเงิน / ชมพูไม่ได้พล็อตบนกราฟนี้จริงๆ แต่เป็นการแสดง (วงกลมและ X) ที่ได้รับการแมปกับค่าในมิติถัดไป (3) ของกราฟ นี่คือเหตุผลที่ผิดพลาดและฉันเพิ่งจะพลาดบางสิ่งบางอย่าง? ขอบคุณสำหรับความเข้าใจ / ปรีชาญาณ

1
การรวมพล็อตการสอบเทียบหลังจากการใส่หลายครั้ง
ฉันต้องการคำแนะนำในการรวมพล็อตการแปลง / สถิติหลังจากการใส่ร้ายหลายครั้ง ในการตั้งค่าการพัฒนาแบบจำลองทางสถิติเพื่อทำนายเหตุการณ์ในอนาคต (เช่นการใช้ข้อมูลจากบันทึกของโรงพยาบาลเพื่อทำนายการรอดชีวิตของผู้ป่วยหลังออกจากโรงพยาบาลหรือเหตุการณ์) เราสามารถจินตนาการได้ว่ามีข้อมูลที่ขาดหายไปมากมาย การใส่ข้อมูลหลายครั้งเป็นวิธีหนึ่งในการจัดการสถานการณ์ดังกล่าว แต่ส่งผลให้จำเป็นต้องรวมสถิติการทดสอบจากชุดข้อมูลการใส่ข้อมูลแต่ละชุดโดยคำนึงถึงความแปรปรวนเพิ่มเติมเนื่องจากความไม่แน่นอนของการใส่ความ ฉันเข้าใจว่ามีสถิติการสอบเทียบหลายอย่าง (hosmer-lemeshow, Emax ของ Harrell, ดัชนีการสอบเทียบโดยประมาณ ฯลฯ ) ซึ่งอาจใช้กฎรูบิน 'ปกติ' สำหรับการรวมกำไร อย่างไรก็ตามสถิติเหล่านี้มักจะเป็นมาตรการโดยรวมของการสอบเทียบซึ่งไม่แสดงขอบเขตที่พลาดการสอบเทียบที่เฉพาะเจาะจงของโมเดล ด้วยเหตุนี้ฉันควรดูที่แผนการปรับเทียบ น่าเสียดายที่ฉันไม่รู้วิธีการ 'รวม' แปลงหรือข้อมูลเบื้องหลัง (คาดการณ์ความน่าจะเป็นต่อบุคคลและผลลัพธ์ที่สังเกตได้ต่อบุคคล) และไม่สามารถหาได้มากในวรรณคดีชีวการแพทย์ (สาขาที่ฉันคุ้นเคย) หรือที่นี่ใน CrossValidated แน่นอนว่าการดูชุดข้อมูลการสอบเทียบของชุดข้อมูลแต่ละชุดอาจเป็นคำตอบ แต่อาจกลายเป็นเรื่องที่น่ารำคาญมาก (จนถึงปัจจุบัน) เมื่อสร้างชุดการใส่จำนวนมาก ฉันอยากถามว่ามีเทคนิคใดบ้างที่จะส่งผลให้เกิดแผนการปรับเทียบหรือไม่หลังจากรวมหลายครั้ง (?)

2
เหตุใดการเพิ่มความคาดหวังจึงมีความสำคัญสำหรับโมเดลผสม
มีวรรณกรรมมากมายที่เน้นวิธีการเพิ่มความคาดหวังในโมเดลผสม (Mixture of Gaussian, Hidden Markov Model เป็นต้น) ทำไม EM ถึงมีความสำคัญ EM เป็นเพียงวิธีการทำเพิ่มประสิทธิภาพและไม่ได้ใช้กันอย่างแพร่หลายเป็นวิธีการไล่ระดับสีตาม (ลาดดีหรือวิธีการของนิวตัน / กึ่งนิวตัน) หรือการไล่ระดับสีอื่น ๆ ฟรีวิธีการพูดคุยกันที่นี่ นอกจากนี้ EM ยังมีปัญหาขั้นต่ำในท้องถิ่น เป็นเพราะกระบวนการนี้ใช้งานง่ายและสามารถเปลี่ยนเป็นรหัสได้อย่างง่ายดาย? หรือเหตุผลอื่น ๆ

5
มันเป็นการโกงที่จะปล่อยค่าผิดปกติตาม boxplot ของ Mean Absolute Error เพื่อปรับปรุงตัวแบบการถดถอยหรือไม่
ฉันมีแบบจำลองการทำนายทดสอบด้วยวิธีการสี่วิธีดังที่คุณเห็นในรูปแบบกล่องด้านล่าง แอตทริบิวต์ที่ตัวแบบทำนายนั้นอยู่ในช่วง 0-8 คุณอาจสังเกตเห็นว่ามีค่าผิดปกติที่มีขอบบนหนึ่งค่าและค่าผิดปกติที่ต่ำกว่าสามค่าที่ระบุโดยวิธีการทั้งหมด ฉันสงสัยว่าเหมาะสมที่จะลบอินสแตนซ์เหล่านี้ออกจากข้อมูลหรือไม่ หรือนี่เป็นการโกงเพื่อปรับปรุงตัวแบบการทำนาย?

2
วิธีที่ดีสำหรับการจัดกลุ่มข้อความสั้นคืออะไร
ฉันกำลังทำงานกับปัญหาการจัดกลุ่มข้อความ ข้อมูลมีหลายประโยค มีอัลกอริทึมที่ดีซึ่งมีความแม่นยำสูงในข้อความสั้นหรือไม่? คุณสามารถให้การอ้างอิงที่ดีได้หรือไม่? อัลกอริทึมเช่น KMeans การจัดกลุ่มสเปกตรัมไม่ทำงานได้ดีสำหรับปัญหานี้

5
ข้อผิดพลาดโดยประมาณของช่วงความมั่นใจสำหรับค่าเฉลี่ยเมื่อ
Let {Xi}ni=1{Xi}i=1n\{X_i\}_{i=1}^nจะเป็นครอบครัวของตัวแปรสุ่ม IID สละค่าใน[0,1][0,1][0,1]มีค่าเฉลี่ยμμ\muและแปรปรวนσ2σ2\sigma^2 2 ช่วงความเชื่อมั่นที่ง่ายสำหรับค่าเฉลี่ยโดยใช้σσ\sigmaเมื่อใดก็ตามที่เป็นที่รู้จักกันจะได้รับจาก P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1).P(|X¯−μ|>ε)≤σ2nε2≤1nε2(1). P( | \bar X - \mu| > \varepsilon) \le \frac{\sigma^2}{n\varepsilon^2} \le\frac{1}{n \varepsilon^2} \qquad (1). นอกจากนี้เนื่องจากX¯−μσ/n√X¯−μσ/n\frac{\bar X- \mu}{\sigma/\sqrt{n}}ถูกกระจายแบบ asymptotically เป็นตัวแปรสุ่มมาตรฐานแบบปกติการแจกแจงแบบปกติบางครั้งใช้เพื่อ "สร้าง" ช่วงความมั่นใจโดยประมาณ ในหลายทางเลือกสอบสถิติคำตอบที่ผมได้มีการใช้ประมาณแทนนี้(1)(1)(1)เมื่อใดก็ตามที่n≥30n≥30n \geq 30 30 ฉันมักจะรู้สึกไม่สบายใจกับสิ่งนี้มาก (เกินกว่าที่คุณจะจินตนาการได้) เนื่องจากข้อผิดพลาดการประมาณนั้นไม่ได้ถูกคำนวณปริมาณ ใช้ประมาณปกติมากกว่าทำไม(1)(1)(1) ? ฉันไม่ต้องการใช้กฎกับคนตาบอดอีกเลย มีการอ้างอิงที่ดีที่สามารถสนับสนุนฉันในการปฏิเสธที่จะทำเช่นนั้นและให้ทางเลือกที่เหมาะสมหรือไม่? ( ( 1 )เป็นตัวอย่างของสิ่งที่ฉันพิจารณาทางเลือกที่เหมาะสม)n≥30n≥30n \geq 30(1)(1)(1) ที่นี่ในขณะที่และE [ | X | …

2
ความแม่นยำที่ดีแม้จะมีค่าการสูญเสียสูง
ในระหว่างการฝึกตัวจําแนกไบนารีเครือข่ายประสาทอย่างง่ายฉันได้รับการสูญเสียสูงโดยใช้การข้ามเอนโทรปี แม้จะมีสิ่งนี้ค่าความถูกต้องของชุดการตรวจสอบจะค่อนข้างดี มันมีความหมายไหม? ไม่มีความสัมพันธ์ที่เข้มงวดระหว่างการสูญเสียและความถูกต้อง? ฉันมีในการฝึกอบรมและการตรวจสอบค่าเหล่านี้: 0.4011 - ACC: 0.8224 - val_loss: 0.4577 - val_acc: 0.7826 นี่เป็นความพยายามครั้งแรกของฉันที่จะใช้ NN และฉันเพิ่งเข้าหาการเรียนรู้ของเครื่องดังนั้นฉันจึงไม่สามารถประเมินผลลัพธ์เหล่านี้ได้อย่างเหมาะสม

1
ความแตกต่างระหว่าง PCA ปกติและ PCA ที่น่าจะเป็นคืออะไร?
ฉันรู้ว่า PCA ปกติไม่เป็นไปตามรูปแบบความน่าจะเป็นสำหรับข้อมูลที่สังเกตได้ ดังนั้นความแตกต่างพื้นฐานระหว่าง PCA และPPCAคืออะไร? ในโมเดลตัวแปรแฝง PPCA ประกอบด้วยตัวแปรที่สังเกตได้เช่น , ตัวแปรแฝง (ตัวแปรที่ไม่ได้ตรวจสอบ ) และเมทริกซ์ที่ไม่จำเป็นต้องมีความผิดปกติเหมือนใน PCA ปกติ ความแตกต่างอีกอย่างหนึ่งที่ฉันสามารถนึกถึง PCA ปกติจะให้เฉพาะส่วนประกอบหลักเท่านั้นซึ่ง PPCA จะให้การกระจายของข้อมูลที่น่าจะเป็นYYyxxxWWW ใครช่วยได้โปรดเพิ่มความแตกต่างระหว่าง PCA และ PPCA ให้มากขึ้น?
15 pca 

1
ตัวประมาณค่าที่เป็นอิสระของอัตราส่วนของสัมประสิทธิ์การถดถอยสองตัว?
สมมติว่าคุณพอดีกับเส้น / โลจิสติกการถดถอยโดยมีวัตถุประสงค์ของการประมาณการเป็นกลางของ1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2 . คุณมีความมั่นใจมากว่าทั้งสอง1และ2เป็นบวกมากเมื่อเทียบกับเสียงในประมาณการของพวกเขาa1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 หากคุณมีความแปรปรวนร่วมกันของ1 , 2คุณสามารถคำนวณหรืออย่างน้อยจำลองคำตอบ มีวิธีใดที่ดีกว่าและในปัญหาชีวิตจริงที่มีข้อมูลจำนวนมากคุณมีปัญหามากเพียงใดในการประเมินอัตราส่วนหรือสำหรับครึ่งขั้นตอนและสมมติว่าสัมประสิทธิ์เป็นอิสระ?a1,a2a1,a2a_1, a_2

1
วิธีการพอดีกับแบบผสมกับตัวแปรการตอบสนองระหว่าง 0 และ 1
ฉันกำลังพยายามใช้lme4::glmer()ให้พอดีกับแบบจำลองผสมแบบทวินามทั่วไป (GLMM) กับตัวแปรตามที่ไม่ใช่ไบนารี แต่เป็นตัวแปรต่อเนื่องระหว่างศูนย์ถึงหนึ่ง ใคร ๆ ก็นึกถึงตัวแปรนี้ว่าเป็นความน่าจะเป็น ในความเป็นจริงมันเป็นความน่าจะเป็นตามรายงานของมนุษย์ (ในการทดลองที่ฉันช่วยวิเคราะห์) คือมันไม่ใช่เศษส่วนแบบแยก แต่เป็นตัวแปรต่อเนื่อง glmer()สายของฉันไม่ทำงานตามที่คาดไว้ (ดูด้านล่าง) ทำไม? ฉันควรทำอย่างไร แก้ไขในภายหลัง: คำตอบของฉันด้านล่างกว้างกว่าคำถามเดิมของรุ่นนี้ดังนั้นฉันจึงแก้ไขคำถามให้กว้างขึ้นเช่นกัน รายละเอียดเพิ่มเติม เห็นได้ชัดว่ามันเป็นไปได้ที่จะใช้การถดถอยโลจิสติกไม่เพียง แต่สำหรับไบนารี DV แต่สำหรับ DV ต่อเนื่องระหว่างศูนย์และหนึ่ง แน่นอนเมื่อฉันวิ่ง glm(reportedProbability ~ a + b + c, myData, family="binomial") ฉันได้รับข้อความเตือน Warning message: In eval(expr, envir, enclos) : non-integer #successes in a binomial glm! แต่แบบที่สมเหตุสมผลมาก (ปัจจัยทั้งหมดเป็นหมวดหมู่ดังนั้นฉันสามารถตรวจสอบได้อย่างง่ายดายว่าการคาดการณ์แบบจำลองนั้นใกล้เคียงกับวิธีการข้ามวิชาและเป็นอย่างไร) …

2
สำหรับ iid varianbles สุ่ม
มีการแจกแจงสำหรับตัวแปรสุ่ม iid สองตัวที่การกระจายข้อต่อของX - Yเหมือนกันมากกว่าการสนับสนุน [0,1] หรือไม่?X,YX,YX,YX−YX−YX-Y

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.