สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
จะบอกความน่าจะเป็นของความล้มเหลวได้อย่างไรถ้าไม่มีความล้มเหลว?
ฉันสงสัยว่ามีวิธีที่จะบอกความน่าจะเป็นของสิ่งที่ล้มเหลว (ผลิตภัณฑ์) ถ้าเรามีผลิตภัณฑ์ 100,000 รายการในเขตข้อมูลเป็นเวลา 1 ปีและไม่มีความล้มเหลวหรือไม่? ความน่าจะเป็นที่ผลิตภัณฑ์หนึ่งใน 10,000 รายการที่ขายไปนั้นล้มเหลวคืออะไร

5
ความแตกต่างระหว่าง N และ N-1 ในการคำนวณความแปรปรวนของประชากรคืออะไร?
ฉันไม่เข้าใจว่าทำไมถึงมีNและN-1ขณะคำนวณความแปรปรวนของประชากร เวลาที่เราใช้Nและเมื่อไหร่ที่เราจะใช้N-1? คลิกที่นี่สำหรับรุ่นที่ใหญ่กว่า มันบอกว่าเมื่อประชากรมีขนาดใหญ่มากไม่มีความแตกต่างระหว่าง N และ N-1 แต่ไม่ได้บอกว่าทำไมถึงมี N-1 ตั้งแต่แรก แก้ไข: โปรดอย่าสับสนnและn-1ใช้ในการประมาณ แก้ไข 2: ฉันไม่ได้พูดถึงการประมาณประชากร

6
การถดถอยของสันเขาไร้ประโยชน์ในมิติที่สูง ( ) หรือไม่? OLS จะล้มเหลวได้อย่างไร
พิจารณาปัญหาการถดถอยที่ดีเก่ากับพยากรณ์และขนาดของกลุ่มตัวอย่างnภูมิปัญญาปกติคือตัวประมาณค่า OLS จะ overfit และโดยทั่วไปแล้วจะดีกว่าโดยตัวประมาณถดถอยสัน:มันเป็นมาตรฐานที่จะใช้การตรวจสอบข้ามที่จะหาที่ดีที่สุด regularization พารามิเตอร์\ที่นี่ฉันใช้ CV 10 เท่า ปรับปรุงการชี้แจง:เมื่อ , โดย "OLS ตัวประมาณ" ฉันเข้าใจ "ตัวประมาณค่าต่ำสุด - บรรทัดฐาน OLS" ที่กำหนดโดยpppβ = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Y λnnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdaβ OLS = ( X ⊤ X ) + …

3
เราจะกำหนด 'การวิจัยที่ทำซ้ำได้' อย่างไร
ตอนนี้มีคำถามสองสามข้อที่เกิดขึ้นและฉันสงสัยเกี่ยวกับบางสิ่งบางอย่าง ฟิลด์ทั้งหมดย้ายไปที่ "ความสามารถในการทำซ้ำ" โดยมุ่งเน้นไปที่ความพร้อมใช้งานของข้อมูลดั้งเดิมและรหัสที่เป็นปัญหาหรือไม่ ฉันได้รับการสอนอยู่เสมอว่าแกนของความสามารถในการทำซ้ำนั้นไม่จำเป็นอย่างที่ฉันเคยพูดถึงความสามารถในการคลิกเรียกใช้และรับผลลัพธ์เดียวกัน วิธีการดาต้าและรหัสดูเหมือนว่าจะถือว่าข้อมูลนั้นถูกต้อง - ซึ่งไม่มีข้อบกพร่องในการรวบรวมข้อมูลเอง (มักเป็นเท็จในกรณีของการฉ้อโกงทางวิทยาศาสตร์) นอกจากนี้ยังมุ่งเน้นไปที่กลุ่มตัวอย่างเดียวของประชากรเป้าหมายแทนที่จะเป็นความสามารถในการจำลองแบบของการค้นหาตัวอย่างอิสระหลายรายการ เหตุใดจึงมีความสำคัญต่อความสามารถในการวิเคราะห์อีกครั้งแทนที่จะทำซ้ำการศึกษาจากพื้นดินขึ้นมา? บทความที่กล่าวถึงในความคิดเห็นด้านล่างที่มีอยู่ที่นี่


5
การสะกดคำที่ถูกต้อง (ตัวพิมพ์ใหญ่, ตัวเอียง, ยัติภังค์) ของ“ p-value”?
ฉันรู้ว่าสิ่งนี้เป็นเรื่องอื้อฉาวและน่าเบื่อ แต่ในฐานะนักวิจัยในสาขานอกสถิติด้วยการศึกษาอย่างเป็นทางการในสถิติที่ จำกัด ฉันมักจะสงสัยว่าฉันเขียน "p-value" ถูกต้องหรือไม่ โดยเฉพาะ: "p" ควรจะเป็นตัวพิมพ์ใหญ่หรือไม่ "p" ควรจะเป็นตัวเอียงหรือไม่ (หรือในแบบอักษรคณิตศาสตร์ใน TeX?) ควรมีเครื่องหมายขีดคั่นระหว่าง "p" และ "value" หรือไม่? อีกวิธีหนึ่งไม่มีวิธีการเขียน "p-value" ที่เหมาะสม "และ dolt ใด ๆ จะเข้าใจสิ่งที่ฉันหมายถึงถ้าฉันวาง" p "ถัดจาก" value "ในการเปลี่ยนแปลงตัวเลือกเหล่านี้

1
การเข้ารหัสดัมมี่เทียบกับหนึ่งใน Scikit เรียนรู้
มีวิธีการเข้ารหัสตัวแปรเด็ดขาดสองวิธี กล่าวว่าหนึ่งตัวแปรเด็ดขาดมีค่าn การเข้ารหัสแบบ one-hotจะแปลงเป็นตัวแปรnในขณะที่การเข้ารหัสแบบจำลองจะแปลงเป็นตัวแปรn-1 ถ้าเรามีตัวแปรเด็ดขาดkแต่ละตัวมีค่าn การเข้ารหัสฮอตหนึ่งจบลงด้วยตัวแปรknในขณะที่การเข้ารหัสดัมมี่ลงท้ายด้วยตัวแปรkn-k ฉันได้ยินมาว่าสำหรับการเข้ารหัสที่ร้อนแรงเพียงครั้งเดียวการสกัดกั้นอาจนำไปสู่ปัญหา collinearity ซึ่งทำให้ตัวแบบไม่ดัง บางคนเรียกมันว่า " กับดักตัวแปรจำลอง " คำถามของฉัน: โมเดลการถดถอยเชิงเส้นของ Scikit-Learn ช่วยให้ผู้ใช้ปิดใช้งานการสกัดกั้น ดังนั้นสำหรับการเข้ารหัสที่ร้อนแรงฉันควรตั้งค่า fit_intercept = False เสมอหรือไม่ สำหรับการเข้ารหัสแบบสุ่มควรตั้งค่า fit_intercept เป็น True หรือไม่ ฉันไม่เห็น "คำเตือน" บนเว็บไซต์ เนื่องจากการเข้ารหัสแบบร้อนแรงสร้างตัวแปรมากขึ้นมันมีระดับความอิสระมากกว่าการเข้ารหัสแบบจำลองหรือไม่?

3
สัญชาตญาณของ SVD คืออะไร?
ฉันได้อ่านเกี่ยวกับการสลายตัวของค่าเอกพจน์ (SVD) แล้ว ในหนังสือเกือบทุกเล่มมีการกล่าวถึงว่ามันทำให้เมทริกซ์แยกตัวเป็นเมทริกซ์สามตัวพร้อมการกำหนด แต่ปรีชาที่อยู่เบื้องหลังการแยกเมทริกซ์ในรูปแบบดังกล่าวคืออะไร? PCA และอัลกอริธึมอื่น ๆ สำหรับการลดขนาดนั้นใช้งานง่ายในแง่ที่ว่าอัลกอริทึมมีคุณสมบัติการสร้างภาพที่ดี แต่ด้วย SVD ไม่ใช่กรณี

3
การทำคลัสเตอร์กับ K-Means และ EM: พวกเขาเกี่ยวข้องกันอย่างไร
ฉันได้ศึกษาอัลกอริทึมสำหรับการจัดกลุ่มข้อมูล (การเรียนรู้ที่ไม่สำรอง): EM และ k-mean ฉันอ่านต่อไปนี้: k-mean คือตัวแปรของ EM โดยมีข้อสันนิษฐานว่ากระจุกดาวทรงกลม ใครสามารถอธิบายประโยคข้างต้นได้บ้าง ฉันไม่เข้าใจความหมายของทรงกลมและความสัมพันธ์ของ kmeans และ EM เนื่องจากมีความน่าจะเป็นที่ได้รับมอบหมาย นอกจากนี้ในสถานการณ์ใดควรใช้การจัดกลุ่ม k-mean หรือใช้การทำคลัสเตอร์ EM

2
มีความแตกต่างระหว่าง 'การควบคุมสำหรับ' และ 'ละเว้น' ตัวแปรอื่น ๆ ในการถดถอยหลายครั้งหรือไม่?
สัมประสิทธิ์ของตัวแปรอธิบายในการถดถอยหลายครั้งจะบอกเราว่าความสัมพันธ์ของตัวแปรอธิบายนั้นกับตัวแปรตาม ทั้งหมดนี้ในขณะที่ 'ควบคุม' สำหรับตัวแปรอธิบายอื่น ๆ ฉันได้ดูอย่างไร: ในขณะที่มีการคำนวณสัมประสิทธิ์แต่ละตัวตัวแปรอื่น ๆ จะไม่นำมาพิจารณาดังนั้นฉันจึงถือว่าพวกมันถูกเพิกเฉย ดังนั้นฉันถูกต้องเมื่อฉันคิดว่าคำว่า 'ควบคุม' และ 'ละเว้น' สามารถใช้แทนกันได้?

1
การรับค่าที่คาดการณ์ (Y = 1 หรือ 0) จากแบบจำลองการถดถอยโลจิสติกพอดี
สมมติว่าผมมีวัตถุของคลาสglm(สอดคล้องกับรูปแบบการถดถอยโลจิสติก) และฉันต้องการที่จะเปิดความน่าจะเป็นที่คาดการณ์ที่ได้รับจากpredict.glmการใช้อาร์กิวเมนต์type="response"ลงในการตอบสนองไบนารีคือหรือ 0 วิธีที่เร็วและเป็นที่ยอมรับมากที่สุดในการทำเช่นนี้ใน R คืออะไร?Y = 0Y=1Y=1Y=1Y=0Y=0Y=0 ในขณะที่อีกครั้งฉันรู้predict.glmฉันไม่ทราบว่าค่า cutoff ที่อยู่ตรงไหน- และฉันคิดว่านี่เป็นบล็อกหลักของฉันที่นี่P(Yi=1|X^i)P(Yi=1|X^i)P(Y_i=1|\hat X_{i})

4
ทำไมต้องกังวลกับปัญหาสองอย่างเมื่อทำการปรับแต่ง SVM?
เมื่อกำหนดจุดข้อมูลและป้ายกำกับy 1 , … , y n ∈ { - 1 , 1 } , ปัญหาระยะขอบ SVM ที่ยากคือx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} s.t.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 ซึ่งเป็นโปรแกรมกำลังสองที่มีตัวแปรที่จะปรับให้เหมาะสมสำหรับและข้อ จำกัด …
50 svm 

16
หนังสือที่แนะนำเกี่ยวกับการออกแบบการทดสอบ
คำแนะนำของแผงหนังสือเกี่ยวกับการออกแบบการทดลองคืออะไร ตามหลักการแล้วหนังสือควรจะยังคงอยู่ในรูปแบบสิ่งพิมพ์หรือเป็นสื่ออิเล็กทรอนิกส์แม้ว่าจะไม่เป็นไปได้เสมอไป หากคุณรู้สึกว่าต้องการเพิ่มคำสองสามคำเกี่ยวกับสิ่งที่ดีเกี่ยวกับหนังสือเล่มนั้นก็คงจะดีเช่นกัน นอกจากนี้ตั้งเป้าหมายสำหรับหนังสือหนึ่งเล่มต่อคำตอบเพื่อให้การลงคะแนนสามารถช่วยเรียงลำดับข้อเสนอแนะ (Community Wiki โปรดแก้ไขคำถามหากคุณสามารถทำให้ดีขึ้นได้!)

4
ทำไม ANOVA จึงเทียบเท่ากับการถดถอยเชิงเส้น
ฉันอ่านว่า ANOVA และการถดถอยเชิงเส้นเป็นสิ่งเดียวกัน จะเป็นไปได้อย่างไรในการพิจารณาว่าเอาต์พุตของ ANOVA คือค่าบางตัวและค่าบางส่วนที่คุณสรุปได้ว่าตัวอย่างนั้นมีความหมายเหมือนกันหรือต่างกันพีFFFพีpp แต่สมมติว่าค่าเฉลี่ยไม่เท่ากัน (ปฏิเสธสมมติฐานว่าง), ANOVA จะบอกอะไรคุณเกี่ยวกับสัมประสิทธิ์ของตัวแบบเชิงเส้น การถดถอยเชิงเส้นเหมือนกับ ANOVA เป็นอย่างไร
50 regression  anova 

4
เกณฑ์ความน่าจะเป็นการจำแนกประเภท
ฉันมีคำถามเกี่ยวกับการจำแนกประเภทโดยทั่วไป ให้ f เป็นตัวจําแนกซึ่งส่งออกชุดของความน่าจะเป็นที่ให้ข้อมูลบางตัว D โดยปกติเราจะบอกว่า: ดีถ้า P (c | D)> 0.5 เราจะกำหนด class 1 มิฉะนั้น 0 (ปล่อยให้นี่เป็นเลขฐานสอง การจำแนกประเภท). คำถามของฉันคือถ้าฉันพบว่าถ้าฉันจำแนกเป็น 1 ยังมีความน่าจะเป็นที่ใหญ่กว่า: เช่น 0.2 ตัวแยกประเภทจะทำงานได้ดีขึ้น การใช้เกณฑ์ใหม่นี้ถูกต้องตามกฎหมายหรือไม่เมื่อทำการจัดประเภท ฉันจะตีความความจำเป็นสำหรับการจำแนกประเภทที่ต่ำกว่าที่ถูกผูกไว้ในบริบทของข้อมูลที่เปล่งสัญญาณขนาดเล็ก แต่ยังคงมีความสำคัญสำหรับปัญหาการจำแนก ฉันรู้ว่านี่เป็นวิธีหนึ่งที่จะทำ แต่ถ้านี่ไม่ใช่การคิดที่ถูกต้องอะไรจะเป็นการแปลงข้อมูลบางอย่างซึ่งเน้นคุณลักษณะของแต่ละบุคคลในลักษณะที่คล้ายคลึงกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.