สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
การเรียนรู้ของเครื่องเบื้องต้นสำหรับนักคณิตศาสตร์
ในแง่หนึ่งนี่คือจุดเชื่อมโยงของฉันจากmath.stackexchangeและฉันมีความรู้สึกว่าเว็บไซต์นี้อาจให้ผู้ชมในวงกว้าง ฉันกำลังมองหาการแนะนำทางคณิตศาสตร์สำหรับการเรียนรู้ของเครื่อง โดยเฉพาะอย่างยิ่งวรรณกรรมมากมายที่สามารถพบได้ค่อนข้างไม่แน่ชัดและมีการใช้หน้าเว็บจำนวนมากโดยไม่มีเนื้อหาใด ๆ อย่างไรก็ตามเริ่มต้นจากวรรณกรรมดังกล่าวฉันค้นพบหลักสูตรCourseraจาก Andrew Ng หนังสือของ Bishop ในการจดจำรูปแบบและในที่สุดก็เป็นหนังสือของ Smola น่าเสียดายที่หนังสือของ Smola อยู่ในสถานะร่างเท่านั้น ในหนังสือของ Smola ยังพบหลักฐานที่ฉันสนใจ หนังสือของอธิการค่อนข้างดีอยู่แล้ว แต่ความยากลำบากจำนวนหนึ่งหายไป กล่าวโดยย่อ: ฉันกำลังมองหาหนังสือเช่น Smola's นั่นคือแม่นยำและเข้มงวดที่สุดเท่าที่จะเป็นไปได้และใช้พื้นฐานทางคณิตศาสตร์ (แม้ว่าการแนะนำสั้น ๆ นั้นก็โอเคอยู่แน่นอน) คำแนะนำใด ๆ

3
การสลาย MSE ไปเป็น Variance และ Bias Squared
ในการแสดงให้เห็นว่า MSE สามารถถูกจำแนกออกเป็นความแปรปรวนบวกกับสแควร์ออฟไบแอสการพิสูจน์ในวิกิพีเดียมีขั้นตอนหนึ่งที่เน้นในภาพ มันทำงานอย่างไร ความคาดหวังผลักเข้าไปในผลิตภัณฑ์จากขั้นตอนที่ 3 ถึงขั้นตอนที่ 4 อย่างไร หากทั้งสองคำมีความเป็นอิสระการคาดการณ์จะไม่ถูกนำไปใช้กับทั้งสองคำ และถ้าไม่มีขั้นตอนนี้จะใช้ได้หรือไม่

2
ความแตกต่างของตัวแปรสุ่ม iid lognormal สองตัว
Let X1X1X_1และX2X2X_2 2 iidrv ของที่log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma) ) ผมอยากจะรู้ว่าการกระจายสำหรับX1- X2X1-X2X_1 - X_2 2 สิ่งที่ดีที่สุดที่ฉันสามารถทำได้คือนำซีรีย์ของทั้งสอง Taylor และได้รับความแตกต่างคือผลรวมของความแตกต่างระหว่างสอง rv ปกติและสอง chi-squared rv นอกเหนือจากความแตกต่างที่เหลือระหว่างเงื่อนไขที่เหลือ มีวิธีที่ตรงไปตรงมามากขึ้นที่จะได้รับการกระจายความแตกต่างระหว่าง 2 iid log-normal rv หรือไม่?

4
การทดสอบทวินามสองตัวอย่างในสัดส่วนที่แน่นอนใน R (และค่า p แปลก ๆ )
ฉันพยายามที่จะแก้ปัญหาคำถามต่อไปนี้: ผู้เล่น A ชนะ 17 จาก 25 เกมในขณะที่ผู้เล่น B ชนะ 8 จาก 20 - มีความแตกต่างอย่างมีนัยสำคัญระหว่างอัตราส่วนทั้งสองหรือไม่? สิ่งที่ต้องทำใน R ที่อยู่ในใจคือต่อไปนี้: > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent …

3
สถาปัตยกรรมของตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนคืออะไร?
ดังนั้นฉันจึงพยายามที่จะจัดเตรียมภาพลักษณ์ของมนุษย์โดยใช้ตาข่ายแบบ Convolutional ฉันอ่านเอกสาร ( Paper1และPaper2 ) และลิงก์ stackoverflowนี้แต่ฉันไม่แน่ใจว่าฉันเข้าใจโครงสร้างของอวน (มันไม่ได้นิยามไว้อย่างชัดเจนในเอกสาร) คำถาม: ฉันสามารถป้อนข้อมูลของฉันตามด้วยเลเยอร์เสียงตามด้วยเลเยอร์ Conv ตามด้วยเลเยอร์รวมกำไร - หลังจากนั้นฉันจะยกเลิกการรวมกลุ่มก่อนที่จะให้ผลลัพธ์ของฉัน (ซึ่งเป็นรูปอินพุตของฉัน) บอกว่าฉันมีหลายภาพ (135,240) ถ้าฉันใช้ 32, (12,21) เมล็ด, ตามด้วย (2,2) การรวมฉันจะจบลงด้วยแผนที่คุณลักษณะ 32 (62, 110) ตอนนี้ฉันจะยกเลิกการพูลเพื่อรับแผนที่คุณลักษณะ 32 (124, 220) แล้วแบนได้หรือไม่ ก่อนให้เลเยอร์เอาต์พุต (135,240) ของฉัน ถ้าฉันมีเลเยอร์ Conv-pool หลายเลเยอร์ฉันควรฝึกพวกมันทีละตัว - เช่นในระบบถอดรหัสอัตโนมัติ หรือ - ฉันสามารถมีบางสิ่งเช่นอินพุต - Conv-pool-Conv-pool-conv-pool-output (เอาต์พุตเหมือนกับอินพุต) ได้หรือไม่? ในกรณีดังกล่าวการรวมกำไรการลดราคาควรมีการจัดการอย่างไร ฉันควรยกเลิกการพูลในเลเยอร์พูลสุดท้ายก่อนออกผลลัพธ์หรือไม่ …

6
ทำไมเราถึงเลือกที่จะลดผลรวมของข้อผิดพลาดแบบสี่เหลี่ยม (SSE) ให้น้อยที่สุดเมื่อทำการประกอบโมเดล?
คำถามนั้นง่ายมาก: ทำไมเมื่อเราพยายามปรับตัวแบบให้เข้ากับข้อมูลเชิงเส้นหรือไม่เชิงเส้นเรามักจะพยายามลดผลรวมของกำลังสองของข้อผิดพลาดเพื่อให้ได้ตัวประมาณแบบพารามิเตอร์? ทำไมไม่เลือกฟังก์ชั่นวัตถุประสงค์อื่นเพื่อลดขนาด ฉันเข้าใจว่าด้วยเหตุผลทางเทคนิคฟังก์ชั่นสมการกำลังสองนั้นดีกว่าฟังก์ชั่นอื่น ๆ เช่นผลรวมของส่วนเบี่ยงเบนสัมบูรณ์ แต่นี่ยังไม่เป็นคำตอบที่น่าเชื่อมาก นอกจากเหตุผลทางเทคนิคแล้วทำไมผู้คนถึงชอบฟังก์ชั่น 'Euclidean' ระยะทางนี้ มีความหมายเฉพาะหรือการตีความสำหรับสิ่งนั้นหรือไม่? ตรรกะที่อยู่เบื้องหลังความคิดของฉันคือ: เมื่อคุณมีชุดข้อมูลคุณต้องตั้งค่าแบบจำลองของคุณเป็นอันดับแรกโดยสร้างชุดของสมมติฐานการทำงานหรือการแจกแจง ในแบบจำลองของคุณมีพารามิเตอร์บางตัว (สมมติว่าเป็นแบบจำลองพารามิเตอร์) จากนั้นคุณต้องหาวิธีประมาณค่าพารามิเตอร์เหล่านี้อย่างสม่ำเสมอและหวังว่าตัวประมาณของคุณจะมีความแปรปรวนต่ำและคุณสมบัติที่ดีอื่น ๆ ไม่ว่าคุณจะลด SSE หรือ LAD หรือฟังก์ชั่นวัตถุประสงค์อื่น ๆ ฉันคิดว่ามันเป็นเพียงวิธีการที่แตกต่างกันในการรับตัวประมาณค่า ตามตรรกะนี้ฉันคิดว่าคนใช้กำลังสองน้อยที่สุดต้องเป็น 1) มันสร้างตัวประมาณที่สอดคล้องกันของตัวแบบ 2) อย่างอื่นที่ฉันไม่รู้ ในเศรษฐมิติเรารู้ว่าในตัวแบบการถดถอยเชิงเส้นถ้าคุณคิดว่าข้อผิดพลาดมี 0 หมายถึงการปรับสภาพของตัวทำนายและความเหมือนกันและข้อผิดพลาดจะไม่เกี่ยวข้องกันจากนั้นการลดผลรวมของความคลาดเคลื่อนกำลังสอง พารามิเตอร์และตามทฤษฎีบทเกาส์ - มาร์คอฟตัวประมาณนี้คือสีน้ำเงิน ดังนั้นสิ่งนี้จะแนะนำว่าถ้าคุณเลือกที่จะลดฟังก์ชั่นวัตถุประสงค์อื่น ๆ ที่ไม่ใช่ SSE ดังนั้นจึงไม่มีการรับประกันว่าคุณจะได้รับการประมาณค่าพารามิเตอร์โมเดล ความเข้าใจของฉันถูกต้องหรือไม่ ถ้ามันถูกต้องการลด SSE ให้น้อยกว่าฟังก์ชั่นวัตถุประสงค์อื่น ๆ สามารถพิสูจน์ได้ด้วยความมั่นคงซึ่งเป็นที่ยอมรับในความเป็นจริงดีกว่าการพูดว่าฟังก์ชั่นสมการกำลังสองนั้นดีกว่า ในบทสนทนาฉันเห็นหลายกรณีที่ผู้คนลดจำนวนผลรวมของความผิดพลาดแบบสแควร์โดยตรงโดยไม่ได้ระบุรูปแบบที่สมบูรณ์ก่อนเช่นการตั้งสมมติฐานแบบกระจาย จากนั้นสิ่งนี้ดูเหมือนว่าผู้ใช้วิธีการนี้ต้องการดูว่าข้อมูลใกล้เคียงกับ 'รุ่น' มากแค่ไหน …

1
แบบจำลองเชิงเส้นแบบไม่เชิงเส้นกับแบบเชิงเส้นทั่วไป: คุณอ้างถึงการถดถอยแบบลอจิสติกปัวซอง ฯลฯ อย่างไร
ฉันมีคำถามเกี่ยวกับความหมายที่ฉันต้องการความคิดเห็นของนักสถิติเพื่อน เรารู้ว่าแบบจำลองต่างๆเช่นโลจิสติกปัวซอง ฯลฯ ตกอยู่ภายใต้ร่มของตัวแบบเชิงเส้นทั่วไป ตัวแบบมีฟังก์ชั่นไม่เชิงเส้นของพารามิเตอร์ซึ่งอาจถูกจำลองโดยใช้เฟรมเวิร์กโมเดลเชิงเส้นโดยใช้ฟังก์ชันลิงก์ที่เหมาะสม ฉันสงสัยว่าถ้าคุณพิจารณาสถานการณ์ (สอน?) เช่นการถดถอยโลจิสติกเป็น: แบบไม่เชิงเส้นกำหนดรูปแบบของพารามิเตอร์ โมเดลเชิงเส้นเนื่องจากลิงก์เปลี่ยนเราเป็นเฟรมเวิร์กโมเดลเชิงเส้น พร้อมกัน (1) และ (2): มัน "เริ่มต้น" เป็นโมเดลที่ไม่ใช่เชิงเส้น แต่อาจทำงานด้วยวิธีที่ทำให้เราคิดว่ามันเป็นโมเดลเชิงเส้น หวังว่าฉันจะสามารถตั้งค่าแบบสำรวจที่แท้จริง ...

2
อะไรคือความแตกต่างระหว่างฟังก์ชั่นการสูญเสียและฟังก์ชั่นการตัดสินใจ?
ฉันเห็นว่าทั้งสองฟังก์ชั่นเป็นส่วนหนึ่งของวิธีการขุดข้อมูลเช่นตัวเร่งการเลื่อนสีไล่ระดับสี ฉันเห็นว่ามันเป็นวัตถุแยกกันเช่นกัน ความสัมพันธ์ระหว่างทั้งสองเป็นอย่างไร

1
มีวิธีใช้เมทริกซ์ความแปรปรวนร่วมเพื่อค้นหาค่าสัมประสิทธิ์สำหรับการถดถอยหลายครั้งหรือไม่?
สำหรับการถดถอยเชิงเส้นอย่างง่ายสัมประสิทธิ์การถดถอยสามารถคำนวณได้โดยตรงจากความแปรปรวน - ความแปรปรวนร่วมเมทริกซ์โดย โดยที่คือดัชนีตัวแปรตามและคือดัชนีของตัวแปรอธิบายC d , eCCC deCd, ECe , eCd,อีCอี,อี C_{d, e}\over C_{e,e} dddอีอีe หากมีเพียงเมทริกซ์ความแปรปรวนร่วมเป็นไปได้หรือไม่ที่จะคำนวณค่าสัมประสิทธิ์สำหรับแบบจำลองที่มีตัวแปรอธิบายหลายค่า? ETA: สำหรับตัวแปรอธิบายสองตัวปรากฏว่า และ analogously สำหรับ\ฉันไม่ได้เห็นวิธีการขยายตัวแปรนี้เป็นตัวแปรสามตัวขึ้นไปทันทีβ1= Co v ( y, x1) v a r ( x2) - Co v ( y, x2) Co v ( x1, x2)v a r ( x1) v a r ( …

10
คุณมีคำแนะนำสำหรับหนังสือเกี่ยวกับสถิติประยุกต์ที่สอนด้วยตนเองในระดับบัณฑิตศึกษาหรือไม่?
ฉันเรียนวิชาสถิติหลายหลักสูตรในวิทยาลัย แต่ฉันพบว่าการศึกษาของฉันเป็นไปตามทฤษฎีมาก ฉันสงสัยว่ามีผู้ใดที่มีข้อความในสถิติประยุกต์ (ระดับบัณฑิตศึกษา) ที่คุณแนะนำหรือเคยมีประสบการณ์ที่ดีมาก่อนหรือไม่

1
การตรวจสอบความถูกต้องข้าม (CV) และสถิติการตรวจสอบความถูกต้องข้ามทั่วไป (GCV)
ฉันได้พบอาจจะขัดแย้งกันคำจำกัดความของการตรวจสอบ (CV) สถิติข้ามและสำหรับการตรวจสอบข้ามทั่วไป (GCV) สถิติที่เกี่ยวข้องกับโมเดลเชิงเส้นตรงY=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilon (กับปกติเวกเตอร์ข้อผิดพลาด homoscedastic εε\boldsymbol\varepsilon ) ในอีกด้านหนึ่ง Golub, Heath & Wahba กำหนด GCV ประมาณการλ^λ^\hat{\lambda}เป็น (หน้า 216) ตัวย่อของV(λ)V(λ)V\left(\lambda\right)โดย V(λ)=1n∥(I−A(λ))y∥2(1ntr(I−A(λ)))2V(λ)=1n‖(I−A(λ))y‖2(1ntr(I−A(λ)))2 V\left(\lambda\right) = \frac{\frac{1}{n} \left\|\left(I - A\left(\lambda\right)\right)y\right\|^2}{\left(\frac{1}{n} \mathrm{tr}\left(I - A\left(\lambda\right)\right)\right)^2} โดยที่A(λ)=X(XTX+nλI)−1XTA(λ)=X(XTX+nλI)−1XTA\left(\lambda\right) = X\left(X^T X + n\lambda I\right)^{-1} X^T ในทางตรงกันข้าม Efron กำหนดแนวความคิดเดียวกับV(0)V(0)V\left(0\right) (หน้า 24) แต่เขาแนะนำคุณลักษณะของแนวคิดนี้เพื่อ Craven & …

7
มีอะไรผิดปกติกับการปรับ Bonferroni?
ผมอ่านบทความต่อไปนี้: Perneger (1998) มีอะไรผิดปกติกับการปรับ ผู้เขียนสรุปโดยบอกว่าการปรับ Bonferroni มีการใช้งานที่ จำกัด ในการวิจัยด้านชีวการแพทย์และไม่ควรใช้เมื่อประเมินหลักฐานเกี่ยวกับสมมติฐานที่เฉพาะเจาะจง: คะแนนสรุป: การปรับนัยสำคัญทางสถิติสำหรับจำนวนการทดสอบที่ทำกับข้อมูลการศึกษา - วิธี Bonferroni - สร้างปัญหามากกว่าที่จะแก้ วิธี Bonferroni เกี่ยวข้องกับสมมติฐานว่างทั่วไป (ว่าสมมติฐานว่างทั้งหมดเป็นจริงพร้อมกัน) ซึ่งไม่ค่อยน่าสนใจหรือใช้สำหรับนักวิจัย จุดอ่อนหลักคือการตีความการค้นพบขึ้นอยู่กับจำนวนการทดสอบอื่น ๆ ที่ดำเนินการ โอกาสของข้อผิดพลาด type II ก็เพิ่มขึ้นเช่นกันดังนั้นความแตกต่างที่สำคัญอย่างแท้จริงจึงถือว่าไม่สำคัญ เพียงแค่อธิบายว่าการทดสอบความสำคัญได้รับการดำเนินการอย่างไรและทำไมโดยทั่วไปแล้วเป็นวิธีที่ดีที่สุดในการจัดการกับการเปรียบเทียบหลายรายการ ฉันมีชุดข้อมูลต่อไปนี้และฉันต้องการแก้ไขการทดสอบหลายรายการ แต่ฉันไม่สามารถตัดสินใจได้ว่าวิธีที่ดีที่สุดในกรณีนี้คืออะไร ฉันต้องการทราบว่ามีความจำเป็นหรือไม่ที่จะต้องทำการแก้ไขประเภทนี้สำหรับชุดข้อมูลทั้งหมดที่มีรายการวิธีการและวิธีการที่ดีที่สุดสำหรับการแก้ไขในกรณีนี้คืออะไร

1
การวิเคราะห์พลังงานเบื้องต้นนั้นไร้ประโยชน์หรือไม่?
ฉันเข้าร่วมการประชุมของสมาคมบุคลิกภาพและจิตวิทยาสังคมเมื่อสัปดาห์ที่แล้วซึ่งฉันเห็นการพูดคุยของ Uri Simonsohn กับสถานที่ตั้งว่าการใช้การวิเคราะห์พลังงานเบื้องต้นเพื่อกำหนดขนาดตัวอย่างนั้นไร้ประโยชน์เพราะผลลัพธ์นั้นอ่อนไหวต่อสมมติฐาน แน่นอนการเรียกร้องนี้ขัดกับสิ่งที่ฉันได้รับการสอนในชั้นเรียนวิธีการของฉันและต่อต้านคำแนะนำของนักวิธีการที่โดดเด่นหลายคน (สะดุดตาที่สุดโคเฮน 1992 ) ดังนั้น Uri จึงแสดงหลักฐานบางอย่างเกี่ยวกับการอ้างสิทธิ์ของเขา ฉันพยายามสร้างหลักฐานบางส่วนด้านล่างนี้ใหม่ สำหรับความเรียบง่ายให้จินตนาการสถานการณ์ที่คุณมีสองกลุ่มของการสังเกตและคาดเดาว่าขนาดของผล (วัดจากความแตกต่างของค่าเฉลี่ยมาตรฐาน) เป็น0.5การคำนวณพลังงานมาตรฐาน (ทำโดยใช้แพ็คเกจด้านล่าง) จะบอกให้คุณทราบว่าต้องใช้การสังเกตแบบเพื่อให้ได้พลังงาน 80% จากการออกแบบนี้0.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = …

2
ผลที่ตามมาของการสร้างแบบจำลองกระบวนการที่ไม่หยุดนิ่งโดยใช้ ARMA?
ฉันเข้าใจว่าเราควรใช้ ARIMA สำหรับการสร้างแบบจำลองชุดเวลาที่ไม่หยุดนิ่ง นอกจากนี้ทุกสิ่งที่ฉันอ่านบอกว่า ARMA ควรใช้สำหรับอนุกรมเวลาที่อยู่กับที่เท่านั้น สิ่งที่ฉันพยายามจะทำความเข้าใจคืออะไรจะเกิดขึ้นในทางปฏิบัติเมื่อทำการแยกแยะแบบจำลองและสมมติว่าd = 0เป็นอนุกรมเวลาที่ไม่หยุดนิ่ง ตัวอย่างเช่น: controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44) ข้อมูลการควบคุมมีลักษณะดังนี้: [1] 0.0000000 0.1240838 -1.4544087 -3.1943094 -5.6205257 [6] -8.5636126 -10.1573548 -9.2822666 -10.0174493 -11.0105225 [11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414 [16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267 [21] …

1
การแปลงฟูริเยร์เพื่อแปลงเป็นฟิชเชอร์
ฟังก์ชั่นคุณสมบัติของการกระจายฟิชเชอร์ คือ: C ( t ) = Γ ( α + 1F( 1 , α )F(1,α)\mathcal{F}(1,\alpha) ที่Uเป็นฟังก์ชั่นไหลมารวมกัน hypergeometric ฉันพยายามที่จะแก้ปัญหาที่ผกผันฟูเรียร์F-1ที,xของn-convolutionการกู้คืนความหนาแน่นของตัวแปรxที่: F-1ที,x(C(T)n) โดยมีวัตถุประสงค์ของการได้รับ การกระจายตัวของผลรวมของnฟิชเชอร์กระจายตัวแปรสุ่ม ฉันสงสัยว่าใครบางคนมีความคิดใด ๆ ตามที่ดูเหมือนจะแก้ยากมาก ฉันลองค่าของαC( t ) = Γ ( α + 12)ยู( 1)2, 1 - α2, - ฉันt α )Γ ( α2)C(เสื้อ)=Γ(α+12)ยู(12,1-α2,-ผมเสื้อα)Γ(α2)C(t)=\frac{\Gamma \left(\frac{\alpha +1}{2}\right) U\left(\frac{1}{2},1-\frac{\alpha }{2},-i t \alpha …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.