สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
การกระจายของผลิตภัณฑ์สเกลาร์ของเวกเตอร์หน่วยสุ่มสองตัวในมิติ
ถ้าxx\mathbf{x}และyy\mathbf{y}สองเป็นอิสระเวกเตอร์หน่วยสุ่มRDRD\mathbb{R}^D (การกระจายอย่างสม่ำเสมอในหน่วยทรงกลม) อะไรคือการกระจายตัวของผลคูณของพวกเขา (ผลิตภัณฑ์ dot) x⋅yx⋅y\mathbf x \cdot \mathbf y ? ฉันเดาว่าDDDจะเพิ่มการกระจายอย่างรวดเร็ว (?) กลายเป็นปกติโดยมีค่าเฉลี่ยเป็นศูนย์และความแปรปรวนลดลงในส่วนของสูงขึ้นlimD→∞σ2(D)→0,limD→∞σ2(D)→0,\lim_{D\to\infty}\sigma^2(D) \to 0,แต่มีสูตรที่ชัดเจนสำหรับσ2(D)σ2(D)\sigma^2(D)หรือไม่ ปรับปรุง ฉันวิ่งไปตามสถานการณ์จำลอง ประการแรกการสร้าง 10000 คู่ของเวกเตอร์หน่วยสุ่มสำหรับD=1000D=1000D=1000มันเป็นเรื่องง่ายที่จะเห็นว่าการกระจายตัวของผลคูณจุดของพวกเขาเป็นอย่างดีเสียน (ในความเป็นจริงมันค่อนข้างเสียนแล้วสำหรับD=100D=100D=100 ) ดูแผนทางด้านซ้าย ที่สองสำหรับแต่ละDDDตั้งแต่ 1 ถึง 10,000 (ด้วยขั้นตอนเพิ่มขึ้น) ฉันสร้าง 1,000 คู่และคำนวณความแปรปรวน พล็อตเข้าสู่ระบบเข้าสู่ระบบจะปรากฏบนด้านขวาและเป็นที่ชัดเจนว่าสูตรเป็นห้วงเป็นอย่างดีโดย1/D1/D1/D D โปรดทราบว่าสำหรับD=1D=1D=1และD=2D=2D=2สูตรนี้ยังให้ผลลัพธ์ที่แน่นอน (แต่ฉันไม่แน่ใจว่าจะเกิดอะไรขึ้นในภายหลัง)

1
การแปลงเมทริกซ์ความคล้ายคลึงกันเป็นเมทริกซ์ระยะทาง (ยูคลิด)
ในอัลกอริธึม Random Forest, Breiman (ผู้เขียน) สร้างเมทริกซ์ความเหมือนกันดังนี้ ส่งตัวอย่างการเรียนรู้ทั้งหมดลงต้นไม้ในป่า ถ้าสองตัวอย่างลงดินในองค์ประกอบที่สอดคล้องกันของการเพิ่มขึ้นของใบไม้เดียวกันในเมทริกซ์ความเหมือนกันทีละ 1 ทำให้เมทริกซ์เป็นปกติด้วยจำนวนต้นไม้ เขาพูดว่า: ความผิดปกติระหว่างเคส n และ k ก่อให้เกิดเมทริกซ์ {prox (n, k)} จากคำจำกัดความมันง่ายที่จะแสดงว่าเมทริกซ์นี้เป็นสมมาตรบวกแน่นอนและล้อมรอบด้วย 1 โดยมีองค์ประกอบเส้นทแยงมุมเท่ากับ 1 มันตามมาว่าค่า 1-prox (n, k) เป็นระยะกำลังสองในยูคลิด พื้นที่ของมิติไม่เกินจำนวนกรณี แหล่ง ในการดำเนินการของเขาเขาใช้sqrt (1-prox)โดยที่proxเป็นเมทริกซ์ความคล้ายคลึงกันเพื่อแปลงเป็นเมทริกซ์ระยะทาง ฉันเดาว่ามันมีบางอย่างเกี่ยวกับ "ระยะทางตอร์เรสในอวกาศยูคลิด" - ยกมาจากข้างบน ใครบางคนสามารถส่องแสงเล็ก ๆ น้อย ๆ ว่าทำไมมันตามมาว่า 1-prox เป็นระยะทางกำลังสองในอวกาศยูคลิดและทำไมเขาใช้รากกำลังสองเพื่อรับเมทริกซ์ระยะทาง

4
ตรวจจับค่าผิดปกติโดยใช้ค่าเบี่ยงเบนมาตรฐาน
ตามคำถามของฉันที่นี่ฉันสงสัยว่ามีมุมมองที่แข็งแกร่งสำหรับหรือต่อต้านการใช้ส่วนเบี่ยงเบนมาตรฐานในการตรวจสอบค่าผิดปกติ (เช่นดาต้าพอยน์ใด ๆ ที่มากกว่า 2 ส่วนเบี่ยงเบนมาตรฐานเป็นค่าผิดปกติ) ฉันรู้ว่าสิ่งนี้ขึ้นอยู่กับบริบทของการศึกษาเช่นจุดข้อมูลขนาด 48 กิโลกรัมจะเป็นค่าที่สูงกว่าในการศึกษาน้ำหนักของทารก แต่ไม่ได้อยู่ในการศึกษาน้ำหนักของผู้ใหญ่ Outliers เป็นผลมาจากปัจจัยหลายประการเช่นความผิดพลาดในการป้อนข้อมูล ในกรณีของฉันกระบวนการเหล่านี้แข็งแกร่ง ฉันเดาว่าคำถามที่ฉันถามคือการใช้วิธีการตรวจสอบค่าผิดปกติหรือไม่?
27 outliers 

2
การประมาณค่าความแปรปรวนในการตรวจสอบความถูกต้องข้ามของ k-fold
การตรวจสอบความถูกต้องไขว้ของ K-fold สามารถใช้เพื่อประเมินความสามารถในการวางนัยทั่วไปของลักษณนามที่กำหนด ฉันสามารถ (หรือฉันควร) คำนวณความแปรปรวนแบบพูลจากการตรวจสอบความถูกต้องทั้งหมดเพื่อให้ได้การประมาณความแปรปรวนที่ดีขึ้นหรือไม่ ถ้าไม่ทำไม ฉันได้พบเอกสารที่จะใช้ค่าเบี่ยงเบนมาตรฐาน pooled ข้ามการตรวจสอบข้ามวิ่ง ฉันยังได้พบเอกสารระบุชัดเจนมีไม่มีประมาณการสากลสำหรับการตรวจสอบความแปรปรวน อย่างไรก็ตามฉันยังพบเอกสารที่แสดงตัวประมาณค่าความแปรปรวนบางอย่างสำหรับข้อผิดพลาดทั่วไป (ฉันยังคงอ่านและพยายามเข้าใจสิ่งนี้) ผู้คนทำอะไร (หรือรายงาน) ในทางปฏิบัติจริง ๆ ? แก้ไข:เมื่อใช้ CV ในการวัดข้อผิดพลาดการจำแนกอย่างคร่าวๆ (นั่นคือตัวอย่างได้รับการติดฉลากอย่างถูกต้องหรือไม่มี; เช่นจริงหรือเท็จ) ดังนั้นจึงอาจไม่เหมาะสมที่จะพูดคุยเกี่ยวกับความแปรปรวนร่วม อย่างไรก็ตามฉันกำลังพูดถึงกรณีที่สถิติที่เรากำลังประเมินมีความแปรปรวนที่กำหนดไว้ ดังนั้นสำหรับการพับที่กำหนดเราสามารถจบลงด้วยค่าสำหรับสถิติและการประมาณค่าความแปรปรวน ดูเหมือนจะไม่ถูกต้องที่จะทิ้งข้อมูลนี้และพิจารณาเฉพาะสถิติเฉลี่ย และในขณะที่ฉันรู้ว่าฉันสามารถสร้างการประมาณค่าความแปรปรวนโดยใช้วิธีการ bootstrap (ถ้าฉันไม่ผิดมาก) การทำเช่นนั้นจะยังคงเพิกเฉยต่อความแปรปรวนแบบพับและใช้การประมาณการทางสถิติเพียงอย่างเดียวในการพิจารณา

3
การฟอกสีฟันนั้นดีอยู่เสมอหรือไม่?
ขั้นตอนก่อนการประมวลผลทั่วไปสำหรับอัลกอริทึมการเรียนรู้ของเครื่องคือการทำให้ข้อมูลขาวขึ้น ดูเหมือนว่าการฟอกสีฟันเป็นสิ่งที่ดีอยู่เสมอเนื่องจากมันไม่สัมพันธ์กับข้อมูลทำให้ง่ายต่อการสร้างแบบจำลอง ไวท์เทนนิ่งไม่แนะนำเมื่อไหร่? หมายเหตุ: ฉันหมายถึงการไม่มีความสัมพันธ์ของข้อมูล

1
ความแตกต่างระหว่างสมการการประมาณทั่วไปกับ GLMM คืออะไร
ฉันใช้ GEE กับข้อมูลที่ไม่สมดุล 3 ระดับโดยใช้ลิงก์ logit สิ่งนี้แตกต่างกันอย่างไร (ในแง่ของข้อสรุปที่ฉันสามารถวาดและความหมายของสัมประสิทธิ์) จาก GLM ที่มีเอฟเฟกต์ผสม (GLMM) และลิงก์ logit ได้อย่างไร รายละเอียดเพิ่มเติม: ข้อสังเกตคือการทดลอง bernoulli เดี่ยว พวกเขาถูกจัดกลุ่มเป็นห้องเรียนและโรงเรียน ใช้การละเว้น R. Casewise ของ NAs 6 ทำนายยังมีเงื่อนไขการโต้ตอบ (ฉันไม่พลิกเด็ก ๆ เพื่อดูว่าพวกเขาขึ้นหัว) ฉันอยากจะอธิบายค่าสัมประสิทธิ์ของอัตราต่อรอง สิ่งนี้มีความหมายเหมือนกันทั้งสองอย่างหรือไม่? มีบางสิ่งที่ซุ่มซ่อนอยู่ในใจของฉันเกี่ยวกับ "ความหมายส่วนเพิ่ม" ในรุ่น GEE ฉันต้องการบิตนั้นอธิบายให้ฉัน ขอบคุณ

3
ฉันควรตรวจสอบความเป็นมาตรฐานอย่างไร: ข้อมูลดิบหรือสิ่งตกค้าง
ฉันได้เรียนรู้ว่าฉันต้องทดสอบความเป็นปกติไม่ใช่ข้อมูลดิบ แต่เป็นของที่เหลืออยู่ ฉันควรคำนวณส่วนที่เหลือแล้วทำการทดสอบ W ของ Shapiro – Wilk หรือไม่ เศษที่เหลือคำนวณเป็น:หรือไม่Xi−meanXi−ค่าเฉลี่ยX_i - \text{mean} โปรดดูคำถามก่อนหน้านี้สำหรับข้อมูลและการออกแบบของฉัน

2
สร้างรายการชื่อตัวแปรในการวนรอบจากนั้นกำหนดค่าให้กับพวกเขา
ฉันสงสัยว่ามีวิธีง่ายๆในการสร้างรายการของตัวแปรที่ใช้สำหรับการวนรอบและให้ค่าของมัน for(i in 1:3) { noquote(paste("a",i,sep=""))=i } ในโค้ดข้างต้นที่ผมพยายามที่จะสร้างa1, a2, a3ซึ่งกำหนดให้เป็นค่าของ 1, 2, 3 อย่างไรก็ตาม R ให้ข้อความแสดงข้อผิดพลาด ขอบคุณสำหรับความช่วยเหลือของคุณ.
27 r 

5
99 เปอร์เซนต์หรือ 100 เปอร์เซนต์ และพวกเขาเป็นกลุ่มของตัวเลขหรือตัวแบ่งหรือตัวชี้ไปยังหมายเลขบุคคล?
99 เปอร์เซนต์หรือ 100 เปอร์เซนต์ และพวกเขาเป็นกลุ่มของตัวเลขหรือเส้นแบ่งหรือตัวชี้ไปยังหมายเลขบุคคล? ฉันคิดว่าคำถามเดียวกันจะใช้กับควอไทล์หรือควอไทล์ใด ๆ ฉันได้อ่านแล้วว่าดัชนีของตัวเลขที่มีค่าเฉพาะเปอร์เซนต์ (p), ที่ได้รับจากรายการ n คือ i = (p / 100) * n นั่นแนะนำให้ฉันรู้ว่ามี 100 เปอร์เซ็นไทล์ .. เพราะหากคุณมี 100 หมายเลข (i = 1 ถึง i = 100) จากนั้นแต่ละคนจะมีดัชนี (1 ถึง 100) หากคุณมี 200 หมายเลขอาจมี 100 เปอร์เซนต์ แต่แต่ละกลุ่มจะอ้างถึงกลุ่มของตัวเลขสองตัว หรือตัวหาร 100 ตัวที่ไม่รวมตัวหารซ้ายสุดหรือขวาสุดมิฉะนั้นคุณจะได้ตัวแบ่ง 101 หรือพอยน์เตอร์ของแต่ละหมายเลขดังนั้นเปอร์เซนต์แรกจะอ้างถึงตัวเลขที่สอง (1/100) * …
27 quantiles 

2
ความแตกต่างระหว่างความแปรปรวนกับความคลาดเคลื่อนกำลังสองเฉลี่ยคืออะไร
ฉันประหลาดใจที่สิ่งนี้ไม่ได้ถูกถามมาก่อน แต่ฉันไม่สามารถหาคำถามเกี่ยวกับสถิติได้ นี่คือสูตรในการคำนวณความแปรปรวนของตัวอย่างที่กระจายแบบปกติ: ∑(X−X¯)2n−1∑(X−X¯)2n−1\frac{\sum(X - \bar{X}) ^2}{n-1} นี่คือสูตรในการคำนวณความคลาดเคลื่อนเฉลี่ยกำลังสองของการสังเกตในการถดถอยเชิงเส้นอย่างง่าย: ∑(yi−y^i)2n−2∑(yi−y^i)2n−2\frac{\sum(y_i - \hat{y}_i) ^2}{n-2} สูตรสองสูตรนี้แตกต่างกันอย่างไร? ความแตกต่างเดียวที่ฉันสามารถเห็นคือ MSE ใช้n-2ดังนั้นถ้านั่นคือความแตกต่างเท่านั้นทำไมไม่เรียกพวกเขาว่าเป็นทั้งความแปรปรวน แต่ด้วยระดับความอิสระที่แตกต่างกัน?n−2n−2n-2
27 variance  error 

3
จะตัดสินได้อย่างไรว่ารูปแบบการเรียนรู้ของเครื่องภายใต้การดูแลนั้นมากเกินไปหรือไม่?
ใครช่วยบอกฉันได้ว่าจะตัดสินว่ารูปแบบการเรียนรู้ของเครื่องภายใต้การดูแลนั้นมากเกินไปหรือไม่? หากฉันไม่มีชุดข้อมูลการตรวจสอบภายนอกฉันต้องการทราบว่าฉันสามารถใช้ ROC ของการตรวจสอบความถูกต้อง 10 เท่าเพื่ออธิบายการ overfitting ได้หรือไม่ หากฉันมีชุดข้อมูลการตรวจสอบภายนอกฉันควรทำอย่างไรต่อไป

4
อะไรคือความแตกต่างระหว่างการทดสอบแบบคงที่และการทดสอบรูทยูนิต
อะไรคือความแตกต่างระหว่างการทดสอบ Kwiatkowski – Phillips – Schmidt – Shin (KPSS) และการทดสอบเพิ่ม Dickey-Fuller (ADF) พวกเขากำลังทดสอบสิ่งเดียวกันหรือไม่? หรือเราจำเป็นต้องใช้มันในสถานการณ์ต่าง ๆ ?


2
ฟังก์ชั่นการสูญเสียค่าสัมประสิทธิ์ลูกเต๋าเทียบกับเอนโทรปี
เมื่อทำการฝึกอบรมการแบ่งส่วนพิกเซลของโครงข่ายประสาทเทียมเช่นเครือข่าย convolutional ทั้งหมดคุณจะตัดสินใจใช้ฟังก์ชั่นการสูญเสียข้ามเอนโทรปีกับฟังก์ชันการสูญเสียค่าสัมประสิทธิ์ Dice ได้อย่างไร? ฉันรู้ว่านี่เป็นคำถามสั้น ๆ แต่ไม่แน่ใจว่าจะให้ข้อมูลอื่นใดอีก ฉันดูเอกสารจำนวนมากเกี่ยวกับฟังก์ชั่นการสูญเสียสองอย่าง แต่ไม่สามารถเข้าใจได้ง่ายว่าจะใช้ฟังก์ชันใดฟังก์ชันหนึ่ง

2
เมื่อใดจึงเหมาะสมที่จะใช้กฎการให้คะแนนที่ไม่เหมาะสม
Merkle & Steyvers (2013) เขียน: อย่างเป็นทางการกำหนดกฎการให้คะแนนที่เหมาะสมให้จะคาดการณ์ความน่าจะเป็นของการทดลอง Bernoulliกับความสำเร็จที่แท้จริงน่าจะเป็นพีกฎการให้คะแนนตัวชี้วัดที่เหมาะสมที่มีค่าคาดว่าจะลดลงถ้าPฉฉfdddพีพีpฉ= pฉ=พีf = p ฉันเข้าใจว่าสิ่งนี้เป็นสิ่งที่ดีเพราะเราต้องการสนับสนุนนักพยากรณ์ให้สร้างการคาดการณ์ที่สะท้อนความเชื่อที่แท้จริงของพวกเขาอย่างซื่อสัตย์และไม่ต้องการให้พวกเขามีแรงจูงใจที่ผิดปกติให้ทำอย่างอื่น มีตัวอย่างของโลกแห่งความจริงที่ควรใช้กฎการให้คะแนนที่ไม่เหมาะสมหรือไม่? การอ้างอิง Merkle, EC, & Steyvers, M. (2013) การเลือกกฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัด การวิเคราะห์การตัดสินใจ, 10 (4), 292-304

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.