สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ขนาดของแบทช์ควรมีขนาดเท่าใดสำหรับการไล่ระดับสีแบบสุ่ม
ฉันเข้าใจว่าอาจใช้การไล่ระดับสีแบบสโตแคสติกเพื่อเพิ่มประสิทธิภาพโครงข่ายประสาทเทียมโดยใช้การทำ backpropagation โดยการอัพเดทแต่ละการวนซ้ำด้วยตัวอย่างชุดข้อมูลการฝึกอบรมที่แตกต่างกัน ขนาดของแบทช์ควรใหญ่แค่ไหน?

2
เราควรตีความการเปรียบเทียบค่าเฉลี่ยของขนาดตัวอย่างที่แตกต่างกันอย่างไร
นำกรณีของการจัดอันดับหนังสือบนเว็บไซต์ หนังสือที่จัดอยู่ในอันดับโดย 10,000 คนที่มีค่าเฉลี่ยคะแนน 4.25 และความแปรปรวน 0.5 ในทำนองเดียวกันหนังสือ B คือประเมินโดย 100 คนและมีการประเมินจาก 4.5 กับσ = 0.25σ= 0.5σ=0.5\sigma = 0.5σ= 0.25σ=0.25\sigma = 0.25 ตอนนี้เนื่องจากขนาดตัวอย่างขนาดใหญ่ของ Book A 'ค่าเฉลี่ยเสถียร' เป็น 4.25 ตอนนี้สำหรับ 100 คนอาจเป็นได้ว่าถ้ามีคนอ่านหนังสือ B มากขึ้นค่าเฉลี่ยอาจลดลงเหลือ 4 หรือ 4.25 เราควรตีความการเปรียบเทียบค่าเฉลี่ยจากตัวอย่างที่แตกต่างกันอย่างไรและข้อสรุปที่ดีที่สุดที่เราสามารถทำได้ / ควรวาดคืออะไร? ตัวอย่างเช่น - เราสามารถพูดได้หรือไม่ว่าหนังสือ B ดีกว่าหนังสือ A.


1
Bootstrap vs. jackknife
ทั้งวิธี bootstrap และ jackknife สามารถใช้ในการประเมินความลำเอียงและข้อผิดพลาดมาตรฐานของการประมาณและกลไกของวิธีการสุ่มตัวอย่างทั้งสองวิธีนั้นไม่แตกต่างกันมาก: การสุ่มตัวอย่างด้วยการแทนที่และการละครั้ง อย่างไรก็ตาม jackknife ไม่ได้รับความนิยมเท่ากับ bootstrap ในการวิจัยและการปฏิบัติ มีข้อดีที่ชัดเจนของการใช้ bootstrap แทนที่จะใช้ jackknife หรือไม่?

6
"คะแนนเฉลี่ย" ของ Amazon ทำให้เข้าใจผิดหรือไม่?
ถ้าฉันเข้าใจถูกต้องการจัดอันดับหนังสือในระดับ 1-5 เป็นคะแนน Likert นั่นคือ 3 สำหรับฉันอาจไม่จำเป็นต้องเป็น 3 สำหรับคนอื่น มันเป็นมาตราส่วนตามลำดับ IMO หนึ่งไม่ควรเฉลี่ยเกล็ดปกติ แต่สามารถใช้โหมดมัธยฐานและเปอร์เซนต์ ดังนั้น 'ไม่เป็นไร' ที่จะปรับเปลี่ยนกฎเนื่องจากประชากรส่วนใหญ่เข้าใจว่ามีความหมายมากกว่าสถิติข้างต้น แม้ว่าชุมชนการวิจัยจะดุอย่างยิ่งที่จะใช้ค่าเฉลี่ยของข้อมูลตามระดับ Likert แต่เป็นเรื่องดีที่จะทำเช่นนี้กับผู้คนจำนวนมาก การเฉลี่ยในกรณีนี้ทำให้เข้าใจผิดเริ่มต้นด้วยหรือไม่ ดูเหมือนว่าไม่น่าเป็นไปได้ที่ บริษัท อย่าง Amazon จะคลำหาสถิติพื้นฐาน แต่ถ้าไม่เช่นนั้นฉันจะพลาดอะไรไปบ้าง เราสามารถอ้างได้หรือไม่ว่าขนาดของลำดับนั้นเป็นการประมาณที่สะดวกสำหรับลำดับที่จะแสดงว่ามีค่าเฉลี่ย? ในบริเวณใด

4
ทำไมค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปรสุ่ม X และ XY มีแนวโน้มที่จะเป็น 0.7
นำมาจากสถิติเชิงปฏิบัติสำหรับการวิจัยทางการแพทย์ที่ Douglas Altman เขียนไว้ในหน้า 285: ... สำหรับสองปริมาณ X และ Y ใด ๆ X จะสัมพันธ์กับ XY แน่นอนแม้ว่า X และ Y เป็นตัวอย่างของตัวเลขสุ่มเราคาดหวังว่าความสัมพันธ์ของ X และ XY จะเท่ากับ 0.7 ฉันพยายามใน R และดูเหมือนว่าจะเป็นกรณี: x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu …

2
อะไรคือความแตกต่างระหว่างเอฟเฟกต์แบบสุ่ม - เอฟเฟกต์คงที่และโมเดลร่อแร่
ฉันพยายามขยายความรู้ด้านสถิติ ฉันมาจากพื้นหลังวิทยาศาสตร์กายภาพด้วย "สูตรตาม" วิธีการทดสอบทางสถิติที่เราบอกว่ามันเป็นอย่างต่อเนื่องมันกระจายตามปกติ - OLS ถดถอย ในการอ่านของฉันฉันได้เจอคำศัพท์: แบบจำลองลักษณะพิเศษแบบจำลองลักษณะพิเศษแบบคงที่แบบจำลองระยะขอบ คำถามของฉันคือ: ในแง่ง่ายมากพวกเขาคืออะไร ความแตกต่างระหว่างพวกเขาคืออะไร? มีความหมายเหมือนกันบ้างไหม? การทดสอบแบบดั้งเดิมเช่นการถดถอยแบบ OLS, ANOVA และ ANCOVA อยู่ในประเภทใด เพียงแค่พยายามตัดสินใจว่าจะไปเรียนต่อที่ไหนด้วยตนเอง

6
วิธีที่ดีที่สุดในการจดจำความแตกต่างระหว่างความไวความจำเพาะความแม่นยำความแม่นยำและการเรียกคืนคืออะไร
แม้จะเห็นเงื่อนไขเหล่านี้แล้ว 502847894789 ครั้ง แต่ฉันก็ไม่สามารถจำความแตกต่างระหว่างความไวความจำเพาะความแม่นยำความแม่นยำและการเรียกคืนได้ มันเป็นแนวคิดที่เรียบง่าย แต่ชื่อฉันไม่ได้ใช้งานง่ายมากฉันเลยทำให้พวกเขาสับสนกัน วิธีที่ดีในการคิดเกี่ยวกับแนวคิดเหล่านี้คืออะไรเพื่อให้ชื่อเริ่มมีเหตุผล อีกวิธีหนึ่งทำไมชื่อเหล่านี้จึงถูกเลือกสำหรับแนวคิดเหล่านี้เมื่อเทียบกับชื่ออื่น ๆ

4
สหสัมพันธ์ = 0.2 หมายความว่ามีการเชื่อมโยง“ ใน 1 ใน 5 คนเท่านั้น” หรือไม่
ในสมอง Idiot: นักประสาทวิทยาอธิบายว่าหัวของคุณเป็นจริงขึ้นอยู่กับ Dean Dean เขียน ความสัมพันธ์ระหว่างส่วนสูงและสติปัญญามักอ้างว่ามีค่าประมาณซึ่งหมายถึงความสูงและสติปัญญานั้นมีความสัมพันธ์กันในในคน0.20.20.2111555 สำหรับฉันเสียงนี้ผิด: ฉันเข้าใจความสัมพันธ์มากขึ้นเช่นข้อผิดพลาด (ขาด) ที่เราได้รับเมื่อเราพยายามที่จะทำนายหนึ่งการวัด (นี่คือความฉลาด) หากสิ่งเดียวที่เรารู้เกี่ยวกับบุคคลนั้นคือการวัดอื่น ๆ หากค่าสหสัมพันธ์เป็นหรือดังนั้นเราจะไม่ทำผิดพลาดในการทำนายของเราหากค่าสหสัมพันธ์เท่ากับว่ามีข้อผิดพลาดมากกว่า ดังนั้นความสัมพันธ์จะมีผลกับทุกคนไม่ใช่แค่ในคน111−1−1-10.80.80.8111555 ฉันได้ดูคำถามนี้แต่ฉันไม่เก่งพอที่จะเข้าใจคำตอบ นี้คำตอบที่พูดเกี่ยวกับความแข็งแกร่งของความสัมพันธ์เชิงเส้นดูเหมือนว่าในสายซึ่งความเข้าใจของผม แต่ผมไม่แน่ใจว่า

4
การคำนวณค่า P ด้วยตนเองจาก t-value ใน t-test
ฉันมีชุดข้อมูลตัวอย่างที่มี 31 ค่า ฉันใช้การทดสอบสองทางโดยใช้ R เพื่อทดสอบว่าค่าเฉลี่ยจริงเท่ากับ 10: t.test(x=data, mu=10, conf.level=0.95) เอาท์พุท: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 23.26907 sample estimates: mean of x 21.22944 ตอนนี้ฉันกำลังพยายามทำสิ่งเดียวกันด้วยตนเอง: t.value = (mean(data) - 10) / (sd(data) / …

3
เครือข่ายแบบเรียกซ้ำ vs Recursive Neural: NLP ไหนดีกว่ากัน?
มีเครือข่ายประสาทที่เกิดขึ้นอีกและเครือข่ายประสาทแบบเรียกซ้ำ ทั้งสองมักจะแสดงโดยตัวย่อเดียวกัน: RNN ตามที่Wikipedia , Recurrent NN เป็นความจริงแล้ว Recursive NN แต่ฉันไม่เข้าใจคำอธิบายจริงๆ ยิ่งกว่านั้นฉันดูเหมือนจะไม่พบสิ่งที่ดีกว่า (พร้อมตัวอย่างหรือมากกว่านั้น) สำหรับการประมวลผลภาษาธรรมชาติ ความจริงก็คือถึงแม้ว่า Socher จะใช้ Recursive NN สำหรับ NLP ในการสอนของเขาแต่ฉันไม่พบการใช้งานที่ดีของเครือข่ายประสาทแบบเรียกซ้ำและเมื่อฉันค้นหาใน Google คำตอบส่วนใหญ่เกี่ยวกับ NN ที่เกิดขึ้นอีก นอกจากนั้นมี DNN อื่นที่ใช้กับ NLP ได้ดีกว่าหรือไม่นั้นขึ้นอยู่กับงาน NLP หรือไม่ ความเชื่อลึกหรือตาข่าย Autoencoders ซ้อนกัน? (ฉันดูเหมือนจะไม่พบการใช้งานใด ๆ ที่พิเศษสำหรับ ConvNets ใน NLP และการใช้งานส่วนใหญ่อยู่ในวิสัยทัศน์ของเครื่องในใจ) ในที่สุดฉันต้องการใช้งาน DNN สำหรับ C ++ (ดีกว่าถ้ามีการรองรับ GPU) …

3
เหตุใดการถดถอยแบบลอจิสติกจึงเป็นลักษณนามเชิงเส้น
เนื่องจากเราใช้ฟังก์ชันลอจิสติกส์ในการแปลงชุดค่าผสมเชิงเส้นของอินพุตให้เป็นเอาต์พุตแบบไม่เชิงเส้นการถดถอยลอจิสติกจะถือว่าเป็นลักษณนามเชิงเส้นได้อย่างไร การถดถอยเชิงเส้นเป็นเหมือนเครือข่ายประสาทที่ไม่มีเลเยอร์ที่ซ่อนอยู่ดังนั้นทำไมเครือข่ายประสาทจึงพิจารณาว่าตัวแยกประเภทที่ไม่เป็นเชิงเส้นและการถดถอยแบบลอจิสติกเป็นแบบเชิงเส้น

6
ฉันจะทดสอบได้อย่างไรว่าตัวแปรต่อเนื่องสองตัวนั้นมีความเป็นอิสระ
สมมติว่าฉันมีตัวอย่างจากการจัดจำหน่ายร่วมกันของและYฉันจะทดสอบสมมติฐานที่และเป็นอิสระได้อย่างไร( Xn, วายn) , n = 1 .. N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NY X YXXXYYYXXXYYY ไม่มีข้อสมมติฐานใด ๆ เกี่ยวกับการแจกแจงแบบร่วมหรือส่วนเพิ่มของและ (อย่างน้อยที่สุดของมาตรฐานร่วมทั้งหมดเนื่องจากในกรณีนั้นความเป็นอิสระนั้นเหมือนกับความสัมพันธ์เป็น )Y 0XXXYYY000 ไม่มีการสันนิษฐานเกี่ยวกับลักษณะของความสัมพันธ์ที่เป็นไปได้ระหว่างและ ; มันอาจไม่ใช่แบบเชิงเส้นดังนั้นตัวแปรจะไม่สัมพันธ์กัน ( ) แต่ขึ้นอยู่กับการมีส่วนร่วมสูง ( )YXXXYYYr = 0r=0r=0ผม= HI=HI=H ฉันเห็นสองแนวทาง: ถังทั้งสองตัวแปรและใช้ฟิชเชอร์การทดสอบที่แน่นอนหรือG-ทดสอบ Pro: ใช้การทดสอบทางสถิติที่มีชื่อเสียง คอนดิชั่น: ขึ้นอยู่กับการ binning ประเมินการพึ่งพาของและ : (นี้เป็นสำหรับอิสระและและเมื่อพวกเขาสมบูรณ์ตรวจสอบแต่ละอื่น ๆ )Y I ( X ; Y )XXXYYYI(X;Y)H(X,Y)I(X;Y)H(X,Y)\frac{I(X;Y)}{H(X,Y)}XY1000XXXYYY111 Pro: สร้างตัวเลขที่มีความหมายทางทฤษฎีที่ชัดเจน คอนดิชั่น: …

4
วิธีระบุการกระจาย bimodal?
ฉันเข้าใจว่าเมื่อเราพล็อตค่าเป็นแผนภูมิเราสามารถระบุการแจกแจงแบบ bimodal ได้โดยการสังเกตยอดเขาคู่ แต่คนเราพบว่าเป็นแบบโปรแกรม (ฉันกำลังมองหาอัลกอริทึม)


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.