สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

10
ทำไมการรวมตัวกันของตัวแปรสุ่มสองตัวจึงทำให้เกิดการโน้มน้าว?
เป็นเวลานานฉันไม่เข้าใจว่าทำไม "ผลรวม" ของตัวแปรสุ่มสองตัวคือการบิดของพวกเขาในขณะที่ผลรวมความหนาแน่นของฟังก์ชั่นการผสมของและคือf(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); ผลรวมเลขคณิตและไม่ใช่การแปลง วลีที่ถูกต้อง "ผลรวมของตัวแปรสุ่มสองตัว" ปรากฏใน google 146,000 ครั้งและเป็นรูปไข่ดังนี้ ถ้าใครคิดว่า RV ให้ผลเป็นค่าเดียวก็สามารถเพิ่มค่าเดียวให้กับค่า RV เดี่ยวอีกค่าหนึ่งซึ่งไม่มีส่วนเกี่ยวข้องกับการโน้มน้าวใจอย่างน้อยก็ไม่ใช่โดยตรงสิ่งที่เป็นผลรวมของตัวเลขสองจำนวน ผลลัพธ์ของสถิติใน RV นั้นเป็นชุดของค่าและดังนั้นวลีที่แน่นอนยิ่งกว่าจะเป็นอะไรบางอย่างเช่น "ชุดของผลรวมของคู่ของค่าของแต่ละบุคคลที่เชื่อมโยงกันจากสอง RV's คือความไม่ต่อเนื่องของพวกเขา" ... และสามารถประมาณโดย ความหนาแน่นของฟังก์ชั่นความหนาแน่นสอดคล้องกับ RV เหล่านั้น ภาษาที่เรียบง่ายยิ่งขึ้น: 2 RV's ofnnnตัวอย่างอยู่ในผลเวกเตอร์สองมิติ n ที่เพิ่มเป็นผลรวมเวกเตอร์ โปรดแสดงรายละเอียดว่าผลรวมของตัวแปรสุ่มสองตัวนั้นเป็นรูปแบบ convolution และผลรวมอย่างไร


7
จะตีความค่าสัมประสิทธิ์การแปรปรวนได้อย่างไร?
ฉันพยายามที่จะเข้าใจสัมประสิทธิ์การแปรผัน เมื่อฉันพยายามนำไปใช้กับตัวอย่างสองข้อมูลต่อไปนี้ฉันไม่สามารถเข้าใจวิธีตีความผลลัพธ์ สมมติว่าตัวอย่างที่ 1 คือ0,5,7,12,11,170,5,7,12,11,17{0, 5, 7, 12, 11, 17} และตัวอย่างที่ 2 คือ10,15,17,22,21,2710,15,17,22,21,27{10 ,15 ,17 ,22 ,21 ,27} 27 นี่ตัวอย่าง 2 ===ตัวอย่าง 1 + 10+ 10+\ 10ตามที่คุณเห็น ทั้งสองมีค่าเบี่ยงเบนมาตรฐานเดียวกันσ2=σ1=5.95539σ2=σ1=5.95539\sigma_{2} = \sigma_{1}= 5.95539แต่μ2=18.67μ2=18.67\mu_{2}=18.67และμ1=8.66667μ1=8.66667\mu_{1}=8.66667 8.66667 ทีนี้สัมประสิทธิ์การแปรผันจะแตกต่างกัน สำหรับตัวอย่างที่ 2 จะน้อยกว่าตัวอย่างที่ 1 แต่ฉันจะตีความผลลัพธ์นั้นได้อย่างไร ในแง่ของความแปรปรวนทั้งสองเหมือนกัน เฉพาะวิธีการของพวกเขาจะแตกต่างกัน ดังนั้นการใช้สัมประสิทธิ์การแปรผันตรงนี้คืออะไร? เป็นเพียงการทำให้เข้าใจผิดฉันหรือบางทีฉันไม่สามารถตีความผลลัพธ์σ/μσ/μ{\sigma}/{\mu}

1
ถ้าฉันสร้างเมทริกซ์สมมาตรแบบสุ่มโอกาสที่จะเป็นบวกแน่นอนคืออะไร
ฉันมีคำถามแปลก ๆ เมื่อฉันทดลองการเพิ่มประสิทธิภาพของนูน คำถามคือ: สมมติว่าฉันสุ่ม (พูดการแจกแจงแบบปกติมาตรฐาน) สร้างเมทริกซ์สมมาตร (ตัวอย่างเช่นฉันสร้างเมทริกซ์สามเหลี่ยมด้านบนและเติมครึ่งล่างเพื่อให้แน่ใจว่ามันสมมาตร) โอกาสที่จะเป็นบวกแน่นอน เมทริกซ์? อย่างไรก็ตามมีการคำนวณความน่าจะเป็นหรือไม่?N×NN×NN \times N

3
เหตุใดการค้นหาเอฟเฟกต์เล็ก ๆ ในการศึกษาขนาดใหญ่บ่งบอกถึงความลำเอียงในการตีพิมพ์
เอกสารวิธีการหลายอย่าง (เช่น Egger et al 1997a, 1997b) อภิปรายอคติสิ่งพิมพ์ที่เปิดเผยโดย meta-analyzes โดยใช้ช่องทางเช่นด้านล่าง บทความ 1997b กล่าวต่อไปว่า "หากมีอคติในการตีพิมพ์เป็นที่คาดหวังว่าจากการศึกษาที่ตีพิมพ์ผลงานที่ใหญ่ที่สุดจะรายงานผลที่เล็กที่สุด" แต่ทำไมล่ะ สำหรับฉันดูเหมือนว่าทั้งหมดนี้จะพิสูจน์ได้ว่าสิ่งที่เรารู้แล้ว: เอฟเฟกต์เล็ก ๆ สามารถตรวจจับได้ด้วยตัวอย่างขนาดใหญ่เท่านั้น ในขณะที่ไม่ได้พูดอะไรเกี่ยวกับการศึกษาที่ยังไม่ถูกตีพิมพ์ นอกจากนี้ผลงานที่อ้างถึงอ้างว่าความไม่สมมาตรที่ประเมินด้วยสายตาในช่องทางพล็อต "บ่งชี้ว่ามีการตีพิมพ์แบบคัดสรรไม่ใช่การทดลองขนาดเล็กที่มีประโยชน์น้อยกว่ามาก" แต่อีกครั้งผมไม่เข้าใจวิธีการใด ๆคุณสมบัติของการศึกษาที่ได้รับการตีพิมพ์อาจจะสามารถบอกอะไรเรา (ช่วยให้เราสามารถให้ข้อสรุป) เกี่ยวกับผลงานที่ได้รับการตีพิมพ์! การอ้างอิง Egger, M. , Smith, GD, & Phillips, AN (1997) meta-analysis: หลักการและวิธีการ BMJ, 315 (7121), 1533-1537 Egger, M. , Smith, GD, Schneider, M. , …

3
ทำไมการทดสอบสมมติฐานขั้นพื้นฐานมุ่งเน้นไปที่ค่าเฉลี่ยและไม่ได้อยู่บนค่ามัธยฐาน?
ในหลักสูตรสถิติขั้นพื้นฐานระดับล่างนักเรียนจะได้รับการสอนการทดสอบสมมติฐานสำหรับค่าเฉลี่ยของประชากร เหตุใดจึงให้ความสำคัญกับค่าเฉลี่ยและไม่ใช่ค่ามัธยฐาน? ฉันเดาว่ามันง่ายกว่าที่จะทดสอบค่าเฉลี่ยเนื่องจากทฤษฎีบทขีด จำกัด กลาง แต่ฉันชอบอ่านคำอธิบายที่มีการศึกษา

2
Jürgen Schmidhuber ถูกนำเสนอโดยเครือข่ายผู้ต่อต้านคนอื่นหรือไม่?
ฉันอ่านในhttps://en.wikipedia.org/wiki/Generative_adversarial_networks : [เครือข่ายผู้ให้คำปรึกษาทั่วไป] ได้รับการแนะนำโดย Ian Goodfellow และคณะในปี 2014 แต่Jurgen Schmidhuberอ้างว่าได้ทำงานคล้าย ๆ กันมาก่อนหน้านี้ในทิศทางนั้น (เช่นมีการถกเถียงกันที่ NIPS 2016 ระหว่างการฝึกสอนเครือข่ายผู้ไม่ประสงค์ดี: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Conference / Neural-Information-Processing- Systems-Conference-NIPS-2016 / Generative-Adversarial-Networksดู 1 ชม. 3 นาที) ความคิดที่อยู่เบื้องหลังเครือข่ายผู้ให้คำปรึกษาที่ก่อกำเนิดเป็นครั้งแรกที่Jürgen Schmidhuber เปิดตัวต่อสาธารณชน ถ้าไม่ความคิดของJürgen Schmidhub นั้นคล้ายกันมากแค่ไหน?

6
มีตัวอย่างใดบ้างที่ทฤษฎีบทขีด จำกัด กลางไม่ถือ?
Wikipedia พูดว่า - ในทฤษฎีความน่าจะเป็นทฤษฎีขีด จำกัด กลาง (CLT) กำหนดว่าในสถานการณ์ส่วนใหญ่เมื่อมีการเพิ่มตัวแปรสุ่มแบบอิสระผลรวมปกติที่ถูกต้องของพวกมันมีแนวโน้มไปสู่การแจกแจงแบบปกติ (อย่างไม่เป็นทางการว่า กระจายตามปกติ ... เมื่อมีข้อความว่า "ในสถานการณ์ส่วนใหญ่" ทฤษฎีบทขีด จำกัด กลางในสถานการณ์ใดไม่ทำงาน

8
ฉันควรจะสอนแบบเบย์หรือสถิติผู้ใช้บ่อยก่อน
ฉันกำลังช่วยลูก ๆ ของฉันอยู่ในโรงเรียนมัธยมเข้าใจสถิติและฉันกำลังพิจารณาเริ่มต้นด้วยตัวอย่างง่ายๆโดยไม่มองข้ามทฤษฎี เป้าหมายของฉันคือการทำให้พวกเขามีวิธีการที่ใช้งานง่ายและสร้างสรรค์ที่สุดเพื่อเรียนรู้สถิติตั้งแต่เริ่มต้นเพื่อกระตุ้นความสนใจในการติดตามสถิติและการเรียนรู้เชิงปริมาณเพิ่มเติม ก่อนที่จะเริ่มต้นฉันมีคำถามเฉพาะที่มีนัยโดยทั่วไป: เราควรเริ่มสอนสถิติโดยใช้ Bayesian หรือกรอบบ่อยๆหรือไม่? การค้นคว้ารอบตัวฉันได้เห็นแล้วว่าวิธีการทั่วไปนั้นเริ่มต้นด้วยการแนะนำสั้น ๆ เกี่ยวกับสถิติผู้ใช้บ่อยตามด้วยการอภิปรายเชิงลึกของสถิติแบบเบย์ (เช่นStangl )

5
ทำไมบางคนใช้ -999 หรือ -9999 เพื่อแทนที่ค่าที่หายไป?
ฉันมีชุดข้อมูล มีค่าที่ขาดหายไปมากมาย สำหรับบางคอลัมน์ค่าที่หายไปถูกแทนที่ด้วย -999 แต่คอลัมน์อื่น ๆ ค่าที่หายไปถูกทำเครื่องหมายเป็น 'NA' ทำไมเราต้องใช้ -999 เพื่อแทนที่ค่าที่หายไป?

2
การทำให้เป็นมาตรฐานของ Tikhonov เหมือนกับการถดถอยของสันเขาหรือไม่?
การทำให้เป็นมาตรฐาน Tikhonov และการถดถอยสันเป็นคำที่มักใช้ราวกับว่าพวกเขาเหมือนกัน เป็นไปได้หรือไม่ที่จะระบุอย่างชัดเจนว่าความแตกต่างคืออะไร?

3
ค่า p เป็นค่าประมาณหรือไม่?
เนื่องจากสามารถคำนวณช่วงความเชื่อมั่นสำหรับค่า p และเนื่องจากการประมาณช่วงเวลาตรงข้ามคือการประมาณค่าจุด: ค่า p เป็นค่าประมาณจุดหรือไม่

2
เอนโทรปีบอกอะไรเรา
ฉันกำลังอ่านเกี่ยวกับเอนโทรปีและมีช่วงเวลาที่ยากลำบากในการคิดว่ามันหมายถึงอะไรในกรณีอย่างต่อเนื่อง หน้า wiki ระบุสิ่งต่อไปนี้: การแจกแจงความน่าจะเป็นของเหตุการณ์บวกกับจำนวนข้อมูลของทุกเหตุการณ์สร้างตัวแปรสุ่มซึ่งค่าที่คาดหวังคือจำนวนข้อมูลเฉลี่ยหรือเอนโทรปีที่เกิดจากการแจกแจงนี้ ดังนั้นถ้าฉันคำนวณเอนโทรปีที่เกี่ยวข้องกับการแจกแจงความน่าจะเป็นแบบต่อเนื่องนั่นจะบอกอะไรฉันจริง ๆ พวกเขาให้ตัวอย่างเกี่ยวกับการพลิกเหรียญดังนั้นกรณีที่แยกกัน แต่ถ้ามีวิธีที่เข้าใจง่ายที่จะอธิบายผ่านตัวอย่างเช่นในกรณีต่อเนื่องนั่นจะยอดเยี่ยม! ถ้ามันช่วยได้นิยามของเอนโทรปีสำหรับตัวแปรสุ่มต่อเนื่องคือ:XXX H(X)=−∫P(x)logbP(x)dxH(X)=−∫P(x)logb⁡P(x)dxH(X)=-\int P(x)\log_b P(x)dx โดยที่เป็นฟังก์ชันการแจกแจงความน่าจะเป็นP(x)P(x)P(x) หากต้องการลองทำสิ่งนี้ให้เป็นรูปธรรมมากขึ้นให้พิจารณากรณีของจากนั้นตามที่Wikipediaระบุว่าเอนโทรปีคือX∼Gamma(α,β)X∼Gamma(α,β)X\sim \text{Gamma}(\alpha,\beta) H( X)= E [ - ln( P( X) ) ]]= E [ - α ln( β) + ln( Γ ( α ) ) + ln( Γ ( α ) ) - ( α - …
32 entropy 

4
เหตุใดจึงต้องใช้การทำให้เป็นมาตรฐานในการถดถอยพหุนามแทนที่จะลดระดับลง
เมื่อทำการถดถอยตัวอย่างเช่นพารามิเตอร์ไฮเปอร์สองตัวที่เลือกมักจะเป็นความสามารถของฟังก์ชัน (เช่นเลขชี้กำลังที่ใหญ่ที่สุดของพหุนาม) และปริมาณของการทำให้เป็นมาตรฐาน สิ่งที่ฉันสับสนคือทำไมไม่เพียงแค่เลือกฟังก์ชั่นความจุต่ำแล้วไม่สนใจการทำให้เป็นมาตรฐาน ด้วยวิธีนี้มันจะไม่เหมาะ ถ้าฉันมีฟังก์ชั่นที่มีความจุสูงพร้อมกับการทำให้เป็นมาตรฐานนั่นก็ไม่ใช่แค่ฟังก์ชั่นความจุต่ำและไม่มีการทำให้เป็นปกติ

7
เหตุใดเครื่องหมายจุลภาคจึงเป็นตัวแยก / ตัวคั่นระเบียนที่ไม่ถูกต้องในไฟล์ CSV
ผมอ่านนี้บทความและฉันอยากรู้คำตอบที่เหมาะสมสำหรับคำถามนี้ สิ่งเดียวที่อยู่ในใจของฉันอาจเป็นได้ว่าในบางประเทศตัวแยกเลขทศนิยมเป็นเครื่องหมายจุลภาคและอาจมีปัญหาเมื่อแบ่งปันข้อมูลในCSVแต่ฉันไม่แน่ใจจริงๆในคำตอบของฉัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.