สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
วิธีใดที่สามารถใช้เพื่อตรวจสอบฤดูกาลในข้อมูล
ฉันต้องการตรวจสอบฤดูกาลตามข้อมูลที่ฉันได้รับ มีวิธีการบางอย่างที่ฉันพบเช่นพล็อตย่อยตามฤดูกาลและพล็อตออโต้คอร์เรชั่น แต่สิ่งที่ฉันไม่เข้าใจวิธีการอ่านกราฟทุกคนสามารถช่วยได้หรือไม่ อีกวิธีคือมีวิธีอื่นในการตรวจสอบฤดูกาลที่มีหรือไม่มีผลสุดท้ายในกราฟ?

12
ซอฟต์แวร์ที่จำเป็นสำหรับการขูดข้อมูลจากกราฟ [ปิด]
ใครมีประสบการณ์กับซอฟต์แวร์ (โดยเฉพาะอย่างยิ่งฟรีโอเพนซอร์ซ) ที่จะถ่ายภาพของข้อมูลที่ถูกพล็อตบนพิกัดคาร์ทีเซียน (มาตรฐานพล็อตประจำวัน) และแยกพิกัดของจุดที่พล็อตลงบนกราฟ โดยพื้นฐานแล้วนี่เป็นปัญหาการขุดข้อมูลและปัญหาการแสดงข้อมูลย้อนกลับ

8
ทำไมต้องสอนและใช้การทดสอบสมมติฐานต่อไป (เมื่อมีช่วงความมั่นใจ)
เหตุใดจึงต้องสอนและใช้การทดสอบสมมติฐาน (ด้วยแนวคิดที่ยากทั้งหมดและเป็นความผิดทางสถิติมากที่สุด) สำหรับปัญหาที่มีการประมาณช่วงเวลา (ความเชื่อมั่น bootstrap ความน่าเชื่อถือหรืออะไรก็ตาม) คำอธิบายที่ดีที่สุด (ถ้ามี) ให้กับนักเรียนคืออะไร? ประเพณีเท่านั้น มุมมองจะได้รับการต้อนรับอย่างมาก

13
อะไรคือความก้าวหน้าของสถิติในช่วง 15 ปีที่ผ่านมา?
ฉันยังจำเอกสารพงศาวดารสถิติเกี่ยวกับการส่งเสริมโดย Friedman-Hastie-Tibshirani และความคิดเห็นในประเด็นเดียวกันโดยผู้เขียนคนอื่น ๆ (รวมถึง Freund และ Schapire) ในเวลานั้นการส่งเสริมอย่างชัดเจนถูกมองว่าเป็นความก้าวหน้าในหลาย ๆ ด้าน: ความเป็นไปได้ในการคำนวณเป็นวิธีการรวมกับประสิทธิภาพที่ยอดเยี่ยมและลึกลับ ในเวลาเดียวกัน SVM มีอายุมากขึ้นซึ่งมีกรอบการทำงานที่สนับสนุนโดยทฤษฎีที่มั่นคงและมีความหลากหลายและการใช้งานมากมาย นั่นคือใน 90s ที่ยิ่งใหญ่ ในช่วง 15 ปีที่ผ่านมาดูเหมือนว่าสำหรับฉันแล้วสถิติจำนวนมากได้รับการทำความสะอาดและการทำรายละเอียด แต่ด้วยมุมมองใหม่ ๆ ดังนั้นฉันจะถามสองคำถาม: ฉันพลาดบทความปฏิวัติ / น้ำเชื้อบ้างไหม? ถ้าไม่มีวิธีการใหม่ที่คุณคิดว่ามีศักยภาพในการเปลี่ยนมุมมองของการอนุมานทางสถิติหรือไม่? กฎ: หนึ่งคำตอบต่อโพสต์; ยินดีต้อนรับการอ้างอิงหรือลิงค์ PS: ฉันมีผู้สมัครสองสามคนสำหรับการพัฒนาที่มีแนวโน้ม ฉันจะโพสต์ไว้ในภายหลัง

2
ความแตกต่างระหว่างความน่าจะเป็นบางส่วน, ความน่าจะเป็นของโปรไฟล์และความเป็นไปได้เล็กน้อยคืออะไร
ฉันเห็นคำศัพท์เหล่านี้ถูกนำมาใช้และทำให้พวกเขาสับสนมากขึ้นเรื่อย ๆ มีคำอธิบายง่ายๆเกี่ยวกับความแตกต่างระหว่างพวกเขาหรือไม่?


6
การใช้การทดสอบการเปลี่ยนรูปแบบใน R เพื่อใช้แทนการทดสอบแบบที (ทั้งคู่และไม่ใช่คู่)?
ฉันมีข้อมูลจากการทดสอบที่ฉันวิเคราะห์โดยใช้การทดสอบที ตัวแปรตามคือสเกลช่วงเวลาและข้อมูลไม่ถูกจับคู่ (เช่น 2 กลุ่ม) หรือจับคู่ (เช่นภายในวิชา) เช่น (ภายในวิชา): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, …

5
“ แบบจำลองลักษณะพิเศษแบบสุ่ม” ในแบบเศรษฐมิติสัมพันธ์อย่างไรกับแบบจำลองแบบผสมนอกเศรษฐมิติ
ฉันเคยคิดว่า "แบบจำลองเอฟเฟกต์แบบสุ่ม" ในเศรษฐมิติสอดคล้องกับ "โมเดลผสมกับการสกัดกั้นแบบสุ่ม" นอกเศรษฐมิติ แต่ตอนนี้ฉันไม่แน่ใจ ทำมัน? เศรษฐมิติใช้คำเช่น "เอฟเฟ็กต์คงที่" และ "เอฟเฟ็กต์แบบสุ่ม" ค่อนข้างแตกต่างจากวรรณกรรมในโมเดลผสมและสิ่งนี้ทำให้เกิดความสับสนฉาวโฉ่ ให้เราพิจารณาสถานการณ์ง่าย ๆ ที่เชิงเส้นขึ้นอยู่กับแต่ด้วยการสกัดกั้นที่แตกต่างกันในการวัดกลุ่มต่างๆ:yYyxxx yit=βxit+ui+ϵit.Yผมเสื้อ=βxผมเสื้อ+ยูผม+εผมเสื้อ.y_{it} = \beta x_{it} + u_i + \epsilon_{it}. นี่แต่ละหน่วย / กลุ่มเป็นที่สังเกตที่แตกต่างกัน timepoints ทีนักเศรษฐศาสตร์เรียกมันว่า "ข้อมูลแผง"iผมitเสื้อt ในคำศัพท์แบบผสมเราสามารถถือว่าเป็นเอฟเฟกต์คงที่หรือเป็นเอฟเฟกต์แบบสุ่ม (ในกรณีนี้คือการสกัดกั้นแบบสุ่ม) การดำเนินการตามที่ได้รับการแก้ไขหมายถึงการติดตั้งและเพื่อลดข้อผิดพลาดกำลังสอง (เช่นการเรียกใช้ OLS regression พร้อมกับตัวแปรกลุ่มจำลอง) การปฏิบัติเป็นแบบสุ่มหมายความว่าเรายังสมมติว่าและใช้โอกาสสูงสุดเพื่อให้พอดีกับและแทนการปรับแต่ละด้วยตนเอง นี้นำไปสู่ผล "บางส่วนร่วมกัน" ซึ่งประมาณการได้รับการหดตัวที่มีต่อค่าเฉลี่ยของพวกเขาu_0เบต้าuiยูผมu_iUฉันU ฉัน ~ N ( U 0 , σ 2 U …

8
วิธีจำลองข้อมูลที่เป็นไปตามข้อ จำกัด เฉพาะเช่นมีค่าเฉลี่ยเฉพาะและค่าเบี่ยงเบนมาตรฐาน
คำถามนี้กระตุ้นโดยคำถามของฉันในการวิเคราะห์อภิมาน แต่ฉันคิดว่ามันจะมีประโยชน์ในการสอนบริบทที่คุณต้องการสร้างชุดข้อมูลที่สะท้อนชุดข้อมูลที่มีอยู่เดิม ฉันรู้วิธีสร้างข้อมูลแบบสุ่มจากการแจกแจงที่กำหนด ตัวอย่างเช่นถ้าฉันอ่านเกี่ยวกับผลลัพธ์ของการศึกษาที่มี: ค่าเฉลี่ย 102 ค่าเบี่ยงเบนมาตรฐานเท่ากับ 5.2 และ ขนาดตัวอย่าง 72 ฉันสามารถสร้างข้อมูลที่คล้ายกันโดยใช้rnormใน R ตัวอย่างเช่น set.seed(1234) x <- rnorm(n=72, mean=102, sd=5.2) แน่นอนค่าเฉลี่ยและ SD จะไม่เท่ากับ 102 และ 5.2 ตามลำดับ: round(c(n=length(x), mean=mean(x), sd=sd(x)), 2) ## n mean sd ## 72.00 100.58 5.25 โดยทั่วไปฉันสนใจที่จะจำลองข้อมูลที่เป็นไปตามข้อ จำกัด ในกรณีข้างต้นค่าคงที่คือขนาดตัวอย่างค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน ในกรณีอื่น ๆ อาจมีข้อ จำกัด เพิ่มเติม ตัวอย่างเช่น, ขั้นต่ำและสูงสุดในข้อมูลหรือตัวแปรพื้นฐานอาจเป็นที่รู้จัก ตัวแปรอาจทราบว่าใช้กับค่าจำนวนเต็มเท่านั้นหรือเฉพาะค่าที่ไม่เป็นลบ …

2
การอภิปรายที่ชัดเจนยิ่งขึ้นของการเลือกตัวแปร
พื้นหลัง ฉันกำลังทำวิจัยทางคลินิกด้านการแพทย์และมีหลักสูตรสถิติหลายหลักสูตร ฉันไม่เคยตีพิมพ์บทความโดยใช้การถดถอยเชิงเส้น / โลจิสติกและต้องการเลือกตัวแปรอย่างถูกต้อง การตีความเป็นสิ่งสำคัญดังนั้นจึงไม่มีเทคนิคการเรียนรู้ด้วยเครื่อง ฉันได้สรุปความเข้าใจของฉันเกี่ยวกับการเลือกตัวแปร - บางคนจะมีจิตใจที่เข้าใจถึงความเข้าใจผิด ๆ ผมพบว่าสอง (1) ที่คล้ายกัน (2) โพสต์ CV ให้เป็นหนึ่งในนี้ แต่พวกเขาไม่ได้ค่อนข้างเต็มที่ตอบข้อสงสัยของฉัน ความคิดใด ๆ ที่จะได้รับการชื่นชมมาก! ฉันมี 3 คำถามหลักในตอนท้าย ปัญหาและการสนทนา ปัญหาการถดถอย / การจำแนกประเภทโดยทั่วไปของฉันมีการสังเกต 200-300 ครั้งอัตราการเกิดเหตุการณ์ไม่พึงประสงค์ 15% (หากการจำแนก) และข้อมูลเกี่ยวกับตัวแปร 25 จาก 40 ที่อ้างว่ามีผลกระทบ "นัยสำคัญทางสถิติ" ในวรรณคดีหรือทำให้น่าเชื่อถือ ความรู้สึกโดยโดเมนความรู้ ฉันใส่ "นัยสำคัญทางสถิติ" ในเครื่องหมายคำพูดเพราะดูเหมือนว่าทุกคนและแม่ของพวกเขาใช้การถดถอยแบบขั้นตอน แต่Harrell (3) และFlom (4) ดูเหมือนจะไม่ชอบด้วยเหตุผลหลายประการ สิ่งนี้ได้รับการสนับสนุนเพิ่มเติมจากการสนทนาโพสต์บล็อกของ Gelman …

2
ทำไมการหดตัวจึงใช้งานได้
เพื่อที่จะแก้ปัญหาของการเลือกแบบจำลองจำนวนของวิธีการ (LASSO, การถดถอยของสันเขา ฯลฯ ) จะลดค่าสัมประสิทธิ์ของตัวแปรทำนายไปทางศูนย์ ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายว่าทำไมสิ่งนี้จึงปรับปรุงความสามารถในการทำนาย หากผลที่แท้จริงของตัวแปรมีขนาดใหญ่มากทำไมไม่ลดขนาดพารามิเตอร์ส่งผลให้การคาดการณ์แย่ลง?

10
ตัวอย่างของการปฏิบัติที่ผิดสมัยในสถิติมีอะไรบ้าง
ฉันหมายถึงวิธีปฏิบัติที่ยังคงรักษาสถานะของพวกเขาแม้ว่าปัญหา (โดยปกติการคำนวณ) พวกเขาได้รับการออกแบบเพื่อรับมือกับได้รับการแก้ไขส่วนใหญ่ ตัวอย่างเช่นการแก้ไขความต่อเนื่องของ Yates ถูกคิดค้นเพื่อการทดสอบที่แน่นอนของฟิชเชอร์ด้วยการทดสอบแต่มันไม่สามารถใช้งานได้อีกต่อไปเนื่องจากซอฟต์แวร์สามารถจัดการการทดสอบของฟิชเชอร์ได้ในขณะนี้ด้วยตัวอย่างขนาดใหญ่ การปรากฏตัว "เนื่องจากตำราเรียนเช่นการวิเคราะห์ข้อมูลหมวดหมู่ของ Agresti มักจะยอมรับว่าการแก้ไขของ Yates" ไม่จำเป็นอีกต่อไป ")χ2χ2\chi^2 ตัวอย่างอื่น ๆ ของการปฏิบัติเช่นนี้มีอะไรบ้าง

1
การทดสอบ Wald สำหรับการถดถอยโลจิสติก
เท่าที่ฉันเข้าใจการทดสอบ Wald ในบริบทของการถดถอยโลจิสติกใช้ในการพิจารณาว่าตัวแปรตัวทำนายบางตัวมีความสำคัญหรือไม่ มันปฏิเสธสมมติฐานว่างของสัมประสิทธิ์ที่สอดคล้องกันว่าเป็นศูนย์XXX การทดสอบประกอบด้วยหารค่าของค่าสัมประสิทธิ์โดยข้อผิดพลาดมาตรฐานσσσ\sigma สิ่งที่ฉันสับสนคือเป็นที่รู้จักกันในชื่อ Z-score และระบุว่ามีโอกาสมากน้อยเพียงใดที่การสังเกตที่ได้รับจะเกิดจากการแจกแจงแบบปกติ (โดยมีค่าเฉลี่ยเป็นศูนย์)X/σX/σX/\sigma

4
การเลือกระหว่าง LM และ GLM สำหรับตัวแปรตอบกลับที่บันทึกการเปลี่ยนแปลง
ฉันพยายามที่จะเข้าใจปรัชญาที่อยู่เบื้องหลังโดยใช้แบบจำลองเชิงเส้นทั่วไป (GLM) เทียบกับแบบจำลองเชิงเส้น (LM) ฉันได้สร้างชุดข้อมูลตัวอย่างด้านล่างโดยที่: เข้าสู่ระบบ( y) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon ตัวอย่างไม่ได้มีข้อผิดพลาดเป็นฟังก์ชันของขนาดของyดังนั้นฉันจะสมมติว่าโมเดลเชิงเส้นของบันทึกการแปลง y จะดีที่สุด ในตัวอย่างด้านล่างนี่เป็นกรณี (ฉันคิดว่า) - เนื่องจาก AIC ของ LM ในข้อมูลการแปลงบันทึกมีค่าต่ำที่สุด AIC ของการแจกแจงแกมมา GLM ที่มีฟังก์ชั่นบันทึกการเชื่อมโยงมีผลรวมของกำลังสองน้อยลง (SS) แต่การเพิ่มระดับความอิสระเพิ่มขึ้นส่งผลให้ AIC ที่สูงขึ้นเล็กน้อย ฉันรู้สึกประหลาดใจที่การแจกแจงแบบเกาส์ AIC นั้นสูงกว่ามาก (แม้ว่า SS จะเป็นรุ่นที่ต่ำที่สุด)εε\varepsilonYyy ฉันหวังว่าจะได้รับคำแนะนำเมื่อควรเข้าใกล้รุ่น GLM - มีบางสิ่งที่ฉันควรมองหาในโมเดล LM ของฉันที่พอดีกับส่วนที่เหลือเพื่อบอกฉันว่าการกระจายอื่นเหมาะสมกว่าหรือไม่ นอกจากนี้เราควรเลือกตระกูลการแจกจ่ายที่เหมาะสมอย่างไร ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของคุณ [แก้ไข]: ตอนนี้ฉันได้ปรับสถิติสรุปเพื่อให้ …

3
อะไรเป็นสิ่งที่เจ๋งมากเกี่ยวกับทฤษฎีบทการเป็นตัวแทนของเดอ Finetti
จากทฤษฎีสถิติโดย Mark J. Schervish (หน้า 12): แม้ว่าทฤษฎีบทการเป็นตัวแทนของ DeFinetti 1.49 เป็นหัวใจสำคัญของการสร้างแบบจำลองพารามิเตอร์ แต่มันไม่ได้ถูกนำมาใช้จริง ทฤษฎีบทเป็นศูนย์กลางของแบบจำลองพารามิเตอร์อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.