คำถามติดแท็ก frequentist

ในวิธีการอนุมานเพื่ออนุมานขั้นตอนทางสถิติได้รับการประเมินโดยการปฏิบัติงานของพวกเขาในระยะยาวของการทำซ้ำของกระบวนการที่ถือว่าเป็นการสร้างข้อมูล

4
Bayesian และผู้ประเมินจุดประจำใช้เงื่อนไขอะไรได้บ้าง?
เมื่อพิจารณาก่อนหน้านี้ค่า ML (ความถี่ - ความเป็นไปได้สูงสุด) และ MAP (Bayesian - ค่าสูงสุดด้านหลัง) จะตรงกัน อย่างไรก็ตามโดยทั่วไปแล้วฉันกำลังพูดถึงตัวประมาณค่าที่ได้จากการเพิ่มประสิทธิภาพของฟังก์ชันการสูญเสีย กล่าวคือ x^(.)=argminE(L(X−x^(y))|y) (Bayesian) x^(.)=argminE(L(X−x^(y))|y) (Bayesian) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(X-\hat x(y)) \; | \; y \right) \qquad \; \,\text{ (Bayesian) } x^(.)=argminE(L(x−x^(Y))|x)(Frequentist)x^(.)=argminE(L(x−x^(Y))|x)(Frequentist) \hat x(\,. ) = \text{argmin} \; \mathbb{E} \left( L(x-\hat x(Y)) \; | …

2
บ่อยและนักบวช
Robby McKilliam พูดในความคิดเห็นในโพสต์นี้ : ควรชี้ให้เห็นว่าจากมุมมองของผู้ใช้บ่อยไม่มีเหตุผลที่คุณไม่สามารถรวมความรู้ก่อนหน้านี้เข้ากับโมเดลได้ ในแง่นี้มุมมองที่ใช้บ่อยจะง่ายกว่าคุณมีเพียงรุ่นและข้อมูลบางส่วนเท่านั้น ไม่จำเป็นต้องแยกข้อมูลก่อนหน้าออกจากตัวแบบ นอกจากนี้ที่นี่ @jbowman บอกว่าผู้ใช้บ่อยใช้การทำให้เป็นมาตรฐานโดยฟังก์ชั่นค่าใช้จ่าย / การลงโทษในขณะที่ชาวเบย์สามารถทำสิ่งนี้ได้ก่อน: ผู้ใช้บ่อยตระหนักว่าการทำให้เป็นมาตรฐานนั้นดีและใช้กันอย่างแพร่หลายในทุกวันนี้และนักบวชแบบเบย์สามารถตีความได้อย่างง่ายดายว่าเป็นการทำให้เป็นระเบียบ ดังนั้นคำถามของฉันคือผู้ใช้งานทั่วไปสามารถรวมรูปแบบของสิ่งที่ Bayesians ระบุว่าเป็นนักบวชได้หรือไม่? ยกตัวอย่างเช่นการทำให้เป็นมาตรฐานฟังก์ชั่นค่าใช้จ่าย / การลงโทษได้รวมเข้ากับแบบจำลองจริง ๆ หรือนี่คือวิธีการที่แท้จริงในการปรับแก้ปัญหา (รวมถึงทำให้เป็นเอกลักษณ์)

2
ภูมิสถิติ
มีใครเขียนแบบสำรวจสั้น ๆ เกี่ยวกับวิธีการต่างๆในสถิติ? ในการประมาณแรกคุณจะมีสถิติประจำและ Bayesian แต่เมื่อคุณมองใกล้คุณจะมีวิธีการอื่นเช่น likelihoodist และ empirical Bayes แล้วคุณก็มีส่วนย่อยภายในกลุ่มเช่น Bayes Objective Bayes แบบอัตนัยภายในสถิติ Bayesian เป็นต้น บทความสำรวจจะดี มันจะดียิ่งขึ้นถ้ามันรวมไดอะแกรม

2
พวกเราเป็นผู้ใช้ชีวิตประจำวันเพียงแค่บอกเป็นนัย / ไม่เต็มใจเบย์หรือไม่?
สำหรับปัญหาการอนุมานที่กำหนดเรารู้ว่าวิธีการแบบเบย์มักจะแตกต่างกันทั้งในรูปแบบและผลที่ได้จากวิธี fequentist ผู้ใช้บ่อย (มักจะรวมถึงฉัน) มักจะชี้ให้เห็นว่าวิธีการของพวกเขาไม่จำเป็นต้องมีก่อนและด้วยเหตุนี้ "ข้อมูลที่ขับเคลื่อน" มากกว่า "การตัดสินใจที่ขับเคลื่อน" แน่นอนว่า Bayesian สามารถชี้ไปที่นักบวชที่ไม่ให้ข้อมูลหรือใช้ประโยชน์ได้เพียงแค่ใช้การกระจายก่อนหน้านี้จริงๆ ความกังวลของฉันโดยเฉพาะอย่างยิ่งหลังจากที่รู้สึกถึงความอับอายขายหน้าในความเป็นกลางของฉันนั่นอาจเป็นวิธีการ "วัตถุประสงค์" ของฉันที่อ้างว่าเป็นสูตรในกรอบของ Bayesian แม้ว่าจะมีรูปแบบข้อมูลและรูปแบบแปลก ๆ ในกรณีนั้นฉันเพิ่งรู้ตัวถึงความอลหม่านก่อนหน้านี้อย่างมีความสุขและแบบจำลองวิธีการที่ใช้บ่อยของฉันบอกเป็นนัย ๆ ? ถ้าชาวเบย์ชี้ให้เห็นการกำหนดเช่นนี้ฉันคิดว่าปฏิกิริยาแรกของฉันคือการพูดว่า "ก็ดีที่คุณสามารถทำได้ แต่นั่นไม่ใช่วิธีที่ฉันคิดเกี่ยวกับปัญหา!" อย่างไรก็ตามใครสนใจว่าฉันคิดอย่างไรหรือฉันกำหนดมันอย่างไร หากกระบวนการของฉันมีค่าทางสถิติ / เชิงคณิตศาสตร์เทียบเท่ากับแบบจำลอง Bayesian บางรุ่นฉันก็จะอนุมาน Bayesian โดยไม่เจตนา ( โดยไม่เจตนา !) คำถามจริงด้านล่าง การตระหนักถึงสิ่งนี้ได้ทำลายสิ่งล่อใจใด ๆ แต่ผมไม่แน่ใจว่าถ้าเป็นความจริงที่ว่ากระบวนทัศน์แบบเบย์สามารถรองรับขั้นตอนการ frequentist ทั้งหมด (อีกครั้งให้คชกรรมเลือกที่เหมาะสมน่าจะเป็นก่อน) ฉันรู้ว่าการสนทนาเป็นเท็จ ฉันถามสิ่งนี้เพราะฉันเพิ่งโพสต์คำถามเกี่ยวกับการอนุมานตามเงื่อนไขซึ่งนำฉันไปสู่บทความต่อไปนี้: ที่นี่ (ดู 3.9.5,3.9.6) พวกเขาชี้ให้เห็นผลลัพธ์ที่เป็นที่รู้จักกันดีของบาซึว่าสามารถมีได้มากกว่าหนึ่งสถิติขึ้นทะเบียนขอร้องคำถามที่ "ส่วนย่อยที่เกี่ยวข้อง" มีความเกี่ยวข้องมากที่สุด ยิ่งแย่ไปกว่านั้นพวกเขาแสดงตัวอย่างที่สองถึงแม้ว่าคุณจะมีสถิติพิเศษที่ไม่ซ้ำกัน …

2
ผู้ที่ใช้บ่อยในเรื่องโวลต์มิเตอร์คืออะไร?
ผู้ที่ใช้บ่อยในเรื่องราวของโวลต์มิเตอร์คืออะไร แนวคิดที่อยู่เบื้องหลังคือการวิเคราะห์ทางสถิติที่ดึงดูดความสนใจไปสู่เหตุการณ์สมมุติจะต้องได้รับการแก้ไขหากมีการเรียนรู้ในภายหลังว่าเหตุการณ์สมมุติเหล่านั้นไม่สามารถเกิดขึ้นได้ตามที่คาดการณ์ไว้ รุ่นของเรื่องราวเกี่ยวกับวิกิพีเดียได้ที่ด้านล่าง วิศวกรทำการสุ่มตัวอย่างหลอดอิเล็กตรอนและวัดแรงดันไฟฟ้า ช่วงการวัดจาก 75 ถึง 99 โวลต์ นักสถิติคำนวณค่าเฉลี่ยตัวอย่างและช่วงความมั่นใจสำหรับค่าเฉลี่ยที่แท้จริง ต่อมานักสถิติค้นพบว่าโวลต์มิเตอร์อ่านได้ไกลถึง 100 เท่านั้นดังนั้นประชากรดูเหมือนจะถูกเซ็นเซอร์ สิ่งนี้จำเป็นต้องมีการวิเคราะห์ใหม่หากนักสถิติเป็นออร์โธดอกซ์ อย่างไรก็ตามวิศวกรบอกว่าเขาอ่านมิเตอร์อีก 1,000 โวลต์ซึ่งเขาจะใช้ถ้าแรงดันไฟฟ้าใด ๆ มีมากกว่า 100 นี่เป็นความโล่งใจต่อนักสถิติเพราะมันหมายความว่าประชากรไม่ถูกตรวจสอบอย่างมีประสิทธิภาพ แต่ในวันถัดไปวิศวกรแจ้งนักสถิติว่าเครื่องวัดที่สองนี้ไม่ทำงานในเวลาที่ทำการวัด นักสถิติยืนยันว่าวิศวกรจะไม่ได้ทำการตรวจวัดจนกระทั่งเครื่องวัดได้รับการแก้ไขแล้วและแจ้งให้เขาทราบว่าจำเป็นต้องมีการตรวจวัดใหม่ วิศวกรประหลาดใจ "ต่อไปคุณจะถามเกี่ยวกับสโคปของฉัน" เห็นได้ชัดว่าเป็นเรื่องที่โง่ แต่ก็ไม่ชัดเจนสำหรับฉันว่าการใช้เสรีภาพด้วยวิธีการที่สนุก ฉันแน่ใจว่าในกรณีนี้นักสถิติสมัครเล่นที่ยุ่งจะไม่ต้องกังวลเกี่ยวกับเรื่องนี้ แต่สิ่งที่เกี่ยวกับนักวิชาการไม่ยอมใครง่ายๆนัก? ด้วยวิธีการที่ใช้วิธีปฏิบัติบ่อยๆเราจะต้องทำการทดสอบซ้ำอีกครั้งหรือไม่? เราสามารถดึงข้อสรุปจากข้อมูลที่มีอยู่แล้วได้หรือไม่? หากต้องการใช้ประโยชน์จากข้อมูลที่เรามีอยู่แล้วการแก้ไขผลลัพธ์สมมุติฐานที่จำเป็นสามารถทำได้เพื่อให้สอดคล้องกับกรอบบ่อย ๆ หรือไม่?

2
การสุ่มตัวอย่างถูกต้องตามกฎหมายสำหรับการอนุมานหรือไม่?
Bayesians บางคนโจมตีการอนุมานบ่อยครั้งที่ระบุว่า "ไม่มีการกระจายตัวอย่างที่ไม่ซ้ำ" เพราะมันขึ้นอยู่กับความตั้งใจของนักวิจัย (Kruschke, Aguinis, & Joo, 2012, p. 733) ตัวอย่างเช่นสมมติว่านักวิจัยเริ่มเก็บข้อมูล แต่เงินทุนของเขาลดลงอย่างไม่คาดคิดหลังจากมีผู้เข้าร่วม 40 คน การแจกแจงการสุ่มตัวอย่าง (และ CIs ที่ตามมาและค่า p) จะถูกกำหนดที่นี่ได้อย่างไร เราจะสมมติว่ากลุ่มตัวอย่างแต่ละชุดมี N = 40 หรือไม่ หรือมันจะประกอบไปด้วยตัวอย่างที่มี N ที่แตกต่างกันโดยแต่ละขนาดจะพิจารณาจากเวลาสุ่มอื่น ๆ ที่เงินทุนของเขาอาจถูกตัด? t, F, chi-square (ฯลฯ ), การแจกแจงโมฆะที่พบในตำราเรียนทั้งหมดสันนิษฐานว่า N ได้รับการแก้ไขและคงที่สำหรับตัวอย่างที่เป็นส่วนประกอบทั้งหมด แต่สิ่งนี้อาจไม่เป็นจริงในทางปฏิบัติ ด้วยขั้นตอนการหยุดที่แตกต่างกันทุกครั้ง (เช่นหลังจากช่วงเวลาหนึ่งหรือจนกว่าผู้ช่วยของฉันจะเหนื่อย) ดูเหมือนจะมีการแจกแจงตัวอย่างที่แตกต่างกันและการใช้การแจกแจงคงที่ N แบบลองและจริงเหล่านี้ไม่เหมาะสม การวิพากษ์วิจารณ์นี้สร้างความเสียหายต่อความถูกต้องตามกฎหมายของ CIs บ่อยและค่า p อย่างไร …

4
ช่วงความเชื่อมั่นสำหรับพารามิเตอร์การถดถอย: Bayesian vs. Classical
จากสองอาร์เรย์ x และ y ความยาวทั้งสอง n ฉันพอดีกับโมเดล y = a + b * x และต้องการคำนวณช่วงความมั่นใจ 95% สำหรับความชัน นี่คือ (b - delta, b + delta) ซึ่ง b ถูกพบในวิธีปกติและ delta = qt(0.975,df=n-2)*se.slope และ se.slope เป็นข้อผิดพลาดมาตรฐานในความชัน วิธีการหนึ่งที่จะได้รับข้อผิดพลาดมาตรฐานของความลาดชันจาก R summary(lm(y~x))$coef[2,2]คือ ทีนี้สมมติว่าฉันเขียนความน่าจะเป็นของความชันที่ให้ x กับ y คูณนี่ด้วย "แบน" ก่อนแล้วใช้เทคนิค MCMC เพื่อวาดตัวอย่างmจากการกระจายหลัง กำหนด lims = quantile(m,c(0.025,0.975)) คำถามของฉัน: …

5
ความน่าจะเป็นมีมากกว่าเบย์เซียนนิยมหรือไม่
ในฐานะนักเรียนในสาขาฟิสิกส์ฉันเคยมีประสบการณ์การบรรยายเรื่อง "ทำไมฉันถึงเป็นชาวเบย์" บางทีครึ่งโหล มันเหมือนกันเสมอ - ผู้นำเสนออธิบายอย่างไม่ถูกต้องว่าการตีความแบบเบย์นั้นดีกว่าการตีความบ่อยครั้งที่ถูกกล่าวหาว่าใช้โดยมวลชนอย่างไร พวกเขาพูดถึงกฎของเบย์, ชายขอบ, นักบวชและผู้โพสต์ เรื่องจริงคืออะไร มีการบังคับใช้โดเมนที่ถูกต้องตามกฎหมายสำหรับสถิติผู้ใช้บ่อยหรือไม่? (แน่นอนในการสุ่มตัวอย่างหรือกลิ้งตายหลายครั้งต้องใช้?) มีปรัชญาความน่าจะเป็นที่มีประโยชน์นอกเหนือจาก "Bayesian" และ "บ่อยครั้ง" หรือไม่

3
เมื่อใดช่วงความเชื่อมั่น“ สมเหตุสมผล” แต่ช่วงเวลาที่น่าเชื่อถือนั้นไม่สอดคล้องกัน?
มันมักจะเป็นกรณีที่ช่วงความเชื่อมั่นที่มีความคุ้มครอง 95% จะคล้ายกันมากกับช่วงเวลาที่น่าเชื่อถือที่มี 95% ของความหนาแน่นหลัง สิ่งนี้เกิดขึ้นเมื่อชุดก่อนหน้านั้นเหมือนกันหรือใกล้เคียงในกรณีหลัง ดังนั้นช่วงความมั่นใจมักจะถูกใช้เพื่อประมาณช่วงเวลาที่น่าเชื่อถือและในทางกลับกัน ที่สำคัญเราสามารถสรุปได้ว่าสิ่งนี้เป็นการตีความที่ผิดพลาดอย่างมากของช่วงความเชื่อมั่นเนื่องจากช่วงเวลาที่น่าเชื่อถือนั้นมีความสำคัญเพียงเล็กน้อยถึงไม่มีประโยชน์เลยสำหรับกรณีการใช้งานที่ง่าย มีตัวอย่างจำนวนมากที่มีกรณีที่สิ่งนี้ไม่ได้เกิดขึ้นอย่างไรก็ตามพวกเขาทั้งหมดดูเหมือนจะถูกเชอร์รี่โดยผู้สนับสนุนของ Bayesian stats ในความพยายามที่จะพิสูจน์ว่ามีบางอย่างผิดปกติกับวิธีการที่ใช้บ่อย ในตัวอย่างเหล่านี้เราจะเห็นช่วงความมั่นใจมีค่าที่เป็นไปไม่ได้ ฯลฯ ซึ่งควรจะแสดงว่าไร้สาระ ฉันไม่ต้องการกลับไปดูตัวอย่างเหล่านั้นหรือการอภิปรายเชิงปรัชญาของ Bayesian vs Frequentist ฉันแค่กำลังมองหาตัวอย่างของสิ่งที่ตรงกันข้าม มีกรณีใดบ้างที่ความมั่นใจและช่วงเวลาที่เชื่อถือได้แตกต่างกันอย่างมีนัยสำคัญและช่วงเวลาที่กำหนดโดยขั้นตอนความเชื่อมั่นนั้นเหนือกว่าอย่างชัดเจนหรือไม่ ในการชี้แจง: นี่เป็นเรื่องเกี่ยวกับสถานการณ์ที่คาดว่าช่วงเวลาที่น่าเชื่อถือจะตรงกับช่วงความเชื่อมั่นที่สอดคล้องกันเช่นเมื่อใช้แบบแฟลตเครื่องแบบและนักบวช ฯลฯ ฉันไม่สนใจในกรณีที่มีคนเลือกที่ไม่ดีโดยพลการมาก่อน แก้ไข: เพื่อตอบสนองต่อคำตอบของ @JaeHyeok Shin ด้านล่างฉันต้องไม่เห็นด้วยว่าตัวอย่างของเขาใช้โอกาสที่ถูกต้อง ฉันใช้การคำนวณแบบเบย์โดยประมาณเพื่อประเมินการกระจายหลังที่ถูกต้องสำหรับทีต้าด้านล่างใน R: ### Methods ### # Packages require(HDInterval) # Define the likelihood like <- function(k = 1.2, theta = 0, …

2
การอนุมานเชิงสถิติภายใต้การสะกดผิด
การรักษาแบบดั้งเดิมของการอนุมานทางสถิติอาศัยสมมติฐานที่ว่ามีการใช้สถิติที่ระบุอย่างถูกต้อง นั่นคือการกระจายP∗(Y)P∗(Y)\mathbb{P}^*(Y)ที่สร้างข้อมูลที่สังเกตได้เป็นส่วนหนึ่งของแบบจำลองทางสถิติ : อย่างไรก็ตามในสถานการณ์ส่วนใหญ่เราไม่สามารถสรุปได้ว่านี่เป็นเรื่องจริง ฉันสงสัยว่าจะเกิดอะไรขึ้นกับขั้นตอนการอนุมานเชิงสถิติหากเราทิ้งสมมติฐานที่ระบุไว้อย่างถูกต้องyyyMM\mathcal{M}P∗(Y)∈M={Pθ(Y):θ∈Θ}P∗(Y)∈M={Pθ(Y):θ∈Θ}\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\} ฉันได้พบงานบางอย่างของWhite 1982ในการประมาณ ML ภายใต้การสะกดผิด มันเป็นที่ถกเถียงกันอยู่ว่ามีความเป็นไปได้มากที่สุดคือการประเมินที่สอดคล้องกันสำหรับการแจกแจง ที่ช่วยลด KL-แตกต่างจากการกระจายทั้งหมดภายในแบบจำลองทางสถิติและการจัดจำหน่ายจริง\ mathbb {P} ^ *Pθ1=argminPθ∈MKL(P∗,Pθ)Pθ1=arg⁡minPθ∈MKL(P∗,Pθ)\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)P∗P∗\mathbb{P}^* เกิดอะไรขึ้นกับตัวประมาณค่าความเชื่อมั่น ให้สรุปความเชื่อมั่นชุดประเมิน Let δ:ΩY→2Θδ:ΩY→2Θ\delta:\Omega_Y \rightarrow 2^\Thetaเป็นประมาณการที่ตั้งไว้ที่ΩYΩY\Omega_Yเป็นพื้นที่ตัวอย่างและ2Θ2Θ2^\Thetaชุดไฟมากกว่าพื้นที่พารามิเตอร์\ΘΘ\Thetaสิ่งที่เราอยากรู้คือความน่าจะเป็นของเหตุการณ์ที่ชุดที่สร้างโดยδδ\deltaรวมการแจกแจงที่แท้จริงP∗P∗\mathbb{P}^*นั่นคือP∗(P∗∈{Pθ:θ∈δ(Y)}):=A.P∗(P∗∈{Pθ:θ∈δ(Y)}):=A.\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A. อย่างไรก็ตามเราแน่นอนไม่ทราบความจริงการกระจาย * สมมติฐานที่กำหนดไว้อย่างถูกต้องบอกเราว่า{M} อย่างไรก็ตามเรายังไม่ทราบว่าเป็นรุ่นใด แต่เป็นผูกพันที่ต่ำกว่าสำหรับความน่าจะเป็น Equationคือการ จำกัด คลาสสิกของระดับความเชื่อมั่นสำหรับตัวประมาณค่าชุดความเชื่อมั่นP∗P∗\mathbb{P}^*P∗∈MP∗∈M\mathbb{P}^* \in \mathcal{M}infθ∈ΘPθ(θ∈δ(Y)):=Binfθ∈ΘPθ(θ∈δ(Y)):=B\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta …

2
ความเป็นส่วนตัวในสถิติผู้ใช้บ่อย
ฉันมักจะได้ยินคำกล่าวอ้างว่าสถิติแบบเบย์นั้นเป็นเรื่องส่วนตัว เหตุผลหลักคือการอนุมานนั้นขึ้นอยู่กับการเลือกก่อนหน้า (แม้ว่าใครจะสามารถใช้หลักการของความไม่แยแส o สูงสุดของเอนโทรปีในการเลือกก่อน) ในการเปรียบเทียบการเรียกร้องไปสถิติบ่อยครั้งโดยทั่วไปมีวัตถุประสงค์มากขึ้น คำนี้มีความจริงมากน้อยแค่ไหน? นอกจากนี้ยังทำให้ฉันสงสัย: อะไรคือองค์ประกอบที่เป็นรูปธรรมของสถิติผู้ใช้บ่อย (ถ้ามี) ที่สามารถเป็นอัตนัยโดยเฉพาะและที่ไม่ปรากฏหรือมีความสำคัญน้อยกว่าในสถิติแบบเบย์? ความเป็นส่วนตัวนั้นแพร่หลายมากในเบย์มากกว่าในสถิติบ่อย

3
คำถามเกี่ยวกับ bootstrap แบบพารามิเตอร์และไม่อิงพารามิเตอร์
ฉันกำลังอ่านบทเกี่ยวกับสถิติที่ใช้บ่อยจากหนังสือของเควินเมอร์ฟี่เรื่อง " การเรียนรู้ของเครื่องจักร - มุมมองที่น่าจะเป็น " ส่วนบน bootstrap อ่าน: bootstrap เป็นเทคนิค Monte Carlo แบบง่าย ๆ เพื่อประมาณการกระจายตัวตัวอย่าง สิ่งนี้มีประโยชน์อย่างยิ่งในกรณีที่ตัวประมาณเป็นฟังก์ชันที่ซับซ้อนของพารามิเตอร์จริง ความคิดนั้นง่าย ถ้าเรารู้พารามิเตอร์จริงเราสามารถสร้างจำนวนมาก (พูดS ) ชุดข้อมูลปลอมแต่ละขนาดNจากการกระจายจริงx_i ^ s \ ซิมพี (· | θ ^ *)สำหรับs = 1: S, i = 1: N จากนั้นเราสามารถคำนวณตัวประมาณของเราจากตัวอย่างแต่ละตัวอย่าง \ hat {\ theta ^ s} = f (x ^ s_ …

2
มีความแตกต่างในวิธีการแบบเบย์และวิธี EDA เป็นประจำหรือไม่?
กล่าวอย่างง่ายมาก: มีความแตกต่างในวิธีการแบบเบย์และความถี่ในการวิเคราะห์ข้อมูลเชิงสำรวจหรือไม่? ฉันรู้ว่าไม่มีอคติโดยธรรมชาติในวิธีการ EDA เช่นเดียวกับฮิสโตแกรมคือฮิสโตแกรม, Scatterplot เป็น scatterplot, ฯลฯ และฉันไม่พบตัวอย่างของความแตกต่างในวิธีการสอนหรือนำเสนอ EDA (โดยไม่สนใจบทความเชิงทฤษฎีโดย A. Gelman) . ในที่สุดฉันดู CRAN ผู้ตัดสินทุกสิ่งที่นำไปใช้: ฉันไม่พบแพ็คเกจที่ปรับให้เข้ากับวิธีการแบบเบย์ อย่างไรก็ตามฉันคิดว่าประวัติย่ออาจมีบางคนที่สามารถแสดงความเห็นเกี่ยวกับเรื่องนี้ ทำไมต้องมีความแตกต่าง สำหรับผู้เริ่ม: เมื่อระบุการแจกแจงที่เหมาะสมก่อนใครควรตรวจสอบสิ่งนี้ด้วยตาเปล่าหรือไม่? เมื่อสรุปข้อมูลและแนะนำว่าควรใช้โมเดลประจำหรือ Bayesian EDA ไม่ควรแนะนำทิศทางใดให้ไป ทั้งสองวิธีมีความแตกต่างอย่างชัดเจนในวิธีการจัดการกับแบบจำลองการผสม การระบุว่าตัวอย่างที่น่าจะมาจากการผสมของประชากรนั้นมีความท้าทายและเกี่ยวข้องโดยตรงกับวิธีการที่ใช้ในการประมาณค่าพารามิเตอร์การผสม ทั้งสองวิธีรวมโมเดล Stochastic และการเลือกแบบจำลองนั้นมาจากการทำความเข้าใจข้อมูล ข้อมูลที่ซับซ้อนมากขึ้นหรือตัวแบบที่ซับซ้อนมากขึ้นทำให้ EDA มีเวลามากขึ้น ด้วยความแตกต่างดังกล่าวระหว่างโมเดล Stochastic หรือกระบวนการสร้างจึงมีความแตกต่างในกิจกรรม EDA ดังนั้นจึงไม่ควรมีความแตกต่างที่เกิดขึ้นจากวิธี Stochastic ที่แตกต่างกันใช่หรือไม่ หมายเหตุ 1: ฉันไม่ได้กังวลเกี่ยวกับปรัชญาของ "ค่าย" - ฉันต้องการพูดถึงช่องว่างใด ๆ ในชุดเครื่องมือและวิธีการ …

3
สิ่งที่มีคุณสมบัติเป็นประจำที่ดีหมายถึงอะไร
ฉันมักจะได้ยินวลีนี้ แต่ไม่เคยเข้าใจความหมายทั้งหมด วลีที่ว่า "คุณสมบัติ frequentist ดี" มี ~ 2750 ฮิตใน google ในปัจจุบัน 536 ใน scholar.google.com และ4 stats.stackexchange.com สิ่งที่ใกล้เคียงที่สุดที่ฉันพบกับคำจำกัดความที่ชัดเจนมาจากสไลด์สุดท้ายในการนำเสนอของมหาวิทยาลัยสแตนฟอร์ดซึ่งกล่าวถึง [T] เขาหมายถึงการรายงานช่วงเวลาความมั่นใจ 95% คือคุณ“ ดักจับ” พารามิเตอร์ที่แท้จริงใน 95% ของการอ้างสิทธิ์ที่คุณทำแม้กระทั่งกับปัญหาการประมาณการที่แตกต่างกัน นี่คือลักษณะที่กำหนดของขั้นตอนการประมาณค่าซึ่งมีคุณสมบัติของนักสะสมประจำที่ดีพวกเขาสามารถตรวจสอบได้เมื่อใช้ซ้ำ ๆ สะท้อนให้เห็นถึงเรื่องนี้ฉันคิดว่าวลี "คุณสมบัติบ่อย ๆ ดี" หมายถึงการประเมินของวิธีเบย์บางและโดยเฉพาะอย่างยิ่งวิธีเบส์ในการก่อสร้างช่วงเวลา ผมเข้าใจว่าช่วงเวลาแบบเบย์จะหมายถึงการมีค่าที่แท้จริงของพารามิเตอร์ที่มีความน่าจะเป็นพีช่วงเวลาที่พบบ่อยจะหมายถึงการสร้างเช่นว่าหากกระบวนการของการก่อสร้างช่วงเวลาซ้ำหลายครั้งเกี่ยวกับของช่วงเวลาจะมีค่าที่แท้จริงของพารามิเตอร์ ช่วงเวลาแบบเบย์โดยทั่วไปไม่ได้ให้สัญญาใด ๆ เกี่ยวกับสิ่งที่% ของช่วงเวลาจะครอบคลุมถึงมูลค่าที่แท้จริงของพารามิเตอร์ อย่างไรก็ตามวิธีการแบบเบย์บางครั้งก็มีคุณสมบัติที่ถ้าทำซ้ำหลายครั้งพวกเขาครอบคลุมมูลค่าที่แท้จริงเกี่ยวกับp ∗ 100 % p ∗ 100 %pppp∗100%p∗100%p*100\%p∗100%p∗100%p*100\%ของเวลา เมื่อพวกเขามีคุณสมบัตินั้นเราบอกว่าพวกเขามี "คุณสมบัติที่ดีเป็นประจำ" นั่นถูกต้องใช่ไหม? รูปผมว่าต้องมีมากขึ้นไปกว่านั้นเนื่องจากวลีหมายถึง …

2
ช่วงความเชื่อมั่นจริง ๆ แล้วเป็นการวัดความไม่แน่นอนของการประมาณค่าพารามิเตอร์หรือไม่
ฉันกำลังอ่านบทความในบล็อกของ William Briggs นักสถิติและคำกล่าวอ้างต่อไปนี้สนใจฉันที่จะพูดน้อยที่สุด คุณทำอะไรจากมัน ช่วงความมั่นใจคืออะไร? แน่นอนว่าเป็นสมการที่จะให้ช่วงเวลาสำหรับข้อมูลของคุณ มันมีไว้เพื่อให้การวัดความไม่แน่นอนของการประมาณการพารามิเตอร์ ทีนี้อย่างเคร่งครัดตามทฤษฎีของนักความถี่ - ซึ่งเราสามารถสรุปได้ว่าเป็นเรื่องจริง - สิ่งเดียวที่คุณสามารถพูดเกี่ยวกับ CI ที่คุณมีอยู่ในมือคือมูลค่าที่แท้จริงของพารามิเตอร์นั้นอยู่ในนั้นหรือไม่ นี่คือการพูดซ้ำซากดังนั้นจึงเป็นเรื่องจริงเสมอ ดังนั้น CI จึงไม่ได้ทำการวัดความไม่แน่นอนเลยในความเป็นจริงมันเป็นการออกกำลังกายที่ไร้ประโยชน์ในการคำนวณ ลิงก์: http://wmbriggs.com/post/3169/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.