คำถามติดแท็ก inference

สรุปผลเกี่ยวกับพารามิเตอร์ประชากรจากข้อมูลตัวอย่าง ดู https://en.wikipedia.org/wiki/Inference และ https://en.wikipedia.org/wiki/Statistical_inference

1
โดยทั่วไปแล้วการอนุมานทำได้ยากกว่าการคาดการณ์หรือไม่
คำถามของฉันมาจากข้อเท็จจริงต่อไปนี้ ฉันได้อ่านโพสต์บล็อกการบรรยายรวมถึงหนังสือเกี่ยวกับการเรียนรู้ของเครื่อง ความประทับใจของฉันคือผู้ปฏิบัติงานการเรียนรู้ด้วยเครื่องดูเหมือนจะไม่สนใจสิ่งต่าง ๆ ที่นักสถิติ / นักเศรษฐศาสตร์สนใจ โดยเฉพาะผู้ปฏิบัติงานการเรียนรู้ด้วยเครื่องเน้นความแม่นยำในการทำนายมากกว่าการอนุมาน ตัวอย่างหนึ่งเกิดขึ้นเมื่อฉันเรียนรู้การใช้งานเครื่องจักรของ Andrew Ng บน Coursera เมื่อเขาพูดถึง Simple Linear Model เขาไม่ได้พูดถึงคุณสมบัติ BLUE ของตัวประมาณค่าหรือวิธีการที่ heteroskedasticity เขามุ่งเน้นไปที่การนำทางลาดลงและแนวคิดของการตรวจสอบข้าม / เส้นโค้ง ROC หัวข้อเหล่านี้ไม่ได้กล่าวถึงในชั้นเรียนเศรษฐมิติ / สถิติของฉัน อีกตัวอย่างหนึ่งเกิดขึ้นเมื่อฉันเข้าร่วมการแข่งขัน Kaggle ฉันอ่านรหัสและความคิดของคนอื่น ส่วนใหญ่ของผู้เข้าร่วมเพียงแค่โยนทุกอย่างลงใน SVM / random forest / XGBoost ยังมีอีกตัวอย่างหนึ่งที่เกี่ยวกับการเลือกแบบจำลองตามลำดับ เทคนิคนี้ใช้กันอย่างแพร่หลายอย่างน้อยออนไลน์และ Kaggle หนังสือเรียนรู้ด้วยเครื่องจักรคลาสสิกจำนวนมากยังครอบคลุมเช่นการเรียนรู้สถิติเบื้องต้น อย่างไรก็ตามตามคำตอบนี้ (ซึ่งค่อนข้างน่าเชื่อถือ) การเลือกรุ่นแบบขั้นตอนต้องเผชิญกับปัญหาจำนวนมากโดยเฉพาะอย่างยิ่งเมื่อมันลงมาที่ "การค้นพบรูปแบบที่แท้จริง" ดูเหมือนว่ามีความเป็นไปได้เพียงสองอย่างเท่านั้น: ผู้เรียนรู้การเรียนรู้ด้วยเครื่องทั้งสองไม่รู้จักปัญหาแบบขั้นตอนหรือพวกเขาทำ แต่พวกเขาไม่สนใจ ดังนั้นนี่คือคำถามของฉัน: …

3
นักวิจัย 1 ทำงาน 1,000 การถดถอยนักวิจัย 2 ทำงานเพียง 1 ทั้งสองได้ผลลัพธ์เดียวกัน - พวกเขาควรทำการอนุมานที่แตกต่างกันหรือไม่
ลองนึกภาพนักวิจัยกำลังสำรวจชุดข้อมูลและเรียกใช้การถดถอยที่แตกต่างกัน 1,000 รายการและเขาพบว่ามีความสัมพันธ์ที่น่าสนใจหนึ่งอย่างในหมู่พวกเขา ทีนี้ลองนึกภาพว่านักวิจัยอีกคนที่มีข้อมูลเดียวกัน ทำงานเพียง 1 การถดถอยและมันกลับกลายเป็นว่าเป็นสิ่งเดียวกับที่นักวิจัยคนอื่นเอามา 1,000 การค้นหา นักวิจัย 2 ไม่รู้จักนักวิจัย 1 นักวิจัย 1 ควรอนุมานต่างจากนักวิจัย 2 หรือไม่? ทำไม? ตัวอย่างเช่นนักวิจัย 1 ควรทำการแก้ไขการเปรียบเทียบหลายรายการ แต่นักวิจัย 2 ไม่ควร? หากนักวิจัย 2 แสดงให้คุณเห็นการถดถอยเดี่ยวของคุณก่อนคุณจะทำการอนุมานอะไร หากหลังจากนักวิจัยคนที่ 1 แสดงผลลัพธ์ให้คุณคุณควรเปลี่ยนการอนุมานของคุณหรือไม่ ถ้าเป็นเช่นนั้นทำไมมันถึงสำคัญ? ป.ล. 1 : ถ้าพูดถึงนักวิจัยสมมุติที่ทำให้ปัญหาเป็นนามธรรมลองคิดดูสิ: ลองจินตนาการว่าคุณใช้การถดถอยเพียงครั้งเดียวสำหรับกระดาษของคุณโดยใช้วิธีการที่ดีที่สุด จากนั้นนักวิจัยอีกสำรวจ 1000 ถดถอยที่แตกต่างกับข้อมูลเดียวกันจนกระทั่งเขาพบถดถอยเดียวกันแน่นอนคุณขับรถ คุณสองคนควรทำการอนุมานที่แตกต่างกันหรือไม่? หลักฐานนี้เหมือนกันทั้งสองกรณีหรือไม่? คุณควรเปลี่ยนข้อสรุปของคุณถ้าคุณรู้ผลลัพธ์ของนักวิจัยคนอื่น ๆ ? ประชาชนควรประเมินหลักฐานของการศึกษาทั้งสองอย่างไร ป.ล. 2:โปรดพยายามเจาะจงและให้เหตุผลทางคณิตศาสตร์ / ทฤษฎีถ้าเป็นไปได้!

4
ซีรีส์เครื่องเขียนเทรนด์สามารถใช้กับ ARIMA ได้หรือไม่?
ฉันมีคำถาม / ความสับสนเกี่ยวกับชุดเครื่องเขียนที่จำเป็นสำหรับการสร้างแบบจำลองด้วย ARIMA (X) ฉันคิดถึงสิ่งนี้มากขึ้นในแง่ของการอนุมาน (ผลของการแทรกแซง) แต่อยากรู้ว่าการคาดการณ์และการอนุมานนั้นสร้างความแตกต่างในการตอบสนองหรือไม่ คำถาม: แหล่งข้อมูลเบื้องต้นทั้งหมดที่ฉันได้อ่านระบุว่าซีรีส์ต้องหยุดนิ่งซึ่งทำให้ฉันรู้สึกว่าเหมาะสมและนั่นคือที่ "ฉัน" ใน arima เข้ามา (ต่างกัน) สิ่งที่ทำให้ฉันสับสนคือการใช้แนวโน้มและการล่องลอยใน ARIMA (X) และความหมาย (ถ้ามี) สำหรับข้อกำหนดที่อยู่กับที่ การใช้เทอมคงที่ / ดริฟท์และ / หรือตัวแปรเทรนด์เป็นตัวแปรภายนอก (เช่นการเพิ่ม 't' เป็น regressor) ลบล้างความต้องการของซีรีส์ที่อยู่กับที่หรือไม่? คำตอบนั้นแตกต่างกันไปหรือไม่ขึ้นอยู่กับว่าซีรี่ส์มีรูทยูนิต (เช่น adf test) หรือมีแนวโน้มที่กำหนดขึ้น แต่ไม่มีรูทยูนิตหรือไม่ หรือ ซีรีย์ต้องหยุดนิ่งอยู่เสมอโดยสร้างความแตกต่างและ / หรือทำให้เสียโฉมก่อนใช้ ARIMA (X)

1
การอนุมานเกี่ยวกับเอฟเฟกต์คงที่ในโมเดลเอฟเฟกต์ผสม
ฉันมีข้อมูลที่มีความสัมพันธ์กันและกำลังใช้แบบจำลองผลกระทบการถดถอยแบบโลจิสติกส์เพื่อประมาณผลกระทบระดับบุคคล (แบบมีเงื่อนไข) สำหรับการทำนายผลประโยชน์ ฉันรู้ว่าสำหรับโมเดลส่วนเพิ่มมาตรฐานการอนุมานพารามิเตอร์โมเดลโดยใช้การทดสอบ Wald นั้นสอดคล้องกับอัตราส่วนความน่าจะเป็นและการทดสอบคะแนน พวกเขามักจะประมาณเดียวกัน เนื่องจาก Wald นั้นง่ายต่อการคำนวณและพร้อมใช้งานในเอาต์พุต R ฉันจึงใช้ 99% ของเวลา อย่างไรก็ตามด้วยโมเดลเอฟเฟ็กต์แบบผสมฉันรู้สึกทึ่งที่เห็นความแตกต่างอย่างมากระหว่างการทดสอบ Wald สำหรับเอฟเฟกต์คงที่เนื่องจากมีการรายงานในโมเดลเอาท์พุทใน R และการทดสอบอัตราส่วนความน่าจะเป็น "ด้วยมือ" เหมาะสมจริงลดรูปแบบ โดยสังหรณ์ใจฉันสามารถเห็นว่าทำไมสิ่งนี้อาจสร้างความแตกต่างอย่างมากเพราะในโมเดลที่ลดลงความแปรปรวนของเอฟเฟกต์แบบสุ่มนั้นถูกประเมินใหม่และอาจส่งผลกระทบอย่างมีนัยสำคัญต่อโอกาส บางคนสามารถอธิบายได้ สถิติการทดสอบของ Wald คำนวณใน R เพื่อหาผลกระทบคงที่อย่างไร อะไรคือเมทริกซ์ข้อมูลสำหรับพารามิเตอร์โมเดลโดยประมาณในโมเดลเอฟเฟกต์ผสม? (และเป็น mx เดียวกันกับที่คำนวณสถิติการทดสอบของ Wald หรือไม่) อะไรคือความแตกต่างในการตีความระหว่างผลลัพธ์จากการทดสอบทั้งสองในกรณีที่ฉันอธิบาย โดยทั่วไปมีแรงจูงใจอะไรบ้างและนำไปใช้ในงานวรรณกรรมเพื่อการอนุมาน

1
หากการแข่งขันเทนนิสเป็นชุดใหญ่เดี่ยวเกมจะมีความแม่นยำเท่ากันกี่เกม?
เทนนิสมีระบบการให้คะแนนสามระดับที่แปลกประหลาดและฉันสงสัยว่ามันจะมีประโยชน์ทางสถิติใด ๆ จากมุมมองของการแข่งขันเป็นการทดลองเพื่อกำหนดผู้เล่นที่ดีกว่า สำหรับผู้ที่ไม่คุ้นเคยในกฎปกติเกมจะได้คะแนนแรกถึง 4 คะแนนตราบใดที่คุณมีผู้นำ 2 คะแนน (เช่นถ้าเป็น 4-2 คุณชนะ แต่ 4-3 คุณต้องมี 1 คะแนนมากขึ้นและเก็บไว้ ดำเนินต่อไปจนกว่าผู้เล่นหนึ่งคนจะไปข้างหน้า 2 คน) เซตคือชุดของเกมและเซตแรกชนะถึง 6 อีกครั้งต้องชนะด้วย 2 ยกเว้นเวลานี้เกมไทเบรก - เบรกแบบพิเศษจะเล่นแทนการพกพา (ยกเว้นชุดสุดท้ายของวิมเบิลดันเป็นต้น .. ) การแข่งขันจะได้รับรางวัลแรกถึง 2 หรือ 3 ชุดขึ้นอยู่กับการแข่งขัน ตอนนี้เทนนิสก็แปลกในเกมที่ไม่เป็นธรรม สำหรับจุดใดก็ตามเซิร์ฟเวอร์มีข้อได้เปรียบอย่างมากดังนั้นในแต่ละเกมเซิร์ฟเวอร์จะสลับกัน ในเกมไทเบรกเกอร์การเสิร์ฟเสิร์ฟจะเปลี่ยนหลังจากทุกแต้มและเป็นแต้มแรกถึง 7 แต้มอีกครั้งด้วยคะแนน 2 แต้ม ให้คิดว่าผู้เล่นที่มีความน่าจะเป็นในการชนะจุดบนของพวกเขาทำหน้าที่ของและเมื่อได้รับp_rp rpspsp_sprprp_r คำถามคือสิ่งนี้สมมติว่าเรา A) เพิ่งเล่นเทนนิสในการแข่งขัน "ดีที่สุดของเกม N" จำนวนเกมที่จะให้ความแม่นยำเช่นเดียวกับปกติดีที่สุดของ 5 …

2
ปัญหา Behrens - Fisher
มีบัญชี expository ที่ดีเผยแพร่ด้วยรายละเอียดทางคณิตศาสตร์ของวิธีการต่าง ๆ ที่นำไปสู่ปัญหา Behrens - Fisher?

2
ในการอนุมานแบบเบย์เหตุใดคำศัพท์บางคำจึงลดลงจากการคาดการณ์หลัง
ในการวิเคราะห์แบบผันคำกริยาแบบเบส์ของเควินเมอร์ฟี่ย์เรื่องการกระจายแบบเกาส์เซียนเขาเขียนว่า p(x∣D)=∫p(x∣θ)p(θ∣D)dθp(x∣D)=∫p(x∣θ)p(θ∣D)dθ p(x \mid D) = \int p(x \mid \theta) p(\theta \mid D) d \theta โดยที่เป็นข้อมูลที่โมเดลมีความเหมาะสมและเป็นข้อมูลที่มองไม่เห็น สิ่งที่ฉันไม่เข้าใจคือสาเหตุที่การพึ่งพาหายไปในเทอมแรกในอินทิกรัล การใช้กฎพื้นฐานความน่าจะเป็นฉันจะคาดหวัง:DDDxxxDDD p(a)p(a∣b)p(x∣D)=∫p(a∣c)p(c)dc=∫p(a∣c,b)p(c∣b)dc↓=∫p(x∣θ,D)⋆p(θ∣D)dθp(a)=∫p(a∣c)p(c)dcp(a∣b)=∫p(a∣c,b)p(c∣b)dc↓p(x∣D)=∫p(x∣θ,D)⏞⋆p(θ∣D)dθ \begin{align} p(a) &= \int p(a \mid c) p(c) dc \\ p(a \mid b) &= \int p(a \mid c, b) p(c \mid b) dc \\ &\downarrow \\ p(x \mid D) &= \int …

1
“ ความหลากหลาย” หมายถึงอะไร?
การใช้ "ความแปรปรวน" หมายถึงการเพิ่มประสิทธิภาพเสมอผ่านการอนุมานแบบผันแปรหรือไม่? ตัวอย่าง: "ตัวเข้ารหัสอัตโนมัติแบบแปรผัน" "วิธีเบย์แบบแปรผัน" "กลุ่มการเปลี่ยนรูปแบบแปรปรวน"

2
วิธีการแบบเบย์เรียงตามลำดับโดยเนื้อแท้หรือไม่?
นั่นคือการวิเคราะห์ตามลำดับ (คุณไม่ทราบล่วงหน้าว่าจะเก็บรวบรวมข้อมูลจำนวนเท่าใด) ด้วยวิธีการที่ต้องทำบ่อยๆต้องใช้ความระมัดระวังเป็นพิเศษ คุณไม่สามารถรวบรวมข้อมูลได้จนกว่าค่า p จะมีขนาดเล็กเพียงพอหรือช่วงความเชื่อมั่นนั้นสั้นพอ แต่เมื่อทำการวิเคราะห์แบบเบย์นี่เป็นข้อกังวลหรือไม่? เราสามารถทำสิ่งต่าง ๆ ได้อย่างอิสระเช่นรวบรวมข้อมูลจนกว่าช่วงเวลาที่เชื่อถือได้จะมีขนาดเล็กเพียงพอหรือไม่?

1
ตัวประมาณความน่าจะเป็นสูงสุด - ช่วงความมั่นใจ
ฉันจะสร้างช่วงความมั่นใจแบบซีมโทติคสำหรับพารามิเตอร์จริงโดยเริ่มจาก MLE สำหรับพารามิเตอร์นั้นได้อย่างไร

2
พารามิเตอร์โอกาสสูงสุดเบี่ยงเบนจากการแจกแจงหลัง
ฉันมีฟังก์ชั่นความน่าจะเป็นL (d| θ)L(d|θ)\mathcal{L}(d | \theta)สำหรับความน่าจะเป็นของข้อมูลของฉันdddรับพารามิเตอร์บางรุ่นθ∈RNθ∈RN\theta \in \mathbf{R}^Nซึ่งผมอยากจะประมาณการ สมมติว่ามีค่าคงที่ของพารามิเตอร์ระดับความน่าจะเป็นเป็นสัดส่วนกับความน่าจะเป็นหลัง ฉันใช้วิธี MCMC เพื่อสุ่มตัวอย่างความน่าจะเป็นนี้ เมื่อดูที่ลูกโซ่ที่เกิดขึ้นฉันพบว่าพารามิเตอร์ความน่าจะเป็นสูงสุดนั้นไม่สอดคล้องกับการแจกแจงแบบหลัง ตัวอย่างเช่นการกระจายความน่าจะเป็นด้านหลังของชายขอบสำหรับหนึ่งในพารามิเตอร์อาจเป็นθ0∼N(μ=0,σ2=1)θ0∼N(μ=0,σ2=1)\theta_0 \sim N(\mu=0, \sigma^2=1)ในขณะที่ค่าของθ0θ0\theta_0ที่จุดน่าจะเป็นสูงสุดคือθML0≈4θ0ML≈4\theta_0^{ML} \approx 4โดยพื้นฐานแล้ว เกือบจะเป็นค่าสูงสุดของθ0θ0\theta_0ผ่านการสุ่มตัวอย่างโดย MCMC นี่เป็นตัวอย่างที่แสดงไม่ใช่ผลลัพธ์ที่แท้จริงของฉัน การแจกแจงจริงนั้นซับซ้อนกว่า แต่พารามิเตอร์ ML บางตัวมีค่า p ที่ไม่น่าเหมือนกันในการแจกแจงหลัง ทราบว่าบางส่วนของพารามิเตอร์ของฉันจะกระโดด (เช่น0≤θ1≤10≤θ1≤10 \leq \theta_1 \leq 1 ); ภายในขอบเขตนักบวชจะเหมือนกันเสมอ คำถามของฉันคือ: การเบี่ยงเบนนั้นเป็นปัญหาต่อหรือเปล่า เห็นได้ชัดว่าฉันไม่ได้คาดหวังว่าพารามิเตอร์ ML จะเหมือนกันซึ่งสูงสุดของการกระจายหลังส่วนล่างของพวกเขาแต่ละคน แต่สังหรณ์ใจมันรู้สึกว่าพวกเขาไม่ควรพบลึกลงไปในหาง การเบี่ยงเบนนี้ทำให้ผลลัพธ์ของฉันเป็นโมฆะโดยอัตโนมัติหรือไม่ ไม่ว่าจะเป็นปัญหาหรือไม่มันเป็นอาการของโรคที่เฉพาะเจาะจงในบางช่วงของการวิเคราะห์ข้อมูลหรือไม่? ตัวอย่างเช่นเป็นไปได้หรือไม่ที่จะสร้างคำแถลงทั่วไปเกี่ยวกับว่าการเบี่ยงเบนดังกล่าวอาจเกิดจากการรวมกันของโซ่ที่ไม่ถูกต้องแบบจำลองที่ไม่ถูกต้องหรือขอบเขตที่แน่นเกินไปของพารามิเตอร์

2
ทำไมรุ่น“ ข้อผิดพลาดใน X” จึงไม่ใช้กันอย่างแพร่หลาย?
เมื่อเราคำนวณผิดพลาดมาตรฐานของค่าสัมประสิทธิ์การถดถอยเราไม่บัญชีสำหรับแบบแผนในการออกแบบเมทริกซ์Xใน OLS เราจะคำนวณเป็นXXXvar(β^)var(β^)\text{var}(\hat{\beta})var((XTX)−1XTY)=σ2(XTX)−1var((XTX)−1XTY)=σ2(XTX)−1\text{var}((X^TX)^{-1}X^TY) = \sigma^2(X^TX)^{-1} หากถูกพิจารณาแบบสุ่มกฎความแปรปรวนโดยรวมจะเรียกร้องการสนับสนุนเพิ่มเติมของความแปรปรวนของเช่นกัน กล่าวคือXXXXXX วาร์( β^) = var ( E.)( β^| X) ) + E( var ( β)^| X) )var(β^)=var(E(β^|X))+E(var(β^|X)).\text{var}(\hat{\beta}) = \text{var}(E(\hat{\beta}|X)) + E(\text{var}(\hat{\beta}|X)). ซึ่งหากตัวประมาณค่า OLS ไม่มีความเป็นกลางอย่างแท้จริงเทอมแรกก็หายไปเนื่องจากความคาดหวังนั้นคงที่ ระยะที่สองจะกลายเป็นจริง:1}σ2cov ( X)- 1σ2cov(X)−1\sigma^2 \text{cov}(X)^{-1} หากเป็นที่รู้จักกันในแบบจำลองพารามิเตอร์สำหรับทำไมเราไม่แทนที่ด้วยการประมาณความแปรปรวนร่วมที่แท้จริง ตัวอย่างเช่นถ้าเป็นการสุ่มมอบหมายการรักษาความแปรปรวนทวินามควรเป็นการประมาณที่มีประสิทธิภาพมากกว่าหรือไม่XXXXTXXTXX^TXXXXE( X) ( 1 - E( X) )E(X)(1−E(X))E(X)(1-E(X)) ทำไมเราไม่พิจารณาใช้โมเดลที่ไม่ใช่พารามิเตอร์ที่ยืดหยุ่นเพื่อประเมินแหล่งที่มาของความเอนเอียงที่เป็นไปได้ในการประมาณค่า OLS และพิจารณาความไวในการออกแบบ (เช่นการกระจายของ ) ในเทอมที่แปรปรวนเทอมแรก …

1
ควรใช้การแก้ไของศาอิสระเพื่ออนุมานพารามิเตอร์ GLM หรือไม่?
คำถามนี้เป็นคำถามแรงบันดาลใจจากคำตอบ Martijn ของที่นี่ สมมติว่าเราเหมาะกับ GLM สำหรับหนึ่งพารามิเตอร์ตระกูลเช่นแบบทวินามหรือปัวซองและเป็นขั้นตอนที่น่าจะเป็นแบบเต็ม (ตรงข้ามกับ quasipoisson) จากนั้นความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ย ด้วยทวินาม:และ Poisson[X]var[X]=E[X]E[1−X]var[X]=E[X]E[1−X]\text{var}[X] = E[X]E[1-X]var[X]=E[X]var[X]=E[X]\text{var}[X] = E[X] ซึ่งแตกต่างจากการถดถอยเชิงเส้นเมื่อส่วนที่เหลือมีการแจกแจงปกติ, จำกัด การกระจายตัวอย่างที่แน่นอนของสัมประสิทธิ์เหล่านี้ไม่เป็นที่รู้จักมันเป็นชุดที่อาจซับซ้อนของผลลัพธ์และ covariates นอกจากนี้การใช้ประมาณการ GLM ของค่าเฉลี่ยที่นำมาใช้เป็นปลั๊กอินสำหรับประมาณการความแปรปรวนของผลที่ เช่นเดียวกับการถดถอยเชิงเส้นสัมประสิทธิ์มีการแจกแจงปกติแบบซีมโทติคและในการอนุมานตัวอย่าง จำกัด เราสามารถประมาณการกระจายตัวตัวอย่างด้วยเส้นโค้งปกติ คำถามของฉันคือ: เราได้อะไรจากการประมาณค่าการแจกแจงแบบ T กับการกระจายตัวตัวอย่างของสัมประสิทธิ์ในตัวอย่าง จำกัด หรือไม่? ในอีกด้านหนึ่งเรารู้ความแปรปรวน แต่เราไม่ทราบการกระจายที่แน่นอนดังนั้นการประมาณ T ดูเหมือนจะเป็นทางเลือกที่ผิดเมื่อตัวประมาณ bootstrap หรือ jackknife สามารถอธิบายความคลาดเคลื่อนเหล่านี้ได้อย่างเหมาะสม ในทางกลับกันบางทีความอนุรักษ์นิยมเล็กน้อยของการแจกแจงแบบทีเป็นที่นิยมในทางปฏิบัติ

1
การทดสอบสมมติฐานและวิธีการทางวิทยาศาสตร์
อ่านคำตอบกระทู้นี้ผมเริ่มสงสัยเกี่ยวกับวิธีการทดสอบสมมติฐานที่เกี่ยวข้องกับวิธีการทางวิทยาศาสตร์ ในขณะที่ฉันมีความเข้าใจที่ดีของทั้งสองฉันมีเวลายากที่จะวาดการเชื่อมต่อที่แม่นยำระหว่างพวกเขา ในระดับสูงวิธีการทางวิทยาศาสตร์ลงมาที่: ทำให้การคาดเดา & สมมติฐาน (ทฤษฎี) ทำนายจากทฤษฎีนี้ ทำการทดลองและการสังเกต ทดสอบและยอมรับทฤษฎีใหม่ว่า ข้อมูลสอดคล้องกับการคาดการณ์ (มากกว่า) แม่นยำกว่าทฤษฎีทางเลือก ทฤษฎีใหม่นั้นไม่ซับซ้อนกว่าทางเลือกอื่นที่น่าเชื่อถือ ในระดับสูงฉันคิดว่าวิธีการทางวิทยาศาสตร์นั้นเป็นไปตามแนวทาง"accept-if -fit -well"ซึ่งแตกต่างจากวิธีการ"ปฏิเสธถ้ามันไม่พอดี"จากการทดสอบสมมติฐานทางสถิติ ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้นทำไมในกรณีนี้ พวกเขาไม่ได้ไล่ตามเป้าหมายเดียวกันทั้งสอง อนุมานทฤษฎีหรือแบบจำลองที่อธิบายการสังเกตได้ดีที่สุด

2
เหตุใดการใช้ข้อมูลแบบตัดขวางเพื่อสรุป / ทำนายการเปลี่ยนแปลงตามยาวของสิ่งที่ไม่ดี
ฉันกำลังมองหากระดาษที่ฉันหวังว่าจะมีอยู่ แต่ไม่รู้ว่ามันจะเป็นอย่างไร มันอาจเป็นชุดของกรณีศึกษาและ / หรือข้อโต้แย้งจากทฤษฎีความน่าจะเป็นเกี่ยวกับสาเหตุที่ใช้ข้อมูลภาคตัดขวางในการอนุมาน / ทำนายการเปลี่ยนแปลงตามยาวอาจเป็นสิ่งที่ไม่ดี (เช่นนั้นไม่จำเป็น ฉันได้เห็นความผิดพลาดที่เกิดขึ้นในสองวิธีใหญ่ ๆ : การอนุมานนั้นเกิดขึ้นเพราะคนที่ร่ำรวยกว่าในอังกฤษเดินทางมากขึ้นจากนั้นเมื่อสังคมได้รับความนิยมมากขึ้นประชากรโดยรวมจะเดินทางมากขึ้น การอนุมานนั้นกลายเป็นเรื่องจริงเป็นระยะเวลานานกว่าทศวรรษ และรูปแบบที่คล้ายคลึงกันกับการใช้ไฟฟ้าในประเทศ: ข้อมูลแบบภาคตัดขวางหมายถึงการเพิ่มขึ้นอย่างมากของรายได้ซึ่งไม่ได้เกิดขึ้นตามกาลเวลา มีหลายสิ่งที่เกิดขึ้นรวมถึงผลกระทบของหมู่และข้อ จำกัด ด้านอุปทาน มันจะมีประโยชน์มากที่จะมีการอ้างอิงเดียวที่รวบรวมกรณีศึกษาเช่นนั้น และ / หรือใช้ทฤษฎีความน่าจะเป็นเพื่อแสดงให้เห็นว่าเหตุใดการใช้ข้อมูลภาคตัดขวางเพื่ออนุมาน / ทำนายการเปลี่ยนแปลงระยะยาวอาจทำให้เข้าใจผิดได้มาก มีกระดาษชนิดนี้อยู่หรือไม่ถ้าอย่างนั้นมันคืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.