สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ลักษณะทั่วไปอย่างต่อเนื่องของการแจกแจงทวินามลบ
การแจกแจงลบทวินาม (NB)ถูกกำหนดในจำนวนเต็มไม่เป็นลบและมีฟังก์ชันมวลความน่าจะเป็นf(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.มันสมเหตุสมผลหรือไม่ที่จะต้องพิจารณาการกระจายอย่างต่อเนื่องบน reals ที่ไม่เป็นลบซึ่งกำหนดโดยสูตรเดียวกัน (แทนที่k∈N0k∈N0k\in \mathbb N_0โดยx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? ค่าสัมประสิทธิ์ทวินามสามารถเขียนเป็นผลิตภัณฑ์ของ(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)ซึ่งเป็นที่ที่ดีที่กำหนดจริงใด ๆkkkkดังนั้นเราจะมี PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. โดยทั่วไปเราสามารถแทนที่ค่าสัมประสิทธิ์ทวินามด้วยฟังก์ชันแกมมาทำให้ค่าrไม่ใช่จำนวนเต็มrrr: f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. เป็นการกระจายที่ถูกต้องหรือไม่ มันมีชื่อหรือไม่? มันมีประโยชน์อะไรบ้าง? มันอาจจะเป็นสารประกอบหรือส่วนผสมบางอย่าง? มีสูตรปิดสำหรับค่าเฉลี่ยและความแปรปรวน (และค่าคงที่สัดส่วนใน PDF) หรือไม่ (ขณะนี้ฉันกำลังศึกษากระดาษที่ใช้แบบผสม NB (ที่มีค่าคงที่r=2r=2r=2 ) และเหมาะกับมันผ่านทาง EM อย่างไรก็ตามข้อมูลเป็นจำนวนเต็มหลังจากการทำให้เป็นมาตรฐานบางอย่างเช่นไม่ใช่จำนวนเต็มอย่างไรก็ตามผู้เขียนใช้สูตร NB มาตรฐานเพื่อคำนวณ ความเป็นไปได้และผลลัพธ์ที่สมเหตุสมผลดังนั้นทุกอย่างดูเหมือนจะใช้ได้ดีฉันพบว่ามันน่างงมากโปรดทราบว่าคำถามนี้ไม่เกี่ยวกับ NB GLM)

2
ฉันได้ยินมาว่าอัตราส่วนหรือผกผันของตัวแปรสุ่มมักเป็นปัญหาโดยไม่คาดหวัง ทำไมถึงเป็นอย่างนั้น?
ชื่อเป็นคำถาม ฉันได้รับการบอกว่าอัตราส่วนและผู้แปรผันของตัวแปรสุ่มมักเป็นปัญหา สิ่งที่มีความหมายคือความคาดหวังนั้นมักจะไม่มีอยู่จริง มีคำอธิบายทั่วไปอย่างง่าย ๆ หรือไม่?

2
แบบผสมมีประโยชน์เหมือนแบบจำลองทำนายหรือไม่
ฉันสับสนเล็กน้อยเกี่ยวกับข้อดีของแบบจำลองผสมในเรื่องการสร้างแบบจำลองการทำนาย เนื่องจากแบบจำลองการทำนายมักจะหมายถึงการคาดการณ์ค่าของการสังเกตที่ไม่ทราบมาก่อนหน้านี้ดูเหมือนว่าชัดเจนว่าวิธีเดียวที่แบบจำลองผสมอาจมีประโยชน์ก็คือความสามารถในการทำนายระดับประชากร (นั่นคือไม่เพิ่มผลกระทบแบบสุ่ม) อย่างไรก็ตามปัญหาคือในประสบการณ์ของฉันการคาดการณ์ระดับประชากรที่ใช้แบบจำลองแบบผสมนั้นแย่กว่าการคาดการณ์ตามแบบจำลองการถดถอยมาตรฐานที่มีผลกระทบคงที่เท่านั้น ดังนั้นโมเดลของแบบผสมที่เกี่ยวข้องกับปัญหาการทำนายคืออะไร แก้ไข ปัญหามีดังต่อไปนี้: ฉันติดตั้งโมเดลผสม (ทั้งเอฟเฟกต์คงที่และสุ่ม) และโมเดลเชิงเส้นมาตรฐานที่มีเอฟเฟกต์คงที่เท่านั้น เมื่อฉันทำการตรวจสอบข้ามฉันได้รับลำดับชั้นของความแม่นยำในการทำนายต่อไปนี้: 1) แบบจำลองผสมเมื่อทำนายโดยใช้เอฟเฟกต์แบบคงที่และแบบสุ่ม (แต่งานนี้แน่นอนสำหรับการสังเกตด้วยระดับเอฟเฟ็กต์ตัวแปรแบบสุ่มเท่านั้น) เหมาะสำหรับแอปพลิเคชั่นทำนายผลจริง!); 2) โมเดลเชิงเส้นมาตรฐาน 3) รูปแบบผสมเมื่อใช้การคาดคะเนระดับประชากร (เพื่อให้มีเอฟเฟกต์แบบสุ่มโยนออกมา) ดังนั้นความแตกต่างเพียงอย่างเดียวระหว่างแบบจำลองเชิงเส้นมาตรฐานและแบบจำลองผสมจึงมีค่าที่แตกต่างกันของค่าสัมประสิทธิ์เนื่องจากวิธีการประมาณค่าที่แตกต่างกัน (เช่นมีผลกระทบ / ตัวทำนายแบบเดียวกันในทั้งสองแบบ แต่มีสัมประสิทธิ์สัมพันธ์ต่างกัน) ดังนั้นความสับสนของฉันจึงเพิ่มขึ้นเป็นคำถามทำไมฉันถึงเคยใช้แบบจำลองผสมเป็นแบบจำลองการทำนายเนื่องจากการใช้แบบจำลองผสมเพื่อสร้างการทำนายระดับประชากรดูเหมือนว่าเป็นกลยุทธ์ที่ด้อยกว่าเมื่อเทียบกับแบบจำลองเชิงเส้นมาตรฐาน

3
อะไรคือสาเหตุที่เครื่องมือเพิ่มประสิทธิภาพของ Adam ได้รับการพิจารณาว่ามีความแข็งแกร่งต่อมูลค่าของพารามิเตอร์ที่มากเกินไป
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่เรื่องการเรียนรู้ลึกโดย Bengio, Goodfellow และ Courville: โดยทั่วไปอาดัมได้รับการยกย่องว่าค่อนข้างแข็งแกร่งต่อการเลือกพารามิเตอร์มากเกินไปแม้ว่าบางครั้งอัตราการเรียนรู้จะต้องเปลี่ยนจากค่าเริ่มต้นที่แนะนำ ถ้านี่เป็นเรื่องจริงมันเป็นเรื่องใหญ่เพราะการค้นหาพารามิเตอร์แบบไฮเปอร์สามารถมีความสำคัญจริงๆ (ในประสบการณ์ของฉันอย่างน้อย) ในประสิทธิภาพทางสถิติของระบบการเรียนรู้ลึก ดังนั้นคำถามของฉันคือทำไม Adam Robust ถึงพารามิเตอร์ที่สำคัญเช่นนั้น? พิเศษและหรือไม่β1β1\beta_1β2β2\beta_2 ฉันอ่านกระดาษของอดัมแล้วและมันก็ไม่ได้ให้คำอธิบายใด ๆ ว่าทำไมมันถึงใช้ได้กับพารามิเตอร์เหล่านั้นหรือทำไมมันถึงมีประสิทธิภาพ พวกเขาแสดงให้เห็นถึงเหตุผลอื่นหรือไม่? นอกจากนี้เมื่อฉันอ่านกระดาษดูเหมือนว่าจำนวนของพารามิเตอร์ไฮเปอร์ที่พวกเขาพยายามทำที่เล็กมากสำหรับเพียง 2 และสำหรับเท่านั้น 3. นี่เป็นการศึกษาเชิงประจักษ์ได้อย่างไรถ้ามันทำงานกับ 2x3 พารามิเตอร์มากเกินไป ?β1β1\beta_1β2β2\beta_2

1
คุณสมบัติของการกระจายครึ่ง Cauchy คืออะไร?
ขณะนี้ฉันกำลังทำงานกับปัญหาซึ่งฉันจำเป็นต้องพัฒนาอัลกอริทึมMarkov chain Monte Carlo (MCMC) สำหรับแบบจำลองพื้นที่ของรัฐ เพื่อให้สามารถแก้ปัญหาได้ฉันได้รับความน่าจะเป็น : p ( ) = 2I ( > 0) / (1+ ) เป็นค่าเบี่ยงเบนมาตรฐานของxττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauxxx ตอนนี้ฉันรู้แล้วว่ามันคือการแจกแจงครึ่งโคชีเพราะฉันจำได้จากการดูตัวอย่างและเพราะฉันถูกบอกอย่างนั้น แต่ฉันไม่เข้าใจว่าทำไมมันถึงเป็นการกระจาย "Half-Cauchy" และคุณสมบัติที่มาพร้อมกับมัน ในแง่ของคุณสมบัติฉันไม่แน่ใจว่าสิ่งที่ฉันต้องการ ฉันค่อนข้างใหม่สำหรับทฤษฎีเศรษฐมิติประเภทนี้ ดังนั้นฉันจึงเข้าใจการกระจายตัวและวิธีที่เราใช้ในบริบทของแบบจำลองพื้นที่ของรัฐ ตัวแบบมีลักษณะดังนี้: Yเสื้อxt + 1at + 1p ( σ2)p ( τ)= xเสื้อ+ eเสื้อ= xเสื้อ+ at + 1∼ N ( 0 , τ2)∝ 1 / …

3
ประวัติความเป็นมาของทฤษฎีก่อนหน้านี้ที่ไม่เป็นทางการ
ฉันกำลังเขียนเรียงความเชิงทฤษฎีสั้น ๆ สำหรับหลักสูตรสถิติแบบเบย์ (ในสาขาเศรษฐศาสตร์) กับนักบวชที่ไม่รู้เรื่องและฉันพยายามเข้าใจซึ่งเป็นขั้นตอนในการพัฒนาทฤษฎีนี้ ในตอนนี้ไทม์ไลน์ของฉันมีสามขั้นตอนหลัก: หลักการความเฉยเมยของ Laplace (1812), นักบวชที่ไม่แปรเปลี่ยน (Jeffreys (1946)), อ้างอิงจากเบอร์นาร์โดก่อน (1979) จากการทบทวนวรรณกรรมของฉันฉันได้เข้าใจว่าหลักการไม่แยแส (Laplace) เป็นเครื่องมือแรกที่ใช้แทนการขาดข้อมูลก่อนหน้านี้ แต่ความไม่แน่นอนของความไม่แปรเปลี่ยนได้นำไปสู่การละทิ้งจนกระทั่งยุค 40 เมื่อ Jeffreys แนะนำวิธีการของเขา คุณสมบัติที่ต้องการของค่าคงที่ การเกิดขึ้นของความขัดแย้งของคนชายขอบเนื่องจากการใช้ความไม่ระมัดระวังอย่างไม่เหมาะสมก่อนหน้าในยุค 70 ผลักให้เบอร์นาร์โดอธิบายรายละเอียดของทฤษฎีก่อนหน้านี้อย่างละเอียดเพื่อจัดการกับปัญหานี้ การอ่านวรรณกรรมผู้แต่งทุกคนต่างอ้างถึงการมีส่วนร่วม: เอนโทรปีสูงสุดของเจย์เนส, กล่องและความเป็นไปได้ในการแปลข้อมูล, Zellner, ... ในความเห็นของคุณอะไรคือขั้นตอนสำคัญที่ฉันขาดหายไป แก้ไข : ฉันเพิ่มการอ้างอิง (หลัก) ของฉันหากมีคนต้องการ: 1) การเลือกก่อนโดยกฎอย่างเป็นทางการ, Kass, Wasserman 2) แคตตาล็อกของนักบวชที่ไม่มีข้อมูล Yang, Berger 3) การตีความแบบไม่เป็นทางการของ Bayesians Priors และปัญหาเกี่ยวกับการก่อสร้างและการใช้งาน

2
Quantile regression: Function loss
ฉันกำลังพยายามทำความเข้าใจกับการถดถอยเชิงปริมาณ แต่สิ่งหนึ่งที่ทำให้ฉันต้องทนทุกข์คือทางเลือกของฟังก์ชั่นการสูญเสีย ρτ(u)=u(τ−1{u&lt;0})ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) ฉันรู้ว่าความคาดหวังขั้นต่ำของเท่ากับ -quantile แต่อะไรคือเหตุผลเชิงสัญชาตญาณที่จะเริ่มต้นด้วยฟังก์ชั่นนี้? ฉันไม่เห็นความสัมพันธ์ระหว่างการลดฟังก์ชั่นนี้และควอนไทล์ ใครสามารถอธิบายให้ฉันได้ไหมτρτ(y−u)ρτ(y−u)\rho_\tau(y-u)τ%τ%\tau\%

2
ใครเป็นคนคิดค้นต้นไม้ตัดสินใจ
ฉันพยายามติดตามผู้ที่คิดค้นโครงสร้างข้อมูลและอัลกอริทึมการตัดสินใจต้นไม้ ในรายการวิกิพีเดียเกี่ยวกับแผนผังการตัดสินใจมีการอ้างว่า "ID3 และ CART ถูกประดิษฐ์ขึ้นอย่างอิสระในเวลาเดียวกัน (ระหว่างปี 1970 ถึง 1980)" ID3 ถูกนำเสนอในภายหลัง: Quinlan, JR 1986 การเหนี่ยวนำต้นไม้การตัดสินใจ จักร เรียน 1, 1 (มี.ค. 1986), 81-106 ดังนั้นฉันไม่แน่ใจว่าการอ้างสิทธิ์เป็นจริง ผมพบว่าการใช้ Google หนังสืออ้างอิงถึง 1959 หนังสือสถิติชุดการตัดสินใจและ 1958 คอลเลกชันของเอกสารการทำงาน บริบทไม่ชัดเจนและดูเหมือนว่าพวกเขาจะไม่นำเสนออัลกอริทึม อย่างไรก็ตามพวกเขาไม่ได้กำหนดโครงสร้างข้อมูลและถือว่าเป็นที่รู้จักกันดี เมื่อใช้ Google Scholar ฉันพบการอ้างอิงถึงปี 1853 แต่สิ่งเหล่านี้เป็นการแยกวิเคราะห์ข้อผิดพลาดและไม่ใช่การอ้างอิงจริงตั้งแต่วันนั้น
24 cart  history 

3
สิ่งที่สามารถสรุปเกี่ยวกับข้อมูลเมื่อค่าเฉลี่ยเลขคณิตใกล้กับค่าเฉลี่ยทางเรขาคณิต
มีอะไรที่สำคัญเกี่ยวกับค่าเฉลี่ยทางเรขาคณิตและเลขคณิตหมายความว่าอยู่ใกล้กันมากพูด ~ 0.1%? การคาดเดาอะไรที่สามารถทำได้เกี่ยวกับชุดข้อมูลดังกล่าว? ฉันทำงานวิเคราะห์ชุดข้อมูลและสังเกตว่าค่าใกล้เคียงอย่างยิ่ง ไม่แน่นอน แต่ปิด นอกจากนี้การตรวจสติอย่างรวดเร็วของความไม่เท่าเทียมของค่าเฉลี่ยเรขาคณิตและการตรวจสอบการเก็บข้อมูลพบว่าไม่มีอะไรที่น่าประหลาดใจเกี่ยวกับความสมบูรณ์ของชุดข้อมูลของฉันในแง่ของวิธีที่ฉันคิดค่า

3
การประเมินการถดถอยโลจิสติกและการตีความความดีงามของ Hosmer-Lemeshow of Fit
ดังที่เราทุกคนรู้กันว่ามี 2 วิธีในการประเมินรูปแบบการถดถอยโลจิสติกส์และพวกเขากำลังทดสอบสิ่งที่แตกต่างกันมาก พลังการทำนาย: รับสถิติที่วัดว่าคุณสามารถทำนายตัวแปรตามได้ดีเพียงใดขึ้นอยู่กับตัวแปรอิสระ Pseudo R ^ 2 ที่รู้จักกันดีคือ McFadden (1974) และ Cox and Snell (1989) สถิติความถูกต้อง การทดสอบกำลังบอกว่าคุณสามารถทำได้ดียิ่งขึ้นด้วยการทำให้แบบจำลองมีความซับซ้อนมากขึ้นหรือไม่ซึ่งเป็นการทดสอบว่ามีเชิงเส้นหรือการโต้ตอบใด ๆ หรือไม่ ฉันใช้การทดสอบทั้งสองแบบกับโมเดลซึ่งเพิ่มกำลังสองและการโต้ตอบ อยู่แล้ว: &gt;summary(spec_q2) Call: glm(formula = result ~ Top + Right + Left + Bottom + I(Top^2) + I(Left^2) + I(Bottom^2) + Top:Right + Top:Bottom + Right:Left, family = …

2
Bag-of-Words สำหรับการจำแนกข้อความ: ทำไมไม่เพียงแค่ใช้ความถี่ของคำแทน TFIDF
วิธีการทั่วไปในการจัดประเภทข้อความคือการฝึกอบรมลักษณนามจาก 'คำพูด' ผู้ใช้ใช้ข้อความที่จะจัดประเภทและนับความถี่ของคำในแต่ละวัตถุตามด้วยการเรียงลำดับของการตัดแต่งบางอย่างเพื่อให้เมทริกซ์ที่เกิดจากขนาดที่จัดการได้ บ่อยครั้งที่ฉันเห็นผู้ใช้สร้างเวกเตอร์คุณลักษณะของพวกเขาโดยใช้ TFIDF กล่าวอีกนัยหนึ่งความถี่ของข้อความที่ระบุไว้ข้างต้นนั้นมีน้ำหนักลดลงตามความถี่ของคำในคลังข้อมูล ฉันเห็นว่าทำไม TFIDF ถึงมีประโยชน์ในการเลือกคำที่ 'โดดเด่นที่สุด' ของเอกสารที่กำหนดให้พูดแสดงกับนักวิเคราะห์ของมนุษย์ แต่ในกรณีของการจัดหมวดหมู่ข้อความโดยใช้เทคนิค ML แบบมาตรฐานภายใต้การดูแลทำไมต้องลดน้ำหนักลงด้วยความถี่ของเอกสารในคลังข้อมูล ผู้เรียนจะไม่ตัดสินใจตัดสินความสำคัญของแต่ละคำ / การรวมกันของคำศัพท์หรือไม่? ฉันขอขอบคุณสำหรับความคิดของคุณเกี่ยวกับคุณค่าที่ IDF เพิ่มถ้ามี

3
ทำไมจึงไม่มีการแก้ไขสมมติฐานหลายข้อที่ใช้กับการทดลองทั้งหมดตั้งแต่เช้าตรู่
เรารู้ว่าเราต้องใช้การแก้ไขที่คล้ายกับ Benjamini Hochberg สำหรับการทดสอบสมมุติฐานหลายครั้งกับการทดลองโดยใช้ชุดข้อมูลเดียวเพื่อควบคุมอัตราการค้นพบที่ผิดพลาดมิฉะนั้นการทดลองทั้งหมดที่ให้ผลบวกอาจเป็นเท็จ แต่ทำไมเราไม่ใช้หลักการเดียวกันนี้กับการทดลองทั้งหมดตั้งแต่ต้นเวลาไม่ว่าข้อมูลจะมาจากไหน ท้ายที่สุดแล้วกว่าครึ่งหนึ่งของผลลัพธ์ทางวิทยาศาสตร์ที่ตีพิมพ์ซึ่งถือว่า "สำคัญ" เป็นที่รู้กันว่าเป็นเท็จและไม่สามารถแก้ไขได้และไม่มีเหตุผลว่าทำไมสิ่งนี้ถึงไม่สามารถทำได้ง่ายเพียง 100% เนื่องจากนักวิทยาศาสตร์มีแนวโน้มที่จะเผยแพร่ผลลัพธ์เชิงบวกเท่านั้นเราจึงไม่มีความคิดเกี่ยวกับจำนวนผลลัพธ์เชิงลบดังนั้นเราจึงไม่มีความคิดว่าสิ่งที่เราเผยแพร่นั้นเป็นผลบวกที่ผิดพลาดเท่านั้น - ผลลัพธ์ในเชิงบวกที่ตัดขึ้นโดยบังเอิญแบบสุ่มภายใต้สมมติฐานว่าง ในขณะเดียวกันไม่มีอะไรที่จะบอกได้ว่าคณิตศาสตร์ที่อยู่เบื้องหลังการแก้ไขการทดสอบสมมติฐานหลายข้อควรนำไปใช้กับผลลัพธ์จากชุดข้อมูลเดียวกันเท่านั้นและไม่เป็นผลจากข้อมูลการทดลองทั้งหมดที่ได้รับเมื่อเวลาผ่านไป ดูเหมือนว่าวิทยาศาสตร์ทั้งหมดได้กลายเป็นหนึ่งในการสำรวจการตกปลาครั้งใหญ่ครั้งหนึ่งซึ่งตั้งอยู่บนสมมติฐานที่ผิด ๆ หรืออ่อนแอดังนั้นเราจะควบคุมสิ่งนี้ได้อย่างไร เราจะควบคุมอัตราการค้นพบที่ผิดพลาดได้อย่างไรหากสิ่งที่เราเคยเผยแพร่นั้นเป็นผลลัพธ์ที่เป็นอิสระโดยไม่ต้องใช้การแก้ไขใด ๆ สำหรับการทดสอบสมมติฐานหลายครั้งกับการทดลองทั้งหมดที่ดำเนินการจนถึงปัจจุบัน เป็นไปได้หรือไม่ที่จะควบคุมอัตราการค้นพบที่ผิดพลาดโดยไม่ใช้การแก้ไขเช่นนี้?

7
คำแนะนำสำหรับบทความที่ไม่ใช่ด้านเทคนิค แต่เป็นเนื้อหาเชิงลึก
แรงบันดาลใจสำหรับคำถามนี้มาจากบทความเลื่องชื่อของ Leo-Breiman ที่มีชื่อเสียงแบบจำลองทางสถิติ: The Two Cultures (เข้าถึงได้แบบเปิด) ผู้เขียนเปรียบเทียบสิ่งที่เขาเห็นว่าเป็นวิธีการที่แตกต่างกันสองวิธีในการวิเคราะห์ข้อมูลสัมผัสกับแนวคิดหลักในสถิติแบบดั้งเดิมและการเรียนรู้ของเครื่อง อย่างไรก็ตามบทความนี้เป็นที่เข้าใจได้สำหรับผู้ชมที่กว้างขวาง - เนื้อหาสำหรับทุกคนที่ทำงานกับข้อมูลโดยไม่คำนึงว่าพวกเขาได้ติดตามสถิติในระดับปริญญาเอกหรือมีหลักสูตรเบื้องต้นเท่านั้น นอกจากนี้ยังมีบทความที่กระตุ้น นั่นคือมันสร้างการสนทนาได้อย่างง่ายดาย (ดังที่เห็นได้จากชุดของข้อคิดเห็นที่มีชีวิตชีวาที่ตีพิมพ์ในฉบับเดียวกัน) ฉันอยากรู้ว่าจะค้นหาบทความเพิ่มเติมด้วยคุณสมบัติเหล่านี้ นั่นคือบทความที่: แตะที่แนวคิดพื้นฐานในการวิเคราะห์สถิติ / ข้อมูล สามารถเข้าใจได้โดยผู้ชมในแง่ของการเปลี่ยนแปลงในการมุ่งเน้นการวิจัยและการฝึกอบรมทางสถิติอย่างเป็นทางการ กระตุ้นให้เกิดการอภิปรายไม่ว่าจะผ่านความเข้าใจหรือการทะเลาะ
24 references 

4
ANOVA เทียบกับการถดถอยเชิงเส้นหลายเส้น? ทำไม ANOVA จึงถูกใช้กันอย่างแพร่หลายในการศึกษาทดลอง?
ANOVA เทียบกับการถดถอยเชิงเส้นหลายเส้น? ฉันเข้าใจว่าวิธีการทั้งสองนี้ดูเหมือนจะใช้ตัวแบบสถิติเดียวกัน อย่างไรก็ตามภายใต้สถานการณ์ใดฉันควรใช้วิธีใด อะไรคือข้อดีและข้อเสียของวิธีการเหล่านี้เมื่อเปรียบเทียบ? ทำไม ANOVA จึงถูกนำมาใช้กันอย่างแพร่หลายในการศึกษาทดลองและฉันแทบจะไม่เคยพบการถดถอย

1
การคำนวณความเป็นไปได้ที่จะเกิดจากกลุ่มตัวอย่าง MCMC
นี่เป็นคำถามที่เกิดขึ้น (ดูโพสต์นี้ , โพสต์นี้และโพสต์นี้ ) แต่ฉันมีสปินที่แตกต่างกัน สมมติว่าฉันมีกลุ่มตัวอย่างจากตัวอย่าง MCMC ทั่วไป สำหรับแต่ละตัวอย่างθθ\thetaฉันรู้ค่าของการบันทึกความเป็นไปได้เข้าสู่ระบบฉ( x | θ )เข้าสู่ระบบ⁡ฉ(x|θ)\log f(\textbf{x} | \theta)และเข้าสู่ระบบก่อนเข้าสู่ระบบฉ( θ )เข้าสู่ระบบ⁡ฉ(θ)\log f(\theta) ) ถ้ามันช่วยได้ฉันก็รู้ค่าของความน่าจะเป็นของการบันทึกต่อจุดข้อมูล, เข้าสู่ระบบฉ( xผม| θ)เข้าสู่ระบบ⁡ฉ(xผม|θ)\log f(x_i | \theta) (ข้อมูลนี้ช่วยในวิธีการบางอย่างเช่น WAIC และ PSIS-LOO) ฉันต้องการที่จะได้รับ (น้ำมันดิบ) ประมาณการของโอกาสร่อแร่เพียงกับกลุ่มตัวอย่างที่ฉันมีและอาจจะไม่กี่การประเมินผลการทำงานอื่น ๆ ( แต่ไม่ rerunning เฉพาะกิจ MCMC) ก่อนอื่นมาล้างตารางกันก่อน เราทุกคนรู้ว่าตัวประมาณค่าฮาร์มอนิกเป็นตัวประมาณที่แย่ที่สุดที่เคยมีมา ไปกันเถอะ หากคุณกำลังทำตัวอย่างกิ๊บส์กับนักบวชและผู้โพสต์ในรูปแบบปิดคุณสามารถใช้วิธีการของ Chib ; แต่ฉันไม่แน่ใจว่าจะพูดคุยกันนอกเรื่องเหล่านี้ได้อย่างไร นอกจากนี้ยังมีวิธีการที่ต้องการให้คุณปรับเปลี่ยนขั้นตอนการสุ่มตัวอย่าง (เช่นผ่านทางโปสเตอร์ที่มีอารมณ์ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.