สถิติและข้อมูลขนาดใหญ่

4

คุณจะใช้ชุดข้อมูล 'ทดสอบ' หลังจากการตรวจสอบข้ามได้อย่างไร

ในการบรรยายและแบบฝึกหัดที่ฉันเห็นพวกเขาแนะนำให้แบ่งข้อมูลของคุณออกเป็นสามส่วน: การฝึกอบรมการตรวจสอบและการทดสอบ แต่ยังไม่ชัดเจนว่าควรใช้ชุดข้อมูลการทดสอบอย่างไรและวิธีการนี้ดีกว่าการตรวจสอบข้ามชุดข้อมูลทั้งหมด สมมติว่าเราได้บันทึก 20% ของข้อมูลของเราเป็นชุดทดสอบ จากนั้นเราจะแบ่งส่วนที่เหลือแบ่งออกเป็น k เท่าและโดยใช้การตรวจสอบความถูกต้องเราพบว่าแบบจำลองที่สร้างการทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลนี้ สมมติว่าแบบจำลองที่ดีที่สุดที่เราพบมีความแม่นยำ75% แบบฝึกหัดและคำถามมากมายในเว็บไซต์ถามตอบต่างๆบอกว่าตอนนี้เราสามารถตรวจสอบโมเดลของเราในชุดข้อมูล (ทดสอบ) ที่บันทึกไว้ แต่ฉันก็ยังไม่สามารถเข้าใจได้ว่ามันถูกต้องหรือไม่ สมมติว่าเรามีความแม่นยำ70%ในชุดข้อมูลการทดสอบ แล้วเราจะทำอย่างไรต่อไป เราลองแบบอื่นแล้วลองอีกแบบจนกว่าเราจะได้คะแนนสูงในชุดทดสอบของเราหรือไม่ แต่ในกรณีนี้จริงๆมันดูเหมือนว่าเราก็จะได้พบกับรูปแบบที่เหมาะกับการ จำกัด (เพียง 20%) ชุดทดสอบของเรา ไม่ได้หมายความว่าเราจะพบกับโมเดลที่ดีที่สุดโดยทั่วไป ยิ่งกว่านั้นเราจะพิจารณาคะแนนนี้เป็นการประเมินแบบทั่วไปได้อย่างไรหากคำนวณเฉพาะในชุดข้อมูลที่ จำกัด เท่านั้น หากคะแนนนี้ต่ำเราอาจโชคไม่ดีและเลือกข้อมูลการทดสอบ "ไม่ดี" ในทางกลับกันถ้าเราใช้ข้อมูลทั้งหมดที่เรามีแล้วเลือกแบบจำลองโดยใช้การตรวจสอบความถูกต้องข้ามของ K-fold เราจะพบรูปแบบที่ทำให้การทำนายที่ดีที่สุดสำหรับข้อมูลที่ไม่รู้จักจากชุดข้อมูลทั้งหมดที่เรามี

25 machine-learning cross-validation validation

3

การใช้เหตุผลอย่างชาญฉลาดหลังการประมาณค่าความน่าจะเป็นแบบอคติสูงสุด

ฉันมีความสับสนกับตัวประมาณความน่าจะเป็นแบบอคติสูงสุด (ML) คณิตศาสตร์ของแนวคิดทั้งหมดนั้นค่อนข้างชัดเจนสำหรับฉัน แต่ฉันไม่สามารถเข้าใจเหตุผลที่เข้าใจง่าย เนื่องจากชุดข้อมูลบางอย่างที่มีตัวอย่างจากการแจกจ่ายซึ่งเป็นฟังก์ชันของพารามิเตอร์ที่เราต้องการประมาณค่าตัวประมาณค่า ML จะส่งผลให้มูลค่าของพารามิเตอร์ซึ่งมีแนวโน้มมากที่สุดที่จะสร้างชุดข้อมูล ฉันไม่สามารถเข้าใจตัวประมาณค่า ML แบบเอนเอียงในแง่ที่ว่าค่าที่เป็นไปได้มากที่สุดสำหรับพารามิเตอร์สามารถทำนายมูลค่าที่แท้จริงของพารามิเตอร์ด้วยอคติต่อค่าที่ไม่ถูกต้องได้อย่างไร

25 maximum-likelihood bias

4

เมื่อใดที่จะหลีกเลี่ยงป่าสุ่ม?

ป่าสุ่มที่รู้จักกันดีในการดำเนินการอย่างเป็นธรรมได้ดีบนความหลากหลายของงานและได้รับการเรียกว่าLeatherman วิธีการเรียนรู้ มีปัญหาประเภทใดบ้างหรือเงื่อนไขใดบ้างที่ควรหลีกเลี่ยงการใช้ฟอเรสต์แบบสุ่ม?

25 machine-learning classification random-forest

2

มันเหมาะสมหรือไม่ที่จะรวม PCA และ LDA

สมมติว่าฉันมีชุดข้อมูลสำหรับงานการจัดหมวดหมู่ทางสถิติภายใต้การดูแลเช่นผ่านตัวจําแนกของ Bayes ชุดข้อมูลนี้ประกอบด้วย 20 ฟีเจอร์และฉันต้องการต้มให้เหลือ 2 ฟีเจอร์โดยใช้เทคนิคการลดขนาดเช่นการวิเคราะห์ส่วนประกอบหลัก (PCA) และ / หรือการวิเคราะห์เชิงเส้น (LDA) เทคนิคทั้งสองกำลังฉายข้อมูลลงในพื้นที่ย่อยขนาดเล็ก: ด้วย PCA ฉันจะหาทิศทาง (ส่วนประกอบ) ที่เพิ่มความแปรปรวนในชุดข้อมูล (โดยไม่คำนึงถึงคลาสฉลาก) และด้วย LDA ฉันจะมีส่วนประกอบที่ขยายระหว่าง - คลาสแยก ตอนนี้ฉันกำลังสงสัยว่าอย่างไรและทำไมเทคนิคเหล่านี้สามารถรวมกันและถ้ามันทำให้รู้สึก ตัวอย่างเช่น: แปลงชุดข้อมูลผ่าน PCA และฉายลงบนพื้นที่ว่างสองมิติใหม่ Transform (ชุด PCA-transformed) ชุดข้อมูลที่ผ่าน LDA เป็นค่าสูงสุด การแยกชั้นเรียน หรือ ข้ามขั้นตอน PCA และใช้ส่วนประกอบ 2 อันดับแรกจาก LDA หรือชุดค่าผสมอื่น ๆ ที่เหมาะสม

25 classification pca regularization discriminant-analysis overfitting

3

วิธีตีความ dendrogram ของการวิเคราะห์คลัสเตอร์แบบลำดับชั้น

ลองพิจารณาตัวอย่าง R ด้านล่าง: plot( hclust(dist(USArrests), "ave") ) แกน y "ความสูง" หมายความว่าอะไร? มองไปที่นอร์ ธ แคโรไลน่าและแคลิฟอร์เนีย (ทางซ้าย) แคลิฟอร์เนียอยู่ใกล้กับนอร์ทแคโรไลนามากกว่าแอริโซนาหรือไม่ ฉันสามารถตีความได้ไหม ฮาวาย (ขวา) เข้าร่วมกลุ่มค่อนข้างช้า ฉันเห็นสิ่งนี้เพราะ "สูง" กว่ารัฐอื่น โดยทั่วไปแล้วฉันจะตีความความจริงว่าป้ายกำกับ "สูงกว่า" หรือ "ต่ำลง" ใน dendrogram ถูกต้องได้อย่างไร

25 interpretation hierarchical-clustering dendrogram

5

วิธีการทดสอบและหลีกเลี่ยงความหลากสีในโมเดลเชิงเส้นผสม?

ฉันกำลังใช้โมเดลเชิงเส้นเชิงเส้นผสม ฉันใช้แพ็คเกจ "lme4" ใน R แบบจำลองของฉันอยู่ในรูปแบบ: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) ก่อนใช้แบบจำลองของฉันฉันตรวจสอบความเป็นไปได้หลายทางระหว่างตัวทำนาย ฉันทำสิ่งนี้โดย: ทำดาต้าเฟรมของเครื่องทำนาย dummy_df <- data.frame(predictor1, predictor2) ใช้ฟังก์ชัน "cor" เพื่อคำนวณความสัมพันธ์ของ Pearson ระหว่างตัวทำนาย correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) หาก "correl_dummy_df" มากกว่า 0.80 แล้วฉันตัดสินใจว่าตัวทำนาย 1 และทำนาย 2 มีความสัมพันธ์สูงเกินไปและไม่รวมอยู่ในแบบจำลองของฉัน ในการอ่านหนังสือบางส่วนจะมีวิธีที่เป็นไปได้มากกว่าในการตรวจสอบความหลากหลายของสี ใครมีคำแนะนำเกี่ยวกับเรื่องนี้หรือไม่? "Variance Inflation …

25 r correlation mixed-model lme4-nlme multicollinearity

2

ความสัมพันธ์ระหว่างตัวประมาณค่า OLS สำหรับการสกัดกั้นและความชัน

ในรูปแบบการถดถอยอย่างง่าย Y= β0+ β1x + ε ,Y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, ตัวประมาณ OLSและมีความสัมพันธ์กันββ^O L S0β^0OLS\hat{\beta}_0^{OLS}β^O L S1β^1OLS\hat{\beta}_1^{OLS} สูตรสำหรับความสัมพันธ์ระหว่างตัวประมาณสองตัวคือ (ถ้าฉันได้มาอย่างถูกต้อง): Corr( β^O L S0, β^O L S1) = - ∑ni = 1xผมn--√Σni = 1x2ผม-------√.Corr⁡(β^0OLS,β^1OLS)=-Σผม=1nxผมnΣผม=1nxผม2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. คำถาม: คำอธิบายที่เข้าใจง่ายสำหรับการปรากฏตัวของความสัมพันธ์คืออะไร? การปรากฏตัวของความสัมพันธ์มีนัยสำคัญหรือไม่? โพสต์ได้รับการแก้ไขและยืนยันว่าความสัมพันธ์หายไปกับขนาดตัวอย่างได้ถูกลบออก (ขอบคุณ @whuber และ @ChristophHanck)

25 regression least-squares estimators

7

งานประจำประจำวันของนักวิทยาศาสตร์การเรียนรู้ด้วยเครื่องคืออะไร?

ตอนนี้ฉันเป็นนักศึกษาปริญญาโท CS ในมหาวิทยาลัยเยอรมันที่เขียนวิทยานิพนธ์ของฉัน ฉันจะทำเสร็จภายในสองเดือนฉันต้องตัดสินใจอย่างหนักถ้าฉันควรจะเรียนต่อระดับปริญญาเอกหรือหางานในอุตสาหกรรม เหตุผลของฉันสำหรับการทำปริญญาเอก: ฉันเป็นคนที่อยากรู้อยากเห็นมากและฉันรู้สึกว่าฉันยังขาดความรู้มากเกินไป ฉันต้องการเรียนรู้มากมายและปริญญาเอกจะช่วยฉันในเรื่องนั้นเนื่องจากฉันสามารถทำหลักสูตรที่ดีขึ้นและอ่านเอกสารจำนวนมากและเป็นผู้เชี่ยวชาญในการทำเหมืองข้อมูลและการเรียนรู้ของเครื่อง ฉันรักคณิตศาสตร์ แต่ไม่เก่งในระดับปริญญาตรีของฉัน (uni ที่ไม่ดี) ตอนนี้ใน Uni สัญชาติเยอรมันฉันรู้สึกว่าฉันได้พัฒนาทักษะทางคณิตศาสตร์ที่ยอดเยี่ยมมากมายและฉันต้องการปรับปรุงมันเพราะฉันรักคณิตศาสตร์จริง ๆ ! (ฉันแย่จริง ๆ ในวิชาคณิตศาสตร์ในระดับปริญญาตรีและในช่วงชีวิตของฉัน แต่ตอนนี้ฉันเห็นว่าฉันสามารถทำคณิตศาสตร์ได้ดี!) ฉันจะทำงานกับสิ่งที่ท้าทายทางปัญญา ฉันต้องซื่อสัตย์และพูดว่าฉันเกลียดที่จะเห็นคนอื่นที่มีระดับสูงกว่าฉัน ดังนั้นถ้าฉันเดินไปตามถนนและเห็นคนที่มีปริญญาเอกฉันไม่ต้องพูดว่า "โอ้ว้าวคนนี้ฉลาดกว่าฉัน" ฉันชอบที่จะอยู่อีกด้านหนึ่ง ;) เหตุผลของฉันที่ไม่ได้ทำปริญญาเอก: ฉันอ่านทางอินเทอร์เน็ตเกี่ยวกับการทำปริญญาเอกหรือไม่ทำ ฉันพบว่าในกรณีส่วนใหญ่และตามปกติผู้ที่มีปริญญาเอกจะทำงานประเภทเดียวกันกับผู้ที่มีปริญญาโท (นั่นเป็นการสังเกตทั่วไปทางวิทยาศาสตร์คอมพิวเตอร์ไม่ใช่เกี่ยวกับ ML / DM) ฉันสามารถเริ่มต้นอาชีพและสร้างรายได้เป็นจำนวนมากใน 1 หรือ 2 ปีจากนั้นฉันอาจเริ่มต้น บริษัท ของตัวเอง ยังไม่ชัดเจน: ฉันยังไม่รู้ว่าเป้าหมายสูงสุดของฉันคืออะไรในตอนท้าย มันจะมี บริษัท เล็ก ๆ ที่มีชื่อเสียงหรือไม่? หรือว่าจะเป็นนักวิทยาศาสตร์ที่มีชื่อเสียง? ฉันยังไม่มีคำตอบสำหรับคำถามนี้ เพื่อช่วยในการตัดสินใจฉันต้องการทราบสองสิ่ง: …

25 machine-learning data-mining careers

2

วิธีการใช้ R prcomp ผลลัพธ์สำหรับการทำนาย?

ฉันมี data.frame พร้อม 800 obs ของตัวแปร 40 ตัวและต้องการใช้การวิเคราะห์องค์ประกอบหลักเพื่อปรับปรุงผลลัพธ์ของการทำนายของฉัน (ซึ่งจนถึงขณะนี้ทำงานได้ดีที่สุดกับ Support Vector Machine กับตัวแปรที่เลือกด้วยมือ 15 อัน) ฉันเข้าใจว่า prcomp สามารถช่วยปรับปรุงการทำนายของฉันได้ แต่ฉันไม่รู้วิธีใช้ผลลัพธ์ของฟังก์ชัน prcomp ฉันได้รับผล: > PCAAnalysis <- prcomp(TrainTrainingData, scale.=TRUE) > summary(PCAAnalysis) Importance of components: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14 Standard deviation 1.7231 1.5802 1.3358 …

25 r pca

1

“ การประมาณความหนาแน่นของเคอร์เนล” คือการโน้มน้าวใจอะไร

ฉันพยายามทำความเข้าใจเกี่ยวกับการประมาณความหนาแน่นของเคอร์เนลให้ดีขึ้น ใช้คำจำกัดความจาก Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition ฉชั่วโมง^( x ) = 1nΣni = 1Kชั่วโมง( x - xผม)= 1n ชมΣni = 1K( x - xผมชั่วโมง)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) ลองเอาไปเป็นฟังก์ชันรูปสี่เหลี่ยมผืนผ้าซึ่งให้1ถ้าxอยู่ระหว่าง- 0.5ถึง0.5และ0มิฉะนั้นและh (ขนาดหน้าต่าง) เป็น 1K( )K()K()111xxx- 0.5−0.5-0.50.50.50.5000hhh ฉันเข้าใจว่าความหนาแน่นนั้นเป็นหน้าที่ของทั้งสองฟังก์ชั่น แต่ฉันไม่แน่ใจว่าฉันรู้วิธีกำหนดฟังก์ชันทั้งสองนี้อย่างไร หนึ่งในนั้นควร (อาจ) เป็นฟังก์ชันของข้อมูลซึ่งสำหรับทุกจุดใน R บอกเราว่ามีจุดข้อมูลจำนวนเท่าใดในตำแหน่งนั้น (ส่วนใหญ่ ) และฟังก์ชั่นอื่น …

25 r kernel-smoothing convolution

3

LSA กับ PCA (การจัดกลุ่มเอกสาร)

ฉันกำลังตรวจสอบเทคนิคต่าง ๆ ที่ใช้ในการจัดกลุ่มเอกสารและฉันต้องการที่จะขจัดข้อสงสัยเกี่ยวกับ PCA (การวิเคราะห์องค์ประกอบหลัก) และ LSA (การวิเคราะห์ความหมายแฝง) สิ่งแรก - อะไรคือความแตกต่างระหว่างพวกเขา? ฉันรู้ว่าใน PCA การสลายตัว SVD ถูกนำไปใช้กับเมทริกซ์ความแปรปรวนร่วมในขณะที่ LSA เป็นเมทริกซ์เอกสารระยะ มีอะไรอีกไหม? สอง - บทบาทของพวกเขาในขั้นตอนการจัดกลุ่มเอกสารคืออะไร จากสิ่งที่ฉันได้อ่านจนถึงตอนนี้ฉันอนุมานได้ว่าจุดประสงค์ของพวกเขาคือการลดมิติการลดเสียงรบกวนและการรวมความสัมพันธ์ระหว่างคำต่างๆเข้าด้วยกัน หลังจากดำเนินการ PCA หรือ LSA อัลกอริธึมแบบดั้งเดิมเช่นวิธี k- หมายถึงหรือ agglomerative ถูกนำมาใช้ในพื้นที่ระยะลดลงและการวัดความคล้ายคลึงกันทั่วไปเช่นระยะทางโคไซน์ถูกนำมาใช้ โปรดแก้ไขฉันหากฉันผิด ประการที่สาม - เป็นเรื่องสำคัญหรือไม่หากเวกเตอร์คำศัพท์ TF / IDF ถูกทำให้เป็นมาตรฐานก่อนใช้ PCA / LSA หรือไม่ และพวกเขาควรจะกลับสู่ภาวะปกติอีกครั้งหลังจากนั้น? ข้อที่สี่ - สมมติว่าฉันได้ทำการจัดกลุ่มบางส่วนเกี่ยวกับพื้นที่คำที่ลดลงโดย LSA / …

25 clustering pca data-mining svd lsa

4

การตรวจสอบสมมติฐาน lmer / lme แบบผสมใน R

ฉันวิ่งออกแบบซ้ำโดยที่ฉันทดสอบชาย 30 คนและหญิง 30 คนในภารกิจที่แตกต่างกันสามงาน ฉันต้องการที่จะเข้าใจว่าพฤติกรรมของชายและหญิงนั้นแตกต่างกันอย่างไรและขึ้นอยู่กับงานนั้นอย่างไร ฉันใช้ทั้งแพคเกจ lmer และ lme4 เพื่อตรวจสอบเรื่องนี้อย่างไรก็ตามฉันพยายามตรวจสอบสมมติฐานของทั้งสองวิธี รหัสที่ฉันเรียกใช้คือ lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) ฉันตรวจสอบว่าการโต้ตอบเป็นแบบจำลองที่ดีที่สุดโดยเปรียบเทียบกับแบบจำลองที่ง่ายกว่าโดยไม่มีการโต้ตอบและเรียกใช้ anova หรือไม่: lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) …

25 r mixed-model assumptions lme4-nlme

5

จะสร้างเมทริกซ์สหสัมพันธ์แบบสุ่มขนาดใหญ่ที่มีความสัมพันธ์อย่างมากได้อย่างไร

ผมอยากจะสร้างสัมพันธ์เมทริกซ์แบบสุ่มของขนาดดังกล่าวว่ามีบางความสัมพันธ์ที่แข็งแกร่งในระดับปานกลางในปัจจุบัน:CC\mathbf Cn × nn×nn \times n ตารางเมทริกซ์สมมาตรจริงของขนาด, เช่น ;n × nn×nn \times nn = 100n=100n=100 ค่าบวกแน่นอนคือค่า eigenvalues ทั้งจริงและบวก อันดับเต็ม องค์ประกอบแนวทแยงทั้งหมดเท่ากับ ;111 ปิดเส้นทแยงมุมองค์ประกอบควรจะมีเหตุผลเหมือนกันกระจายบน1) การแจกแจงที่แน่นอนนั้นไม่สำคัญ แต่ฉันต้องการมีจำนวนมากพอสมควร (เช่น ) ของค่าที่มีขนาดใหญ่พอสมควร (เช่นที่มีค่าสัมบูรณ์หรือสูงกว่า) โดยพื้นฐานแล้วฉันต้องการตรวจสอบให้แน่ใจว่านั้นแทบจะไม่ทแยงมุมกับองค์ประกอบนอกแนวทแยงทั้งหมด( - 1 , 1 )(−1,1)(-1, 1)10 %10%10\%0.50.50.5CC\mathbf C≈ 0≈0\approx 0 มีวิธีง่าย ๆ ที่จะทำมัน? จุดประสงค์คือใช้เมทริกซ์แบบสุ่มดังกล่าวเพื่อวัดมาตรฐานของอัลกอริทึมที่ทำงานกับเมทริกซ์สหสัมพันธ์ (หรือความแปรปรวนร่วม) วิธีการที่ใช้ไม่ได้ผล ต่อไปนี้เป็นวิธีสร้างเมทริกซ์สหสัมพันธ์แบบสุ่มที่ฉันรู้ แต่ไม่ได้ผลกับฉันที่นี่: สร้างแบบสุ่มของขนาด, ศูนย์มาตรฐานและรูปแบบเมทริกซ์สหสัมพันธ์X หากนี้โดยทั่วไปจะส่งผลในทุกความสัมพันธ์นอกเส้นทแยงมุมเป็นรอบ0ถ้าความสัมพันธ์บางอย่างจะแข็งแรง …

25 random-generation covariance-matrix correlation-matrix

2

อะไรคือสิ่งที่เทียบเท่าแบบเบย์ของความดีทั่วไปของการทดสอบแบบเต็ม?

ฉันมีชุดข้อมูลสองชุดชุดหนึ่งจากชุดการสังเกตการณ์ทางกายภาพ (อุณหภูมิ) และอีกชุดจากชุดตัวเลข ฉันกำลังทำการวิเคราะห์แบบจำลองที่สมบูรณ์แบบสมมติว่าชุดรูปแบบแสดงตัวอย่างที่แท้จริงอิสระและการตรวจสอบเพื่อดูว่าการสังเกตนั้นมาจากการแจกแจงนั้นหรือไม่ สถิติที่ฉันคำนวณได้ถูกทำให้เป็นมาตรฐานและในทางทฤษฎีควรจะมีการแจกแจงแบบปกติมาตรฐาน แน่นอนว่ามันไม่สมบูรณ์แบบดังนั้นฉันต้องการทดสอบความดีที่ลงตัว ด้วยการใช้เหตุผลแบบประจำฉันสามารถคำนวณสถิติCramér-von Mises (หรือ Kolmogorov-Smirnov ฯลฯ ) หรือที่คล้ายกันและค้นหาค่าในตารางเพื่อรับค่า p เพื่อช่วยฉันตัดสินใจว่าค่าที่ฉันไม่น่าจะเป็นไปได้คืออะไร เห็นคือให้สังเกตเป็นแบบเดียวกับที่ สิ่งที่เทียบเท่ากับ Bayesian ของกระบวนการนี้จะเป็นอย่างไร นั่นคือฉันจะวัดความแข็งแกร่งของความเชื่อของฉันได้อย่างไรว่าการแจกแจงสองแบบนี้ (สถิติที่คำนวณได้และมาตรฐานทั่วไป) แตกต่างกันอย่างไร

25 bayesian goodness-of-fit

1

การเปรียบเทียบระดับของปัจจัยหลังจาก GLM ใน R

นี่เป็นพื้นหลังเล็กน้อยเกี่ยวกับสถานการณ์ของฉัน: ข้อมูลของฉันอ้างถึงจำนวนเหยื่อที่กินโดยนักล่า เนื่องจากจำนวนเหยื่อมี จำกัด (มีให้ 25) ในการทดลองแต่ละครั้งฉันจึงมีคอลัมน์ "ตัวอย่าง" แสดงจำนวนเหยื่อที่มี (เช่น 25 ในการทดลองแต่ละครั้ง) และอีกชื่อเรียกว่า "นับ" ซึ่งเป็นจำนวนของความสำเร็จ ( จำนวนเหยื่อที่ถูกกิน) ฉันใช้การวิเคราะห์ตามตัวอย่างจากหนังสือ R เกี่ยวกับข้อมูลสัดส่วน (หน้า 578) ตัวแปรอธิบายคืออุณหภูมิ (4 ระดับซึ่งฉันถือว่าเป็นปัจจัย) และเพศของนักล่า (เห็นได้ชัดว่าเป็นเพศชายหรือเพศหญิง) ดังนั้นฉันจะลงเอยกับโมเดลนี้: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) หลังจากได้รับตารางการวิเคราะห์ของ Deviance ปรากฎว่าอุณหภูมิและเพศ (แต่ไม่ใช่การมีปฏิสัมพันธ์) มีผลอย่างมากต่อการบริโภคเหยื่อ ตอนนี้ปัญหาของฉัน: ฉันต้องรู้ว่าอุณหภูมิแตกต่างกันคือฉันต้องเปรียบเทียบ 4 อุณหภูมิกับแต่ละอื่น ๆ ถ้าฉันมีโมเดลเชิงเส้นฉันจะใช้ฟังก์ชัน TukeyHSD แต่เมื่อฉันใช้ GLM ฉันไม่สามารถทำได้ …

25 r generalized-linear-model references multiple-comparisons tukey-hsd