คำถามติดแท็ก bioinformatics

วินัยที่เป็นจุดตัดของคอมพิวเตอร์และวิทยาศาสตร์ชีวภาพซึ่งเกี่ยวข้องกับการจัดระเบียบการบำรุงรักษาและการวิเคราะห์ข้อมูลจากสาขาต่างๆเช่นอณูชีววิทยาพันธุศาสตร์และจีโนมิกส์

11
แหล่งข้อมูลสำหรับการเรียนรู้โซ่มาร์คอฟและโมเดลมาร์คอฟที่ซ่อนอยู่
ฉันกำลังมองหาแหล่งข้อมูล (แบบฝึกหัดตำราเรียนเว็บคาสต์ ฯลฯ ) เพื่อเรียนรู้เกี่ยวกับ Markov Chain และ HMM พื้นหลังของฉันเป็นนักชีววิทยาและปัจจุบันฉันมีส่วนร่วมในโครงการที่เกี่ยวข้องกับชีวสารสนเทศศาสตร์ นอกจากนี้พื้นหลังทางคณิตศาสตร์ที่จำเป็นต้องมีความเข้าใจเพียงพอของโมเดลของมาร์คอฟ & HMM คืออะไร ฉันได้ดูรอบ ๆ โดยใช้ Google แต่จนถึงตอนนี้ฉันยังไม่พบบทแนะนำเบื้องต้นที่ดี ฉันแน่ใจว่าคนที่นี่รู้ดีกว่า

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

2
ลักษณะทั่วไปอย่างต่อเนื่องของการแจกแจงทวินามลบ
การแจกแจงลบทวินาม (NB)ถูกกำหนดในจำนวนเต็มไม่เป็นลบและมีฟังก์ชันมวลความน่าจะเป็นf(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.มันสมเหตุสมผลหรือไม่ที่จะต้องพิจารณาการกระจายอย่างต่อเนื่องบน reals ที่ไม่เป็นลบซึ่งกำหนดโดยสูตรเดียวกัน (แทนที่k∈N0k∈N0k\in \mathbb N_0โดยx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? ค่าสัมประสิทธิ์ทวินามสามารถเขียนเป็นผลิตภัณฑ์ของ(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)ซึ่งเป็นที่ที่ดีที่กำหนดจริงใด ๆkkkkดังนั้นเราจะมี PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. โดยทั่วไปเราสามารถแทนที่ค่าสัมประสิทธิ์ทวินามด้วยฟังก์ชันแกมมาทำให้ค่าrไม่ใช่จำนวนเต็มrrr: f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. เป็นการกระจายที่ถูกต้องหรือไม่ มันมีชื่อหรือไม่? มันมีประโยชน์อะไรบ้าง? มันอาจจะเป็นสารประกอบหรือส่วนผสมบางอย่าง? มีสูตรปิดสำหรับค่าเฉลี่ยและความแปรปรวน (และค่าคงที่สัดส่วนใน PDF) หรือไม่ (ขณะนี้ฉันกำลังศึกษากระดาษที่ใช้แบบผสม NB (ที่มีค่าคงที่r=2r=2r=2 ) และเหมาะกับมันผ่านทาง EM อย่างไรก็ตามข้อมูลเป็นจำนวนเต็มหลังจากการทำให้เป็นมาตรฐานบางอย่างเช่นไม่ใช่จำนวนเต็มอย่างไรก็ตามผู้เขียนใช้สูตร NB มาตรฐานเพื่อคำนวณ ความเป็นไปได้และผลลัพธ์ที่สมเหตุสมผลดังนั้นทุกอย่างดูเหมือนจะใช้ได้ดีฉันพบว่ามันน่างงมากโปรดทราบว่าคำถามนี้ไม่เกี่ยวกับ NB GLM)

4
เราเรียนรู้อะไรได้บ้างเกี่ยวกับสมองมนุษย์จากเครือข่ายประสาทเทียม
ฉันรู้ว่าคำถาม / ชื่อของฉันไม่เจาะจงมากดังนั้นฉันจะพยายามอธิบายให้ชัดเจน: โครงข่ายประสาทเทียมมีการออกแบบที่ค่อนข้างเข้มงวด แน่นอนโดยทั่วไปแล้วพวกเขาได้รับอิทธิพลจากชีววิทยาและพยายามสร้างแบบจำลองทางคณิตศาสตร์ของโครงข่ายประสาทจริง แต่ความเข้าใจของเราเกี่ยวกับโครงข่ายประสาทจริงนั้นไม่เพียงพอสำหรับการสร้างแบบจำลองที่แน่นอน ดังนั้นเราจึงไม่สามารถเข้าใจโมเดลที่แน่นอนหรือสิ่งใดก็ตามที่เกิดขึ้น "ใกล้" เครือข่ายประสาทจริง เท่าที่ฉันรู้เครือข่ายประสาทเทียมทั้งหมดอยู่ไกลจากเครือข่ายประสาทจริง MLP มาตรฐานที่เชื่อมต่ออย่างสมบูรณ์แบบคลาสสิกไม่มีอยู่ในชีววิทยา เครือข่ายประสาทที่เกิดขึ้นอีกมีการขาดความเป็นจริงของระบบประสาทแต่ละเซลล์ประสาทของ RNN แต่ละคนมี "สถาปัตยกรรมความคิดเห็น" ที่เหมือนกันในขณะที่เซลล์ประสาทที่แท้จริงบันทึกและแบ่งปันข้อมูลของพวกเขาค่อนข้างเป็นรายบุคคล Convolutional neural Networks นั้นมีประสิทธิภาพและเป็นที่นิยม แต่การประมวลผลภาพในสมองของมนุษย์นั้นประกอบด้วยเพียงสองสามชั้นในขณะที่วิธีการแก้ปัญหาที่ทันสมัย ​​(เช่น GoogLeNet) นั้นใช้หลายสิบชั้น ... และถึงแม้ว่าพวกมันจะสร้างผลลัพธ์ที่ยอดเยี่ยมสำหรับคอมพิวเตอร์ พวกเขาไม่ได้ใกล้เคียงกับประสิทธิภาพของมนุษย์ โดยเฉพาะอย่างยิ่งเมื่อเราคิดว่า "ประสิทธิภาพต่อเลเยอร์" เนื่องจากเราต้องการเลเยอร์และการลดข้อมูลที่ค่อนข้างสูงเมื่อเทียบกับเครือข่ายประสาทจริง นอกจากนี้ตามความรู้ของฉันแม้แต่เครือข่ายโครงข่ายประสาทเทียมที่ปรับขยาย / ปรับโครงสร้างด้วยตนเองนั้นค่อนข้าง "ค่อนข้างคงที่" เมื่อเทียบกับเครือข่ายประสาทจริงที่ปรับตัวได้มาก โดยปกติเซลล์ประสาทชีวภาพจะมี dendrites นับพันที่เชื่อมต่อเซลล์ประสาทกับพื้นที่ต่าง ๆ และเซลล์ประสาทอื่น ๆ มากมาย โครงข่ายประสาทเทียมเป็นวิธีที่ "ตรงไปตรงมา" มากกว่า ดังนั้นมีอะไรบ้างที่เราสามารถเรียนรู้เกี่ยวกับสมองมนุษย์ / เครือข่ายประสาทจริงจากเครือข่ายประสาทเทียม? หรือเป็นเพียงความพยายามในการสร้างซอฟต์แวร์ที่ทำงานได้ดีกว่าอัลกอริธึมแบบคงที่คลาสสิก …

3
อัลกอริทึม MIC สำหรับตรวจจับความสัมพันธ์ที่ไม่ใช่เชิงเส้นสามารถอธิบายได้อย่างง่ายดายหรือไม่?
อีกไม่นานฉันอ่านบทความสองเรื่อง อย่างแรกคือเกี่ยวกับประวัติของสหสัมพันธ์และที่สองเกี่ยวกับวิธีการใหม่ที่เรียกว่า Maximal Information Coefficient (MIC) ฉันต้องการความช่วยเหลือของคุณเกี่ยวกับการทำความเข้าใจกับวิธี MIC เพื่อประเมินความสัมพันธ์แบบไม่เป็นเชิงเส้นระหว่างตัวแปร นอกจากนี้คำแนะนำสำหรับการใช้งานใน R สามารถพบได้บนเว็บไซต์ของผู้เขียน (ภายใต้ดาวน์โหลด ): ฉันหวังว่านี่จะเป็นแพลตฟอร์มที่ดีในการพูดคุยและเข้าใจวิธีการนี้ ความสนใจของฉันที่จะหารือเกี่ยวกับสัญชาตญาณเบื้องหลังวิธีนี้และสามารถขยายออกไปได้อย่างไรตามที่ผู้เขียนกล่าว " ... เราต้องการส่วนขยายของ MIC (X, Y) ถึง MIC (X, Y | Z) เราจะต้องการทราบว่าต้องใช้ข้อมูลจำนวนเท่าใดในการประมาณค่า MIC ที่มีเสถียรภาพและมีความอ่อนไหวต่อค่าผิดปกติอย่างไร - หรือความสัมพันธ์ที่สูงขึ้นมิติมันจะพลาดและอื่น ๆ MIC เป็นขั้นตอนที่ดีข้างหน้า แต่มีขั้นตอนอื่น ๆ อีกมากมายที่จะใช้.. "

2
แนวทางการฝึกอบรมสำหรับชุดข้อมูลที่มีความไม่สมดุลสูง
ฉันมีชุดข้อมูลการทดสอบที่ไม่สมดุลสูง ชุดบวกประกอบด้วย 100 กรณีในขณะที่ชุดลบประกอบด้วย 1500 กรณี ในด้านการฝึกอบรมฉันมีกลุ่มผู้สมัครที่ใหญ่กว่า: ชุดฝึกอบรมเชิงบวกมี 1200 รายและชุดฝึกอบรมเชิงลบมี 12,000 ราย สำหรับสถานการณ์ประเภทนี้ฉันมีหลายทางเลือก: 1) การใช้ SVM แบบถ่วงน้ำหนักสำหรับชุดฝึกอบรมทั้งหมด (P: 1200, N: 12000) 2) การใช้ SVM ตามชุดการฝึกอบรมตัวอย่าง (P: 1200, N: 1200) ตัวอย่างเชิงลบ 1200 รายการจะถูกสุ่มตัวอย่างจาก 12,000 กรณี มีคำแนะนำเชิงทฤษฎีในการตัดสินใจเลือกวิธีใดดีกว่า เนื่องจากชุดข้อมูลทดสอบมีความไม่สมดุลสูงฉันควรใช้ชุดฝึกอบรมที่ไม่สมดุลเช่นกันหรือไม่

4
กำหนดกรอบการแจกแจงทวินามลบสำหรับการหาลำดับดีเอ็นเอ
การแจกแจงแบบทวินามลบได้กลายเป็นแบบจำลองที่ได้รับความนิยมสำหรับข้อมูลนับ (โดยเฉพาะจำนวนลำดับที่คาดหวังของการอ่านลำดับภายในภูมิภาคที่กำหนดของจีโนมจากการทดลองที่กำหนด) ในชีวสารสนเทศศาสตร์ คำอธิบายแตกต่างกันไป: บางคนอธิบายว่ามันเป็นสิ่งที่ใช้งานได้เหมือนการแจกแจงปัวซอง แต่มีพารามิเตอร์เพิ่มเติมทำให้มีอิสระมากขึ้นในการจำลองการแจกแจงที่แท้จริงด้วยความแปรปรวนไม่จำเป็นต้องเท่ากับค่าเฉลี่ย บางคนอธิบายว่ามันเป็นน้ำหนักแบบผสมของการแจกแจงปัวซง (ด้วยการแจกแจงแบบแกมม่าผสมกับพารามิเตอร์ปัวซอง) มีวิธีใดที่จะทำให้เหตุผลเหล่านี้เข้ากับนิยามดั้งเดิมของการแจกแจงแบบทวินามลบเพื่อจำลองจำนวนความสำเร็จของการทดลองของเบอร์นูลลีก่อนที่จะเห็นความล้มเหลวจำนวนหนึ่ง? หรือฉันควรคิดว่ามันเป็นเรื่องบังเอิญที่มีความสุขที่การกระจายน้ำหนักแบบปัวซองด้วยการแจกแจงการผสมแกมมามีฟังก์ชันความน่าจะเป็นเช่นเดียวกับทวินามลบ

8
อะไรคือ“ อัลกอริธึมร้อนแรง” สำหรับการเรียนรู้ของเครื่อง?
นี่เป็นคำถามที่ไร้เดียงสาจากคนที่เริ่มเรียนรู้การเรียนรู้ของเครื่อง ฉันกำลังอ่านหนังสือ "การเรียนรู้ของเครื่อง: มุมมองอัลกอริทึม" จากหนังสือเมื่อวานนี้ ฉันพบว่ามันมีประโยชน์ในฐานะหนังสือเกริ่นนำ แต่ตอนนี้ฉันอยากจะไปสู่อัลกอริธึมขั้นสูงผู้ที่ให้ผลลัพธ์ที่ดีที่สุดในปัจจุบัน ฉันส่วนใหญ่สนใจในชีวสารสนเทศศาสตร์: การรวมกลุ่มของเครือข่ายทางชีวภาพและการค้นหารูปแบบในลำดับทางชีวภาพโดยเฉพาะอย่างยิ่งนำไปใช้กับการวิเคราะห์นิวคลีโอไทด์ polymorphism (SNP) เดียว คุณช่วยแนะนำให้ฉันอ่านรีวิวหรือหนังสือได้ไหม?

7
ทำความเข้าใจกับทฤษฎีสถิติและการใช้งาน
ฉันเพิ่งสำเร็จการศึกษาระดับปริญญาโทด้านการแพทย์และชีวภาพพร้อมกับคณิตศาสตร์วิศวกรรมเป็นพื้นหลัง แม้ว่าโปรแกรมการศึกษาของฉันจะมีหลักสูตรจำนวนมากเกี่ยวกับสถิติทางคณิตศาสตร์ (ดูด้านล่างสำหรับรายการ) ซึ่งฉันจัดการด้วยคะแนนที่ค่อนข้างสูง แต่ฉันก็จบลงด้วยการสูญเสียการจ้องมองทั้งทฤษฎีและการประยุกต์ใช้สถิติ ฉันต้องบอกว่าเมื่อเทียบกับคณิตศาสตร์ "บริสุทธิ์" สถิติจริง ๆ แล้วสมเหตุสมผลสำหรับฉัน โดยเฉพาะอย่างยิ่งสัญลักษณ์และภาษาที่ใช้โดยนักสถิติส่วนใหญ่ (รวมถึงผู้บรรยายที่ผ่านมาของฉัน) นั้นซับซ้อนและน่ารำคาญและแทบไม่มีทรัพยากรใด ๆ ที่ฉันเคยเห็นมาจนถึงตอนนี้ (รวมถึงวิกิพีเดีย) มีตัวอย่างง่าย ๆ .. นี่คือพื้นหลัง; ฉันยังตระหนักถึงความจริงที่ขมขื่นที่ฉันไม่สามารถมีอาชีพในฐานะนักวิจัย / วิศวกรโดยที่ไม่ยึดมั่นกับสถิติโดยเฉพาะอย่างยิ่งในสาขาชีวสารสนเทศศาสตร์ ฉันหวังว่าฉันจะได้รับคำแนะนำจากนักสถิติ / นักคณิตศาสตร์ที่มีประสบการณ์มากขึ้น ฉันจะเอาชนะปัญหาที่ฉันได้กล่าวถึงข้างต้นได้อย่างไร คุณรู้จักแหล่งข้อมูลที่ดีหรือไม่ เช่นหนังสือ e-books หลักสูตรเปิด (ผ่าน iTunes หรือ OpenCourseware สำหรับอดีต) ฯลฯ แก้ไข:ตามที่ฉันได้กล่าวถึงฉันค่อนข้างลำเอียง (ลบ) ต่อวรรณกรรมส่วนใหญ่ภายใต้ชื่อเรื่องทั่วไปของสถิติและเนื่องจากฉันไม่สามารถซื้อหนังสือเรียนขนาดใหญ่ (และแพง) จำนวนมากต่อสาขาของสถิติสิ่งที่ฉันต้องการ ในแง่ของหนังสือเป็นสิ่งที่คล้ายกับสิ่งที่Tipler & Mosca สำหรับฟิสิกส์ แต่สำหรับสถิติ สำหรับผู้ที่ไม่รู้เกี่ยวกับ Tipler มันเป็นตำราเรียนขนาดใหญ่ที่ครอบคลุมเนื้อหาส่วนใหญ่ที่อาจพบได้ในระหว่างการศึกษาระดับสูง …

2
การคำนวณความน่าจะเป็นของรายการยีนที่ทับซ้อนกันระหว่าง RNA seq และชุดข้อมูลชิป ChIP
หวังว่าใครบางคนในฟอรัมเหล่านี้สามารถช่วยฉันแก้ปัญหาพื้นฐานนี้ในการศึกษาการแสดงออกของยีน ฉันจัดลำดับการลึกของเนื้อเยื่อทดลองและเนื้อเยื่อควบคุม จากนั้นฉันได้รับการเพิ่มคุณค่าการพับของยีนในตัวอย่างทดลองมากกว่าการควบคุม จีโนมที่อ้างอิงมียีนประมาณ 15,000 ยีน 3,000 จาก 15,000 ยีนนั้นได้รับการยกระดับให้สูงกว่าตัวอย่างที่ผมสนใจเมื่อเปรียบเทียบกับการควบคุม ดังนั้น: A = ประชากรยีนทั้งหมด = 15,000 B = ประชากรย่อยที่ได้รับการเสริม RNA-Seq = 3,000 ในการทดลองชิป ChIP ก่อนหน้านี้ฉันพบ 400 ยีนที่อุดมไปด้วยชิป ChIP ของยีน 400 ชิปชิพนั้น 100 ยีนอยู่ในกลุ่มของยีน RNA-Seq ที่ได้รับการเสริม 3,000 รายการ ดังนั้น: C = จำนวนทั้งหมดของยีนที่อุดมด้วยชิป ChIP = 400 ความน่าจะเป็นที่ยีน 100 ชิปชิปของฉันจะเพิ่มขึ้นด้วย RNA-Seq โดยบังเอิญเพียงอย่างเดียวคืออะไร อะไรคือวิธีที่ชาญฉลาดที่สุดในการคำนวณว่าการซ้อนทับที่สังเกตระหว่าง …

2
การวิเคราะห์การเพิ่มปริมาณโดยระดับการทำสำเนาของยีน
ความเป็นมาทางชีวภาพ เมื่อเวลาผ่านไปพืชบางชนิดมีแนวโน้มที่จะทำซ้ำจีโนมทั้งหมดของพวกเขาได้รับสำเนาเพิ่มเติมของแต่ละยีน เนื่องจากความไม่แน่นอนของการตั้งค่านี้ทำให้ยีนเหล่านี้จำนวนมากถูกลบออกและจีโนมจัดเรียงตัวเองใหม่และทำให้เสถียรพร้อมที่จะทำซ้ำอีกครั้ง เหตุการณ์การทำซ้ำเหล่านี้เกี่ยวข้องกับการเก็งกำไรและการบุกรุกและทฤษฎีก็คือการทำซ้ำช่วยให้พืชสามารถปรับตัวเข้ากับสภาพแวดล้อมใหม่ได้เร็วขึ้น Lupinus เป็นพืชดอกออกดอกบุกรุก Andes ในเหตุการณ์ speciation ที่เร็วที่สุดเท่าที่เคยตรวจพบและยิ่งไปกว่านั้นดูเหมือนว่าจะมีสำเนาที่ซ้ำกันในจีโนมมากกว่า Baptisia ที่เกี่ยวข้องมากที่สุด และตอนนี้ปัญหาทางคณิตศาสตร์: จีโนมของสมาชิกของ Lupinus และสมาชิกของ Baptisia ได้รับการจัดลำดับโดยให้ข้อมูลดิบประมาณ 25,000 ยีนในแต่ละสปีชีส์ ด้วยการสอบถามกับฐานข้อมูลของยีนที่รู้จักกันในฟังก์ชั่นตอนนี้ฉันมี "คาดเดาที่ดีที่สุด" สำหรับสิ่งที่ฟังก์ชั่นที่ยีนอาจทำ - ตัวอย่างเช่น Gene1298 อาจเกี่ยวข้องกับ "เมตาบอลิซึมฟรุกโตส ฉันอยากรู้ว่าถ้ามีเหตุการณ์การทำซ้ำระหว่าง Baptisia และ Lupinus ไม่ว่าการสูญเสียยีนจะเกิดขึ้นแบบสุ่มหรือว่ายีนที่ทำหน้าที่เฉพาะนั้นมีแนวโน้มที่จะถูกเก็บหรือลบมากกว่า ฉันมีสคริปต์ที่จะส่งออกตารางเช่นเดียวกับที่แสดงด้านล่าง L * คือจำนวนยีน Lupinus ทั้งหมดที่เกี่ยวข้องกับฟังก์ชัน L 1+ คือจำนวนยีน lupinus ที่เกี่ยวข้องกับฟังก์ชันที่มีสำเนาอย่างน้อยหนึ่งสำเนา ฉันสามารถทำให้มันผลิต L 2+, L 3+ ฯลฯ …

3
ทำไมคนเราถึงใช้อายุที่เท่ากันในการศึกษาความสัมพันธ์ทางพันธุกรรม?
ทำไมคนเราถึงใช้อายุและอายุเท่ากันในการศึกษาความสัมพันธ์ทางพันธุกรรม? ฉันสามารถเข้าใจการใช้อายุถ้ามันได้รับการระบุว่าเป็นตัวแปรสำคัญ

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
สถิติและสารสนเทศต่างกันอย่างไร
เรามักจะบอกว่าสถิติเป็นเพียงการจัดการกับข้อมูล แต่เราก็รู้ว่าสารสนเทศก็ยังได้รับความรู้จากการวิเคราะห์ข้อมูล ตัวอย่างเช่นคนชีวสารสนเทศสามารถไปโดยสิ้นเชิงโดยไม่ชีวสถิติ ฉันต้องการทราบว่าอะไรคือความแตกต่างที่สำคัญระหว่างสถิติและสารสนเทศ

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.