คำถามติดแท็ก mixture

การแจกแจงแบบผสมคือการเขียนแบบนูนของการแจกแจงอื่น ๆ ใช้แท็ก "การแจกแจงแบบผสม" สำหรับ "การเรียงต่อกัน" ของการแจกแจง (โดยที่พารามิเตอร์ของการแจกแจงเป็นตัวแปรสุ่ม)

1
แพคเกจหลามสำหรับการทำงานกับแบบจำลองการผสมแบบเกาส์ (GMMs)
ดูเหมือนจะมีหลายตัวเลือกสำหรับการทำงานกับ Gaussian Mixture Models (GMMs) ใน Python ได้อย่างรวดเร็วก่อนมีอย่างน้อย: PyMix - http://www.pymix.org/pymix/index.phpเครื่องมือสำหรับการสร้างแบบจำลองการผสม PyEM - http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/em/ซึ่งเป็นส่วนหนึ่งของกล่อง SciPy และดูเหมือนว่าจะมุ่งเน้นไปที่ GMMs ปรับปรุง: ตอนนี้รู้จักกันในนาม sklearn.mixture PyPR - http://pypr.sourceforge.net/การจดจำรูปแบบและเครื่องมือที่เกี่ยวข้องรวมถึง GMM ... และบางทีคนอื่น ๆ พวกเขาดูเหมือนจะให้ความต้องการขั้นพื้นฐานที่สุดสำหรับ GMMs รวมถึงการสร้างและการสุ่มตัวอย่างการประมาณค่าพารามิเตอร์การจัดกลุ่มและอื่น ๆ ความแตกต่างระหว่างพวกเขาคืออะไรและคนเราควรพิจารณาว่าอะไรเหมาะสมที่สุดสำหรับความต้องการเฉพาะ Ref: http://www.scipy.org/Topical_Software

2
การใช้งานและการตีความที่เหมาะสมของตัวแบบแกมม่าที่ไม่พองตัว
ข้อมูลประกอบ:ฉันเป็นนักชีวสถิติกำลังต่อสู้กับชุดข้อมูลของอัตราการแสดงออกของเซลล์ การศึกษาเปิดเผยโฮสต์ของเซลล์ที่รวบรวมในกลุ่มจากผู้บริจาคต่าง ๆ เพื่อเปปไทด์บางอย่าง เซลล์อาจแสดงตัวบ่งชี้ทางชีวภาพบางอย่างเพื่อตอบสนองหรือไม่ทำเช่นนั้น อัตราการตอบกลับจะถูกบันทึกไว้สำหรับผู้บริจาคแต่ละกลุ่ม อัตราการตอบสนอง (แสดงเป็นเปอร์เซ็นต์) เป็นผลลัพธ์ของดอกเบี้ยและการได้รับเปปไทด์เป็นตัวทำนาย โปรดสังเกตว่าการสังเกตนั้นมีการรวมกลุ่มกันภายในผู้บริจาค เนื่องจากฉันมีข้อมูลสรุปเท่านั้นฉันจึงยังคงรักษาอัตราการตอบกลับของผู้บริจาคให้เป็นข้อมูลต่อเนื่อง (อย่างน้อยตอนนี้) ภาวะแทรกซ้อนเกิดจากความจริงที่ว่าฉันมีเลขศูนย์ในข้อมูลของฉัน มากเกินไปที่จะเพิกเฉย ฉันกำลังพิจารณารูปแบบแกมม่าที่ไม่พองตัวเพื่อจัดการกับความจริงที่ว่าฉันได้บิดเบือนข้อมูลอย่างต่อเนื่องควบคู่กับการมีศูนย์รวมเกินศูนย์ ฉันได้พิจารณาแบบจำลอง Tobit ด้วยเช่นกัน แต่สิ่งนี้ดูด้อยกว่าเพราะถือว่าการเซ็นเซอร์ในขอบเขตที่ต่ำกว่าเมื่อเทียบกับศูนย์ของแท้ (นักเศรษฐศาสตร์อาจบอกว่า คำถาม:โดยทั่วไปแล้วการใช้แบบจำลองแกมม่าที่ไม่ต้องพองเมื่อใดจึงเหมาะสมที่จะใช้? นั่นคืออะไรคือสมมติฐาน? และคนเราตีความการอนุมานได้อย่างไร? ฉันจะขอบคุณสำหรับการเชื่อมโยงไปยังเอกสารที่กล่าวถึงเรื่องนี้ถ้าคุณมี ฉันได้พบลิงก์ใน SAS-Lซึ่ง Dale McLerran ให้รหัส NLMIXED สำหรับแบบจำลองแกมม่าที่ไม่มีการพองตัวดังนั้นมันจึงเป็นไปได้ อย่างไรก็ตามฉันจะเกลียดที่จะเรียกเก็บเงินจากคนตาบอด

2
การสุ่มตัวอย่างที่แน่นอนจากส่วนผสมที่ไม่เหมาะสม
สมมติว่าผมต้องการที่จะตัวอย่างจากการกระจายอย่างต่อเนื่อง(x) ถ้าฉันมีการแสดงออกของในรูปแบบหน้าp(x)p(x)p(x)ppp p(x)=∑i=1∞aifi(x)p(x)=∑i=1∞aifi(x)p(x) = \sum_{i=1}^\infty a_i f_i(x) โดยที่และf_iคือการแจกแจงซึ่งสามารถสุ่มตัวอย่างได้ง่ายจากนั้นฉันสามารถสร้างตัวอย่างจากpโดย:ai⩾0,∑iai=1ai⩾0,∑iai=1a_i \geqslant 0, \sum_i a_i= 1fifif_ippp การสุ่มตัวอย่างฉลากiiiด้วยความน่าจะเป็นaiaia_i การสุ่มตัวอย่างX∼fiX∼fiX \sim f_i เป็นไปได้หรือไม่ที่จะทำให้ขั้นตอนนี้เป็นมาตรฐานหากaiaia_iเป็นลบในบางครั้ง? ฉันสงสัยว่าฉันเคยเห็นสิ่งนี้ทำที่ไหนสักแห่ง - อาจจะเป็นในหนังสือบางทีสำหรับการแจกจ่าย Kolmogorov - ดังนั้นฉันยินดีอย่างยิ่งที่จะยอมรับการอ้างอิงเป็นคำตอบ หากตัวอย่างของเล่นคอนกรีตมีประโยชน์สมมติว่าฉันต้องการตัวอย่างจากp(x,y)∝exp(−x−y−αxy−−√)x,y>0p(x,y)∝exp⁡(−x−y−αxy)x,y>0p(x,y) \propto \exp(-x-y-\alpha\sqrt{xy})\qquad x,y > 0ฉันจะ รับα∈(0,2)α∈(0,2)\alpha \in (0, 2)ด้วยเหตุผลทางเทคนิคซึ่งไม่ควรมีความสำคัญมากเกินไปในโครงการที่ยิ่งใหญ่ โดยหลักการแล้วฉันสามารถขยายสิ่งนี้เป็นผลรวมต่อไปนี้: p(x,y)∝∑n=0∞(−1)nαn(n2)!(n2)!n!(xn/2e−x(n2)!)(yn/2e−y(n2)!).p(x,y)∝∑n=0∞(−1)nαn(n2)!(n2)!n!(xn/2e−x(n2)!)(yn/2e−y(n2)!).p(x,y) \propto \sum_{n=0}^\infty \frac{(-1)^n \alpha^n \left( \frac{n}{2} \right)! \left( \frac{n}{2} \right)!}{n!} \left( \frac{x^{n/2} e^{-x}}{\left( \frac{n}{2} …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
การแจกแจงระยะยาวของเหตุการณ์เวลา
สมมติว่าคุณมีบันทึกของเว็บเซิร์ฟเวอร์ ในบันทึกเหล่านี้คุณมีสิ่งอันดับ: user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... เวลาประทับเหล่านี้แสดงเช่นการคลิกของผู้ใช้ ตอนนี้user1จะเข้าชมเว็บไซต์หลายครั้ง (เซสชัน) ในระหว่างเดือนและคุณจะมีจำนวนคลิกจากผู้ใช้แต่ละคนในแต่ละเซสชัน (หากว่าเมื่อผู้ใช้เยี่ยมชมเว็บไซต์ของคุณเขาจะคลิกหลายหน้า) สมมติว่าคุณต้องการแบ่งการคลิกเหล่านี้ในเซสชันที่สร้างพวกเขา แต่คุณไม่มีแหล่งข้อมูลเพิ่มเติมใด ๆ เพียงรายการของการประทับเวลา หากคุณคำนวณการแจกแจงช่วงเวลาระหว่างการคลิกสองครั้งที่ตามมาจากผู้ใช้เดียวกันคุณจะได้รับการแจกแจงแบบยาว โดยสังเขปคุณจะมองหา "พารามิเตอร์ที่ถูกตัด" เช่น N วินาทีซึ่งถ้าเป็นtimestamp_{i+1} - timestamp{i} > Nเช่นนั้นคุณtimestamp_{i+1}จะเป็นจุดเริ่มต้นของเซสชันใหม่ ปัญหาคือว่าการกระจายตัวนี้ในความเป็นจริงเป็นการผสมผสานของตัวแปรสองตัว: X = "ช่วงเวลาระหว่างการคลิกสองครั้งที่เกิดขึ้นในเซสชันเดียวกัน" และ Y = "ช่วงเวลาระหว่างการคลิกครั้งสุดท้ายของเซสชันก่อนหน้าและครั้งแรกของใหม่" คำถามคือวิธีประมาณ N นี้ที่หารการแจกแจงสองแบบ (โดยมีการทับซ้อนกันเล็กน้อย) เพียงแค่ดูการระเบิดของการคลิก

1
จำนวนส่วนประกอบที่เหมาะสมที่สุดในส่วนผสมของเกาส์เซียน
ดังนั้นการได้รับ "ความคิด" ของจำนวนที่ดีที่สุดของกลุ่มใน k- หมายถึงเป็นเอกสารที่ดี ฉันพบบทความเกี่ยวกับการทำเช่นนี้ในการผสมแบบเกาส์ แต่ไม่แน่ใจว่าฉันเชื่อมั่นในมันไม่เข้าใจดีนัก มี ... วิธีที่อ่อนโยนกว่าในการทำเช่นนี้?

1
การบรรจบกันของอัลกอริทึม EM ที่มีการกระจายตัวแบบผสมไบวาเรีย
ผมมีรูปแบบผสมซึ่งผมต้องการที่จะหาประมาณค่าความน่าจะเป็นสูงสุดของการได้รับชุดของข้อมูลและชุดของข้อมูลบางส่วนที่สังเกตZฉันได้ดำเนินการทั้ง E-ขั้นตอน (คำนวณความคาดหวังของให้และพารามิเตอร์ปัจจุบัน ) และขั้นตอนเอ็มเพื่อลดเชิงลบเข้าสู่ระบบได้รับโอกาสที่คาดว่าจะZxxxzzzzzzxxxθkθk\theta^kzzz ตามที่ฉันได้เข้าใจแล้วโอกาสสูงสุดที่เพิ่มขึ้นสำหรับการทำซ้ำทุกครั้งซึ่งหมายความว่าโอกาสในการลบเชิงลบจะต้องลดลงสำหรับการทำซ้ำทุกครั้งหรือไม่ อย่างไรก็ตามในขณะที่ฉันทำซ้ำอัลกอริทึมไม่ได้สร้างมูลค่าลดลงของความน่าจะเป็นบันทึกเชิงลบ แต่อาจลดลงและเพิ่มขึ้นได้ ตัวอย่างเช่นนี่คือค่าของความน่าจะเป็นบันทึกเชิงลบจนกระทั่งการลู่เข้า: ที่นี่ฉันเข้าใจผิดไหม? นอกจากนี้สำหรับข้อมูลจำลองเมื่อฉันดำเนินการความเป็นส่วนตัวสูงสุดสำหรับตัวแปรแฝงที่แท้จริง (ไม่มีการตรวจสอบ) ฉันมีความใกล้เคียงกับความสมบูรณ์แบบมากแสดงว่าไม่มีข้อผิดพลาดในการเขียนโปรแกรม สำหรับอัลกอริทึม EM นั้นมักจะรวมตัวกันเป็นโซลูชั่นย่อยที่ชัดเจนโดยเฉพาะอย่างยิ่งสำหรับชุดย่อยเฉพาะของพารามิเตอร์ (เช่นสัดส่วนของตัวแปรการจำแนกประเภท) เป็นที่ทราบกันดีว่าอัลกอริทึมอาจมาบรรจบกันเพื่อท้องถิ่นน้อยหรือจุดหยุดนิ่งจะมีการแก้ปัญหาการค้นหาธรรมดาหรือเช่นเดียวกันเพื่อเพิ่มโอกาสในการหาขั้นต่ำทั่วโลก (หรือสูงสุด) สำหรับปัญหานี้โดยเฉพาะฉันเชื่อว่ามีการจำแนกประเภทมิสจำนวนมากเนื่องจากการผสมสองตัวแปรหนึ่งในสองการแจกแจงใช้ค่าที่มีความน่าจะเป็นที่หนึ่ง (มันคือการผสมผสานของอายุการใช้งานT=zT0+(1−z)∞T=zT0+(1−z)∞T=z T_0 + (1-z)\inftyโดยที่หมายถึงส่วนที่เป็นของการแจกแจงอย่างใดอย่างหนึ่ง ตัวบ่งชี้ถูกตรวจสอบแน่นอนในชุดข้อมูล zzzzzz ฉันเพิ่มตัวเลขที่สองสำหรับเมื่อฉันเริ่มต้นด้วยวิธีแก้ปัญหาเชิงทฤษฎี (ซึ่งควรใกล้เคียงที่สุด) อย่างไรก็ตามตามที่สามารถเห็นได้ถึงความน่าจะเป็นและพารามิเตอร์ที่เบี่ยงเบนจากการแก้ปัญหานี้ไปสู่สิ่งที่ด้อยกว่าอย่างชัดเจน แก้ไข: ข้อมูลทั้งหมดอยู่ในรูปแบบโดยที่เป็นเวลาที่สังเกตสำหรับหัวเรื่อง ,ระบุว่าเวลาเกี่ยวข้องกับเหตุการณ์จริงหรือไม่ หรือถ้ามันถูกเซ็นเซอร์อย่างถูกต้อง (1 หมายถึงเหตุการณ์และ 0 หมายถึงการเซ็นเซอร์ที่ถูกต้อง),คือเวลาตัดปลายของการสังเกต (อาจเป็น 0) ด้วยตัวบ่งชี้การตัดและในที่สุดเป็นตัวบ่งชี้ว่า bivariate มันเราแค่ต้องพิจารณา 0 และ 1)xi=(ti,δi,Li,τi,zi)xi=(ti,δi,Li,τi,zi)\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)titit_iiiiδiδi\delta_iLiLiL_iτiτi\tau_iziziz_i สำหรับเรามีฟังก์ชั่นความหนาแน่นในทำนองเดียวกันก็มีความเกี่ยวข้องกับฟังก์ชันการกระจายหาง1) สำหรับเหตุการณ์ที่น่าสนใจจะไม่เกิดขึ้น แม้ว่าจะไม่มีที่เกี่ยวข้องกับการกระจายนี้เรากำหนดให้เป็นจึงและ 1 สิ่งนี้ยังให้การกระจายแบบเต็มต่อไปนี้:z=1z=1z=1fz(t)=f(t|z=1)fz(t)=f(t|z=1)f_z(t)=f(t|z=1)Sz(t)=S(t|z=1)Sz(t)=S(t|z=1)S_z(t)=S(t|z=1)z=0z=0z=0tttinfinf\inff(t|z=0)=0f(t|z=0)=0f(t|z=0)=0S(t|z=0)=1S(t|z=0)=1S(t|z=0)=1 …

1
การแสดงผลลัพธ์จากโมเดลคลาสแฝงหลายตัว
ฉันใช้การวิเคราะห์ชั้นแฝงเพื่อจัดกลุ่มตัวอย่างของการสังเกตตามชุดของตัวแปรไบนารี ฉันใช้ R และแพคเกจ poLCA ใน LCA คุณต้องระบุจำนวนกลุ่มที่คุณต้องการค้นหา ในทางปฏิบัติผู้คนมักใช้โมเดลหลายแบบแต่ละคนระบุจำนวนคลาสที่แตกต่างกันแล้วใช้เกณฑ์ต่าง ๆ เพื่อกำหนดว่าคำอธิบายใดที่ "ดีที่สุด" ของข้อมูล ฉันมักจะพบว่ามันมีประโยชน์มากที่จะมองข้ามแบบจำลองต่างๆเพื่อพยายามทำความเข้าใจว่าการสังเกตที่จำแนกในโมเดลที่มี class = (i) นั้นถูกกระจายโดยโมเดลที่มี class = (i + 1) อย่างไร อย่างน้อยที่สุดบางครั้งคุณสามารถค้นหากลุ่มที่แข็งแกร่งมากซึ่งมีอยู่โดยไม่คำนึงถึงจำนวนคลาสในโมเดล ฉันต้องการวิธีสร้างกราฟความสัมพันธ์เหล่านี้เพื่อสื่อสารผลลัพธ์ที่ซับซ้อนเหล่านี้ในเอกสารและเพื่อนร่วมงานที่ไม่ได้มุ่งเน้นเชิงสถิติได้ง่ายขึ้น ฉันคิดว่านี่เป็นเรื่องง่ายมากที่จะทำใน R โดยใช้แพ็คเกจกราฟิกเครือข่ายแบบง่าย ๆ แต่ฉันก็ไม่รู้เหมือนกัน ใครช่วยกรุณาชี้ฉันในทิศทางที่ถูกต้อง ด้านล่างเป็นรหัสในการทำซ้ำชุดข้อมูลตัวอย่าง เวกเตอร์ xi แต่ละอันแสดงถึงการจำแนก 100 การสังเกตการณ์ในแบบจำลองที่มีคลาสที่เป็นไปได้ ฉันต้องการกราฟวิธีการสังเกต (แถว) ย้ายจากชั้นหนึ่งไปอีกชั้นข้ามคอลัมน์ x1 <- sample(1:1, 100, replace=T) x2 <- sample(1:2, 100, …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.