คำถามติดแท็ก discrete-data

หมายถึงข้อมูลที่สร้างจากการแจกแจงที่มีพื้นที่ตัวอย่างที่นับได้ แท็กข้อมูลที่ไม่ต่อเนื่องอาจครอบคลุมข้อมูลเชิงหมวดหมู่ไม่ว่าจะเป็นเพียงเล็กน้อย (เช่นการกระจายของเชื้อชาติในกลุ่มตัวอย่างของแต่ละบุคคล) หรือลำดับ (เช่นสถานะทางเศรษฐกิจและสังคม) หรือรูปแบบสุ่มที่ไม่ต่อเนื่องจริงเช่นชุดการนับเหตุการณ์ (เช่น จำนวนข้อผิดพลาดบนหน้าข้อความ) อย่างไรก็ตามข้อมูลที่ไม่ต่อเนื่องไม่จำเป็นต้องเป็นจำนวนเต็ม


5
การทำคลัสเตอร์ชุดข้อมูลที่มีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง
ฉันมีชุดข้อมูล X ซึ่งมี 10 มิติซึ่ง 4 ในนั้นเป็นค่าที่ไม่ต่อเนื่อง อันที่จริงแล้วตัวแปรที่แยก 4 ตัวนั้นเป็นเลขลำดับนั่นคือค่าที่สูงกว่าหมายถึงความหมายที่สูงกว่า / ดีกว่า 2 ของตัวแปรที่ไม่ต่อเนื่องเหล่านี้มีการจัดหมวดหมู่ในแง่ที่ว่าสำหรับแต่ละตัวแปรเหล่านี้ระยะทางจาก 11 ถึง 12 จะไม่เหมือนกับระยะทางจาก 5 ถึง 6 ในขณะที่ค่าตัวแปรที่สูงกว่าหมายถึงความเป็นจริงที่สูงขึ้น ไม่จำเป็นต้องเป็นเชิงเส้น (อันที่จริงแล้วมันไม่ได้กำหนดจริงๆ) คำถามของฉันคือ: เป็นความคิดที่ดีหรือไม่ที่จะใช้อัลกอริธึมการจัดกลุ่มร่วมกัน (เช่น K-Means และ Gaussian Mixture (GMM)) กับชุดข้อมูลนี้ซึ่งมีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง? ถ้าไม่: ฉันควรจะลบตัวแปรที่แยกกันและมุ่งเน้นเฉพาะตัวแปรที่ต่อเนื่องหรือไม่? ฉันควรแยกแยะสิ่งที่ต่อเนื่องกันดีกว่าและใช้อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ต่อเนื่องหรือไม่

3
การทดสอบ Kolmogorov-Smirnov ใช้ได้กับการแจกแจงแบบแยกหรือไม่?
ฉันกำลังเปรียบเทียบตัวอย่างและตรวจสอบว่ามันกระจายเป็นแบบกระจายแยกหรือไม่ อย่างไรก็ตามฉันไม่แน่ใจอย่างมั่นใจว่า Kolmogorov-Smirnov ใช้งานได้ ดูเหมือนว่าWikipediaจะบอกเป็นนัยว่าไม่เป็นเช่นนั้น หากไม่เป็นเช่นนั้นฉันจะทดสอบการกระจายตัวตัวอย่างได้อย่างไร

4
การทำนายด้วยคุณสมบัติที่ต่อเนื่องและจัดหมวดหมู่
เทคนิคการสร้างแบบจำลองการทำนายบางอย่างได้รับการออกแบบมาเพื่อการจัดการตัวทำนายอย่างต่อเนื่องในขณะที่เทคนิคอื่น ๆ นั้นดีกว่าสำหรับการจัดการกับตัวแปรเด็ดขาด แน่นอนว่ามีเทคนิคในการแปลงประเภทหนึ่งไปเป็นอีกประเภทหนึ่ง (discretization, ตัวแปรจำลอง) อย่างไรก็ตามมีเทคนิคการสร้างแบบจำลองการคาดการณ์ที่ออกแบบมาเพื่อจัดการอินพุตทั้งสองประเภทในเวลาเดียวกันโดยไม่ต้องเปลี่ยนประเภทของคุณสมบัติหรือไม่ ถ้าเป็นเช่นนั้นเทคนิคการสร้างแบบจำลองเหล่านี้มีแนวโน้มที่จะทำงานได้ดีขึ้นกับข้อมูลที่พวกเขาเป็นแบบธรรมชาติมากขึ้น? สิ่งที่ใกล้เคียงที่ฉันรู้จะเป็นที่มักจะต้นไม้ตัดสินใจจัดการกับข้อมูลที่ไม่ต่อเนื่องได้ดีและพวกเขาจัดการข้อมูลอย่างต่อเนื่องโดยไม่ต้องมีขึ้นด้านหน้าไม่ต่อเนื่อง อย่างไรก็ตามนี่ไม่ใช่สิ่งที่ฉันกำลังมองหาเนื่องจากการแยกคุณสมบัติอย่างต่อเนื่องได้อย่างมีประสิทธิภาพเป็นเพียงการแยกส่วนแบบไดนามิก สำหรับการอ้างอิงต่อไปนี้เป็นคำถามที่เกี่ยวข้องและไม่ซ้ำกัน: ต้นไม้การตัดสินใจแยกควรนำมาใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง ฉันสามารถใช้การถดถอยแบบหลายครั้งได้หรือไม่เมื่อฉันมีตัวทำนายที่เป็นหมวดหมู่และแบบต่อเนื่องผสมกัน? มันสมเหตุสมผลไหมที่จะรักษาข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง? การวิเคราะห์ข้อมูลตัวแปรอย่างต่อเนื่องและเป็นหมวดหมู่

1
Kolmogorov-Smirnov ที่มีข้อมูลไม่ต่อเนื่อง: การใช้ dgof :: ks.test ใน R คืออะไร
คำถามเริ่มต้น: ฉันต้องการทดสอบว่าชุดข้อมูลที่แยกกันสองชุดนั้นมาจากการแจกแจงแบบเดียวกันหรือไม่ แนะนำให้ทำการทดสอบ Kolmogorov-Smirnov กับฉัน Conover ( สถิติ nonparametric ในทางปฏิบัติ , 3d) ดูเหมือนจะบอกว่าการทดสอบ Kolmogorov-Smirnov สามารถนำมาใช้เพื่อจุดประสงค์นี้ได้ แต่พฤติกรรมของมันคือ "อนุรักษ์นิยม" ด้วยการแจกแจงแบบแยกส่วนและฉันไม่แน่ใจว่าสิ่งที่นี่หมายถึงอะไร ความคิดเห็นของ DavidR สำหรับคำถามอื่นกล่าวว่า "... คุณยังสามารถทำการทดสอบระดับαตามสถิติ KS แต่คุณจะต้องค้นหาวิธีอื่นเพื่อให้ได้ค่าวิกฤตเช่นการจำลอง" รุ่นของ ks.test () ในแพคเกจ dgof การ R ( บทความ , Cran ) เพิ่มความสามารถบางอย่างที่ไม่ได้อยู่ในรุ่นเริ่มต้นของ ks.test () ในแพคเกจสถิติ เหนือสิ่งอื่นใด dgof :: ks.test รวมถึงพารามิเตอร์นี้: simulate.p.value: ตรรกะที่ระบุว่าจะคำนวณค่า p โดยการจำลอง …

1
ปล่อยคอลัมน์ใดคอลัมน์หนึ่งเมื่อใช้การเข้ารหัสแบบร้อนแรง
ความเข้าใจของฉันคือในการเรียนรู้ของเครื่องมันอาจเป็นปัญหาหากชุดข้อมูลของคุณมีคุณสมบัติที่มีความสัมพันธ์สูงเนื่องจากจะเข้ารหัสข้อมูลเดียวกันได้อย่างมีประสิทธิภาพ เมื่อเร็ว ๆ นี้มีคนบางคนชี้ให้เห็นว่าเมื่อคุณทำการเข้ารหัสแบบร้อนแรงบนตัวแปรเด็ดขาดคุณจะต้องจบลงด้วยฟีเจอร์ที่สัมพันธ์กันดังนั้นคุณควรวางหนึ่งในนั้นเป็น "อ้างอิง" ตัวอย่างเช่นการเข้ารหัสเพศเป็นตัวแปรสองตัวis_maleและis_femaleสร้างคุณสมบัติสองอย่างที่มีความสัมพันธ์เชิงลบอย่างสมบูรณ์ดังนั้นพวกเขาจึงแนะนำให้ใช้เพียงหนึ่งตัวตั้งค่าพื้นฐานให้พูดว่าเป็นเพศชายได้อย่างมีประสิทธิภาพแล้วดูว่าคอลัมน์ is_female มีความสำคัญ . นั่นทำให้รู้สึกถึงฉัน แต่ฉันไม่ได้พบอะไรออนไลน์เพื่อแนะนำนี้อาจเป็นกรณีดังนั้นผิดหรือฉันขาดอะไรบางอย่าง? เป็นไปได้ (ยังไม่ได้รับคำตอบ) ซ้ำซ้อน: การเชื่อมโยงกันของคุณสมบัติที่เข้ารหัสร้อนแรงมีความสำคัญสำหรับ SVM และ LogReg หรือไม่

2
การกระจายแบบไม่ต่อเนื่องนี้มีชื่อหรือไม่?
การกระจายแบบไม่ต่อเนื่องนี้มีชื่อหรือไม่? สำหรับi∈1...Ni∈1...Ni \in 1...N f(i)=1N∑Nj=i1jf(i)=1N∑j=iN1jf(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j} ฉันเจอการกระจายตัวนี้จากรายการต่อไปนี้: ฉันมีรายการของรายการที่ถูกจัดอันดับโดยฟังก์ชั่นยูทิลิตี้ ฉันต้องการสุ่มเลือกหนึ่งในรายการโดยให้ความเอนเอียงไปยังจุดเริ่มต้นของรายการ ดังนั้นก่อนอื่นให้เลือกดัชนีระหว่าง 1 ถึงอย่างสม่ำเสมอ จากนั้นผมก็เลือกรายการระหว่างดัชนี 1 และเจฉันเชื่อว่ากระบวนการนี้ส่งผลให้เกิดการกระจายตัวข้างต้นj N jNNNJjjยังไม่มีข้อความNNJjj

2
การตรวจจับความผิดปกติพร้อมคุณสมบัติหลอกตา
TL; DR เป็นวิธีที่แนะนำให้จัดการกับอะไร discreteข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? เป็นวิธีที่แนะนำให้จัดการกับอะไร categoricalข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์ อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต Intro นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นโปรดหากมีสิ่งใดที่ดูเหมือนว่าไม่ถูกต้องทางเทคนิคไม่ว่าจะเป็นการจัดรูปแบบหรือการใช้คำจำกัดความที่ถูกต้องฉันสนใจที่จะรู้ว่าควรใช้สิ่งใดแทน ต่อมา เมื่อเร็ว ๆ นี้ฉันได้เป็นส่วนหนึ่งของการเรียนรู้ของMachine Learningโดย Andrew Ng สำหรับการตรวจจับความผิดปกติเราได้รับการสอนให้พิจารณาว่าพารามิเตอร์การกระจายแบบปกติ / แบบเกาส์เซียนคืออะไรสำหรับคุณสมบัติ / ตัวแปรที่กำหนดภายในชุดข้อมูลจากนั้นพิจารณาความน่าจะเป็นของชุดการฝึกอบรม / ตัวอย่างการสังเกต การกระจายแบบเกาส์จากนั้นนำผลคูณของความน่าจะเป็นของฟีเจอร์xixi{x_i} วิธี เลือกมี / ตัวแปรที่เราคิดว่าอธิบายกิจกรรมในคำถาม: { x 1 , x 2 , ... , x ฉัน }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} พอดีกับพารามิเตอร์ของ Gaussian สำหรับแต่ละคุณลักษณะ: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m …

1
คำถามพื้นฐานเกี่ยวกับการวิเคราะห์การเอาชีวิตรอดแบบไม่ต่อเนื่อง
ฉันพยายามวิเคราะห์การรอดชีวิตแบบไม่ต่อเนื่องโดยใช้แบบจำลองการถดถอยแบบโลจิสติกส์และฉันไม่แน่ใจว่าฉันเข้าใจกระบวนการทั้งหมดอย่างสมบูรณ์ ฉันขอขอบคุณสำหรับความช่วยเหลืออย่างมากกับคำถามพื้นฐานสองสามข้อ นี่คือการตั้งค่า: ฉันกำลังดูสมาชิกในกลุ่มภายในหน้าต่างเวลาห้าปี สมาชิกแต่ละคนมีบันทึกการเป็นสมาชิกรายเดือนสำหรับแต่ละเดือนที่สมาชิกอยู่ในกลุ่ม ฉันกำลังพิจารณาสมาชิกทั้งหมดที่สมาชิกเริ่มขึ้นในช่วงห้าปี (เพื่อหลีกเลี่ยงปัญหา "การเซ็นเซอร์ซ้าย" กับสมาชิกที่เข้าร่วมก่อนหน้านี้) แต่ละเร็กคอร์ดจะถูกทำดัชนีตามเวลาโดยเวลาหนึ่งคือเดือนที่สมาชิกเข้าร่วม ดังนั้นสมาชิกที่อยู่สองปีครึ่งจะมีบันทึกรายเดือนสามสิบหมายเลขจากหนึ่งถึงสามสิบ แต่ละเร็กคอร์ดจะได้รับตัวแปรไบนารีซึ่งจะมีค่าหนึ่งสำหรับเดือนสุดท้ายของการเป็นสมาชิกและเป็นศูนย์มิฉะนั้น ค่าหนึ่งสำหรับตัวแปรไบนารีทำเครื่องหมายเหตุการณ์ที่สมาชิกออกจากกลุ่ม สำหรับสมาชิกแต่ละคนที่ยังคงเป็นสมาชิกเกินกว่าหน้าต่างการวิเคราะห์ห้าปี ดังนั้นรูปแบบการถดถอยโลจิสติกถูกสร้างขึ้นเพื่อทำนายค่าของตัวแปรเหตุการณ์ไบนารี จนถึงตอนนี้ดีมาก หนึ่งในวิธีทั่วไปในการประเมินรูปแบบการทำนายแบบไบนารี่คือการวัดการยกของตัวอย่างโฮลด์ สำหรับโมเดลการถดถอยโลจิสติกที่ฉันสร้างขึ้นเพื่อทำนายเหตุการณ์สิ้นสุดการเป็นสมาชิกฉันได้คำนวณการยกชุดข้อมูลที่เก็บไว้พร้อมกับอัตราส่วนห้าต่อหนึ่งของการไม่เกิดเหตุการณ์ต่อเหตุการณ์ ฉันจัดอันดับค่าที่ทำนายไว้เป็น deciles ช่วงทศวรรษที่มีค่าที่คาดการณ์ไว้สูงที่สุดนั้นมีค่าเจ็ดสิบเปอร์เซ็นต์ decile สองตัวแรกรวมกันมีหกสิบห้าเปอร์เซ็นต์ของทั้งหมดใน holdout ในบริบทบางอย่างนี้จะถือว่าเป็นรูปแบบการทำนายที่ค่อนข้างดี แต่ฉันสงสัยว่ามันดีพอที่จะทำการวิเคราะห์การอยู่รอด Let h[j,k]h[j,k]h[j,k]เป็นฟังก์ชั่นอันตรายสำหรับบุคคลjjjในเดือนkkkและให้S[j,k]S[j,k]S[j,k]จะเป็นไปได้ว่าบุคคลjjjรอดผ่านเดือนkkkk นี่คือคำถามพื้นฐานของฉัน: ฟังก์ชั่นอันตรายแบบไม่ต่อเนื่อง, h[j,k]h[j,k]h[j,k] , ความน่าจะเป็นแบบมีเงื่อนไขของการไม่รอด (ออกจากกลุ่ม) ในแต่ละเดือนหรือไม่? ค่าที่ทำนายจากการประมาณค่าแบบจำลองการถดถอยโลจิสติกส์ของฟังก์ชันอันตรายหรือไม่? (กล่าวคือเท่ากับแบบจำลองที่ทำนายค่าสำหรับjแต่ละตัวในเดือนkหรือทำอะไรมากกว่านี้ที่ต้องทำเพื่อให้ได้ค่าประมาณฟังก์ชันอันตราย?)h[j,k]h[j,k]h[j,k]jjjkkk ความน่าจะเป็นของการอยู่รอดถึงเดือน q สำหรับแต่ละเท่ากับผลิตภัณฑ์ของหนึ่งลบฟังก์ชันอันตรายจากเดือนหนึ่งถึงqนั่นคือ S [ j , q ] = ( 1 - …

2
วิธีการจัดให้มีการกระจายแบบไม่ต่อเนื่องเพื่อนับข้อมูล?
ฉันมีฮิสโตแกรมข้อมูลการนับต่อไปนี้ และฉันต้องการให้การกระจายแบบไม่ต่อเนื่องกับมัน ฉันไม่แน่ใจว่าฉันควรทำอย่างไร ฉันควรเพิ่มการแจกแจงแบบแยกส่วนก่อนพูดการแจกแจงลบแบบทวินามบนฮิสโตแกรมเพื่อให้ฉันได้รับพารามิเตอร์การกระจายแบบไม่ต่อเนื่องแล้วเรียกใช้การทดสอบ Kolmogorov – Smirnov เพื่อตรวจสอบค่า p? ฉันไม่แน่ใจว่าวิธีนี้ถูกต้องหรือไม่ มีวิธีการทั่วไปในการจัดการปัญหาเช่นนี้หรือไม่? นี่คือตารางความถี่ของข้อมูลการนับ ในปัญหาของฉันฉันมุ่งเน้นเฉพาะการนับที่ไม่ใช่ศูนย์ Counts: 1 2 3 4 5 6 7 9 10 Frequency: 3875 2454 921 192 37 11 1 1 2 UPDATE:ฉันต้องการถาม: ฉันใช้ฟังก์ชัน fitdistr ใน R เพื่อรับพารามิเตอร์สำหรับการปรับข้อมูลให้เหมาะสม fitdistr(abc[abc != 0], "Poisson") lambda 1.68147852 (0.01497921) จากนั้นฉันพล็อตฟังก์ชันความน่าจะเป็นแบบมวลของการแจกแจงแบบปัวซองที่อยู่ด้านบนของฮิสโตแกรม อย่างไรก็ตามดูเหมือนว่าการกระจาย Poisson ล้มเหลวในการสร้างแบบจำลองข้อมูลการนับ …

1
Hamiltonian Monte Carlo และการเว้นวรรคพารามิเตอร์ที่ไม่ต่อเนื่อง
ฉันเพิ่งเริ่มสร้างแบบจำลองในสแตน ; เพื่อสร้างความคุ้นเคยกับเครื่องมือฉันกำลังทำงานผ่านแบบฝึกหัดในการวิเคราะห์ข้อมูลแบบเบย์ (2nd ed.) Waterbuck ออกกำลังกายซึมว่าข้อมูลกับ( N , θ )ที่ไม่รู้จัก ตั้งแต่มิล Monte Carlo ไม่อนุญาตให้มีพารามิเตอร์ที่ไม่ต่อเนื่องผมเคยประกาศNเป็นจริง∈ [ 72 , ∞ )และรหัสการกระจายทวินามจริงมูลค่าโดยใช้ฟังก์ชั่นn ∼ ทวินาม( N, θ )n∼binomial(N,θ)n \sim \text{binomial}(N, \theta)( N, θ )(N,θ)(N, \theta)ยังไม่มีข้อความNN∈ [ 72 , ∞ )∈[72,∞)\in [72, \infty)lbeta ฮิสโตแกรมของผลลัพธ์ดูเหมือนจะเหมือนกับสิ่งที่ฉันพบโดยคำนวณความหนาแน่นด้านหลังโดยตรง อย่างไรก็ตามฉันกังวลว่าอาจมีเหตุผลบางอย่างที่ฉันไม่ควรเชื่อถือผลลัพธ์เหล่านี้โดยทั่วไป เนื่องจากการอนุมานมูลค่าจริงบนกำหนดความน่าจะเป็นบวกให้กับค่าที่ไม่ใช่จำนวนเต็มเรารู้ว่าค่าเหล่านี้เป็นไปไม่ได้เนื่องจาก waterbuck ที่เป็นเศษส่วนไม่มีอยู่จริง ในทางกลับกันผลลัพธ์ดูเหมือนจะดีดังนั้นการทำให้เข้าใจง่ายจะไม่มีผลต่อการอนุมานในกรณีนี้ยังไม่มีข้อความNN มีหลักการหรือกฎของหัวแม่มือสำหรับการสร้างแบบจำลองด้วยวิธีนี้หรือไม่หรือเป็นวิธีการ "ส่งเสริม" พารามิเตอร์ที่ไม่ต่อเนื่องกับการปฏิบัติที่ไม่ดีจริงหรือไม่?

3
สูตรความน่าจะเป็นสำหรับการแจกแจงหลายตัวแปร - เบอโนลลี
ฉันต้องการสูตรสำหรับความน่าจะเป็นของเหตุการณ์ในการแจกแจงแบบ N-Variate Bernoulliได้รับความน่าจะเป็นสำหรับองค์ประกอบเดี่ยวและคู่ขององค์ประกอบ{IJ} ฉันสามารถให้ค่าเฉลี่ยและความแปรปรวนร่วมของกัน P ( X i = 1 ) = p i P ( X i = 1 ∧ X j = 1 ) = p i j XX∈ { 0 , 1 }nX∈{0,1}nX\in\{0,1\}^nP( Xผม= 1 ) = pผมP(Xi=1)=piP(X_i=1)=p_iP( Xผม= 1 ∧ XJ= 1 ) =pฉันเจP(Xi=1∧Xj=1)=pijP(X_i=1 \wedge X_j=1)=p_{ij}XXX …

2
Binning ที่เหมาะสมที่สุดที่เกี่ยวข้องกับตัวแปรตอบกลับที่กำหนด
ฉันกำลังมองหาวิธีการ binning ที่ดีที่สุด (discretization) ของตัวแปรต่อเนื่องที่เกี่ยวข้องกับการตอบสนองที่กำหนด (เป้าหมาย) ตัวแปรไบนารีและมีจำนวนช่วงเวลาสูงสุดเป็นพารามิเตอร์ ตัวอย่าง: ฉันมีชุดการสังเกตของผู้ที่มี "ความสูง" (ต่อเนื่องเป็นตัวเลข) และ "has_back_pains" (ไบนารี) ตัวแปร ฉันต้องการแยกความสูงออกเป็น 3 ช่วง (กลุ่ม) อย่างน้อยที่สุดด้วยสัดส่วนที่แตกต่างกันของคนที่มีอาการปวดหลังดังนั้นอัลกอริทึมจึงเพิ่มความแตกต่างระหว่างกลุ่ม (ด้วยข้อ จำกัด ที่กำหนดเช่นแต่ละช่วงเวลามีการสังเกตอย่างน้อย x) ทางออกที่ชัดเจนสำหรับปัญหานี้คือใช้ต้นไม้ตัดสินใจ (โมเดลหนึ่งตัวแปรแบบง่าย) แต่ฉันไม่สามารถหาฟังก์ชั่นใด ๆ ใน R ที่จะมี "จำนวนสาขาสูงสุด" เป็นพารามิเตอร์ - พวกเขาทั้งหมดแบ่งตัวแปร เป็น 2 gropus (<= x และ> x) SAS miner มีพารามิเตอร์ "branch branch" แต่ฉันกำลังมองหาโซลูชันที่ไม่ใช่เชิงพาณิชย์ ตัวแปรบางตัวของฉันมีค่าเฉพาะไม่กี่ค่า (และสามารถถือว่าเป็นตัวแปรแบบแยก) …

3
คุณสมบัติของตัวแปรสุ่มไม่ต่อเนื่อง
หลักสูตรสถิติของฉันเพิ่งสอนฉันว่าตัวแปรสุ่มแบบแยกนั้นมีตัวเลือกจำนวนจำกัด ... ฉันไม่ได้ตระหนักถึงสิ่งนั้น ฉันคิดว่าคงมีจำนวนเต็มเป็นจำนวนอนันต์ Google และการตรวจสอบหน้าเว็บหลายหน้ารวมถึงบางส่วนจากหลักสูตรมหาวิทยาลัยไม่สามารถยืนยันได้โดยเฉพาะ อย่างไรก็ตามไซต์ส่วนใหญ่บอกว่าตัวแปรสุ่มแยกนั้นนับได้ - ฉันคิดว่านั่นหมายถึงการกำหนดหมายเลขอย่างถูกต้องหรือไม่ เป็นที่ชัดเจนว่าตัวแปรสุ่มแบบต่อเนื่องไม่มีที่สิ้นสุดแม้ว่า (ส่วนใหญ่?) มักจะถูก จำกัด ขอบเขต แต่ถ้าตัวแปรสุ่มแบบแยกนั้นมีความเป็นไปได้ที่แน่นอนแล้วการกระจายตัวของจำนวนเต็มที่ไม่สิ้นสุดคืออะไร? มันไม่ต่อเนื่องหรือไม่ต่อเนื่อง? คำถามที่พบบ่อยนั้นเป็นเพราะตัวแปรมีแนวโน้มที่จะต่อเนื่อง & (ตามคำนิยาม) ไม่สิ้นสุดหรือไม่ต่อเนื่อง & จำกัด

3
เห็นภาพการกระจายตัวแบบทวินามทวิภาค
คำถาม:การกระจายตัวแบบทวินามแบบไบวาเรียมีลักษณะอย่างไรในอวกาศ 3 มิติ ด้านล่างเป็นฟังก์ชั่นเฉพาะที่ฉันต้องการเห็นภาพสำหรับค่าต่างๆของพารามิเตอร์ คือ , หน้า1และหน้า 2nnnp1p1p_{1}p2p2p_{2} f(x1,x2)=n!x1!x2!px11px22,x1+x2=n,p1+p2=1.f(x1,x2)=n!x1!x2!p1x1p2x2,x1+x2=n,p1+p2=1.f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1. สังเกตว่ามีข้อ จำกัด สองประการ และP 1 + P 2 = 1 นอกจากนี้nเป็นจำนวนเต็มบวกพูด, 5x1+x2=nx1+x2=nx_{1}+x_{2}=np1+p2=1p1+p2=1p_{1}+p_{2}=1nnn555 มีความพยายามสองครั้งในการพล็อตฟังก์ชันโดยใช้ LaTeX (TikZ / PGFPLOTS) ในการทำเช่นนี้ฉันจะได้รับกราฟด้านล่างสำหรับค่าต่อไปนี้: , p 1 = 0.1และp 2 = 0.9และ, n = 5 , p 1 = 0.4และp 2 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.