คำถามติดแท็ก discrete-data

หมายถึงข้อมูลที่สร้างจากการแจกแจงที่มีพื้นที่ตัวอย่างที่นับได้ แท็กข้อมูลที่ไม่ต่อเนื่องอาจครอบคลุมข้อมูลเชิงหมวดหมู่ไม่ว่าจะเป็นเพียงเล็กน้อย (เช่นการกระจายของเชื้อชาติในกลุ่มตัวอย่างของแต่ละบุคคล) หรือลำดับ (เช่นสถานะทางเศรษฐกิจและสังคม) หรือรูปแบบสุ่มที่ไม่ต่อเนื่องจริงเช่นชุดการนับเหตุการณ์ (เช่น จำนวนข้อผิดพลาดบนหน้าข้อความ) อย่างไรก็ตามข้อมูลที่ไม่ต่อเนื่องไม่จำเป็นต้องเป็นจำนวนเต็ม

2
การกระจายแบบไม่ต่อเนื่องนี้คืออะไร (สมการส่วนต่างแบบเรียกซ้ำ) ที่ฉันได้รับ
ฉันเจอเกมนี้ในคอมพิวเตอร์และต้องการเรียนรู้เพิ่มเติมเกี่ยวกับพฤติกรรมของมัน มันมาจากการตัดสินใจว่าเหตุการณ์บางอย่างควรเกิดขึ้นหลังจากการกระทำของผู้เล่นจำนวนหนึ่งหรือไม่ รายละเอียดนอกเหนือจากนี้ไม่เกี่ยวข้อง ดูเหมือนว่าเหมาะสมกับสถานการณ์อื่น ๆ และฉันพบว่ามันน่าสนใจเพราะง่ายต่อการคำนวณและสร้างหางยาว ทุกขั้นตอนเกมสร้างตัวเลขสุ่มเครื่องแบบ&lt;1 ถ้าเหตุการณ์จะถูกเรียกใช้ หลังจากเหตุการณ์เกิดขึ้นอีกครั้งเกมจะรีเซ็ตn = 0และทำงานตามลำดับอีกครั้ง ฉันสนใจเพียงเหตุการณ์เดียวที่เกิดขึ้นสำหรับปัญหานี้เพราะนั่นหมายถึงการกระจายที่เกมใช้อยู่ (นอกจากนี้คำถามใด ๆ เกี่ยวกับเหตุการณ์หลายรายการสามารถตอบด้วยแบบจำลองเหตุการณ์เดียว)0 ≤ X &lt; 1 X &lt; p ( n ) n = 0nnn0≤X&lt;10≤X&lt;10 \leq X < 1X&lt;p(n)X&lt;p(n)X < p(n)n=0n=0n = 0 "ความผิดปกติ" หลักที่นี่คือพารามิเตอร์ความน่าจะเป็นในการแจกแจงนี้เพิ่มขึ้นเมื่อเวลาผ่านไปหรืออีกทางหนึ่งเกณฑ์เพิ่มขึ้นเมื่อเวลาผ่านไป ในตัวอย่างมันเปลี่ยนแปลงเป็นเส้นตรง แต่ฉันคิดว่าอาจใช้กฎอื่น หลังจากnnnขั้นตอนหรือการกระทำโดยผู้ใช้ p(n)=knp(n)=kn p(n) = kn สำหรับบางคนคง0&lt;k&lt;10&lt;k&lt;10 < k < 1&lt;1 …

1
การกำหนด discretization ที่เหมาะสมของข้อมูลจากการกระจายอย่างต่อเนื่อง
สมมติว่าคุณมีชุดข้อมูลจากการแจกแจงแบบต่อเนื่องที่มีความหนาแน่นสนับสนุนบนที่ไม่รู้จัก แต่ค่อนข้างใหญ่ดังนั้นความหนาแน่นของเคอร์เนล (ตัวอย่าง) การประมาณค่อนข้างแม่นยำ สำหรับการประยุกต์ใช้โดยเฉพาะอย่างยิ่งผมต้องแปลงข้อมูลที่สังเกตในการ จำกัด จำนวนหมวดหมู่เพื่อให้ผลผลิตชุดข้อมูลใหม่ที่มีฟังก์ชั่นมวลโดยนัย(z) P ( Y ) [ 0 , 1 ] n P ( Y ) Z 1 , . . , z n g ( z )Y1,...,YnY1,...,YnY_{1}, ..., Y_{n}p(y)p(y)p(y)[0,1][0,1][0,1]nnnp^(y)p^(y)\hat{p}(y)Z1,...,ZnZ1,...,ZnZ_{1}, ..., Z_{n}g(z)g(z)g(z) ตัวอย่างง่ายๆจะเมื่อและเมื่อ1/2 ในกรณีนี้ฟังก์ชั่นมวลเหนี่ยวนำจะเป็นY ฉัน ≤ 1 / 2 Z ฉัน = 1 Y ฉัน …

1
จะทดสอบได้อย่างไรว่าข้อมูลของฉันไม่ต่อเนื่องหรือต่อเนื่อง
สำหรับฉันที่จะเลือกเครื่องมือทางสถิติที่เหมาะสมฉันต้องระบุก่อนว่าชุดข้อมูลของฉันไม่ต่อเนื่องหรือต่อเนื่อง คุณพอจะสอนฉันได้ไหมว่าฉันจะทดสอบได้อย่างไรว่าข้อมูลนั้นไม่ต่อเนื่องหรือต่อเนื่องกับ R

2
การแจกแจงเหนือรายการที่เรียงลำดับ
สมมติว่าเรามีรายการสั่งซื้อ [a, b, c, ... x, y, z, ...] ฉันกำลังมองหาตระกูลของการกระจายด้วยการสนับสนุนในรายการข้างต้นปกครองโดยพารามิเตอร์อัลฟาบางอย่างเพื่อที่: สำหรับ alpha = 0 จะกำหนดความน่าจะเป็น1ให้กับรายการแรกด้านบนและ 0 สำหรับส่วนที่เหลือ aนั่นคือถ้าเราลิ้มลองจากรายการนี้ด้วยการเปลี่ยนเรามักจะได้รับ เมื่ออัลฟาเพิ่มขึ้นเราจะกำหนดความน่าจะเป็นที่สูงขึ้นและสูงขึ้นให้กับส่วนที่เหลือของรายการโดยคำนึงถึงลำดับของรายการหลังจากการสลายตัวแบบเอ็กซ์โปเนนเชียล เมื่อ alpha = 1 เรากำหนดความน่าจะเป็นที่เท่ากันให้กับทุกรายการในรายการดังนั้นการสุ่มตัวอย่างจากรายการนั้นคล้ายกับการละเว้นการสั่งซื้อ นี่คล้ายกับการกระจายทางเรขาคณิต แต่มีความแตกต่างที่น่าสังเกต: การกระจายตัวทางเรขาคณิตถูกกำหนดเหนือจำนวนธรรมชาติทั้งหมด ในกรณีของฉันด้านบนรายการมีขนาดคงที่ การแจกแจงเชิงเรขาคณิตไม่ได้ถูกกำหนดไว้สำหรับ alpha = 0

4
การกระจายความน่าจะเป็นโกศเปลี่ยนไปเมื่อคุณดึงออกมาโดยไม่เปลี่ยนค่าเฉลี่ยหรือไม่
สมมติว่าฉันมีโกศที่มีลูกบอลหลากสี N สีและแต่ละสีที่ต่างกันสามารถปรากฏจำนวนครั้งที่แตกต่างกัน (ถ้ามีลูกบอลสีแดง 10 ลูกก็ไม่จำเป็นต้องเป็นลูกบอลสีฟ้า 10 อัน) ถ้าเรารู้เนื้อหาที่แน่นอนของโกศก่อนวาดเราสามารถสร้างการแจกแจงความน่าจะเป็นแบบแยกซึ่งบอกเราถึงความน่าจะเป็นในการวาดลูกบอลแต่ละสี สิ่งที่ฉันสงสัยคือการกระจายตัวเปลี่ยนหลังจากวาดลูก k โดยไม่เปลี่ยนจากโกศโดยเฉลี่ยแล้ว. ฉันเข้าใจว่าเมื่อเราดึงออกมาจากโกศเราสามารถอัปเดตการกระจายด้วยความรู้เกี่ยวกับสิ่งที่ถูกนำออกไป แต่สิ่งที่ฉันอยากรู้คือสิ่งที่เราคาดหวังว่ารูปร่างของการแจกแจงจะเป็นหลังจากที่เราเอาลูก k ออก การกระจายการเปลี่ยนแปลงโดยเฉลี่ยหรือมันยังคงเหมือนเดิมหรือไม่ ถ้ามันไม่เหมือนเดิมเราสามารถเขียนสูตรสำหรับสิ่งที่เราคาดหวังว่าการแจกแจงแบบใหม่จะดูเหมือนโดยเฉลี่ยหลังจากทำการวาด k

1
จะค้นหาและประเมิน discretization ที่เหมาะสมที่สุดสำหรับตัวแปรต่อเนื่องที่มีเกณฑ์อย่างไร
ฉันมีชุดข้อมูลที่มีตัวแปรต่อเนื่องและตัวแปรเป้าหมายไบนารี (0 และ 1) ฉันต้องจำแนกตัวแปรต่อเนื่อง (สำหรับการถดถอยโลจิสติก) ด้วยความเคารพต่อตัวแปรเป้าหมายและด้วยข้อ จำกัด ที่ความถี่ของการสังเกตในแต่ละช่วงเวลาควรมีความสมดุล ฉันลองใช้กลไกการเรียนรู้ของเครื่องอย่าง Chi Merge ต้นไม้ตัดสินใจ การรวมกันของชี่ทำให้ฉันมีช่วงเวลาที่มีจำนวนไม่สมดุลมากในแต่ละช่วงเวลา (ช่วงเวลาที่มีการสังเกต 3 ครั้งและอีกช่วงหนึ่งมี 1,000 ครั้ง) ต้นไม้ตัดสินใจยากที่จะตีความ ฉันได้ข้อสรุปว่าการแยกส่วนที่ดีที่สุดควรเพิ่มค่าสถิติระหว่างตัวแปรที่แยกส่วนกับตัวแปรเป้าหมายและควรมีช่วงเวลาที่มีจำนวนการสังเกตประมาณเท่ากันχ2χ2\chi^2 มีอัลกอริทึมสำหรับการแก้ปัญหานี้หรือไม่? นี่มันมีลักษณะอย่างไรใน R (def คือตัวแปรเป้าหมายและ x เป็นตัวแปรที่จะแยกส่วน) ฉันคำนวณของ Tschuprow เพื่อประเมิน "สหสัมพันธ์" ระหว่างการแปลงและตัวแปรเป้าหมายเนื่องจากสถิติมีแนวโน้มที่จะเพิ่มขึ้นตามจำนวนช่วงเวลา ฉันไม่แน่ใจว่านี่เป็นวิธีที่ถูกต้องหรือไม่TTTχ2χ2\chi^2 มีวิธีอื่นในการประเมินหรือไม่หาก discretization ของฉันนั้นดีที่สุดนอกเหนือจาก Tschuprow (เพิ่มขึ้นเมื่อจำนวนคลาสลดลง)?TTT chitest &lt;- function(x){ interv &lt;- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), …

1
ข้อมูลไม่ต่อเนื่องและทางเลือกในการ PCA
ฉันมีชุดข้อมูลของตัวแปรที่ไม่ต่อเนื่อง (ลำดับ, meristic, และชื่อ) ที่อธิบายถึงลักษณะปีกของสัณฐานวิทยาของแมลงหลายชนิดที่เกี่ยวข้องอย่างใกล้ชิด สิ่งที่ฉันต้องการทำคือทำการวิเคราะห์บางอย่างที่จะทำให้ฉันเห็นภาพของความคล้ายคลึงกันของสปีชีส์ต่าง ๆ ตามลักษณะทางสัณฐานวิทยา สิ่งแรกที่โผล่เข้ามาในหัวของฉันคือ PCA (นี่คือประเภทของการสร้างภาพข้อมูลที่ฉันต้องการสร้าง) แต่หลังจากตรวจสอบแล้ว (โดยเฉพาะคำถามอื่น ๆ เช่น: การวิเคราะห์องค์ประกอบหลักสามารถนำไปใช้กับชุดข้อมูลที่มีการผสมผสานอย่างต่อเนื่อง และตัวแปรเด็ดขาด?) ดูเหมือนว่า PCA อาจไม่เหมาะสมสำหรับข้อมูลที่ไม่ต่อเนื่อง (PCA ใช้ในการศึกษาประเภทนี้ในวรรณคดี แต่มักจะมีข้อมูลต่อเนื่องอยู่เสมอ) ไม่สนใจภูมิหลังทางสถิติว่าเพราะเหตุใดข้อมูลนี้จึงไม่เหมาะสม PCA ให้ผลลัพธ์ที่สมบูรณ์แบบสำหรับคำถามทางชีววิทยาของฉัน (กลุ่มลูกผสมที่น่าสนใจตกอยู่ตรงกลางกลุ่มพ่อ) ฉันได้ลองวิเคราะห์การติดต่อหลายครั้งเพื่อเอาใจสถิติ (อย่างน้อยที่สุดเท่าที่ความเข้าใจของฉันไป) แต่ฉันไม่สามารถรับพล็อตที่คล้ายกับที่ฉันจะได้รับจาก PCA ที่การสังเกตของฉัน (บุคคลทางชีววิทยา) มีการแยกคำพูดด้วยสีเพื่อแสดงการจัดกลุ่มที่แตกต่างกัน (สปีชีส์ต่างกัน, การพูดทางชีววิทยา) ดูเหมือนว่าการวิเคราะห์นี้มีวัตถุประสงค์เพื่ออธิบายว่าตัวแปร (ที่นี่ลักษณะทางสัณฐานวิทยาของฉัน) มีความเกี่ยวข้องกันอย่างไรไม่ใช่การสังเกตของแต่ละบุคคล และเมื่อฉันพล็อตข้อสังเกตเป็นสีกลุ่มฉันจะได้รับค่าเดียวเท่านั้น (อาจเป็นค่าเฉลี่ย) ที่อธิบายกลุ่มบุคคลทั้งหมด ฉันได้ทำการวิเคราะห์ใน R ดังนั้นบางทีฉันก็ไม่ได้ขยันพอที่จะทำให้แนวคิดของฉันทำงาน ฉันถูกต้องในการลองวิเคราะห์เช่นนี้กับข้อมูลของฉันหรือฉันออกนอกเส้นทาง? หากคุณไม่สามารถบอกได้ว่าความเชี่ยวชาญทางสถิติของฉันมี จำกัด ดังนั้นสมการที่เกิดขึ้นภายใต้การวิเคราะห์เหล่านี้จะอยู่เหนือหัวของฉัน ฉันพยายามทำการวิเคราะห์นี้อย่างสมบูรณ์แบบเชิงพรรณนา …

2
การกระจายในส่วนย่อยของหรือไม่
ฉันสงสัยว่าถ้ามีทุกประเภทของการกระจายมาตรฐานในส่วนย่อยของจำนวนเต็มใด ๆ\} เท่าที่เราจะได้แสดงนี้เป็นการกระจายบนเป็นเวกเตอร์ความยาวของผลไบนารีเช่นถ้าแล้วสอดคล้องกับเวกเตอร์1){1,2,...,J}{1,2,...,J}\{1, 2, ..., J\}JJJJ=5J=5J = 5{1,3,5}{1,3,5}\{1, 3, 5\}(1,0,1,0,1)(1,0,1,0,1)(1, 0, 1, 0, 1) สิ่งที่ฉันกำลังมองหาคือการกระจายตัวซึ่งมาจากครอบครัวที่จัดทำดัชนีโดยพารามิเตอร์มิติ จำกัดที่จะกระจายมวลของมันในวิธีที่เวกเตอร์ไบนารีสองและจะมีความคล้ายคลึงกัน ความน่าจะเป็นถ้าพวกเขา "ปิด" ด้วยกันเช่นและมีความน่าจะเป็นที่คล้ายกัน จริงๆสิ่งที่ผมมุ่งมั่นที่จะทำหวังว่าจะใส่ก่อนในเช่นว่าถ้าฉันรู้ว่าที่มีขนาดใหญ่พอสมควรแล้วเป็นญาติอาจจะมีขนาดใหญ่เพื่อเวกเตอร์ห่างไกลจากr_1νθ(⋅)νθ(⋅)\nu_\theta (\cdot)θθ\thetar1r1r_1r2r2r_2r1=(0,0,1,0,1)r1=(0,0,1,0,1)r_1 = (0, 0, 1, 0, 1)r2=(0,0,1,1,1)r2=(0,0,1,1,1)r_2 = (0, 0, 1, 1, 1)θθ\thetaνθ(r1)νθ(r1)\nu_\theta (r_1)νθ(r2)νθ(r2)\nu_\theta (r_2)r1r1r_1 กลยุทธ์อย่างหนึ่งที่อยู่ในใจก็คือการวางมาตรวัดหรือการวัดการกระจายตัวอื่น ๆ บนบนจากนั้นใช้หรืออะไรที่คล้ายกัน ตัวอย่างที่ชัดเจนจะเป็นในการเปรียบเทียบกับการแจกแจงแบบปกติ ไม่เป็นไร แต่ฉันหวังว่าจะมีสิ่งที่เป็นมาตรฐานและคล้อยตามการวิเคราะห์แบบเบย์ ด้วยสิ่งนี้ฉันไม่สามารถเขียนค่าคงที่ normalizing ได้dθdθd_\theta{0,1}J{0,1}J\{0, 1\}^Jνθ(r)∝exp(−dθ(r,μ))νθ(r)∝exp⁡(−dθ(r,μ))\nu_\theta (r) \propto \exp (-d_\theta (r, …

1
ฟังก์ชั่นที่ไม่ต่อเนื่อง: ครอบคลุมช่วงความมั่นใจหรือไม่
จะคำนวณการครอบคลุมช่วงเวลาแบบไม่ต่อเนื่องได้อย่างไร? สิ่งที่ฉันรู้วิธีการทำ: ถ้าฉันมีแบบจำลองต่อเนื่องฉันสามารถกำหนดช่วงความมั่นใจ 95% สำหรับค่าที่คาดการณ์ของฉันแต่ละค่าจากนั้นดูความถี่ที่ค่าจริงอยู่ในช่วงความมั่นใจ ฉันอาจพบว่ามีเพียง 88% ของช่วงเวลาที่ช่วงความมั่นใจ 95% ของฉันครอบคลุมค่าจริง สิ่งที่ฉันไม่รู้จะทำอย่างไร: ฉันจะทำสิ่งนี้อย่างไรกับแบบจำลองที่ไม่ต่อเนื่องเช่นปัวซองหรือแกมม่าปัวซอง? สิ่งที่ฉันมีสำหรับรุ่นนี้มีดังต่อไปนี้ทำการสังเกตเพียงครั้งเดียว (จากกว่า 100,000 แผนฉันจะสร้าง :) การสังเกต #: (โดยพลการ) ค่าที่คาดการณ์: 1.5 ความน่าจะเป็นที่คาดการณ์ไว้คือ 0: .223 ความน่าจะเป็นที่คาดการณ์ไว้ 1: .335 ความน่าจะเป็นที่คาดการณ์ไว้ที่ 2: .251 ความน่าจะเป็นที่คาดการณ์ไว้ 3: .126 ความน่าจะเป็นที่คาดการณ์ไว้ที่ 4: .048 ความน่าจะเป็นที่คาดการณ์ไว้ที่ 5: .014 [และ 5 หรือมากกว่านั้นคือ. 019] ... ( ฯลฯ ) ความน่าจะเป็นที่คาดการณ์ไว้ที่ 100 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.