คำถามติดแท็ก mathematical-statistics

ทฤษฎีทางคณิตศาสตร์ของสถิติที่เกี่ยวข้องกับคำจำกัดความที่เป็นทางการและผลลัพธ์ทั่วไป

1
ทำความเข้าใจเกี่ยวกับการใช้ลอการิทึมในลอการิทึม TF-IDF
ฉันกำลังอ่าน: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าทำไมสูตรจึงสร้างในแบบที่มันเป็น ฉันเข้าใจอะไร: iDF ควรที่จะวัดระดับความบ่อยครั้งที่คำ S ปรากฏในเอกสารแต่ละฉบับลดลงตามมูลค่าเมื่อคำนั้นปรากฏบ่อยขึ้น จากมุมมองนั้น ฉันD F.( S) = # ของเอกสาร# ของเอกสารที่มี SผมDF(S)=# ของเอกสาร# ของเอกสารที่มี S iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}} นอกจากนี้ความถี่เทอมสามารถอธิบายได้อย่างถูกต้องว่า t f( S, D ) = # ของเหตุการณ์ S ในเอกสาร D # จำนวนการเกิดขึ้นสูงสุดสำหรับสตริง Q ใด ๆ ในเอกสาร D …

1
ชี้แจงข้อมูลทางเรขาคณิต
คำถามนี้เกี่ยวข้องกับกระดาษDifferential Geometry ของข้อมูลเชิงเส้นครอบครัวแบบโค้งและการสูญเสียข้อมูลโดย Amari ข้อความจะเป็นดังนี้ ให้เป็น -dimensional ของการแจกแจงความน่าจะเป็นด้วยระบบพิกัดโดยที่จะถือว่า ...Sn={pθ}Sn={pθ}S^n=\{p_{\theta}\}nnnθ=(θ1,…,θn)θ=(θ1,…,θn)\theta=(\theta_1,\dots,\theta_n)pθ(x)>0pθ(x)>0p_{\theta}(x)>0 เราอาจพิจารณาทุกจุดของว่าถือ functionของ ...θθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxx ให้เป็นพื้นที่ที่แทนเจนต์ของที่ซึ่งเป็นพูดประมาณระบุกับรุ่นเชิงเส้นของย่านเล็ก ๆ ของใน n ให้เป็นพื้นฐานตามธรรมชาติของเกี่ยวข้องกับระบบการประสานงาน ...TθTθT_{\theta}SnSnS^nθθ\thetaθθ\thetaSnSnS^nei(θ),i=1,…,nei(θ),i=1,…,ne_i(\theta), i=1,\dots,nTθTθT_{\theta} เนื่องจากแต่ละจุดของมีฟังก์ชั่นของมันเป็นเรื่องธรรมดาที่จะถือว่าที่แทนฟังก์ชันθθ\thetaSnSnS^nlogpθ(x)log⁡pθ(x)\log p_{\theta}(x)xxxei(θ)ei(θ)e_i(\theta)θθ\thetaei(θ)=∂∂θilogpθ(x).ei(θ)=∂∂θilog⁡pθ(x).e_i(\theta)=\frac{\partial}{\partial\theta_i}\log p_{\theta}(x). ฉันไม่เข้าใจคำสั่งสุดท้าย ปรากฏในส่วนที่ 2 ของกระดาษที่กล่าวถึงข้างต้น พื้นฐานของพื้นที่แทนเจนต์เป็นอย่างไรโดยสมการข้างบน? มันจะมีประโยชน์ถ้าใครบางคนในชุมชนนี้คุ้นเคยกับเนื้อหาประเภทนี้สามารถช่วยฉันเข้าใจสิ่งนี้ ขอบคุณ อัปเดต 1: แม้ว่าฉันจะเห็นด้วยว่า (จาก @aginensky) ถ้าเป็นเชิงเส้นอย่างอิสระแล้วมีความเป็นอิสระในเชิงเส้นเช่นกันสมาชิกเหล่านี้ของพื้นที่แทนเจนต์ในตอนแรกยังไม่ชัดเจน ดังนั้นวิธีที่จะถูกพิจารณาเป็นพื้นฐานสำหรับพื้นที่แทนเจนต์ ความช่วยเหลือใด ๆ ที่ชื่นชม∂∂θipθ∂∂θipθ\frac{\partial}{\partial\theta_i}p_{\theta}∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta}∂∂θilogpθ∂∂θilog⁡pθ\frac{\partial}{\partial\theta_i}\log p_{\theta} อัปเดต 2: @aginensky: ในหนังสือของเขา Amari พูดต่อไปนี้: ให้เราพิจารณากรณีที่ชุดของความน่าจะเป็นบวกทั้งหมด (อย่างเคร่งครัด) …

2
ในตัวอย่างหนึ่ง t-test, เกิดอะไรขึ้นถ้าในความแปรปรวนประมาณการค่าเฉลี่ยของกลุ่มตัวอย่างจะถูกแทนที่ด้วย
สมมติหนึ่งตัวอย่าง t-test ที่สมมติฐานคือ\สถิติแล้วโดยใช้กลุ่มตัวอย่างส่วนเบี่ยงเบนมาตรฐานsในการประเมินหนึ่งเปรียบเทียบการสังเกตกับค่าเฉลี่ยตัวอย่าง : t = ¯ x - μ 0μ = μ0μ=μ0\mu=\mu_0 ss¯xt = x¯¯¯- μ0s / n√เสื้อ=x¯-μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}ssssssx¯¯¯x¯\overline{x} s = 1n - 1Σni = 1( xผม- x¯¯¯)2---------------√s=1n-1Σผม=1n(xผม-x¯)2s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2}2} อย่างไรก็ตามหากเราถือว่าที่ระบุเป็นจริงเราสามารถประมาณค่าเบี่ยงเบนมาตรฐานโดยใช้แทนค่าเฉลี่ยตัวอย่าง :s ∗ μ 0 ¯ xμ0μ0\mu_0s* * * *s* * * *s^*μ0μ0\mu_0x¯¯¯x¯\overline{x} s* * * *= 1n - 1Σni = …

2
ค่าที่คาดหวังของตัวแปรสุ่มแบบเกาส์แปลงด้วยฟังก์ชันโลจิสติก
ทั้งฟังก์ชั่นโลจิสติกและส่วนเบี่ยงเบนมาตรฐานมักจะแสดง\ฉันจะใช้และสำหรับค่าเบี่ยงเบนมาตรฐานσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss ฉันมีเซลล์ประสาทลอจิสติกพร้อมอินพุตสุ่มที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานฉันรู้ ฉันหวังว่าความแตกต่างจากค่าเฉลี่ยนั้นสามารถประมาณได้ดีจากเสียงเกาส์เซียนบางส่วน ดังนั้นที่มีการละเมิดเล็กน้อยของสัญกรณ์สมมติมันผลิต2)) ค่าที่คาดหวังของคืออะไร ค่าเบี่ยงเบนมาตรฐานอาจจะมีขนาดใหญ่หรือเล็กเมื่อเทียบกับหรือ1การประมาณรูปแบบปิดที่ดีสำหรับค่าที่คาดหวังจะเกือบดีเท่ากับโซลูชันแบบปิดμμ\musssσ(μ+N(0,s2))=σ(N(μ,s2))σ(μ+N(0,s2))=σ(N(μ,s2))\sigma(\mu + N(0,s^2))=\sigma(N(\mu,s^2))σ(N(μ,s2))σ(N(μ,s2))\sigma(N(\mu,s^2))sssμμ\mu111 ฉันไม่คิดว่ามีโซลูชันแบบปิดอยู่ สิ่งนี้สามารถถูกมองได้ว่าเป็นรูปแบบสังวัตนาและฟังก์ชันลักษณะเฉพาะสำหรับความหนาแน่นของโลจิสติกส์นั้นเป็นที่รู้จัก ( ) แต่ฉันไม่แน่ใจว่าจะช่วยได้มากแค่ไหน เครื่องคิดเลขสัญลักษณ์ผกผันก็ไม่สามารถที่จะยอมรับความหนาแน่นที่ของการบิดของความหนาแน่นของการกระจายโลจิสติกและการกระจายปกติมาตรฐานซึ่งแสดงให้เห็น แต่ไม่ได้พิสูจน์ว่าไม่มีหนึ่งประถมง่าย หลักฐานเพิ่มเติมจากสถานการณ์: ในเอกสารบางฉบับเกี่ยวกับการเพิ่มสัญญาณรบกวนแบบเกาส์ไปยังเครือข่ายประสาทด้วยเซลล์ประสาทลอจิสติกเอกสารไม่ได้ให้การแสดงออกในรูปแบบปิดเช่นกันπt csch πtπt csch πt\pi t ~\text{csch} ~\pi t000 คำถามนี้เกิดขึ้นในการพยายามทำความเข้าใจข้อผิดพลาดในการประมาณค่าเฉลี่ยฟิลด์ในเครื่อง Boltzman

1
การถดถอยกับข้อผิดพลาดของนักเรียนไร้ประโยชน์หรือไม่?
โปรดดูการแก้ไข เมื่อคุณมีข้อมูลที่มีก้อยมากการทำถดถอยด้วยความผิดพลาดของนักเรียนดูเหมือนจะเป็นสิ่งที่ใช้งานง่าย ขณะสำรวจความเป็นไปได้นี้ฉันพบบทความนี้: Breusch, TS, Robertson, JC, & Welsh, AH (1 พฤศจิกายน 1997) เสื้อผ้าใหม่ของจักรพรรดิ: บทวิจารณ์ของรูปแบบการถดถอยหลายตัวแปร Statistica Neerlandica, 51, 3. ) ( ลิงก์ , pdf ) ซึ่งระบุว่าพารามิเตอร์ scale และ degree of freedom ไม่สามารถระบุได้ด้วยความเคารพซึ่งกันและกันในบางแง่มุมและเนื่องจากการทำแบบถดถอยด้วยข้อผิดพลาด t ไม่ได้ทำอะไรมากไปกว่าการถดถอยเชิงเส้นมาตรฐาน Zellner (1976) เสนอรูปแบบการถดถอยซึ่งเวกเตอร์ข้อมูล (หรือเวกเตอร์ข้อผิดพลาด) ถูกแทนด้วยการรับรู้จากการแจกแจงของนักเรียนหลายตัวแปร รุ่นนี้ได้รับความสนใจเป็นอย่างมากเพราะดูเหมือนว่าจะขยายข้อสันนิษฐานแบบเกาส์เซียนแบบทั่วไปเพื่อให้มีการแจกแจงข้อผิดพลาดที่หนักกว่า จำนวนของผลลัพธ์ในเอกสารระบุว่าขั้นตอนการอนุมานมาตรฐานสำหรับแบบเกาส์เซียนยังคงเหมาะสมภายใต้สมมติฐานการกระจายแบบกว้างกว่าซึ่งนำไปสู่การเรียกร้องความทนทานของวิธีมาตรฐาน เราแสดงให้เห็นว่าแม้ว่าทั้งสองแบบจำลองทางคณิตศาสตร์จะมีความแตกต่างกัน แต่เพื่อจุดประสงค์ในการอนุมานเชิงสถิติพวกมันแยกไม่ออก ความหมายเชิงประจักษ์ของแบบจำลองหลายตัวแปร t นั้นเหมือนกับแบบจำลองแบบเกาส์เซียนอย่างแม่นยำ ดังนั้นข้อเสนอแนะของการแสดงข้อมูลที่กว้างกว่านั้นจึงเป็นการหลอกลวงและการเรียกร้องความแข็งแกร่งนั้นทำให้เข้าใจผิด บทสรุปเหล่านี้สามารถเข้าถึงได้จากมุมมองทั้งแบบประจำและแบบเบย์ เรื่องนี้ทำให้ฉันประหลาดใจ ฉันไม่มีความซับซ้อนทางคณิตศาสตร์ในการประเมินข้อโต้แย้งของพวกเขาดีดังนั้นฉันจึงมีคำถามสองสามข้อ: …

2
การทดสอบสมมติฐานและระยะทางรวมทั้งหมดกับ Kullback-Leibler divergence
ในการวิจัยของฉันฉันพบปัญหาทั่วไปต่อไปนี้: ฉันมีการแจกแจงและครั้งในโดเมนเดียวกันและมีตัวอย่างจำนวนมาก (แต่ จำกัด ) จากการแจกแจงเหล่านั้น ตัวอย่างมีการกระจายอย่างเป็นอิสระและเหมือนกันจากหนึ่งในสองการแจกแจง (แม้ว่าการแจกแจงอาจเกี่ยวข้อง: ตัวอย่างเช่นQอาจเป็นส่วนผสมของPและการกระจายอื่น ๆ ) สมมติฐานว่างเปล่าคือตัวอย่างมาจากPสมมุติฐานสำรองคือ ตัวอย่างมาจากQPPPQQQQQQPPPPPPQQQ ฉันพยายามที่จะอธิบายลักษณะ Type I และ Type II ข้อผิดพลาดในการทดสอบตัวอย่างที่รู้กระจายPPPและQQQQโดยเฉพาะอย่างยิ่งผมสนใจในขอบเขตหนึ่งข้อผิดพลาดที่กำหนดอื่น ๆ นอกเหนือไปจากความรู้ของPPPและQQQQ ฉันได้ถามคำถามทางคณิตศาสตร์เกี่ยวกับความสัมพันธ์ของระยะทางรวมการเปลี่ยนแปลงระหว่างPPPและQQQกับการทดสอบสมมติฐานและได้รับคำตอบที่ฉันยอมรับ คำตอบนั้นสมเหตุสมผล แต่ฉันยังไม่สามารถสรุปความหมายที่ลึกกว่าความสัมพันธ์ของระยะทางรวมของการเปลี่ยนแปลงและการทดสอบสมมติฐานที่เกี่ยวข้องกับปัญหาของฉัน ดังนั้นฉันตัดสินใจที่จะเปิดฟอรั่มนี้ คำถามแรกของฉันคือ: ความผันแปรทั้งหมดนั้นรวมกับผลรวมของความน่าจะเป็นของข้อผิดพลาด Type I และ Type II ที่เป็นอิสระจากวิธีการทดสอบสมมติฐานที่มีอยู่หรือไม่ ในสาระสำคัญตราบใดที่มีความน่าจะเป็นที่ไม่ใช่ศูนย์ที่ตัวอย่างอาจถูกสร้างขึ้นโดยการแจกแจงอย่างใดอย่างหนึ่งความน่าจะเป็นที่มีข้อผิดพลาดอย่างน้อยหนึ่งข้อต้องไม่เป็นศูนย์ โดยพื้นฐานแล้วคุณไม่สามารถหลบหนีความเป็นไปได้ที่ผู้ทดสอบสมมติฐานของคุณจะทำผิดพลาดไม่ว่าคุณจะประมวลผลสัญญาณมากแค่ไหน และขอบเขตความแปรปรวนโดยรวมที่เป็นไปได้แน่นอน ความเข้าใจของฉันถูกต้องหรือไม่ นอกจากนี้ยังมีความสัมพันธ์ระหว่าง Type I และข้อผิดพลาดครั้งที่สองและพื้นฐานแจกแจงความน่าจะอีกและคือKL แตกต่าง ดังนั้นคำถามที่สองของฉันคือ: KL-divergence ผูกมัดใช้ได้กับวิธีการทดสอบสมมติฐานเฉพาะวิธีเดียวเท่านั้น (ดูเหมือนว่าจะเกิดขึ้นรอบ ๆ วิธีอัตราส่วนความน่าจะเป็นในการเข้าสู่ระบบมาก) หรือหนึ่งสามารถใช้ได้กับวิธีการทดสอบสมมติฐานทั้งหมด …

4
ภาพรวมเกี่ยวกับการวิเคราะห์การอยู่รอดและการวิเคราะห์ข้อมูลชีวิต
ฉันเคยได้ยินการวิเคราะห์ความอยู่รอดและการวิเคราะห์ข้อมูลชีวิต แต่ไม่ได้รับภาพรวม ฉันสงสัยว่าหัวข้อใดบ้างที่ครอบคลุม มันเป็นสถิติที่บริสุทธิ์หรือเพียงแค่ประยุกต์ใช้สถิติในบางพื้นที่ การวิเคราะห์วันที่ชีวิตเป็นส่วนหนึ่งของการวิเคราะห์การอยู่รอดหรือไม่? ขอบคุณและขอแสดงความนับถือ!

3
การแพร่กระจายของ
ในการออกกำลังกายเป็นประจำฉันพยายามค้นหาการกระจายของโดยที่ และเป็นอิสระจากตัวแปรสุ่มX2+Y2−−−−−−−√X2+Y2\sqrt{X^2+Y^2}XXXYYYU(0,1)U(0,1) U(0,1) ความหนาแน่นรอยต่อของคือ (X,Y)(X,Y)(X,Y)fX,Y(x,y)=10&lt;x,y&lt;1fX,Y(x,y)=10&lt;x,y&lt;1f_{X,Y}(x,y)=\mathbf 1_{0\cos^{-1}\left(\frac{1}{z}\right)cosθcos⁡θ\cos\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right]zsinθ&lt;1⟹θ&lt;sin−1(1z)zsin⁡θ&lt;1⟹θ&lt;sin−1⁡(1z)z\sin\theta<1\implies\theta<\sin^{-1}\left(\frac{1}{z}\right)sinθsin⁡θ\sin\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right] ดังนั้นสำหรับเรามีขวา)1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2cos−1(1z)&lt;θ&lt;sin−1(1z)cos−1⁡(1z)&lt;θ&lt;sin−1⁡(1z)\cos^{-1}\left(\frac{1}{z}\right)<\theta<\sin^{-1}\left(\frac{1}{z}\right) ค่าสัมบูรณ์ของการแปลงจาโคเบียนคือ|J|=z|J|=z|J|=z ดังนั้นความหนาแน่นรอยต่อของจึงถูกกำหนดโดย(Z,Θ)(Z,Θ)(Z,\Theta) fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2√),θ∈(cos−1(1/z),sin−1(1/z))}fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2),θ∈(cos−1⁡(1/z),sin−1⁡(1/z))}f_{Z,\Theta}(z,\theta)=z\mathbf 1_{\{z\in(0,1),\,\theta\in\left(0,\pi/2\right)\}\bigcup\{z\in(1,\sqrt2),\,\theta\in\left(\cos^{-1}\left(1/z\right),\sin^{-1}\left(1/z\right)\right)\}} เมื่อรวมเข้ากับเราได้รับ pdf ของเป็นθθ\thetaZZZ fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1(1z))11&lt;z&lt;2√fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1⁡(1z))11&lt;z&lt;2f_Z(z)=\frac{\pi z}{2}\mathbf 1_{0\sqrt 2 \end{cases} ซึ่งดูเหมือนว่าการแสดงออกที่ถูกต้อง การแยกสำหรับกรณีที่ถึงแม้ว่าจะแสดงนิพจน์ซึ่งไม่ทำให้ PDF ง่ายขึ้นเท่าที่ฉันได้รับมาFZFZF_Z1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2 ในที่สุดฉันคิดว่าฉันมีภาพที่ถูกต้องสำหรับ CDF: สำหรับ :0&lt;z&lt;10&lt;z&lt;10<z<1 และสำหรับ :1&lt;z&lt;2–√1&lt;z&lt;21<z<\sqrt 2 ส่วนที่แรเงาควรระบุพื้นที่ของพื้นที่{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}\left\{(x,y):0<x,y< 1\,,\,x^2+y^2\le z^2\right\} ภาพให้ผลตอบแทนทันที FZ(z)=Pr(−z2−X2−−−−−−−√≤Y≤z2−X2−−−−−−−√)=⎧⎩⎨⎪⎪⎪⎪πz24z2−1−−−−−√+∫1z2−1√z2−x2−−−−−−√dx, if 0&lt;z&lt;1, if 1&lt;z&lt;2–√FZ(z)=Pr(−z2−X2≤Y≤z2−X2)={πz24, if 0&lt;z&lt;1z2−1+∫z2−11z2−x2dx, if 1&lt;z&lt;2\begin{align} F_Z(z)&=\Pr\left(-\sqrt{z^2-X^2}\le Y\le\sqrt{z^2-X^2}\right) \\&=\begin{cases}\frac{\pi …

1
บทพิสูจน์ทฤษฎีบทพิตแมน –Koopman – Darmois
ฉันจะหาบทพิสูจน์ของทฤษฎีบท Pitman – Koopman – Darmois ได้ที่ไหน ฉัน googled บางครั้ง น่าแปลกที่โน้ตจำนวนมากพูดถึงทฤษฎีบทนี้ แต่ก็ไม่มีใครแสดงหลักฐาน

1
วิธีการวาดกราฟที่พอดีและกราฟที่แท้จริงของการกระจายแกมม่าในหนึ่งแปลง?
โหลดแพ็คเกจที่จำเป็น library(ggplot2) library(MASS) สร้าง 10,000 หมายเลขที่พอดีกับการแจกแจงแกมม่า x &lt;- round(rgamma(100000,shape = 2,rate = 0.2),1) x &lt;- x[which(x&gt;0)] วาดฟังก์ชันความหนาแน่นของความน่าจะเป็นถ้าเราไม่รู้ว่าการกระจายตัว x พอดีกับอะไร t1 &lt;- as.data.frame(table(x)) names(t1) &lt;- c("x","y") t1 &lt;- transform(t1,x=as.numeric(as.character(x))) t1$y &lt;- t1$y/sum(t1[,2]) ggplot() + geom_point(data = t1,aes(x = x,y = y)) + theme_classic() จากกราฟเราสามารถเรียนรู้ว่าการแจกแจงของ x นั้นเหมือนกับการแจกแจงแกมม่าดังนั้นเราใช้fitdistr()ในแพ็คเกจMASSเพื่อรับพารามิเตอร์ของรูปร่างและอัตราการกระจายแกมม่า fitdistr(x,"gamma") ## output ## shape …

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
คำถามเกี่ยวกับฟังก์ชั่นการเปลี่ยนแปลงตัวอย่างอัตโนมัติ
ฉันกำลังอ่านหนังสือการวิเคราะห์อนุกรมเวลาและสูตรสำหรับการคำนวณค่าตัวอย่างอัตโนมัติถูกกำหนดในหนังสือเป็น: γˆ(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)γ^(ชั่วโมง)=n-1Σเสื้อ=1n-ชั่วโมง(xเสื้อ+ชั่วโมง-x¯)(xเสื้อ-x¯)\widehat{\gamma}(h) = n^{-1}\displaystyle\sum_{t=1}^{n-h}(x_{t+h}-\bar{x})(x_t-\bar{x}) กับ γˆ(−h)=γˆ(h)γ^(-ชั่วโมง)=γ^(ชั่วโมง)\widehat{\gamma}(-h) = \widehat{\gamma}(h)\; สำหรับ h=0,1,...,n−1ชั่วโมง=0,1,...,n-1\;h = 0,1, ..., n-1. x¯x¯\bar{x} คือค่าเฉลี่ย ใครสามารถอธิบายได้โดยสัญชาตญาณว่าทำไมเราหารผลรวมด้วย nnn และไม่ได้โดย n−hn-ชั่วโมงn-h? หนังสือเล่มนี้อธิบายว่าเป็นเพราะสูตรข้างต้นเป็นฟังก์ชันที่ไม่เป็นลบแน่นอนและหารด้วยnnnเป็นที่ต้องการ แต่ไม่ชัดเจนสำหรับฉัน บางคนสามารถพิสูจน์สิ่งนี้หรือแสดงตัวอย่างหรือบางสิ่งได้ สำหรับฉันสิ่งที่ใช้งานง่ายในตอนแรกจะแบ่งโดย n−hn-ชั่วโมงn-h. นี่เป็นตัวประมาณค่าแบบเอนเอียงหรือเอนเอียงของ autocovariance หรือไม่?

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(&gt;|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
การพิสูจน์ลำดับลดลง (สนับสนุนโดยการพล็อตเป็นจำนวนมาก)
คำถามมากมายที่ฉันโพสต์ใน SE ในเดือนที่ผ่านมามีเป้าหมายเพื่อช่วยฉันแก้ปัญหานี้โดยเฉพาะ ตอบคำถามทุกข้อแล้ว แต่ฉันก็ยังหาวิธีแก้ไม่ได้ ดังนั้นฉันคิดว่าฉันควรถามปัญหาที่ฉันพยายามแก้ไขโดยตรง ให้โดยที่ , , (จำนวนเต็ม) และทุกตัวเป็น cdf ส่วนเกิน 1)Xn∼FnXn∼FnX_n \sim F_nFn=(1−(1−Fn−1)c)cFn=(1−(1−Fn−1)c)cF_n = (1-(1-F_{n-1})^c)^cF0=xF0=xF_0 = xc≥2c≥2c\geq 2FnFnF_n(0,1)(0,1)(0,1) ฉันต้องการพิสูจน์ว่าลดลงด้วยสำหรับทุกc (หรือแม้กระทั่งสำหรับcใด ๆ)! ฉันสามารถแสดงให้เห็นว่าF_nแปรสภาพเป็นมวล Dirac ที่ทางออกที่ไม่ซ้ำกับ x_c = (1- (1-x) ^ c) ^ c) สำหรับc = 2 , x_2 = (3- \ sqrt {5}) / 2 \ ประมาณ 0.38 …

1
ขอบเขตของความแตกต่างของตัวแปรสุ่มที่สัมพันธ์กัน
ด้วยตัวแปรสุ่มที่มีความสัมพันธ์สูงสองตัวและฉันต้องการที่จะจำกัดความน่าจะเป็นที่ความแตกต่างเกินจำนวนที่กำหนด: XXXYYY|X−Y||X−Y| |X - Y| P(|X−Y|&gt;K)&lt;δP(|X−Y|&gt;K)&lt;δ P( |X - Y| > K) < \delta สมมติว่าความเรียบง่ายนั้น: สัมประสิทธิ์สหสัมพันธ์เป็นที่รู้กันว่า "สูง" พูดว่า: ρX,Y=covar(X,Y)/σXσY≥1−ϵρX,Y=covar(X,Y)/σXσY≥1−ϵ \rho_{X,Y}= {covar(X,Y)} / {\sigma_X \sigma_Y} \geq 1 - \epsilon X,YX,YX,Y มีค่าเฉลี่ยเป็นศูนย์:μx=μy=0μx=μy=0 \mu_x = \mu_y = 0 −1≤xi,yi≤1−1≤xi,yi≤1-1 \leq x_i, y_i \leq 1 (หรือ ถ้ามันง่ายกว่า)0≤xi,yi≤10≤xi,yi≤1 0 \leq x_i, y_i \leq 1 (ถ้าทำให้สิ่งต่าง …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.