คำถามติดแท็ก self-study

แบบฝึกหัดประจำจากตำราหลักสูตรหรือแบบทดสอบที่ใช้สำหรับชั้นเรียนหรือเรียนด้วยตนเอง นโยบายของชุมชนนี้คือ "ให้คำแนะนำที่เป็นประโยชน์" สำหรับคำถามดังกล่าวแทนที่จะตอบเต็ม

1
แสดงว่าถ้า
ปัจจุบันติดอยู่ที่นี่ฉันรู้ว่าฉันควรใช้ค่าเบี่ยงเบนเฉลี่ยของการแจกแจงทวินาม แต่ฉันไม่สามารถหา

1
ตัวประมาณความน่าจะเป็นสูงสุดสำหรับการแจกแจงแบบเลขชี้กำลังขั้นต่ำ
ฉันติดอยู่กับวิธีการแก้ไขปัญหานี้ ดังนั้นเรามีสองลำดับของตัวแปรสุ่มและY ฉันสำหรับฉัน= 1 , . . , n . ตอนนี้XและYมีการกระจายชี้แจงอิสระที่มีพารามิเตอร์λและμ แต่แทนที่จะสังเกตXและY , เราสังเกตแทนZและWXผมXiX_iYผมYiY_iฉัน= 1 , . . , ni=1,...,ni=1,...,nXXXYYYλλ\lambdaμμ\muXXXYYYZZZWWW และ W = 1ถ้า Z ฉัน = X ฉันและ 0 ถ้า Z ฉัน = Yฉัน ฉันต้องไปหารูปแบบปิดสำหรับประมาณค่าความน่าจะเป็นสูงสุดของ λและ μบนพื้นฐานของ ZและW นอกจากนี้เราต้องแสดงให้เห็นว่าสิ่งเหล่านี้เป็น maxima ระดับโลกZ=min(Xi,Yi)Z=min(Xi,Yi)Z=\min(X_i,Y_i)W=1W=1W=1Zi=XiZi=XiZ_i=X_iZi=YiZi=YiZ_i=Y_iλλ\lambdaμμ\muZZZWWW ตอนนี้ฉันรู้ว่าอย่างน้อยสอง exponentials อิสระเป็นตัวเองชี้แจงกับอัตราเท่ากับผลรวมของอัตราเพื่อให้เรารู้ว่าคือการชี้แจงกับพารามิเตอร์λ + μ ดังนั้นประมาณการโอกาสสูงสุดของเราคือ: λ + …

4
ฉันต้องการแสดง
ปล่อยเป็นตัวแปรสุ่มบนพื้นที่ความน่าจะเป็นแสดงว่าX:Ω→NX:Ω→NX:\Omega \to \mathbb N(Ω,B,P)(Ω,B,P)(\Omega,\mathcal B,P)E(X)=∑n=1∞P(X≥n).E(X)=∑n=1∞P(X≥n).E(X)=\sum_{n=1}^\infty P(X\ge n). คำจำกัดความของฉันจากเท่ากับ E(X)E(X)E(X)E(X)=∫ΩXdP.E(X)=∫ΩXdP.E(X)=\int_\Omega X \, dP. ขอบคุณ

1
การกำหนดขนาดตัวอย่างด้วยสัดส่วนและการแจกแจงทวินาม
ฉันกำลังพยายามเรียนรู้สถิติบางอย่างโดยใช้หนังสือ Biometry โดย Sokal และ Rohlf (3e) นี่คือแบบฝึกหัดในบทที่ 5 ซึ่งครอบคลุมความน่าจะเป็นการแจกแจงทวินามและการแจกแจงปัวซอง ฉันรู้ว่ามีสูตรสำหรับสร้างคำตอบสำหรับคำถามนี้: อย่างไรก็ตามสมการนี้ไม่ได้อยู่ในข้อความนี้ ฉันต้องการทราบวิธีการคำนวณขนาดตัวอย่างที่ทราบเฉพาะความน่าจะเป็นระดับความเชื่อมั่นที่ต้องการและการกระจายแบบทวินาม มีทรัพยากรใดบ้างที่ครอบคลุมหัวข้อนี้ที่ฉันสามารถชี้ได้ ฉันลองใช้ Google แล้ว แต่สิ่งที่ฉันเห็นมาแล้วต้องการข้อมูลที่ฉันไม่สามารถเข้าถึงได้ในปัญหานี้n = 4( หน้า-√- คิว√)2n=4(p−q)2 n = \frac 4 {( \sqrt{p} - \sqrt{q} )^2}

4
การถดถอยของ x กับ y ดีกว่า y ใน x ในกรณีนี้หรือไม่
เครื่องมือที่ใช้ในการวัดระดับกลูโคสในเลือดของบุคคลนั้นจะถูกตรวจสอบจากกลุ่มตัวอย่าง 10 คน นอกจากนี้ยังมีการวัดระดับด้วยวิธีการทางห้องปฏิบัติการที่แม่นยำมาก เครื่องมือวัดจะถูกแทนด้วย x การวัดขั้นตอนในห้องปฏิบัติการนั้นเขียนด้วย y โดยส่วนตัวแล้วฉันคิดว่า y on x นั้นถูกต้องมากขึ้นเพราะความตั้งใจที่จะใช้เครื่องมือการอ่านเพื่อทำนายการอ่านในห้องปฏิบัติการ และ y on x ลดข้อผิดพลาดของการคาดคะเนดังกล่าว แต่คำตอบที่ให้คือ x กับ y

1
สัจพจน์ของ Luce ทางเลือกคำถามเกี่ยวกับความน่าจะเป็นแบบมีเงื่อนไข [ปิด]
ปิด คำถามนี้ต้องการรายละเอียดหรือความคมชัด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ เพิ่มรายละเอียดและชี้แจงปัญหาโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ฉันอ่านLuce (1959) จากนั้นฉันก็พบคำสั่งนี้: เมื่อคนเลือกระหว่างทางเลือกบ่อยครั้งที่การตอบสนองของพวกเขาดูเหมือนจะถูกควบคุมโดยความน่าจะเป็นซึ่งถูกกำหนดไว้ในชุดตัวเลือก แต่ทฤษฎีความน่าจะเป็นทั่วไปที่มีนิยามมาตรฐานของความน่าจะเป็นแบบมีเงื่อนไขนั้นดูเหมือนจะไม่เป็นสิ่งที่ต้องการ ตัวอย่างแสดงให้เห็นถึงความยากลำบาก เมื่อตัดสินใจว่าจะเดินทางจากบ้านไปยังเมืองอื่นตัวเลือกของคุณอาจเป็นเครื่องบิน (a) รถบัส (b) หรือรถยนต์ (c) ให้ A, B, C แสดงถึงสภาวะที่ไม่แน่นอนของธรรมชาติที่เกี่ยวข้องกับรูปแบบของการเดินทาง โปรดทราบว่าหากมีคนเลือกความไม่แน่นอนทั้งหมดของ A และ B อยู่เนื่องจากเครื่องบินบินและรถเมล์วิ่งไม่ว่าคุณจะอยู่บนเครื่องบินหรือไม่ก็ตาม อย่างไรก็ตามหากคุณเลือก a หรือ b ดังนั้นรถของคุณจะยังคงอยู่ในโรงรถและชุด C จะถูกเปลี่ยนอย่างรุนแรงเมื่อรถขับเคลื่อน สัจพจน์ตัวเลือกของบทที่ 1 ได้รับการแนะนำเป็นความพยายามครั้งแรกในการสร้างทฤษฎีความน่าจะเป็นแบบเลือกได้โดยผ่านสมมติฐานตัวอย่างพื้นที่คงที่ที่เป็นสากล แหล่งที่มา: http://www.scholarpedia.org/article/Luce's_choice_axiom สำหรับผมน่าจะเป็นตัวชี้วัดที่มีการกำหนดไว้กับแฝดพื้นที่ตัวอย่างเป็นพีชคณิตซิกมาFและในที่สุดก็เป็นมาตรการPΩΩ\OmegaFF\mathcal{F}PPP ด้วยความเคารพต่อตัวอย่างที่กล่าวมาแล้วสิ่งที่ดูเหมือนจะเป็นปัญหาถ้าฉันกำหนด: Ω={bus,car,airplane}Ω={bus,car,airplane}\Omega = \{ \text{bus}, \text{car}, \text{airplane} \} …

3
ปัญหาในเชิงลึกที่ร้ายแรงของความน่าจะเป็นสำหรับการพลิกเหรียญ
ให้บอกว่าฉันทำ 10,000 flips เหรียญ ฉันต้องการทราบความน่าจะเป็นของการพลิกหลายครั้งเพื่อให้ได้ 4 หัวติดต่อกันหรือมากกว่าติดต่อกัน การนับจะทำหน้าที่ดังต่อไปนี้คุณจะนับหนึ่งรอบการพลิกต่อเนื่องที่เป็นแค่หัว (4 หัวหรือมากกว่า) เมื่อก้อยกระทบและแตกแนวของหัวการนับจะเริ่มอีกครั้งจากการโยนครั้งต่อไป นี่จะทำซ้ำ 10,000 ครั้ง ฉันต้องการทราบความน่าจะเป็นไม่ใช่เพียง 4 หัวขึ้นไปในแถว แต่ 6 หรือมากกว่าและ 10 หรือมากกว่า หากต้องการให้ชัดเจนหากมีริ้ว 9 หัวมันจะนับเป็น 1 ริ้ว 4 หรือมากกว่า (และ / หรือ 6 หรือมากกว่า) ไม่ใช่ 2 เส้นแยกกัน ตัวอย่างเช่นหากเหรียญมาถึง THTHTHTHHHHHH /// THAHTHT .... การนับจะเป็น 13 และเริ่มต้นอีกครั้งบนก้อยถัดไป สมมุติว่าข้อมูลออกมาเอียงไปทางขวาอย่างมาก หมายความว่าเฉลี่ย 40 พลิกโดยเฉลี่ยเพื่อให้ได้แนว 4 …

1
จะหาการกระจายของส่วนต่างจากการกระจายแบบร่วมที่มีการพึ่งพาหลายตัวแปรได้อย่างไร
หนึ่งในปัญหาในหนังสือเรียนของฉันถูกวางไว้ดังนี้ เวกเตอร์ต่อเนื่องสุ่มสองมิติมีฟังก์ชันความหนาแน่นต่อไปนี้: fX,Y(x,y)={15xy20if 0 &lt; x &lt; 1 and 0 &lt; y &lt; xotherwisefX,Y(x,y)={15xy2if 0 &lt; x &lt; 1 and 0 &lt; y &lt; x0otherwise f_{X,Y}(x,y)= \begin{cases} 15xy^2 & \text{if 0 < x < 1 and 0 < y < x}\\ 0 & \text{otherwise}\\ \end{cases} แสดงว่าฟังก์ชันความหนาแน่นของส่วนขอบและคือ:f YfXfXf_XfYfYf_Y fX(x)={5x40if 0 &lt; …

3
ผลรวมของตัวแปรสุ่มแบบทวินามและปัวซอง
หากเรามีตัวแปรสุ่มอิสระสองตัวและฟังก์ชันมวลความน่าจะเป็นของคืออะไร?X 2 ∼ P o ฉันs ( λ ) X 1 + X 2X1∼Binom(n,p)X1∼Binom(n,p)X_1 \sim \mathrm{Binom}(n,p)X2∼Pois(λ)X2∼Pois(λ)X_2 \sim \mathrm{Pois}(\lambda)X1+X2X1+X2X_1 + X_2 NBนี่ไม่ใช่การบ้านสำหรับฉัน

1
ข้อเสนอแนะการทดสอบทางสถิติ
ฉันต้องการค้นหาการทดสอบทางสถิติที่เหมาะสม (การทดสอบอัตราส่วนความน่าจะเป็น, การทดสอบที) และอื่น ๆ ต่อไปนี้: ขอเป็นตัวอย่าง IID ของเวกเตอร์สุ่ม( X ; Y )และสมมติว่า( Y X ) ~ N [ ( μ 1 μ 2 ) , ( 1 0.5 0.5 1 ) ] สมมติฐานคือ: H 0 = μ 1 + μ{ Xผม; Yผม}ni = 1{Xผม;Yผม}ผม=1n\{X_i;Y_i\}^n_{i=1}( X; Y)(X;Y)(X;Y)( YX)(YX)\bigl( \begin{smallmatrix} Y\\ …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
การแจกแจงความแตกต่างของตัวแปรอิสระสองตัวซึ่งถูกตัดที่ 0
ปล่อยให้และเป็นตัวแปรสุ่มอิสระสองตัวที่มีการกระจายตัวแบบเดียวกันมีความหนาแน่นXXXU ( 0 , 1 )YYYยู( 0 , 1 )ยู(0,1)U(0,1) 0 ≤ x ≤ 1 0ฉ( x ) = 1ฉ(x)=1f(x)=1ถ้า (และที่อื่น)0≤x≤10≤x≤10≤x≤1000 ให้เป็นตัวแปรสุ่มจริงที่กำหนดโดย:ZZZ Z=X−YZ=X−YZ=X-Yถ้า (และที่อื่น)0X&gt;YX&gt;YX>Y000 สืบทอดมากระจายของZZZZ คำนวณความคาดหวังและความแปรปรวน(Z)V ( Z )E(Z)E(Z)E(Z)V(Z)V(Z)V(Z)

1
ค้นหา UMVUE จาก
ให้เป็นตัวแปรสุ่มที่มี pdfX1,X2,...,XnX1,X2,...,XnX_1, X_2, . . . , X_n fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)f_X(x\mid\theta) =\theta(1 +x)^{−(1+\theta)}I_{(0,\infty)}(x) ที่ไหน θ&gt;0θ&gt;0\theta >0. ให้ UMVUE จาก1θ1θ\frac{1}{\theta} และคำนวณความแปรปรวน ฉันได้เรียนรู้เกี่ยวกับสองวิธีดังกล่าวเพื่อรับ UMVUE ของ: แครมเมอร์ - ราวล่าง (CRLB) Lehmann-Scheffe Thereom ฉันจะลองทำสิ่งนี้โดยใช้สองตัวแรก ฉันต้องยอมรับว่าฉันไม่เข้าใจสิ่งที่เกิดขึ้นที่นี่อย่างสมบูรณ์และฉันกำลังพยายามแก้ไขปัญหาตัวอย่าง ฉันมีสิ่งนั้นfX(x∣θ)fX(x∣θ)f_X(x\mid\theta) เป็นตระกูลเอ็กซ์โปเนนเชียลแบบพารามิเตอร์เดียวที่มี h(x)=I(0,∞)h(x)=I(0,∞)h(x)=I_{(0,\infty)}, c(θ)=θc(θ)=θc(\theta)=\theta, w(θ)=−(1+θ)w(θ)=−(1+θ)w(\theta)=-(1+\theta), t(x)=log(1+x)t(x)=log(1+x)t(x)=\text{log}(1+x) เนื่องจากไม่ใช่ศูนย์บนผล CRLB จึงถูกนำมาใช้ เรามีw′(θ)=1w′(θ)=1w'(\theta)=1ΘΘ\Theta log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)\text{log }f_X(x\mid\theta)=\text{log}(\theta)-(1+\theta)\cdot\text{log}(1+x) ∂∂θlog fX(x∣θ)=1θ−log(1+x)∂∂θlog fX(x∣θ)=1θ−log(1+x)\frac{\partial}{\partial \theta}\text{log }f_X(x\mid\theta)=\frac{1}{\theta}-\text{log}(1+x) ∂2∂θ2เข้าสู่ระบบ ฉX( …

3
การแพร่กระจายของ
ในการออกกำลังกายเป็นประจำฉันพยายามค้นหาการกระจายของโดยที่ และเป็นอิสระจากตัวแปรสุ่มX2+Y2−−−−−−−√X2+Y2\sqrt{X^2+Y^2}XXXYYYU(0,1)U(0,1) U(0,1) ความหนาแน่นรอยต่อของคือ (X,Y)(X,Y)(X,Y)fX,Y(x,y)=10&lt;x,y&lt;1fX,Y(x,y)=10&lt;x,y&lt;1f_{X,Y}(x,y)=\mathbf 1_{0\cos^{-1}\left(\frac{1}{z}\right)cosθcos⁡θ\cos\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right]zsinθ&lt;1⟹θ&lt;sin−1(1z)zsin⁡θ&lt;1⟹θ&lt;sin−1⁡(1z)z\sin\theta<1\implies\theta<\sin^{-1}\left(\frac{1}{z}\right)sinθsin⁡θ\sin\thetaθ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right] ดังนั้นสำหรับเรามีขวา)1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2cos−1(1z)&lt;θ&lt;sin−1(1z)cos−1⁡(1z)&lt;θ&lt;sin−1⁡(1z)\cos^{-1}\left(\frac{1}{z}\right)<\theta<\sin^{-1}\left(\frac{1}{z}\right) ค่าสัมบูรณ์ของการแปลงจาโคเบียนคือ|J|=z|J|=z|J|=z ดังนั้นความหนาแน่นรอยต่อของจึงถูกกำหนดโดย(Z,Θ)(Z,Θ)(Z,\Theta) fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2√),θ∈(cos−1(1/z),sin−1(1/z))}fZ,Θ(z,θ)=z1{z∈(0,1),θ∈(0,π/2)}⋃{z∈(1,2),θ∈(cos−1⁡(1/z),sin−1⁡(1/z))}f_{Z,\Theta}(z,\theta)=z\mathbf 1_{\{z\in(0,1),\,\theta\in\left(0,\pi/2\right)\}\bigcup\{z\in(1,\sqrt2),\,\theta\in\left(\cos^{-1}\left(1/z\right),\sin^{-1}\left(1/z\right)\right)\}} เมื่อรวมเข้ากับเราได้รับ pdf ของเป็นθθ\thetaZZZ fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1(1z))11&lt;z&lt;2√fZ(z)=πz210&lt;z&lt;1+(πz2−2zcos−1⁡(1z))11&lt;z&lt;2f_Z(z)=\frac{\pi z}{2}\mathbf 1_{0\sqrt 2 \end{cases} ซึ่งดูเหมือนว่าการแสดงออกที่ถูกต้อง การแยกสำหรับกรณีที่ถึงแม้ว่าจะแสดงนิพจน์ซึ่งไม่ทำให้ PDF ง่ายขึ้นเท่าที่ฉันได้รับมาFZFZF_Z1&lt;z&lt;2–√1&lt;z&lt;21< z<\sqrt 2 ในที่สุดฉันคิดว่าฉันมีภาพที่ถูกต้องสำหรับ CDF: สำหรับ :0&lt;z&lt;10&lt;z&lt;10<z<1 และสำหรับ :1&lt;z&lt;2–√1&lt;z&lt;21<z<\sqrt 2 ส่วนที่แรเงาควรระบุพื้นที่ของพื้นที่{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}{(x,y):0&lt;x,y&lt;1,x2+y2≤z2}\left\{(x,y):0<x,y< 1\,,\,x^2+y^2\le z^2\right\} ภาพให้ผลตอบแทนทันที FZ(z)=Pr(−z2−X2−−−−−−−√≤Y≤z2−X2−−−−−−−√)=⎧⎩⎨⎪⎪⎪⎪πz24z2−1−−−−−√+∫1z2−1√z2−x2−−−−−−√dx, if 0&lt;z&lt;1, if 1&lt;z&lt;2–√FZ(z)=Pr(−z2−X2≤Y≤z2−X2)={πz24, if 0&lt;z&lt;1z2−1+∫z2−11z2−x2dx, if 1&lt;z&lt;2\begin{align} F_Z(z)&=\Pr\left(-\sqrt{z^2-X^2}\le Y\le\sqrt{z^2-X^2}\right) \\&=\begin{cases}\frac{\pi …

1
อนุพันธ์ของการสูญเสียเอนโทรปีใน word2vec
ฉันกำลังพยายามหาทางแก้ไขปัญหาชุดแรกของเนื้อหาหลักสูตรออนไลน์ของ cs224d stanford และฉันมีปัญหาบางอย่างเกี่ยวกับปัญหา 3A: เมื่อใช้แบบจำลองข้าม word2vec กับฟังก์ชั่นการทำนายแบบ softmax และฟังก์ชั่นการสูญเสียเอนโทรปี ต้องการคำนวณการไล่ระดับสีเทียบกับเวกเตอร์คำที่คาดคะเน เมื่อได้รับฟังก์ชั่น softmax: wi^=Pr(wordi∣r^,w)=exp(wTir^)∑|V|jexp(wTjr^)wi^=Pr(wordi∣r^,w)=exp⁡(wiTr^)∑j|V|exp(wjTr^) \hat{w_i} = \Pr(word_i\mid\hat{r}, w) = \frac{\exp(w_i^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})} และฟังก์ชั่นข้ามเอนโทรปี: CE(w,w^)=−∑kwklog(wk^)CE(w,w^)=−∑kwklog(wk^)CE(w, \hat{w}) = -\sum\nolimits_{k} w_klog(\hat{w_k}) เราจำเป็นต้องคำนวณ∂CE∂r^∂CE∂r^\frac{\partial{CE}}{\partial{\hat{r}}} ขั้นตอนของฉันมีดังนี้: CE(w,w^)=−∑|V|kwklog(exp(wTkr^)∑|V|jexp(wTjr^))CE(w,w^)=−∑k|V|wklog(exp⁡(wkTr^)∑j|V|exp(wjTr^))CE(w, \hat{w}) = -\sum_{k}^{|V|} w_klog(\frac{\exp(w_k^T \hat{r})}{\sum_{j}^{|V|}exp(w_j^T\hat{r})}) =−∑|V|kwklog(exp(wTkr^)−wklog(∑|V|jexp(wTjr^))=−∑k|V|wklog(exp⁡(wkTr^)−wklog(∑j|V|exp(wjTr^))= -\sum_{k}^{|V|} w_klog(\exp(w_k^T \hat{r}) - w_klog(\sum_{j}^{|V|}exp(w_j^T\hat{r})) ตอนนี้ได้รับwkwkw_kเป็นหนึ่งเวกเตอร์ร้อนและฉันเป็นชั้นที่ถูกต้อง: CE(w,w^)=−wTir^+log(∑|V|jexp(wTjr^))CE(w,w^)=−wiTr^+log(∑j|V|exp(wjTr^))CE(w, \hat{w}) = - w_i^T\hat{r} + log(\sum_{j}^{|V|}exp(w_j^T\hat{r})) ∂CE∂r^=−wi+1∑|V|jexp(wTjr^)∑|V|jexp(wTjr^)wj∂CE∂r^=−wi+1∑j|V|exp(wjTr^)∑j|V|exp(wjTr^)wj\frac{\partial{CE}}{\partial{\hat{r}}} …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.