คำถามติดแท็ก pdf

ฟังก์ชันความหนาแน่นน่าจะเป็น (PDF) ของตัวแปรสุ่มแบบต่อเนื่องให้ความน่าจะเป็นสัมพัทธ์สำหรับแต่ละค่าที่เป็นไปได้ ใช้แท็กนี้สำหรับฟังก์ชันมวลความน่าจะเป็นแบบแยก (PMF) เช่นกัน

3
วิธีทดสอบอย่างเป็นทางการสำหรับ“ หยุด” ในการแจกแจงแบบปกติ (หรืออื่น ๆ )
บ่อยครั้งที่มันเกิดขึ้นในสังคมศาสตร์ว่าตัวแปรที่ควรแจกจ่ายในทางใดทางหนึ่งพูดตามปกติจบลงด้วยความไม่ต่อเนื่องในการกระจายรอบจุดต่าง ๆ ตัวอย่างเช่นหากมีการตัดเฉพาะเช่น "การผ่าน / ไม่ผ่าน" และหากมาตรการเหล่านี้มีการบิดเบือนอาจมีความไม่ต่อเนื่อง ณ จุดนั้น ตัวอย่างที่โดดเด่นหนึ่งตัวอย่าง (อ้างอิงด้านล่าง) มาจากคะแนนการทดสอบตามมาตรฐานของนักเรียนโดยทั่วไปจะกระจายอยู่ทั่วไปทุกที่ยกเว้น 60% ที่มีมวลน้อยมากจาก 50-60% และมีมวลมากเกินไปประมาณ 60-65% สิ่งนี้เกิดขึ้นในกรณีที่ครูให้คะแนนนักเรียนของตนเอง ผู้เขียนตรวจสอบว่าครูช่วยนักเรียนสอบจริง ๆ หรือไม่ หลักฐานที่น่าเชื่อถือที่สุดอย่างไม่ต้องสงสัยมาจากการแสดงกราฟของเส้นโค้งระฆังที่มีความไม่ต่อเนื่องรอบการตัดที่แตกต่างกันสำหรับการทดสอบที่แตกต่างกัน อย่างไรก็ตามคุณจะพัฒนาการทดสอบทางสถิติอย่างไร? พวกเขาพยายามแก้ไขแล้วเปรียบเทียบเศษส่วนด้านบนหรือด้านล่างและทดสอบ t ในส่วนที่ 5 คะแนนด้านบนและด้านล่างตัด ในขณะที่มีเหตุผลเหล่านี้เป็นเฉพาะกิจ ใครสามารถคิดอะไรดีกว่า Link: หลักเกณฑ์และดุลยพินิจในการประเมินผลของนักเรียนและโรงเรียน: กรณีของนิวยอร์กผู้สำเร็จราชการสอบ http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

5
สร้างค่าหลายตัวแปรสุ่มจากข้อมูลเชิงประจักษ์
ฉันกำลังทำงานกับฟังก์ชั่น Monte Carlo สำหรับการประเมินมูลค่าสินทรัพย์หลายรายการที่มีผลตอบแทนที่สัมพันธ์กันบางส่วน ขณะนี้ฉันเพิ่งสร้างเมทริกซ์ความแปรปรวนร่วมและฟีดไปยังrmvnorm()ฟังก์ชันใน R (สร้างค่าสุ่มที่สัมพันธ์กัน) อย่างไรก็ตามเมื่อพิจารณาการกระจายของผลตอบแทนของสินทรัพย์จะไม่ได้รับการกระจายตามปกติ นี่เป็นคำถามสองส่วนจริง ๆ : 1) ฉันจะประมาณ PDF หรือ CDF บางประเภทได้อย่างไรเมื่อฉันมีข้อมูลโลกแห่งความจริงโดยไม่ต้องมีการแจกแจง 2) ฉันจะสร้างค่าที่สัมพันธ์กันเช่น rmvnorm ได้อย่างไร แต่สำหรับการแจกแจงที่ไม่รู้จัก (และไม่ปกติ) นี้? ขอบคุณ! การแจกแจงนั้นไม่เหมาะสมกับการแจกแจงใด ๆ ฉันคิดว่ามันจะเป็นอันตรายมากที่จะใช้พารามิเตอร์และจากนั้นใช้สำหรับการประเมิน monte carlo ไม่มี bootstrap หรือวิธี "empirical monte carlo" ที่ฉันสามารถดูได้หรือไม่?
10 mcmc  monte-carlo  pdf 

2
แบนด์วิดท์เคอร์เนลในการประมาณความหนาแน่นของเคอร์เนล
ฉันกำลังทำการประมาณค่าความหนาแน่นเคอร์เนลโดยมีการตั้งค่าคะแนนถ่วงน้ำหนัก (เช่น. แต่ละตัวอย่างมีน้ำหนักที่ไม่จำเป็นต้องใช้) ในมิติ N นอกจากนี้ตัวอย่างเหล่านี้อยู่ในพื้นที่เมตริก (เช่น. เราสามารถกำหนดระยะห่างระหว่างพวกเขา) แต่ไม่มีอะไรอื่น ตัวอย่างเช่นเราไม่สามารถหาค่าเฉลี่ยของคะแนนตัวอย่างหรือค่าเบี่ยงเบนมาตรฐานหรือปรับขนาดตัวแปรหนึ่งเมื่อเทียบกับตัวแปรอื่น เคอร์เนลได้รับผลกระทบจากระยะทางนี้และน้ำหนักของตัวอย่างแต่ละตัว: ฉ( x ) = 1∑ w e i gเอชทีเอสผม* Σ W อีฉันกรัมเอชทีผมชั่วโมง∗ Ke r n e l ( dฉันs T n คอี( x , xผม)ชั่วโมง)ฉ(x)=1ΣWอีผมก.ชั่วโมงเสื้อsผม* * * *ΣWอีผมก.ชั่วโมงเสื้อผมชั่วโมง* * * *KอีRnอีล.(dผมsเสื้อanคอี(x,xผม)ชั่วโมง)f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h}) ในบริบทนี้ฉันกำลังพยายามที่จะหาการประเมินประสิทธิภาพสำหรับแบนด์วิดธ์เคอร์เนลอาจจะเป็นตำแหน่งที่แตกต่างกันและโดยเฉพาะอย่างยิ่งที่จะช่วยให้การฟื้นฟูที่ถูกต้องในการฝึกอบรมชุดxฉัน …

3
วิธีที่ดีที่สุดในการประเมินวิธีการประมาณ PDF
ฉันต้องการทดสอบความคิดของฉันที่ฉันคิดว่าดีกว่าสิ่งที่ฉันได้เห็น ฉันอาจจะผิด แต่ฉันต้องการที่จะทดสอบความคิดของฉันและเอาชนะข้อสงสัยของฉันโดยการสังเกตเพิ่มเติมบางอย่าง สิ่งที่ฉันคิดที่จะทำคือ: วิเคราะห์กำหนดชุดของการแจกแจง บางส่วนเป็นแบบง่าย ๆ เช่น Gaussian, uniform, หรือ Tophat แต่สิ่งเหล่านี้ต้องยากและท้าทายเช่นการจำหน่ายซิมป์สัน ใช้งานซอฟต์แวร์ตามการแจกแจงเชิงวิเคราะห์และใช้เพื่อสร้างตัวอย่างบางส่วน เนื่องจากการแจกแจงนั้นถูกกำหนดไว้ในการวิเคราะห์ฉันจึงรู้นิยาม PDF ที่แท้จริงของพวกมันอยู่แล้ว มันเยี่ยมมาก จากนั้นฉันจะทดสอบวิธีการประมาณ PDF ต่อไปนี้กับตัวอย่างด้านบน: วิธีการประมาณค่า PDF ที่มีอยู่ (เช่น KDE ที่มีเมล็ดและแบนด์วิดท์ต่างๆ) ความคิดของฉันเองที่ฉันคิดว่าคุ้มค่าที่จะลอง จากนั้นฉันจะวัดข้อผิดพลาดของการประมาณกับ PDF จริง จากนั้นฉันจะรู้ว่าวิธีการประมาณ PDF แบบใดดีกว่า คำถามของฉันคือ: คำถามที่ 1:มีการปรับปรุงแผนของฉันข้างต้นหรือไม่ Q2:ฉันพบว่ามันยากสำหรับฉันที่จะวิเคราะห์ PDF จริงหลาย ๆ อย่าง มีรายการที่ครอบคลุมของ PDF จริงที่กำหนดไว้มากมายที่วิเคราะห์ด้วยความยากลำบากที่แตกต่างกัน (รวมถึงไฟล์ที่ยากมาก) ที่ฉันสามารถนำกลับมาใช้ใหม่ได้หรือไม่?

2
การกระจายข้อผิดพลาดรอบ ๆ ข้อมูลการเติบโตของโลจิสติกคืออะไร
ในระบบนิเวศน์เรามักใช้สมการการเติบโตโลจิสติกส์: Nt=KN0ertK+N0ert−1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} หรือ Nt=KN0N0+(K−N0)e−rtNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} ที่ไหน KKK คือขีดความสามารถในการบรรทุก (ถึงความหนาแน่นสูงสุด) N0N0N_0 คือความหนาแน่นเริ่มต้น rrr คืออัตราการเติบโต ttt เป็นเวลาตั้งแต่เริ่มต้น คุณค่าของ NtNtN_t มีขอบบนที่อ่อนนุ่ม (K)(K)(K) และขอบเขตที่ต่ำกว่า (N0)(N0)(N_0)มีขอบเขตล่างที่แข็งแกร่งที่ 000. นอกจากนี้ในบริบทเฉพาะของฉันการวัดของ NtNtN_t จะทำโดยใช้ความหนาแน่นของแสงหรือการเรืองแสงซึ่งทั้งสองมีทฤษฎีสูงสุดและทำให้ขอบเขตที่แข็งแกร่ง ข้อผิดพลาดรอบ ๆ NtNtN_t ดังนั้นจึงอาจอธิบายได้ดีที่สุดโดยการแจกแจงแบบมีขอบเขต ที่ค่าน้อย NtNtN_tการกระจายอาจมีความเบ้เป็นบวกอย่างมากขณะที่ค่าของ NtNtN_tเมื่อเข้าหา K …
10 r  distributions  pdf  ecology 

2
PDF ที่เหมือนกันของความแตกต่างของสอง rv
เป็นไปได้ไหมที่จะมี PDF ของความแตกต่างของรูปลักษณ์ของ iid rv สองอันที่เป็นรูปสี่เหลี่ยมผืนผ้า (แทนที่จะบอกว่าสามเหลี่ยมที่เราได้รับถ้า rv ถูกนำมาจากการแจกแจงแบบเดียวกัน) เช่นเป็นไปได้หรือไม่ที่ PDF f ของ jk (สำหรับสอง iid rv ที่นำมาจากการแจกแจงบางส่วน) ให้มี f (x) = 0.5 สำหรับ -1 ทั้งหมด <<<1? ไม่มีข้อ จำกัด ในการแจกแจงที่เราใช้ j และ k ยกเว้นว่าค่าต่ำสุดคือ -1 และค่าสูงสุดคือ 1 หลังจากการทดลองฉันคิดว่ามันอาจเป็นไปไม่ได้

2
อะไรคือความหมายที่เข้าใจง่ายที่อยู่เบื้องหลังการเสียบตัวแปรสุ่มเข้ากับ pdf หรือ cdf ของมันเอง
โดยทั่วไปแล้วไฟล์ PDF จะเขียนเป็นโดยที่ตัวพิมพ์เล็กนั้นถือว่าเป็นการรับรู้หรือผลลัพธ์ของตัวแปรสุ่มซึ่งมี pdf นั้น ในทำนองเดียวกัน CDF เขียนเป็นซึ่งมีความหมาย&lt;x) อย่างไรก็ตามในบางสถานการณ์เช่นคำจำกัดความของฟังก์ชั่นการให้คะแนนและการได้มาซึ่ง cdf นั้นมีการกระจายอย่างสม่ำเสมอปรากฏว่าตัวแปรสุ่มถูกเสียบเข้ากับ pdf / cdf ของตัวเอง เราจะได้ตัวแปรสุ่มใหม่หรือf(x|θ)f(x|θ)f(x|\theta)xxxXXXFX(x)FX(x)F_X(x)P(X&lt;x)P(X&lt;x)P(X<x)XXX Y=f(X|θ)Y=f(X|θ)Y=f(X|\theta)Z=FX(X)Z=FX(X)Z=F_X(X). ฉันไม่คิดว่าเราจะเรียกไฟล์นี้ว่า pdf หรือ cdf ได้อีกต่อไปเพราะตอนนี้มันเป็นตัวแปรสุ่มและในกรณีหลัง "การตีความ"ดูเหมือนไร้สาระสำหรับฉันFX(X)=P(X&lt;X)FX(X)=P(X&lt;X)F_X(X)=P(X<X) นอกจากนี้ในกรณีหลังข้างต้นฉันไม่แน่ใจว่าฉันเข้าใจคำแถลงว่า "cdf ของตัวแปรสุ่มตามการแจกแจงแบบเดียวกัน" cdf เป็นฟังก์ชั่นไม่ใช่ตัวแปรสุ่มดังนั้นจึงไม่มีการแจกแจง แต่สิ่งที่มีการแจกแจงแบบสม่ำเสมอคือตัวแปรสุ่มที่แปลงโดยใช้ฟังก์ชันที่แสดงถึง cdf ของตัวเอง แต่ฉันไม่เห็นว่าทำไมการแปลงนี้จึงมีความหมาย เช่นเดียวกันกับฟังก์ชันคะแนนซึ่งเราเสียบตัวแปรสุ่มเข้ากับฟังก์ชันที่แสดงถึงโอกาสในการบันทึกของมันเอง ฉันพยายามทำลายสมองของฉันเป็นเวลาหลายสัปดาห์เพื่อพยายามหาความหมายที่เข้าใจง่ายเบื้องหลังการเปลี่ยนแปลงเหล่านี้ แต่ฉันติดอยู่ ความเข้าใจใด ๆ จะได้รับการชื่นชมอย่างมาก!

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.