คำถามติดแท็ก circular-statistics

สถิติทิศทาง (เรียกอีกอย่างว่าสถิติวงกลมหรือทรงกลม) คือวินัยของสถิติที่เกี่ยวข้องกับทิศทาง (เวกเตอร์หน่วยใน ) แกน (เส้นผ่านจุดเริ่มต้นใน ) หรือการหมุนใน . RnRnRn

3
ชั่วโมงของวันเป็นตัวแปรเด็ดขาดหรือไม่?
"ชั่วโมงของวัน" คือค่าที่สามารถเป็น 0, 1, 2, ... , 23 เป็นตัวแปรเด็ดขาดหรือไม่ ฉันอยากจะปฏิเสธว่าตั้งแต่ 5 เป็นต้นไปว่า 'ใกล้' ถึง 4 หรือ 6 มากกว่าที่จะเป็น 3 หรือ 7 ในทางตรงกันข้ามมีความไม่ต่อเนื่องระหว่าง 23 และ 0 ดังนั้นโดยทั่วไปถือว่าเป็นหมวดหมู่หรือไม่ โปรดทราบว่า 'ชั่วโมง' เป็นหนึ่งในตัวแปรอิสระไม่ใช่ตัวแปรที่ฉันพยายามทำนาย

4
จำลองการแจกแจงแบบสม่ำเสมอบนแผ่นดิสก์
ฉันพยายามจำลองการฉีดของจุดสุ่มภายในวงกลมเช่นว่าส่วนใดส่วนหนึ่งของวงกลมมีความน่าจะเป็นเหมือนกันที่จะมีข้อบกพร่อง ฉันคาดว่าจำนวนนับต่อพื้นที่ของการแจกแจงแบบผลลัพธ์จะเป็นไปตามการแจกแจงแบบปัวซองหากฉันแยกวงกลมออกเป็นสี่เหลี่ยมมุมฉากที่เท่ากัน เนื่องจากมันต้องการเพียงจุดวางภายในพื้นที่วงกลมฉันจึงฉีดการแจกแจงแบบสุ่มสองชุดในพิกัดเชิงขั้ว: (รัศมี) และθ (มุมขั้ว)RRRθθ\theta แต่หลังจากฉีดนี้ฉันได้รับคะแนนมากขึ้นในจุดศูนย์กลางของวงกลมเมื่อเทียบกับขอบ อะไรจะเป็นวิธีที่ถูกต้องในการฉีดนี้ข้ามวงกลมเพื่อให้คะแนนถูกกระจายแบบสุ่มไปทั่ว cirlce

2
วิธีการทดสอบความแตกต่างของความแปรปรวนร่วมกับข้อมูลวงกลม
ฉันสนใจที่จะเปรียบเทียบจำนวนความแปรปรวนภายใน 8 ตัวอย่างที่แตกต่างกัน (แต่ละอันจากประชากรที่แตกต่างกัน) ฉันทราบว่าสามารถทำได้หลายวิธีด้วยข้อมูลอัตราส่วน: ความเท่าเทียมกันของการทดสอบความแปรปรวนของ F-test, การทดสอบ Levene เป็นต้น อย่างไรก็ตามข้อมูลของฉันเป็นแบบวงกลม / ทิศทาง (เช่นข้อมูลที่แสดงช่วงเวลาเช่นทิศทางลมและข้อมูลเชิงมุมทั่วไปหรือเวลาของวัน) ฉันได้ทำการวิจัยและพบหนึ่งการทดสอบในแพ็คเกจ "CircStats" ใน R - "การทดสอบของ Watson สำหรับความเป็นเนื้อเดียวกัน" ข้อบกพร่องอย่างหนึ่งคือการทดสอบนี้เปรียบเทียบเพียงสองตัวอย่างซึ่งหมายความว่าฉันจะต้องทำการเปรียบเทียบหลายรายการกับตัวอย่าง 8 รายการของฉัน (แล้วใช้การแก้ไข Bonferonni) นี่คือคำถามของฉัน: 1) มีการทดสอบที่ดีกว่าที่ฉันสามารถใช้ได้หรือไม่? 2) ถ้าไม่สมมติฐานของการทดสอบของ Watson คืออะไร มันเป็นพารามิเตอร์ / ไม่ใช่พารามิเตอร์? 3) อัลกอริทึมที่ฉันสามารถทำการทดสอบนี้คืออะไร? ข้อมูลของฉันอยู่ใน Matlab และฉันไม่ต้องการโอนไปยัง R เพื่อทำการทดสอบ ฉันอยากเขียนฟังก์ชั่นของตัวเอง

4
การเข้ารหัสข้อมูลมุมสำหรับโครงข่ายประสาทเทียม
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียม (รายละเอียดไม่สำคัญ) โดยที่ข้อมูลเป้าหมายเป็นเวกเตอร์ของมุม (ระหว่าง 0 ถึง 2 * pi) ฉันกำลังมองหาคำแนะนำเกี่ยวกับวิธีการเข้ารหัสข้อมูลนี้ นี่คือสิ่งที่ฉันกำลังพยายาม (ด้วยความสำเร็จที่ จำกัด ): 1) การเข้ารหัส 1-of-C: ฉันวางมุมที่เป็นไปได้ในการตั้งค่าไว้ที่ 1,000 มุมหรือแยกกันแล้วระบุมุมที่ต้องการโดยการใส่ 1 ที่ดัชนีที่เกี่ยวข้อง ปัญหาเกี่ยวกับสิ่งนี้คือเครือข่ายเรียนรู้ที่จะเอาท์พุททั้งหมด 0 (เนื่องจากเป็นสิ่งที่ถูกต้องเกือบ) 2) การปรับขนาดง่าย: ฉันปรับขนาดช่วงสัญญาณเครือข่าย ([0,1]) ถึง [0,2 * pi] ปัญหาตรงนี้คือมุมโดยธรรมชาติมีลักษณะเป็นวงกลม (เช่น 0.0001 และ 2 * pi นั้นอยู่ติดกัน) ด้วยการเข้ารหัสชนิดนี้ข้อมูลนั้นจะหายไป ข้อเสนอแนะใด ๆ ที่จะได้รับการชื่นชม!

1
การใช้ตัวทำนายแบบวงกลมในการถดถอยเชิงเส้น
ฉันกำลังพยายามปรับโมเดลให้เหมาะสมโดยใช้ข้อมูลลม (0, 359) และช่วงเวลาของวัน (0, 23) แต่ฉันกังวลว่าพวกเขาจะไม่พอดีกับการถดถอยเชิงเส้นเนื่องจากพวกเขาไม่ใช่พารามิเตอร์เชิงเส้น ฉันต้องการแปลงพวกเขาโดยใช้ Python ฉันได้เห็นการกล่าวถึงการคำนวณค่าเฉลี่ยเวคเตอร์โดยวิธีการทำบาปและ cos ขององศาอย่างน้อยก็ในกรณีลม แต่ไม่มากนัก มีห้องสมุดไพ ธ อนหรือวิธีการที่เกี่ยวข้องที่อาจเป็นประโยชน์หรือไม่?

2
การดำเนินงานเกี่ยวกับวิชาตรีโกณมิติเกี่ยวกับส่วนเบี่ยงเบนมาตรฐาน
การบวกการลบการคูณและการหารของตัวแปรสุ่มปกติมีความหมายที่ดี แต่การดำเนินการเกี่ยวกับวิชาตรีโกณมิติ? ยกตัวอย่างเช่นสมมติว่าฉันพยายามหามุมของสามเหลี่ยมลิ่ม (จำลองเป็นสามเหลี่ยมมุมฉาก) โดยมีสอง catheti ที่มีมิติd1d1d_1และd2d2d_2ทั้งคู่อธิบายว่าเป็นการแจกแจงแบบปกติ ทั้งสัญชาตญาณและการจำลองบอกว่าการกระจายที่เกิดเป็นเรื่องปกติที่มีค่าเฉลี่ยขวา) แต่มีวิธีคำนวณการกระจายตัวของมุมที่เกิดขึ้นหรือไม่? การอ้างอิงเกี่ยวกับที่ฉันจะหาคำตอบ?arctan(mean(d1)mean(d2))arctan⁡(mean(d1)mean(d2))\arctan\left(\frac{\text{mean}(d_1)}{\text{mean}(d_2)}\right) (สำหรับบริบทฉันกำลังทำงานกับความอดทนทางสถิติของชิ้นส่วนเครื่องจักรแรงกระตุ้นแรกของฉันคือการจำลองกระบวนการทั้งหมดเพียงแค่ตรวจสอบว่าผลลัพธ์สุดท้ายนั้นเป็นเรื่องปกติพอสมควรและคำนวณค่าเบี่ยงเบนมาตรฐาน แต่ฉันสงสัยว่า หากอาจมีวิธีวิเคราะห์เชิง neater)

1
การสร้างแบบจำลองอนุกรมเวลาของข้อมูลวงกลม
ฉันกำลังสร้างแบบจำลอง ARIMA สำหรับข้อมูลลม / คลื่น ฉันกำลังสร้างแบบจำลองแยกสำหรับตัวแปรแต่ละตัว ตัวแปรสองตัวที่ฉันต้องจำลองคือคลื่นและทิศทางลม ค่าอยู่ในหน่วยองศา (0-360 °) เป็นไปได้หรือไม่ที่จะสร้างแบบจำลองของข้อมูลประเภทนี้ที่ช่วงค่าเป็นแบบวงกลม? ถ้าไม่ใช่คลาสรุ่นใดที่เหมาะที่สุดสำหรับข้อมูลประเภทนี้?

1
การถดถอยโลจิสติกพร้อมข้อมูลทิศทางเป็น IV
ฉันกำลังมองหาการอ้างอิงที่ดีเกี่ยวกับการใช้ข้อมูลทิศทาง (การวัดทิศทางเป็นองศา) เป็นตัวแปรอิสระในการถดถอย เป็นการดีที่มันจะมีประโยชน์สำหรับโมเดลที่ไม่เป็นเชิงเส้นลำดับชั้น (ข้อมูลซ้อนกัน) ฉันสนใจข้อมูลทิศทางมากกว่าปกติด้วย ฉันได้พบข้อความโดย Mardia ซึ่งฉันจะได้รับ แต่สงสัยว่ามีบทความที่ดีหรือไม่ ฉันสนใจบทความเชิงปฏิบัติเกี่ยวกับวิธีจัดการกับข้อมูลประเภทนี้มากกว่าในทฤษฎีและบทพิสูจน์หรือข้อความทางการของการแจกแจงอย่างเป็นทางการและเช่นนั้น ขอบคุณ อัปเดตฉันได้รับข้อความ Mardia ซึ่งค่อนข้างครอบคลุม หลังจากอ่านเพิ่มเติมฉันอาจกลับมาพร้อมคำถามเพิ่มเติม

1
ปรีชาสำหรับช่วงเวลาที่สูงขึ้นในสถิติวงกลม
ในสถิติแบบวงกลมค่าความคาดหวังของตัวแปรสุ่มมีค่าในวงกลมSหมายถึง m 1 ( Z ) = ∫ S z P Z ( θ ) d θ (ดูวิกิพีเดีย ) นี่เป็นคำจำกัดความที่เป็นธรรมชาติมากเช่นเดียวกับนิยามของความแปรปรวน V a r ( Z ) = 1 - | m 1 ( Z ) | . ดังนั้นเราไม่ต้องการช่วงเวลาที่สองเพื่อกำหนดความแปรปรวน!ZZZSSSm1(Z)=∫SzPZ(θ)dθm1(Z)=∫SzPZ(θ)dθ m_1(Z)=\int_S z P^Z(\theta)\textrm{d}\theta Var(Z)=1−|m1(Z)|.Var(Z)=1−|m1(Z)|. \mathrm{Var}(Z)=1-|m_1(Z)|. อย่างไรก็ตามเรากำหนดช่วงเวลาที่สูง ฉันยอมรับว่ามันดูเป็นธรรมชาติเหมือนกันตั้งแต่แรกเห็นและคล้ายกับนิยามในสถิติเชิงเส้น แต่ฉันก็ยังรู้สึกอึดอัดเล็กน้อยและมีสิ่งต่อไปนี้mn(Z)=∫SznPZ(θ)dθ.mn(Z)=∫SznPZ(θ)dθ. m_n(Z)=\int_S z^n P^Z(\theta)\textrm{d}\theta. คำถาม: …

5
วัดระยะทางที่ดีที่สุดที่จะใช้
บริบท ฉันมีข้อมูลสองชุดที่ฉันต้องการเปรียบเทียบ แต่ละองค์ประกอบข้อมูลในทั้งสองชุดเป็นเวกเตอร์ที่มี 22 มุม (ทั้งหมดระหว่างและ ) มุมนั้นเกี่ยวข้องกับรูปแบบท่าถ่ายรูปของมนุษย์ที่กำหนดดังนั้นท่ามุมจึงถูกกำหนดโดยมุมต่อ 22 มุมเธ−π−π-\piππ\pi ในที่สุดสิ่งที่ฉันพยายามทำคือกำหนด "ความใกล้ชิด" ของข้อมูลสองชุด ดังนั้นสำหรับแต่ละท่า (เวกเตอร์ 22D) ในชุดเดียวฉันต้องการค้นหาเพื่อนบ้านที่ใกล้ที่สุดในชุดอื่นและสร้างพล็อตระยะทางสำหรับคู่ที่ใกล้ที่สุด คำถาม ฉันสามารถใช้ระยะทางแบบยุคลิดหรือไม่? เพื่อให้มีความหมายฉันคิดว่าการวัดระยะทางจะต้องมีการกำหนดเป็น: , โดยที่คือค่าสัมบูรณ์และ mod คือ modulo แล้วใช้ที่เกิด 22 Thetas ผมสามารถดำเนินการคำนวณระยะทางยุคลิดมาตรฐาน2}| . . . | √θ=|θ1−θ2|modπθ=|θ1−θ2|modπ\theta = |\theta_1 - \theta_2| \quad mod \quad \pi|...||...||...|t21+t22+…+t222−−−−−−−−−−−−−−√t12+t22+…+t222\sqrt{t_1^2 + t_2^2 + \ldots + t_{22}^2} ถูกต้องหรือไม่ การวัดระยะทางอื่นจะมีประโยชน์มากกว่าเช่นไคสแควร์หรือ …

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
การถดถอยสำหรับข้อมูลเชิงมุม / วงกลม
ฉันดูแลปัญหาการเรียนรู้ที่เป้าหมายเป็นมุม หากฉันจะถดถอยอย่างง่ายตัวเลข 360 และ 1 จะอยู่ไกลสำหรับแบบจำลองของฉัน แต่ที่จริงแล้วพวกเขาอยู่ใกล้และทำนายพิกัด x และ y ไม่รู้สึกถูกต้อง วิธีที่เหมาะสมในการทำปัญหาดังกล่าวคืออะไร?

3
ทดสอบการเชื่อมโยงสำหรับ DV ที่กระจายตามปกติโดยตัวแปรอิสระในทิศทางหรือไม่
มีการทดสอบสมมติฐานว่าตัวแปรตามที่กระจายตามปกติมีความสัมพันธ์กับตัวแปรกระจายตามทิศทางหรือไม่? ตัวอย่างเช่นหากเวลาของวันเป็นตัวแปรอธิบาย (และสมมติว่าสิ่งต่าง ๆ เช่นวันของสัปดาห์เดือนของปี ฯลฯ ไม่เกี่ยวข้อง) - นั่นคือวิธีการบัญชีสำหรับความจริงที่ว่า 23:00 เป็น 22 ชั่วโมงข้างหน้าของ 1am และ 2 ชั่วโมงหลัง 1am ในการทดสอบของสมาคมหรือไม่ ฉันสามารถทดสอบว่าเวลาต่อเนื่องของวันอธิบายตัวแปรตามหรือไม่โดยไม่คิดว่าเวลาเที่ยงคืน 12:00 ไม่เป็นไปตามเวลาหนึ่งนาทีหลัง 23.59 น. หรือไม่ การทดสอบนี้ใช้กับตัวแปรอธิบายแบบแยกส่วนได้หรือไม่? หรือว่าต้องมีการทดสอบแยกต่างหาก ตัวอย่างเช่นวิธีการทดสอบว่าตัวแปรตามขึ้นอยู่กับการอธิบายตามเดือนของปี (สมมติว่าวันและฤดูกาลของปีและปีที่เฉพาะเจาะจงหรือทศวรรษที่ไม่เกี่ยวข้อง) การรักษาเดือนของปีอย่างเด็ดขาดละเว้นการสั่งซื้อ แต่การรักษาเดือนของปีเป็นตัวแปรลำดับมาตรฐาน (พูด ม.ค. = 1 ... ธันวาคม = 12) ไม่สนใจว่าเดือนมกราคมจะมาสองเดือนหลังจากเดือนพฤศจิกายน

2
การถดถอยของดิสก์ยูนิตเริ่มต้นจากตัวอย่าง "เว้นระยะสม่ำเสมอ"
ฉันต้องแก้ปัญหาการถดถอยที่ซับซ้อนบนดิสก์ยูนิต คำถามดั้งเดิมดึงดูดความคิดเห็นที่น่าสนใจ แต่ไม่มีคำตอบที่น่าเสียดาย ในขณะเดียวกันฉันได้เรียนรู้เพิ่มเติมเกี่ยวกับปัญหานี้ดังนั้นฉันจะพยายามแยกปัญหาดั้งเดิมออกเป็นปัญหาย่อยและดูว่าฉันโชคดีขึ้นในครั้งนี้หรือไม่ ฉันมีเซ็นเซอร์อุณหภูมิ 40 ตัวอยู่ในวงแหวนแคบ ๆ ภายในดิสก์ยูนิตเป็นประจำ: เซ็นเซอร์เหล่านี้รับอุณหภูมิในเวลา อย่างไรก็ตามเนื่องจากความแปรปรวนของเวลามีขนาดเล็กกว่าการแปรผันของอวกาศเรามาทำให้ปัญหาง่ายขึ้นโดยไม่สนใจความแปรปรวนของเวลาและสมมติว่าเซ็นเซอร์แต่ละตัวให้เวลาฉันโดยเฉลี่ยเท่านั้น ซึ่งหมายความว่าฉันมี 40 ตัวอย่าง (หนึ่งตัวสำหรับเซ็นเซอร์แต่ละตัว) และฉันไม่มีตัวอย่างซ้ำ ฉันต้องการสร้างพื้นผิวการถดถอยจากข้อมูลเซ็นเซอร์ การถดถอยมีสองเป้าหมาย:T= f( ρ , θ ) + ϵT=f(ρ,θ)+ϵT=f(\rho,\theta)+\epsilon ฉันต้องการที่จะประเมินค่าเฉลี่ยรัศมีอุณหภูมิT_ด้วยการถดถอยเชิงเส้นฉันได้ประมาณพื้นผิวซึ่งเป็นพื้นผิวอุณหภูมิเฉลี่ยแล้วดังนั้นฉันจึงต้องรวมพื้นผิวของฉันกับใช่ไหม? ถ้าฉันใช้พหุนามเพื่อการถดถอยขั้นตอนนี้ควรเป็นเค้กชิ้นหนึ่งTm e a n=ก.1( ρ ) + ϵTmean=g1(ρ)+ϵT_{mean}=g_1(\rho)+\epsilonθθ\theta ฉันต้องการที่จะประเมินโปรไฟล์อุณหภูมิรัศมีเช่นว่าในแต่ละตำแหน่งรัศมีPT95=ก.2( ρ ) + ϵT95=g2(ρ)+ϵT_{95}=g_2(\rho)+\epsilonP( T( ρ ) &lt;T95( ρ ) ) = .95P(T(ρ)&lt;T95(ρ))=.95P(T(\rho)<T_{95}(\rho))=.95 ด้วยสองเป้าหมายนี้ฉันควรใช้เทคนิคใดในการถดถอยของดิสก์ยูนิต แน่นอนกระบวนการแบบเกาส์มักใช้สำหรับการถดถอยเชิงพื้นที่ …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.