คำถามติดแท็ก non-independent

ข้อมูลเหตุการณ์กระบวนการ ฯลฯ ไม่เป็นอิสระหากความรู้เรื่อง 1 ให้ข้อมูลบางอย่างเกี่ยวกับสถานะหรือคุณค่าของอีกฝ่าย

5
เกี่ยวกับความสำคัญของการตั้งสมมติฐานในการเรียนรู้ทางสถิติ
ในการเรียนรู้ทางสถิติโดยปริยายหรืออย่างชัดเจนเรามักจะสันนิษฐานว่าชุดการฝึกอบรมD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}ประกอบด้วยการป้อนข้อมูลNNN / ตอบสนอง tuples (Xi,yi)(Xi,yi)({\bf{X}}_i,y_i)ที่มาจากการกระจายข้อต่อเดียวกัน ด้วยP(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) และความสัมพันธ์ที่เราพยายามรวบรวมผ่านอัลกอริทึมการเรียนรู้เฉพาะ ในทางคณิตศาสตร์สมมติฐาน iid นี้เขียน:p(y|X)p(y|X)p( y \vert {\bf{X}}) (Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j …

5
ฉันจะทดสอบความสัมพันธ์ที่ไม่เชิงเส้นได้อย่างไร
สำหรับเนื้อเรื่องที่ 1 ฉันสามารถทดสอบการเชื่อมโยงระหว่าง x และ y ได้โดยทำการสหสัมพันธ์อย่างง่าย สำหรับพล็อต 2 ที่ความสัมพันธ์ไม่เป็นเชิงเส้น แต่มีความสัมพันธ์ที่ชัดเจนระหว่าง x และ y ฉันจะทดสอบความสัมพันธ์และเลเบลลักษณะของมันได้อย่างไร

5
ความหมายของ“ การพึ่งพาเชิงบวก” เป็นเงื่อนไขในการใช้วิธีการปกติสำหรับการควบคุม FDR
Benjamini และ Hochberg ได้พัฒนาวิธีแรก (และยังคงใช้กันอย่างแพร่หลายที่สุดผมคิดว่า) สำหรับการควบคุมอัตราการค้นพบที่ผิดพลาด (FDR) ฉันต้องการเริ่มต้นด้วยค่า P จำนวนมากแต่ละค่าสำหรับการเปรียบเทียบที่แตกต่างกันและตัดสินใจว่าค่าใดที่ต่ำพอที่จะเรียกว่า "การค้นพบ" ซึ่งควบคุม FDR ให้เป็นค่าที่ระบุ (พูด 10%) ข้อสันนิษฐานข้อหนึ่งของวิธีการปกติคือชุดการเปรียบเทียบนั้นเป็นอิสระหรือมี "การพึ่งพาเชิงบวก" แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าวลีนั้นหมายถึงอะไรในบริบทของการวิเคราะห์ชุดของค่า P

7
ความสัมพันธ์นั้นเทียบเท่ากับความสัมพันธ์หรือไม่?
ศาสตราจารย์สถิติของฉันอ้างว่าคำว่า "สหสัมพันธ์" นั้นใช้กับความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรในขณะที่คำว่า "การเชื่อมโยง" นั้นใช้กับความสัมพันธ์ทุกประเภทอย่างกว้างขวาง กล่าวอีกนัยหนึ่งเขาอ้างว่าคำว่า "ความสัมพันธ์แบบไม่เป็นเชิงเส้น" คือคำปฏิสนธิ จากสิ่งที่ฉันสามารถทำในส่วนนี้ในบทความ Wikipedia ที่ " ความสัมพันธ์และการพึ่งพา " สัมประสิทธิ์สหสัมพันธ์ Pearson อธิบายถึงระดับของ "เส้นตรง" ในความสัมพันธ์ระหว่างสองตัวแปร นี่แสดงให้เห็นว่าคำว่า "สหสัมพันธ์" นั้นใช้กับความสัมพันธ์เชิงเส้นเท่านั้น ในทางกลับกันการค้นหาอย่างรวดเร็วของ Google สำหรับ " ความสัมพันธ์ที่ไม่ใช่เชิงเส้น " จะปรากฏขึ้นจำนวนเอกสารเผยแพร่ที่ใช้คำว่า อาจารย์ของฉันถูกต้องหรือว่า "สหสัมพันธ์" เป็นเพียงคำพ้องความหมายของ "สมาคม"?

1
คุณสมบัติของ PCA สำหรับการสังเกต
เรามักจะใช้ PCA เป็นเทคนิคการลดขนาดสำหรับข้อมูลที่กรณีจะถือว่าเป็น iid คำถาม:อะไรคือความแตกต่างทั่วไปในการใช้ PCA สำหรับข้อมูลที่ขึ้นกับข้อมูลที่ไม่ใช่ของ iid คุณสมบัติที่ดี / มีประโยชน์ของ PCA ที่เก็บไว้สำหรับข้อมูล iid นั้นถูกบุกรุก (หรือสูญหายทั้งหมด)? ตัวอย่างเช่นข้อมูลอาจเป็นอนุกรมเวลาหลายตัวแปรในกรณีที่ autocorrelation หรือ autorgressive heteroskedasticity ตามเงื่อนไข (ARCH) สามารถคาดหวังได้ มีคำถามที่เกี่ยวข้องหลายประการเกี่ยวกับการใช้ PCA กับข้อมูลอนุกรมเวลาซึ่งเคยมีการถามมาก่อนเช่น1 , 2 , 3 , 4แต่ฉันกำลังมองหาคำตอบทั่วไปและครอบคลุมมากขึ้น แก้ไข:ตามที่บันทึกไว้โดย @ttnphns ตัว PCA เองไม่ใช่การวิเคราะห์เชิงอนุมาน อย่างไรก็ตามหนึ่งอาจสนใจในการวางนัยทั่วไปของ PCA คือการเน้นไปที่ประชากรของ PCA ตัวอย่าง เช่นเขียนในNadler (2008) : สมมติว่าข้อมูลที่ได้รับเป็นตัวอย่าง จำกัด และสุ่มจากการแจกแจง (โดยทั่วไปไม่ทราบ) …

1
ความหมายภาษาธรรมดาของการทดสอบแบบ "พึ่งพา" และ "อิสระ" ในวรรณคดีเปรียบเทียบหลายรายการ?
ในทั้งวรรณกรรมอัตราข้อผิดพลาดครอบครัว (FWER) และอัตราการค้นพบที่ผิดพลาด (FDR), วิธีการเฉพาะในการควบคุม FWER หรือ FDR กล่าวว่ามีความเหมาะสมกับการทดสอบขึ้นอยู่กับหรืออิสระ ตัวอย่างเช่นในปี 1979 บทความ "ขั้นตอนการทดสอบการปฏิเสธหลายครั้งอย่างง่าย ๆ " โฮล์มเขียนเพื่อเปรียบเทียบวิธีการแบบupidákแบบ step-up contrastidákกับวิธีการควบคุม Bonferroni แบบขั้นตอนของเขา: ความเรียบง่ายในการคำนวณเดียวกันจะได้รับเมื่อสถิติการทดสอบมีความเป็นอิสระ ใน "การควบคุมอัตราการค้นพบที่ผิด" โดย Benjamini และ Hochberg (1995) ผู้เขียนเขียน: ทฤษฎีบท 1.สำหรับอิสระสถิติการทดสอบและการกำหนดค่าของสมมติฐานที่ผิดพลาดใด ๆ ดังกล่าวข้างต้นการควบคุมขั้นตอนที่ FDR *q∗q∗q^{*} ต่อมาในปี 2544 เบญจมินิและเยคุเตเอลลีเขียน: 1.3 ปัญหาที่เกิดขึ้น เมื่อพยายามที่จะใช้วิธีการ FDR ในทางปฏิบัติสถิติการทดสอบขึ้นอยู่กับการพบบ่อยกว่าคนที่เป็นอิสระตัวอย่างของจุดปลายหลายจุดที่กล่าวถึงข้างต้นเป็นแบบตรงประเด็น ผู้เขียนเหล่านี้ใช้ความหมายใดเป็นพิเศษในการพึ่งพาความเป็นอิสระ ฉันจะมีความสุขกับคำจำกัดความที่เป็นทางการของสิ่งที่ทำให้การทดสอบขึ้นอยู่กับหรือเป็นอิสระจากกันถ้าพวกเขามาพร้อมกับคำอธิบายภาษาธรรมดา ฉันสามารถคิดถึงความหมายต่าง ๆ ที่เป็นไปได้สองสามอย่าง แต่ฉันไม่คิดเลยว่าจะเป็นเช่นนั้น: "Dependent" …

3
สำหรับสัญชาตญาณตัวอย่างชีวิตจริงของตัวแปรสุ่มที่ไม่เกี่ยวข้อง แต่ขึ้นอยู่กับอะไร?
ในการอธิบายว่าทำไม uncorrelated ไม่ได้หมายความอิสระมีหลายตัวอย่างที่เกี่ยวข้องกับพวงของตัวแปรสุ่ม แต่พวกเขาทั้งหมดดูเหมือนนามธรรมดังนั้น: 1 2 3 4 คำตอบนี้ดูเหมือนจะสมเหตุสมผล การตีความของฉัน: ตัวแปรสุ่มและสแควร์ของมันอาจไม่เกี่ยวข้องกัน (เนื่องจากเห็นได้ชัดว่าขาดความสัมพันธ์เป็นสิ่งที่ต้องการความเป็นอิสระเชิงเส้น) แต่พวกเขาก็ขึ้นอยู่อย่างชัดเจน ผมคิดว่าตัวอย่างจะว่า (มาตรฐาน?) ความสูงและความสูงอาจจะไม่มีความ แต่ขึ้นอยู่ แต่ผมไม่เห็นว่าทำไมทุกคนต้องการจะเปรียบเทียบความสูงและความสูง 222^222^2 เพื่อจุดประสงค์ในการให้สัญชาตญาณแก่ผู้เริ่มต้นในทฤษฎีความน่าจะเป็นเบื้องต้นหรือวัตถุประสงค์ที่คล้ายคลึงกันตัวอย่างชีวิตจริงของตัวแปรสุ่มที่ไม่เกี่ยวข้อง แต่ขึ้นอยู่กับอะไร?

1
เหตุใดตัวแบบผสมแบบผสมจึงแก้ปัญหาการพึ่งพาได้?
สมมติว่าเราสนใจว่าคะแนนสอบของนักเรียนจะได้รับผลกระทบจากจำนวนชั่วโมงที่นักเรียนเหล่านั้นเรียนอย่างไร เพื่อสำรวจความสัมพันธ์นี้เราสามารถเรียกใช้การถดถอยเชิงเส้นต่อไปนี้: exam.gradesi=a+β1×hours.studiedi+eiexam.gradesi=a+β1×hours.studiedi+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i แต่ถ้าเราสุ่มตัวอย่างนักเรียนจากโรงเรียนต่าง ๆ เราอาจคาดหวังว่านักเรียนในโรงเรียนเดียวกันจะคล้ายกันมากกว่านักเรียนจากโรงเรียนต่าง ๆ เพื่อจัดการกับปัญหาการพึ่งพานี้คำแนะนำในหนังสือเรียน / บนเว็บไซต์จำนวนมากคือการใช้เอฟเฟกต์แบบผสมและเข้าโรงเรียนเป็นเอฟเฟกต์แบบสุ่ม ดังนั้นโมเดลจะกลายเป็น: แต่ทำไมมันถึงแก้ปัญหาการพึ่งพาที่มีอยู่ในการถดถอยเชิงเส้น?exam.gradesi=a+β1×hours.studiedi+schoolj+eiexam.gradesi=a+β1×hours.studiedi+schoolj+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i โปรดตอบกลับราวกับว่าคุณกำลังคุยกับเด็กอายุ 12 ปี

1
การสร้างแบบจำลองผลกระทบเชิงเส้นผสมกับข้อมูลการศึกษาคู่
สมมติว่าฉันมีตัวแปรตอบสนองบางอย่างที่วัดจากพี่น้องคนที่ในครอบครัวที่นอกจากนี้ข้อมูลพฤติกรรมบางอย่างถูกรวบรวมในเวลาเดียวกันจากแต่ละเรื่อง ฉันพยายามวิเคราะห์สถานการณ์ด้วยโมเดลผสมผลกระทบเชิงเส้นต่อไปนี้: j ฉันx ฉันjyijyijy_{ij}jjjiiixijxijx_{ij} yij=α0+α1xij+δ1ixij+εijyij=α0+α1xij+δ1ixij+εijy_{ij} = \alpha_0 + \alpha_1 x_{ij} + \delta_{1i} x_{ij} + \varepsilon_{ij} โดยที่และเป็นจุดตัดและความชันคงที่ตามลำดับ คือความชันแบบสุ่มและคือส่วนที่เหลือα 1 δ 1 i ε i jα0α0\alpha_0α1α1\alpha_1δ1iδ1i\delta_{1i}εijεij\varepsilon_{ij} สมมติฐานสำหรับผลกระทบแบบสุ่มและส่วนที่เหลือคือ (สมมติว่ามีพี่น้องเพียงสองคนเท่านั้นในแต่ละครอบครัว) ε ฉันjδ1iδ1i\delta_{1i}εijεij\varepsilon_{ij} δ1 ฉัน( εฉัน1, εฉัน2)T~dยังไม่มีข้อความ( 0 , τ2)~dยังไม่มีข้อความ( ( 0 , 0 )T, R )δ1i∼dN(0,τ2)(εi1,εi2)T∼dN((0,0)T,R)\begin{align} \delta_{1i} &\stackrel{d}{\sim} N(0, \tau^2) \\[5pt] (\varepsilon_{i1}, \varepsilon_{i2})^T …

1
ความแปรปรวนในระยะยาวคืออะไร?
ความแปรปรวนในระยะยาวในขอบเขตของการวิเคราะห์อนุกรมเวลาได้กำหนดไว้อย่างไร ฉันเข้าใจว่ามันถูกใช้ในกรณีที่มีโครงสร้างความสัมพันธ์ในข้อมูล ดังนั้นกระบวนการสโตแคสติกของเราจะไม่เป็นตระกูลX1,X2…X1,X2…X_1, X_2 \dots iid ตัวแปรสุ่ม แต่เป็นการกระจายตัวเท่านั้น ฉันขออ้างอิงมาตรฐานเพื่อแนะนำแนวคิดและปัญหาที่เกี่ยวข้องกับการประมาณค่าได้ไหม

2
จะเพิ่มตัวแปรสุ่มสองตัวแบบพึ่งพาได้อย่างไร?
ฉันรู้ว่าฉันไม่สามารถใช้การโน้มน้าวใจได้ ฉันมีตัวแปรสุ่มสองตัวคือ A และ B และพวกมันขึ้นอยู่กับ ฉันต้องการฟังก์ชันการกระจายแบบ A + B

2
เราจะหาค่าเฉลี่ยของผลรวมของตัวแปรตามได้อย่างไร?
ฉันรู้ว่าค่าเฉลี่ยของผลรวมของตัวแปรอิสระคือผลรวมของค่าเฉลี่ยของตัวแปรอิสระแต่ละตัว สิ่งนี้นำไปใช้กับตัวแปรตามเช่นกันหรือไม่?

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
ความแตกต่างระหว่างเชิงเส้นและสัมพันธ์เชิงเส้นคืออะไร?
กรุณาอธิบายสิ่งที่เป็นความแตกต่างระหว่างสองตัวแปรถ้าเป็นเส้นตรงขึ้นหรือมีความสัมพันธ์เชิงเส้นตรง ฉันค้นหาบทความวิกิพีเดีย แต่ไม่ได้รับตัวอย่างที่เหมาะสม กรุณาอธิบายด้วยตัวอย่าง

6
มันเป็นวิธีการที่มีปัญหาในการควบคุมสำหรับโควาเรียที่ไม่เป็นอิสระในการศึกษาเชิงสังเกตการณ์ (เช่นไม่มีการสุ่ม)?
มิลเลอร์และแชปแมน (2001) ยืนยันว่ามันไม่เหมาะสมอย่างยิ่งที่จะควบคุมเพื่อนร่วมชาติที่ไม่เกี่ยวข้องกับตัวแปรอิสระและตัวแปรตามในการศึกษาเชิงสังเกตการณ์ มันเป็นปัญหาที่จะทำเช่นนั้น? วิธีที่ดีที่สุดในการจัดการกับปัญหานี้เป็นอย่างไร หากคุณควบคุมโควาเรียต์ที่ไม่เป็นอิสระเป็นประจำในการศึกษาเชิงสังเกตการณ์ในการวิจัยของคุณเองคุณจะพิสูจน์ได้อย่างไร? ในที่สุดนี่คือการต่อสู้ที่มีมูลค่าการหยิบยกเมื่อพิจารณาวิธีการกับเพื่อนร่วมงานคน (เช่นมันไม่สำคัญ)? ขอบคุณ มิลเลอร์, GA, และแชปแมน, JP (2001) การวิเคราะห์ความเข้าใจผิดของความแปรปรวนร่วม วารสารจิตวิทยาผิดปกติ, 110, 40-48 - http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.