คำถามติดแท็ก chi-squared

การทดสอบ (โดยทั่วไปคือการกระจายความเป็นอิสระหรือความเหมาะสม) หรือตระกูลของการแจกแจงที่เกี่ยวข้องกับการทดสอบดังกล่าว

1
ที่ระดับอะไรคือการทดสอบ
ความเป็นมา:ข้ามอย่างปลอดภัย - อยู่ที่นี่เพื่อการอ้างอิงและทำให้คำถามถูกต้อง การเปิดอ่านบทความนี้: "การทดสอบไคสแควร์ที่มีชื่อเสียงของคาร์ลเพียร์สันได้มาจากสถิติอื่นที่เรียกว่าสถิติซีตามการแจกแจงแบบปกติรุ่นที่ง่ายที่สุดของχ2χ2\chi^2สามารถแสดงให้เห็นว่าเป็นคณิตศาสตร์ในทางคณิตศาสตร์เหมือนกับการทดสอบซีที่เทียบเท่า ในทุกสถานการณ์สำหรับทุกเจตนารมณ์และวัตถุประสงค์ "ไคสแควร์" อาจเรียกว่า "ซีสแควร์" ค่าวิกฤตของχ2χ2\chi^2สำหรับระดับอิสระหนึ่งระดับคือจตุรัสของค่าวิกฤตที่สอดคล้องกันของซี " นี้ได้รับการยืนยันหลายครั้งใน CV ( ที่นี่ , ที่นี่ , ที่นี่และอื่น ๆ ) และแน่นอนเราสามารถพิสูจน์ได้ว่าχ21dfχ1df2\chi^2_{1\,df}เทียบเท่ากับX2X2X^2ด้วยX∼N(0,1)X∼N(0,1)X\sim N(0,1): สมมติว่าX∼N(0,1)X∼N(0,1)X \sim N(0,1)และY=X2Y=X2Y=X^2และค้นหาความหนาแน่นของYYYโดยใช้วิธีcdfcdfcdf : ) ปัญหาคือเราไม่สามารถรวมความหนาแน่นของการแจกแจงแบบปกติในรูปแบบปิด แต่เราสามารถแสดงได้:p(Y≤y)=p(X2≤y)=p(−y√≤x≤y√)p(Y≤y)=p(X2≤y)=p(−y≤x≤y)p(Y \leq y) = p(X^2 \leq y)= p(-\sqrt{y} \leq x \leq \sqrt{y}) รับอนุพันธ์:FX(y)=FX(y√)−FX(−y√).FX(y)=FX(y)−FX(−y). F_X(y) = F_X(\sqrt{y})- F_X(-\sqrt[]{y}). fX(y)=F′X(y√)12y√+F′X(−y−−−√)12y√.fX(y)=FX′(y)12y+FX′(−y)12y. f_X(y)= F_X'(\sqrt{y})\,\frac{1}{2\sqrt{y}}+ F_X'(\sqrt{-y})\,\frac{1}{2\sqrt{y}}. …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
เหตุใดจึงใช้ไคสแควร์เมื่อสร้างช่วงความมั่นใจสำหรับความแปรปรวน
นี่เป็นคำถามพื้นฐานมาก ทำไมเราถึงใช้การแจกแจงแบบไคสแควร์? ความหมายของการแจกแจงนี้คืออะไร? ทำไมการแจกแจงแบบนี้ใช้สำหรับสร้างช่วงความมั่นใจสำหรับความแปรปรวน? ทุกสถานที่ที่ฉัน google สำหรับคำอธิบายเพียงนำเสนอความจริงนี้อธิบายว่าเมื่อใดที่จะใช้ไค แต่ไม่ได้อธิบายว่าทำไมต้องใช้ไคและทำไมมันดูวิธีที่มันทำ ขอบคุณมากสำหรับใครก็ตามที่ชี้ให้ฉันไปในทิศทางที่ถูกต้องและนั่นคือ - เข้าใจจริงๆว่าทำไมฉันถึงใช้ไคเมื่อฉันสร้างช่วงความมั่นใจสำหรับความแปรปรวน

4
ค่าที่คาดหวังกับค่าที่น่าจะเป็นที่สุด (โหมด)
ค่าที่คาดหวังของการแจกแจงคือค่าเฉลี่ยนั่นคือค่าเฉลี่ยถ่วงน้ำหนัก f(x)f(x)f(x)E[x]=∫+∞−∞xf(x)dxE[x]=∫−∞+∞xf(x)dxE[x]=\int_{-\infty}^{+\infty} x \, \, f(x) dx ค่าที่เป็นไปได้มากที่สุดคือโหมดซึ่งเป็นค่าที่น่าจะเป็นที่สุด อย่างไรก็ตามเราคาดหวังว่าจะเห็นหลายครั้ง? ข้อความจากที่นี่ :E[x]E[x]E[x] หากผลลัพธ์ไม่น่าจะเท่ากันดังนั้นค่าเฉลี่ยอย่างง่ายจะต้องถูกแทนที่ด้วยค่าเฉลี่ยถ่วงน้ำหนักซึ่งคำนึงถึงความจริงที่ว่าผลลัพธ์บางอย่างมีแนวโน้มมากกว่าคนอื่น ๆ สัญชาตญาณ แต่ยังคงเหมือนเดิม: มูลค่าที่คาดหวังของคือสิ่งหนึ่งที่คาดว่าจะเกิดขึ้นโดยเฉลี่ยxixix_ixxx ฉันไม่สามารถเข้าใจสิ่งที่ "เกิดขึ้นโดยเฉลี่ย" หมายความว่านี่หมายถึงว่าสำหรับ istance ใช้เวลานานมากในการคาดหวังว่าจะเห็นมากกว่าค่าอื่น ๆ ของหรือไม่? แต่นี่ไม่ใช่นิยามของโหมดใช่ไหมE[x]E[x]E[x]xxx ดังนั้นวิธีการตีความคำสั่งหรือไม่ ความหมายความน่าจะเป็นของคืออะไร?E[x]E[x]E[x] ฉันต้องการแสดงตัวอย่างที่ทำให้สับสน การศึกษาการฉันได้เรียนรู้ว่าโหมด นี้คือχ 2 m o d e = ν - 2ในขณะที่E [ χ 2 ] = νโดยที่νคือองศาของอิสระของข้อมูลχ2χ2\chi^2χ2mode=ν−2χmode2=ν−2\chi^2_{mode}=\nu-2E[χ2]=νE[χ2]=νE[\chi^2]=\nuνν\nu ผมได้ยินที่มหาวิทยาลัยว่าเมื่อทำทดสอบหลังการใช้สแควน้อยวิธีการเพื่อให้พอดีกับชุดของข้อมูลที่ฉันควรคาดหวังว่าจะได้รับχ 2 ≈ เข้าพบเพราะ "ว่าสิ่งที่เกิดขึ้นโดยทั่วไป"χ2χ2\chi^2χ2≈νχ2≈ν\chi^2 \approx …

1
การเลือกคุณสมบัติ Chi-Square ทำงานอย่างไร
ฉันรู้ว่าสำหรับคู่ของฟีเจอร์คลาสแต่ละคู่ค่าของสถิติไคสแควร์จะถูกคำนวณและเปรียบเทียบกับขีด จำกัด ฉันสับสนเล็กน้อย หากมีคุณสมบัติและคลาสหนึ่งจะสร้างตารางฉุกเฉินได้อย่างไร ใครจะเป็นผู้ตัดสินใจว่าจะเก็บฟีเจอร์ใดและฟีเจอร์ใดที่จะลบ?ม.ม.mkkk การชี้แจงใด ๆ จะได้รับการชื่นชมมาก ขอบคุณล่วงหน้า

1
ขอบเขตหางรู้จักที่คมชัดที่สุดสำหรับตัวแปรแบบกระจายคืออะไร
Letจะเป็นตัวแปรสุ่มไคสแควกระจายกับองศาอิสระ ขอบเขตที่ทราบกันดีที่สุดสำหรับความน่าจะเป็นดังต่อไปนี้คืออะไรX∼χ2kX∼χk2X \sim \chi^2_kkkk P[X&gt;t]≤1−δ1(t,k)P[X&gt;t]≤1−δ1(t,k) \mathbb{P}[X > t] \leq 1 - \delta_1(t, k) และ P[X&lt;z]≤1−δ2(z,k)P[X&lt;z]≤1−δ2(z,k) \mathbb{P}[X < z] \leq 1 - \delta_2(z, k) โดยที่และเป็นฟังก์ชั่นบางอย่าง ตัวชี้ไปยังเอกสารที่เกี่ยวข้องจะได้รับการชื่นชมδ1δ1\delta_1δ2δ2\delta_2

1
ความสัมพันธ์ระหว่างการแจกแจงแกมม่าและไคสแควร์
ถ้าโดยที่X i ∼ N ( 0 , σ 2 ) , นั่นคือXทั้งหมดของฉันคือ iid ตัวแปรสุ่มแบบสุ่มของศูนย์หมายความว่ามีค่าความแปรปรวนเดียวกันจากนั้นY ∼ Γ ( NY= ∑i = 1ยังไม่มีข้อความX2ผมY=∑i=1NXi2Y=\sum_{i=1}^{N}X_i^2Xผม∼ N( 0 , σ2)Xi∼N(0,σ2)X_i \sim \mathcal{N}(0,\sigma^2)XผมXiX_iY∼ Γ ( N2, 2 σ2) .Y∼Γ(N2,2σ2).Y \sim \Gamma\left(\frac{N}{2},2\sigma^2\right). ฉันรู้ว่าการกระจายตัวไคสแควร์เป็นกรณีพิเศษของการแจกแจงแกมม่า แต่ไม่สามารถหาการกระจายไคสแควร์สำหรับตัวแปรสุ่มได้ มีอะไรให้ช่วยไหม?YYY

1
คาร์ลเพียร์สันคิดสถิติไคสแควร์อย่างไร
เพียร์สันเกิดขึ้นได้อย่างไรกับสถิติเพียร์สันไคสแควร์ในปี 1900 ที่ K~χ2K=∑(Oij−Eij)2EijK=∑(Oij−Eij)2Eij K = \sum \frac{(O_{ij} -E_{ij})^2}{E_{ij}} K∼χ2K∼χ2 K \sim \chi^2 เขาคิดแบบไคสแควร์แล้วคิดมาตรวัดKKK (วิธีการจากล่างขึ้นบน) หรือเขาคิดค่าสถิติและต่อมาพิสูจน์ว่ามันเป็นไปตามการแจกแจงไคสแควร์ (บนลงล่าง)? ฉันต้องการที่จะรู้ว่าทำไมเขาถึงเลือกว่ารูปแบบที่เฉพาะเจาะจงและไม่ได้อื่น ๆ เช่นหรือΣ | O i j - E i j | และทำไมเขาจึงแบ่งสี่เหลี่ยมกับตัวส่วน∑(Oij−Eij)2∑(Oij−Eij)2\sum(O_{ij} -E_{ij})^2∑|Oij−Eij|∑|Oij−Eij|\sum|O_{ij} -E_{ij}|

2
การกระจายตัวของความแปรปรวนของตัวแปรกำลังสองและไคสแควร์?
ปัญหาต่อไปนี้เกิดขึ้นเมื่อเร็ว ๆ นี้ขณะวิเคราะห์ข้อมูล หากตัวแปรสุ่ม X ตามการแจกแจงปกติและ Y ตามการแจกแจงχ2nχn2\chi^2_n (ด้วย n dof) Z=X2+Y2Z=X2+Y2Z = X^2 + Y^2กระจายอย่างไร ถึงตอนนี้ฉันมากับ pdf ของY2Y2Y^2 : ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} …

1
ทดสอบความแตกต่างระหว่างการแจกแจงแบบไม่ต่อเนื่องเชิงประจักษ์ 2 ครั้ง
ฉันมีข้อมูลทดสอบที่มีตัวอย่างจำนวนมากจากการกระจายแบบไม่ต่อเนื่องซึ่งฉันใช้เป็นการแจกแจงเชิงประจักษ์ ฉันต้องการทดสอบว่าการแจกแจงนั้นแตกต่างกันจริงหรือไม่และความแตกต่างในค่าเฉลี่ยนั้นสำหรับการแจกแจงที่ต่างกันจริงหรือไม่ เนื่องจากเป็นดิสทริบิวชันแบบไม่ต่อเนื่องความเข้าใจของฉันก็คือการทดสอบ Kolmogorov-Smirnov นั้นไม่ถูกต้องเนื่องจากสมมติฐานการกระจายอย่างต่อเนื่อง การทดสอบ Chi-Squared จะเป็นการทดสอบที่ถูกต้องหรือไม่ว่าการแจกแจงนั้นแตกต่างกันจริงหรือไม่? ฉันจะใช้การทดสอบใดสำหรับความแตกต่างของค่าเฉลี่ย วิธีที่ดีกว่าคือการสุ่มตัวอย่างจากการแจกแจงและรับความแตกต่างจากนั้นทำการวิเคราะห์การกระจายความแตกต่าง

2
การบังคับใช้การทดสอบไคสแควร์ถ้าเซลล์จำนวนมากมีความถี่น้อยกว่า 5
เพื่อค้นหาความสัมพันธ์ระหว่างการสนับสนุนของเพื่อน (ตัวแปรอิสระ) และความพึงพอใจในการทำงาน (ตัวแปรตาม) ฉันต้องการใช้การทดสอบไคสแควร์ การสนับสนุนของเพื่อนคือหมวดหมู่ในสี่กลุ่มตามขอบเขตของการสนับสนุน: 1 = ขอบเขตที่น้อยมาก 2 = บางส่วน 3 = ถึงมากและ 4 = ถึงระดับที่ดีมาก ความพึงพอใจในการทำงานคือหมวดหมู่เป็นสอง: 0 = ไม่พอใจและ 1 = พอใจ ผลลัพธ์ SPSS บอกว่าความถี่เซลล์ 37.5 เปอร์เซ็นต์น้อยกว่า 5 ขนาดตัวอย่างของฉันคือ 101 และฉันไม่ต้องการลดหมวดหมู่ในตัวแปรอิสระให้มีจำนวนน้อยลง ในสถานการณ์นี้มีการทดสอบอื่นใดที่สามารถนำไปใช้เพื่อทดสอบการเชื่อมโยงนี้ได้หรือไม่

3
ระเบิดอยู่ที่ไหน: จะประเมินความน่าจะเป็นอย่างไร, ผลรวมแถวและคอลัมน์ที่ได้รับ?
คำถามนี้ได้รับแรงบันดาลใจจากมินิเกมจาก Pokemon Soulsilver: ลองนึกภาพมี 15 ระเบิดซ่อนอยู่ในพื้นที่ 5x6 นี้ (แก้ไข: สูงสุด 1 ระเบิด / เซลล์): ทีนี้คุณจะประเมินความน่าจะเป็นในการหาลูกระเบิดในสนามที่ระบุโดยรวมของแถว / คอลัมน์อย่างไร หากคุณดูที่คอลัมน์ 5 (จำนวนระเบิดทั้งหมด = 5) คุณอาจคิดว่า: ภายในคอลัมน์นี้โอกาสที่จะพบระเบิดในแถวที่ 2 นั้นเพิ่มเป็นสองเท่าของโอกาสที่จะพบหนึ่งในแถวที่ 1 สมมติฐาน (ผิด) นี้ของสัดส่วนโดยตรงซึ่งโดยทั่วไปสามารถอธิบายได้ว่าเป็นการวาดมาตรฐานการดำเนินการทดสอบอิสระ (เช่นใน Chi-Square) ในบริบทที่ไม่ถูกต้องจะนำไปสู่การประมาณดังต่อไปนี้: อย่างที่คุณเห็นสัดส่วนโดยตรงจะนำไปสู่การประมาณความน่าจะเป็นมากกว่า 100% และก่อนหน้านั้นจะผิด ดังนั้นฉันจึงทำการจำลองการคำนวณของพีชคณิตที่เป็นไปได้ทั้งหมดซึ่งนำไปสู่ ​​276 ความเป็นไปได้ที่ไม่ซ้ำกันของการวางระเบิด 15 ครั้ง (ผลรวมของแถวและคอลัมน์ที่กำหนด) นี่คือค่าเฉลี่ยของโซลูชัน 276 รายการ: นี่เป็นวิธีแก้ไขที่ถูกต้อง แต่เนื่องจากงานคำนวณเลขชี้กำลังฉันต้องการค้นหาวิธีการประมาณค่า คำถามของฉันคือตอนนี้: มีวิธีการทางสถิติที่จัดตั้งขึ้นเพื่อประเมินสิ่งนี้หรือไม่? ฉันสงสัยว่านี่เป็นปัญหาที่ทราบแล้วมันถูกเรียกอย่างไรและหากมีเอกสาร …

5
สามารถใช้ไคสแควร์เพื่อเปรียบเทียบสัดส่วนได้หรือไม่?
ฉันได้อ่านว่าการทดสอบไคสแควร์มีประโยชน์เพื่อดูว่าตัวอย่างแตกต่างจากชุดของค่าที่คาดหวังอย่างมีนัยสำคัญหรือไม่ ตัวอย่างเช่นนี่คือตารางผลการสำรวจเกี่ยวกับสีโปรดของผู้คน (n = 15 + 13 + 10 + 17 = 55 ผู้ตอบแบบสอบถามทั้งหมด): red,blue,green,yellow 15,13,10,17 การทดสอบไคสแควร์สามารถบอกฉันได้ว่าตัวอย่างนี้แตกต่างจากสมมุติฐานว่างของความน่าจะเป็นที่เท่ากันของผู้ที่ชื่นชอบแต่ละสีหรือไม่ คำถาม: สามารถทำการทดสอบตามสัดส่วนของผู้ตอบแบบสอบถามทั้งหมดที่ชอบสีที่ต้องการได้หรือไม่? ชอบด้านล่าง: red,blue,green,yellow 0.273,0.236,0.182,0.309 แน่นอนที่ 0.273 + 0.236 + 0.182 + 0.309 = 1 หากการทดสอบไคสแควร์ไม่เหมาะในกรณีนี้การทดสอบแบบใดจะเป็นอย่างไร ขอบคุณ! แก้ไข: ฉันลอง @Roman Luštrikคำตอบด้านล่างและได้ผลลัพธ์ต่อไปนี้เหตุใดฉันจึงไม่ได้รับค่า p และทำไม R บอกว่า "การประมาณ Chi-squared อาจไม่ถูกต้อง"? &gt; chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)) Chi-squared …

1
LARS เทียบกับโคตรของโคตร
ข้อดีและข้อเสียของการใช้ LARS [1] เมื่อเทียบกับการใช้โคตรของพิกัดสำหรับการถดถอยเชิงเส้นแบบ L1 ที่เหมาะสมคืออะไร ฉันสนใจในเรื่องของประสิทธิภาพเป็นหลัก (ปัญหาของฉันมักจะNอยู่ในหลักแสนและp&lt;20) อย่างไรก็ตามข้อมูลเชิงลึกอื่น ๆ ก็จะได้รับการชื่นชมเช่นกัน แก้ไข: เนื่องจากฉันได้โพสต์คำถาม, chl ได้ชี้ให้เห็นกระดาษ [2] โดย Friedman และคณะที่พิกัดโคตรถูกแสดงว่าเร็วกว่าวิธีอื่นมาก หากเป็นกรณีนี้ฉันควรเป็นผู้ประกอบการเพียงแค่ลืมเกี่ยวกับ LARS ในความโปรดปรานของการสืบเชื้อสายมาประสานงาน? [1] Efron, Bradley; Hastie เทรเวอร์; Johnstone, Iain และ Tibshirani, Robert (2004) "การถดถอยมุมน้อยที่สุด" พงศาวดารของสถิติ 32 (2): pp 407–499 [2] Jerome H. Friedman, Trevor Hastie, Rob Tibshirani, "เส้นทางการทำให้เป็นมาตรฐานสำหรับตัวแบบเชิงเส้นทั่วไปผ่านพิกัดโคตร", วารสารซอฟท์แวร์สถิติ, อัตรา …

1
แพคเกจ GBM กับ Caret ใช้ GBM
ฉันเคยใช้การจูนโมเดลcaretแต่แล้วก็รันโมเดลอีกครั้งโดยใช้gbmแพ็คเกจ ฉันเข้าใจว่าcaretแพ็กเกจที่ใช้gbmและเอาต์พุตควรเหมือนกัน อย่างไรก็ตามการทดสอบการทำงานอย่างรวดเร็วโดยใช้data(iris)แสดงความแตกต่างในรูปแบบประมาณ 5% โดยใช้ RMSE และ R ^ 2 เป็นตัวชี้วัดการประเมินผล ฉันต้องการค้นหาประสิทธิภาพของแบบจำลองที่ดีที่สุดโดยใช้caretแต่เรียกใช้อีกครั้งgbmเพื่อใช้ประโยชน์จากแผนการพึ่งพาบางส่วน รหัสด้านล่างสำหรับการทำซ้ำ คำถามของฉันจะเป็น: 1) เหตุใดฉันจึงเห็นความแตกต่างระหว่างแพ็คเกจทั้งสองนี้ถึงแม้ว่าพวกเขาจะเหมือนกัน (ฉันเข้าใจว่าพวกมันสุ่ม แต่ 5% ค่อนข้างแตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อฉันไม่ได้ใช้ชุดข้อมูลที่ดีirisสำหรับการสร้างแบบจำลองของฉัน) . 2) มีข้อดีหรือข้อเสียในการใช้ทั้งสองแพคเกจหรือไม่ 3) ไม่เกี่ยวข้อง: การใช้irisชุดข้อมูลที่ดีที่สุดinteraction.depthคือ 5 แต่สูงกว่าที่ฉันได้อ่านควรจะใช้สูงสุดfloor(sqrt(ncol(iris)))ซึ่งควรจะเป็น 2 นี่เป็นกฎง่ายๆหรือเข้มงวดหรือไม่? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid &lt;- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.