สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การตีความค่าส่วนที่เหลือเทียบกับค่าพล็อตที่ติดตั้งเพื่อตรวจสอบสมมติฐานของโมเดลเชิงเส้น
พิจารณารูปต่อไปนี้จากรุ่นเชิงเส้นของ Faraway ด้วย R (2005, p. 59) พล็อตแรกนั้นดูเหมือนว่าบ่งบอกว่าส่วนที่เหลือและค่าติดตั้งนั้นไม่ได้มีความสัมพันธ์กันเนื่องจากพวกมันควรอยู่ในโมเดลเชิงเส้น homoscedastic ที่มีข้อผิดพลาดกระจายตามปกติ ดังนั้นพล็อตที่สองและสามซึ่งดูเหมือนจะบ่งบอกถึงการพึ่งพาระหว่างค่าตกค้างและค่าติดตั้งแนะนำรูปแบบที่แตกต่างกัน แต่ทำไมพล็อตที่สองถึงแนะนำเช่น Faraway บันทึกเป็นโมเดลเชิงเส้นตรงแบบเฮเทอโรเซดีติกในขณะที่พล็อตที่สามแนะนำโมเดลที่ไม่ใช่เชิงเส้น? พล็อตที่สองดูเหมือนว่าจะแสดงให้เห็นว่าค่าสัมบูรณ์ของส่วนที่เหลือมีความสัมพันธ์เชิงบวกอย่างมากกับค่าติดตั้งในขณะที่ไม่มีแนวโน้มดังกล่าวปรากฏชัดในพล็อตที่สาม ดังนั้นหากเป็นกรณีที่การพูดเชิงทฤษฎีในแบบจำลองเชิงเส้นตรงแบบ heteroscedastic ที่มีข้อผิดพลาดกระจายทั่วไป Cor(e,y^)=⎡⎣⎢⎢1⋮1⋯⋱⋯1⋮1⎤⎦⎥⎥Cor(e,y^)=[1⋯1⋮⋱⋮1⋯1] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (ที่นิพจน์ทางซ้ายคือเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมระหว่างค่าตกค้างและค่าติดตั้ง) สิ่งนี้จะอธิบายว่าทำไมแปลงที่สองและสามเห็นด้วยกับการตีความของ Faraway แต่เป็นกรณีนี้หรือไม่ ถ้าไม่เช่นนั้นการตีความของ Faraway เกี่ยวกับแผนการแปลงที่สองและสามจะเป็นธรรมได้อย่างไร นอกจากนี้ทำไมพล็อตที่สามจำเป็นต้องระบุว่าไม่ใช่เชิงเส้น? เป็นไปได้หรือไม่ว่ามันเป็นแบบเส้นตรง แต่ความผิดพลาดนั้นไม่ได้กระจายตามปกติหรืออย่างอื่นที่พวกมันกระจายแบบปกติ …

1
สัมประสิทธิ์การถดถอยแบบลอจิสติกเปลี่ยนแปลงเปลี่ยนแปลงหรือไม่?
ถ้าฉันมีชุดข้อมูลที่มีคลาสบวกที่หายากมากและฉันลบกลุ่มตัวอย่างที่เป็นลบจากนั้นทำการถดถอยโลจิสติกฉันต้องปรับค่าสัมประสิทธิ์การถดถอยเพื่อสะท้อนความจริงที่ว่าฉันเปลี่ยนความชุกของคลาสบวกหรือไม่ ตัวอย่างเช่นสมมติว่าฉันมีชุดข้อมูลที่มีตัวแปร 4 ตัวคือ Y, A, B และ C Y, A และ B เป็นเลขฐานสอง, C เป็นแบบต่อเนื่อง สำหรับการสังเกต 11,100 Y = 0 และสำหรับ 900 Y = 1: set.seed(42) n <- 12000 r <- 1/12 A <- sample(0:1, n, replace=TRUE) B <- sample(0:1, n, replace=TRUE) C <- rnorm(n) Y <- ifelse(10 * …

2
การเลือกรุ่นและการตรวจสอบข้าม: วิธีการที่ถูกต้อง
มีหลายเธรดใน CrossValidated ในหัวข้อการเลือกรุ่นและการตรวจสอบความถูกต้อง นี่คือบางส่วน: การตรวจสอบความถูกต้องไขว้ภายนอกและการเลือกรุ่น คำตอบยอดนิยมของ @ @ DikranMarsupial สำหรับการเลือกคุณสมบัติและการตรวจสอบความถูกต้องข้าม อย่างไรก็ตามคำตอบของเธรดเหล่านั้นค่อนข้างทั่วไปและเน้นประเด็นด้วยวิธีการเฉพาะเพื่อการตรวจสอบข้ามและการเลือกแบบจำลอง ในการทำสิ่งต่าง ๆ ให้เป็นรูปธรรมมากที่สุดให้พูดเช่นว่าเรากำลังทำงานกับ SVM ด้วยเคอร์เนล RBF: และนั่น ฉันมีชุดข้อมูลของคุณสมบัติXและป้ายกำกับyและฉันต้องการK(x,x′)=(γ|x−x′|)2K(x,x′)=(γ|x−x′|)2K(x, x' ) = (\gamma \, \vert x - x'\vert)^2 ค้นหาค่าที่ดีที่สุดเท่าที่จะเป็นไปได้ในโมเดลของฉัน (และγγ\gammaCCC ) ฝึกอบรม SVM ด้วยชุดข้อมูลของฉัน (สำหรับการปรับใช้ขั้นสุดท้าย) ประเมินข้อผิดพลาดทั่วไปและความไม่แน่นอน (ความแปรปรวน) รอบข้อผิดพลาดนี้ ในการทำเช่นนั้นฉันจะค้นหากริดเป็นการส่วนตัวเช่นฉันลองชุดค่าผสม และไปได้ทั้งหมด เพื่อความง่ายเราสามารถสมมติช่วงต่อไปนี้:CCCγγ\gamma C∈{10,100,1000}C∈{10,100,1000}C \in \{10, 100, 1000\} γ∈{0.1,0.2,0.5,1.0}γ∈{0.1,0.2,0.5,1.0}\gamma \in \{0.1, 0.2, …


3
ทำไมเมทริกซ์สหสัมพันธ์จึงต้องมีค่ากึ่งบวกแน่นอนและมันหมายความว่าอะไรเป็นค่ากึ่งบวกแน่นอน?
ฉันได้ค้นคว้าความหมายของคุณสมบัติกึ่งบวกแน่นอนของสหสัมพันธ์หรือเมทริกซ์ความแปรปรวนร่วม ฉันกำลังมองหาข้อมูลใด ๆ นิยามของความแน่นอนกึ่งบวก คุณสมบัติที่สำคัญของมันผลกระทบในทางปฏิบัติ; ผลที่ตามมาของการมีปัจจัยลบผลกระทบต่อการวิเคราะห์หลายตัวแปรหรือผลการจำลอง ฯลฯ

2
อะไรคือความแตกต่างในทางปฏิบัติระหว่าง Benjamini & Hochberg (1995) และ Benjamini & Yekutieli (2001) ขั้นตอนอัตราการค้นพบที่ผิด?
โปรแกรมสถิติของฉันใช้ทั้ง Benjamini และ Hochberg (1995) และ Benjamini & Yekutieli (2001) ขั้นตอนการค้นพบที่ผิด (FDR) ฉันพยายามอ่านบทความต่อไปให้ดีที่สุด แต่มันค่อนข้างหนาแน่นทางคณิตศาสตร์และฉันก็ไม่แน่ใจว่าฉันเข้าใจความแตกต่างระหว่างกระบวนการ ฉันสามารถดูได้จากรหัสอ้างอิงในโปรแกรมสถิติของฉันว่าพวกเขาแตกต่างกันอย่างแน่นอนและที่หลังรวมถึงปริมาณ q ที่ฉันได้เห็นอ้างถึงเกี่ยวกับ FDR แต่ก็ไม่ค่อยเข้าใจ มีเหตุผลใดที่จะชอบขั้นตอนของ Benjamini & Hochberg (1995) เมื่อเทียบกับขั้นตอนของ Benjamini & Yekutieli (2001)? พวกเขามีสมมติฐานที่แตกต่างกันหรือไม่? อะไรคือความแตกต่างในทางปฏิบัติระหว่างแนวทางเหล่านี้ Benjamini, Y. และ Hochberg, Y. (1995) การควบคุมอัตราการค้นพบที่ผิด: วิธีการปฏิบัติและมีประสิทธิภาพในการทดสอบหลายรายการ วารสารสมาคมสถิติราชวงศ์แบบ B, 57, 289–300 Benjamini, Y. และ Yekutieli, D. (2001) การควบคุมอัตราการค้นพบที่ผิดพลาดในการทดสอบหลายรายการภายใต้การพึ่งพา …

3
ค่าปกติของตัวแปรตาม = ค่าปกติของเศษเหลือ?
ดูเหมือนว่าปัญหานี้จะทำให้หัวของมันน่าเกลียดอยู่ตลอดเวลาและฉันพยายามที่จะประหารชีวิตเพื่อความเข้าใจสถิติของตัวเอง (และมีสติ!) สมมติฐานของตัวแบบเชิงเส้นทั่วไป (t-test, ANOVA, การถดถอย ฯลฯ ) รวมถึง "สมมติฐานของความปกติ" แต่ฉันได้พบว่าสิ่งนี้ไม่ค่อยได้อธิบายอย่างชัดเจน ฉันมักจะเจอสถิติตำรา / คู่มือ / ฯลฯ เพียงแค่ระบุว่า "ข้อสันนิษฐานของภาวะปกติ" นำไปใช้กับแต่ละกลุ่ม (เช่นตัวแปร X เด็ดขาด) และเราเราควรจะตรวจสอบการออกเดินทางจากปกติสำหรับแต่ละกลุ่ม คำถาม : สมมติฐานนี้อ้างถึงค่าของ Y หรือค่าตกค้างของ Y หรือไม่ สำหรับกลุ่มใดเป็นไปได้ไหมที่จะมีการแจกแจงค่า Y ที่ไม่ปกติอย่างรุนแรง(เช่นเอียง) แต่การกระจายตัวของ Y ที่เหลืออยู่โดยประมาณ (หรืออย่างน้อยกว่าปกติ) แหล่งข้อมูลอื่น ๆ อธิบายว่าข้อสันนิษฐานที่เกี่ยวข้องกับส่วนที่เหลือของแบบจำลอง (ในกรณีที่มีกลุ่มเช่น t-tests / ANOVA) และเราควรตรวจสอบการออกจากภาวะปกติของสิ่งตกค้างเหล่านี้ (เช่นเพียง QQ plot / test …

5
Backpropagation กับขั้นตอนวิธีเชิงพันธุกรรมสำหรับการฝึกอบรมโครงข่ายประสาทเทียม
ฉันได้อ่านบทความสองสามฉบับเกี่ยวกับข้อดีข้อเสียของแต่ละวิธีบางคนโต้แย้งว่า GA ไม่ได้ปรับปรุงการหาทางออกที่ดีที่สุดในขณะที่คนอื่น ๆ แสดงว่ามันมีประสิทธิภาพมากกว่า ดูเหมือนว่า GA เป็นที่ต้องการโดยทั่วไปในวรรณกรรม (แม้ว่าคนส่วนใหญ่จะปรับเปลี่ยนเพื่อให้ได้ผลลัพธ์ตามที่ต้องการ) ดังนั้นทำไมโซลูชันซอฟต์แวร์ส่วนใหญ่จึงใช้ backpropagation เท่านั้น มีกฎทั่วไปของหัวแม่มือเมื่อใช้อย่างใดอย่างหนึ่งหรือไม่? บางทีมันอาจขึ้นอยู่กับประเภทของ NN หรือมีวิธีการแก้ปัญหาบางอย่างที่โดยทั่วไปมีประสิทธิภาพสูงกว่าคนอื่น ถ้าเป็นไปได้ฉันกำลังมองหาคำตอบทั่วไป: เช่น "ถ้า NN มีค่ามาก GA ดีกว่า" หรือ "GA ดีกว่าเสมอ แต่มีปัญหาประสิทธิภาพการคำนวณ" ฯลฯ ...

3
ฉันจะทดสอบได้อย่างไรว่าเอฟเฟกต์แบบสุ่มนั้นสำคัญหรือไม่
ฉันพยายามเข้าใจว่าควรใช้เอฟเฟกต์แบบสุ่มเมื่อใดและไม่จำเป็น ฉันถูกบอกแล้วว่ากฎง่ายๆคือถ้าคุณมี 4 คนขึ้นไป / กลุ่มที่ฉันทำ (15 ตัวมูซแต่ละตัว) กวางมูซเหล่านี้บางส่วนถูกทดลองใน 2 หรือ 3 ครั้งรวมเป็น 29 การทดลอง ฉันต้องการที่จะรู้ว่าพวกเขาทำงานแตกต่างกันเมื่อพวกเขาอยู่ในภูมิทัศน์ที่มีความเสี่ยงสูงกว่าไม่ ดังนั้นฉันคิดว่าฉันจะตั้งค่าบุคคลเป็นผลสุ่ม อย่างไรก็ตามตอนนี้ฉันถูกบอกว่าไม่จำเป็นต้องรวมบุคคลนั้นเป็นเอฟเฟกต์แบบสุ่มเพราะไม่มีการตอบสนองที่หลากหลาย สิ่งที่ฉันไม่สามารถหาได้คือวิธีการทดสอบว่ามีอะไรบางอย่างที่เป็นจริงเมื่อทำการตั้งค่าบุคคลให้เป็นเอฟเฟกต์แบบสุ่ม อาจเป็นคำถามเริ่มต้น: การทดสอบ / การวินิจฉัยใดที่ฉันสามารถทำได้เพื่อแยกแยะว่าปัจเจกบุคคลเป็นตัวแปรอธิบายที่ดีหรือไม่และควรเป็นผลคงที่ - แปลง qq หรือไม่ histograms? แผนการกระจาย? และสิ่งที่ฉันจะมองหาในรูปแบบเหล่านั้น ฉันวิ่งโมเดลโดยที่แต่ละคนเป็นเอฟเฟกต์แบบสุ่มและไม่มี แต่ฉันอ่านhttp://glmm.wikidot.com/faqโดยที่พวกเขาระบุว่า: อย่าเปรียบเทียบโมเดล lmer กับ lm ที่เหมาะสมหรือ glmer / glm; บันทึกความน่าจะเป็นไม่ได้เป็นไปตามความเหมาะสม (กล่าวคือมีเงื่อนไขเพิ่มเติมต่างกัน) และที่นี่ฉันถือว่านี่หมายความว่าคุณไม่สามารถเปรียบเทียบระหว่างแบบจำลองที่มีเอฟเฟกต์แบบสุ่มหรือแบบไม่มี แต่ฉันไม่รู้ว่าควรเปรียบเทียบอะไรกันแน่ ในโมเดลของฉันที่มีเอฟเฟกต์แบบสุ่มฉันก็พยายามที่จะดูผลลัพธ์เพื่อดูว่าหลักฐานหรือนัยสำคัญชนิดใดที่ RE มี lmer(Velocity ~ D.CPC.min …

3
การจับคู่คะแนนความโน้มเอียงหลังจากการใส่หลายครั้ง
ฉันอ้างถึงเอกสารนี้ : Hayes JR, Groner JI "การใช้คะแนนความชอบและคะแนนความชอบหลายระดับเพื่อทดสอบผลกระทบของเบาะรถยนต์และการใช้เข็มขัดนิรภัยต่อความรุนแรงของการบาดเจ็บจากข้อมูลทะเบียนอุบัติเหตุ" J Pediatr Surg. 2008 พฤษภาคม; 43 (5): 924-7 ในการศึกษานี้ได้ทำการใส่ข้อมูลหลายชุดเพื่อรับชุดข้อมูลที่สมบูรณ์ 15 ชุด คะแนนความน่าเชื่อถือถูกคำนวณแล้วสำหรับแต่ละชุดข้อมูล จากนั้นสำหรับแต่ละหน่วยสังเกตการณ์บันทึกถูกเลือกแบบสุ่มจากหนึ่งใน 15 ชุดข้อมูลที่เสร็จสมบูรณ์ (รวมถึงคะแนนความชอบที่เกี่ยวข้อง) ดังนั้นการสร้างชุดข้อมูลสุดท้ายเดียวซึ่งถูกวิเคราะห์โดยการจับคู่คะแนนความชอบ คำถามของฉันคือ: นี่เป็นวิธีที่ถูกต้องหรือไม่ที่จะทำการจับคู่คะแนนความชอบหลังจากการใส่หลายครั้ง มีวิธีอื่นในการทำหรือไม่? สำหรับบริบท: ในโครงการใหม่ของฉันฉันมุ่งมั่นที่จะเปรียบเทียบผลของวิธีการรักษา 2 วิธีโดยใช้การจับคู่คะแนนความชอบ มีข้อมูลที่ขาดหายไปและฉันตั้งใจจะใช้MICEแพ็กเกจใน R เพื่อใส่ค่าที่หายไปจากนั้นtwangทำการจับคู่คะแนนความชอบและlme4วิเคราะห์ข้อมูลที่ตรงกัน Update1: ฉันได้พบบทความนี้ซึ่งใช้แนวทางที่แตกต่าง: Mitra, Robin และ Reiter, Jerome P. (2011) คะแนนความตรงกับการหายไปของโควาเรียผ่านการใส่ซ้ำหลายครั้งตามลำดับ [Working Paper] ในบทความนี้ผู้เขียนคำนวณคะแนนความน่าเชื่อถือในชุดข้อมูลที่กำหนดทั้งหมดแล้วรวมค่าเฉลี่ยด้วยการหาค่าเฉลี่ยซึ่งอยู่ในจิตวิญญาณของการใส่ความคิดหลายครั้งโดยใช้กฎของ Rubin สำหรับการประเมินจุด - …

3
วิธีการพิสูจน์ว่าฟังก์ชันพื้นฐานของเรเดียนเป็นเคอร์เนล
วิธีการพิสูจน์ว่าเรเดียนพื้นฐานฟังก์ชั่นเป็นเคอร์เนล? เท่าที่ฉันเข้าใจเพื่อพิสูจน์ว่าเราต้องพิสูจน์ข้อใดข้อหนึ่งต่อไปนี้:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) สำหรับชุดเวกเตอร์ใด ๆเมทริกซ์ =เป็น semidefinite บวกx1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} การแมปสามารถนำเสนอเช่น =\ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle ความช่วยเหลือใด ๆ
34 svm  kernel-trick 

3
ความแตกต่างระหว่างโมเดลเชิงเส้นทั่วไปกับโมเดลผสมเชิงเส้นทั่วไป
ฉันสงสัยว่าอะไรคือความแตกต่างระหว่าง GLM แบบผสมและแบบผสม ตัวอย่างเช่นใน SPSS เมนูแบบเลื่อนลงอนุญาตให้ผู้ใช้พอดี: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear พวกเขาจัดการกับค่าที่หายไปแตกต่างกันอย่างไร ตัวแปรตามของฉันคือไบนารีและฉันมีตัวแปรอิสระหลายหมวดหมู่และต่อเนื่อง

5
คุณสามารถ overfit โดยการฝึกอบรมอัลกอริทึมการเรียนรู้โดยใช้ CV / Bootstrap ได้หรือไม่?
คำถามนี้อาจเปิดกว้างเกินไปที่จะได้รับคำตอบที่ชัดเจน แต่หวังว่าจะไม่ อัลกอริทึมการเรียนรู้ของเครื่องเช่น SVM, GBM, Random Forest เป็นต้นโดยทั่วไปจะมีพารามิเตอร์อิสระบางอย่างที่นอกเหนือจากกฎของคำแนะนำนิ้วหัวแม่มือจำเป็นต้องปรับจูนให้กับแต่ละชุดข้อมูล โดยทั่วไปจะทำด้วยเทคนิคการสุ่มตัวอย่างใหม่ (bootstrap, CV ฯลฯ ) เพื่อให้พอดีกับชุดของพารามิเตอร์ที่ให้ข้อผิดพลาดในการวางนัยทั่วไปที่ดีที่สุด คำถามของฉันคือคุณไปไกลเกินไปไหม ผู้คนพูดคุยเกี่ยวกับการค้นหากริดตามที่กล่าวมา แต่ทำไมไม่เพียงแค่คิดว่านี่เป็นปัญหาการปรับให้เหมาะสมแล้วเจาะลึกไปที่ชุดของพารามิเตอร์ที่ดีที่สุด ฉันถามเกี่ยวกับกลไกบางอย่างของคำถามนี้แต่ก็ไม่ได้รับความสนใจมากนัก อาจเป็นคำถามที่ถามไม่ดี แต่บางทีคำถามนั้นแสดงถึงแนวทางที่ไม่ดีที่คนทั่วไปไม่ทำ สิ่งที่รบกวนจิตใจฉันคือขาดระเบียบ ฉันอาจค้นหาด้วยการสุ่มตัวอย่างอีกครั้งว่าจำนวนต้นไม้ที่ดีที่สุดที่จะเติบโตใน GBM สำหรับชุดข้อมูลนี้คือ 647 กับความลึกของการโต้ตอบที่ 4 แต่ฉันแน่ใจได้อย่างไรว่านี่จะเป็นจริงของข้อมูลใหม่ (สมมติว่าประชากรใหม่ เหมือนกับชุดฝึกอบรม) หรือไม่ ไม่มีค่าที่สมเหตุสมผลในการ 'ลดขนาด' เป็น (หรือถ้าคุณต้องการไม่มีข้อมูลก่อนหน้านี้) การสุ่มตัวอย่างใหม่ดูเหมือนว่าดีที่สุดที่เราสามารถทำได้ ฉันแค่ไม่ได้ยินคำพูดใด ๆ เกี่ยวกับเรื่องนี้ดังนั้นมันทำให้ฉันสงสัยว่ามีบางสิ่งที่ฉันขาดหายไป เห็นได้ชัดว่ามีค่าใช้จ่ายในการคำนวณจำนวนมากที่เกี่ยวข้องกับการทำซ้ำหลาย ๆ ครั้งเพื่อบีบพลังการคาดเดาสุดท้ายออกจากแบบจำลองดังนั้นชัดเจนว่านี่คือสิ่งที่คุณจะทำถ้าคุณมีเวลา / ไม่เต็มใจที่จะทำการปรับให้เหมาะสม ของการปรับปรุงประสิทธิภาพนั้นมีค่า

4
X และ Y ไม่มีความสัมพันธ์ แต่ X เป็นตัวทำนายที่สำคัญของ Y ในการถดถอยหลายครั้ง มันหมายความว่าอะไร?
X และ Y ไม่มีความสัมพันธ์ (-.01); อย่างไรก็ตามเมื่อฉันวาง X ลงในการพยากรณ์การถดถอยหลายครั้งพร้อมกับตัวแปร (A, B, C) อื่น (ที่เกี่ยวข้อง) ตัวแปรสามตัว, X และตัวแปรอื่นอีกสองตัว (A, B) เป็นตัวทำนายที่สำคัญของ Y โปรดทราบว่าอีกสอง ( ตัวแปร A, B) มีความสัมพันธ์อย่างมีนัยสำคัญกับ Y นอกการถดถอย ฉันควรตีความข้อค้นพบเหล่านี้อย่างไร X ทำนายความแปรปรวนที่ไม่ซ้ำกันใน Y แต่เนื่องจากสิ่งเหล่านี้ไม่มีความสัมพันธ์ (Pearson) จึงยากที่จะตีความ ฉันรู้กรณีตรงกันข้าม (เช่นตัวแปรสองตัวมีความสัมพันธ์กัน แต่การถดถอยไม่สำคัญ) และค่อนข้างง่ายกว่าที่จะเข้าใจจากมุมมองเชิงทฤษฎีและสถิติ โปรดทราบว่าตัวพยากรณ์บางตัวมีความสัมพันธ์กันค่อนข้างมาก (เช่น. 70) แต่ไม่ใช่ในระดับที่ฉันคาดหวังว่าจะมีความหลากหลายทางชีวภาพที่สำคัญ บางทีฉันอาจเข้าใจผิด หมายเหตุ: ฉันถามคำถามนี้ก่อนหน้านี้และมันถูกปิด เหตุผลก็คือคำถามนี้ซ้ำซ้อนกับคำถามที่ว่า " การถดถอยจะมีความสำคัญได้อย่างไรบางทีฉันไม่เข้าใจคำถามอื่น แต่ฉันเชื่อว่าคำถามเหล่านี้เป็นคำถามที่แยกจากกันทั้งในเชิงคณิตศาสตร์และเชิงทฤษฎีคำถามของฉันไม่ขึ้นอยู่กับว่า …

4
ข้อมูลมีสองแนวโน้ม วิธีแยกเส้นแนวโน้มอิสระ
ฉันมีชุดข้อมูลที่ไม่ได้เรียงลำดับ แต่อย่างใดเมื่อมีการวางแผนอย่างชัดเจนมีแนวโน้มที่แตกต่างกันสองอย่าง การถดถอยเชิงเส้นอย่างง่ายจะไม่เพียงพอที่นี่เพราะความแตกต่างที่ชัดเจนระหว่างสองชุด มีวิธีง่าย ๆ ในการรับเส้นแนวโน้มเชิงเส้นที่เป็นอิสระหรือไม่ สำหรับบันทึกที่ฉันใช้ Python และฉันรู้สึกสะดวกสบายกับการเขียนโปรแกรมและการวิเคราะห์ข้อมูลรวมถึงการเรียนรู้ของเครื่อง แต่ยินดีที่จะข้ามไปยัง R หากจำเป็นจริงๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.