สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ทำไมการแจกแจงแบบ T ใช้สำหรับการทดสอบสมมุติฐานสัมประสิทธิ์การถดถอยเชิงเส้น?
ในทางปฏิบัติการใช้ T-test มาตรฐานเพื่อตรวจสอบความสำคัญของสัมประสิทธิ์การถดถอยเชิงเส้นคือการปฏิบัติทั่วไป กลไกของการคำนวณนั้นสมเหตุสมผลสำหรับฉัน ทำไมการแจกแจงแบบ T สามารถใช้เป็นแบบจำลองสถิติการทดสอบมาตรฐานที่ใช้ในการทดสอบสมมติฐานการถดถอยเชิงเส้น สถิติทดสอบมาตรฐานฉันหมายถึงที่นี่: T0=βˆ−β0SE(βˆ)T0=β^−β0SE(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

2
เหตุใด Lasso หรือ ElasticNet จึงทำงานได้ดีกว่า Ridge เมื่อฟีเจอร์นั้นสัมพันธ์กัน
ฉันมีฟีเจอร์ 150 ชุดและส่วนใหญ่มีความสัมพันธ์ซึ่งกันและกัน เป้าหมายของฉันคือการทำนายค่าของตัวแปรที่ไม่ต่อเนื่องซึ่งเป็นช่วง1-8 ขนาดตัวอย่างของฉันคือ550และฉันใช้การตรวจสอบความถูกต้องข้าม10 เท่า AFAIK ในบรรดาวิธีการทำให้เป็นมาตรฐาน (Lasso, ElasticNet และ Ridge) Ridge มีความเข้มงวดมากขึ้นในการเชื่อมโยงระหว่างคุณลักษณะต่างๆ นั่นคือเหตุผลที่ฉันคาดว่าด้วย Ridge ฉันควรได้คำทำนายที่แม่นยำยิ่งขึ้น อย่างไรก็ตามผลลัพธ์ของฉันแสดงว่าค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยของ Lasso หรือ Elastic อยู่ที่ประมาณ0.61ในขณะที่คะแนนนี้เท่ากับ0.97สำหรับการถดถอยของสัน ฉันสงสัยว่าอะไรจะเป็นคำอธิบายสำหรับสิ่งนี้ นี่เป็นเพราะฉันมีคุณสมบัติมากมายและ Lasso ทำงานได้ดีขึ้นเพราะทำให้การเลือกคุณสมบัติเรียงลำดับโดยกำจัดคุณสมบัติที่ซ้ำซ้อนออกไป

4
วิธีการทำคลัสเตอร์ที่ไม่ต้องระบุจำนวนคลัสเตอร์ล่วงหน้า
มีวิธีการทำคลัสเตอร์แบบ "ไม่มีพารามิเตอร์" ซึ่งเราไม่จำเป็นต้องระบุจำนวนกลุ่มหรือไม่ และพารามิเตอร์อื่น ๆ เช่นจำนวนคะแนนต่อกลุ่มเป็นต้น
17 clustering 

3
การปรับปรุงแบบเบย์ด้วยข้อมูลใหม่
เราจะคำนวณหาด้านหลังด้วย N ~ (a, b) ก่อนหลังจากสังเกตจุดข้อมูลได้อย่างไร ฉันคิดว่าเราต้องคำนวณค่าเฉลี่ยตัวอย่างและความแปรปรวนของจุดข้อมูลและทำการคำนวณบางอย่างที่รวมหลังกับก่อนหน้านี้ แต่ฉันไม่แน่ใจว่าสูตรการรวมกันเป็นอย่างไร

5
การวัด“ ความแปรปรวน” จากเมทริกซ์ความแปรปรวนร่วม?
หากข้อมูลเป็น 1d ความแปรปรวนจะแสดงขอบเขตที่จุดข้อมูลแตกต่างกัน หากข้อมูลเป็นหลายมิติเราจะได้เมทริกซ์ความแปรปรวนร่วม มีการวัดที่ให้จำนวนจุดข้อมูลแตกต่างกันโดยทั่วไปสำหรับข้อมูลหลายมิติหรือไม่? ฉันรู้สึกว่าอาจมีวิธีแก้ไขมากมายอยู่แล้ว แต่ฉันไม่แน่ใจว่าคำที่ถูกต้องที่จะใช้ในการค้นหาพวกเขา บางทีฉันอาจทำบางอย่างเช่นการเพิ่มค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมได้, นั่นฟังดูสมเหตุสมผลหรือไม่?

3
จะตัดสินใจได้อย่างไรว่าตระกูล GLM ใดที่จะใช้?
ฉันมีข้อมูลความหนาแน่นของปลาที่ฉันพยายามเปรียบเทียบระหว่างเทคนิคการรวบรวมที่แตกต่างกันหลายอย่างข้อมูลมีค่าเป็นศูนย์จำนวนมากและฮิสโตแกรมมีลักษณะเป็น vaugley ที่เหมาะสมสำหรับการแจกแจงปัวซองยกเว้นว่าเป็นความหนาแน่นไม่ใช่ข้อมูลจำนวนเต็ม ฉันค่อนข้างใหม่สำหรับ GLM และใช้เวลาหลายวันที่ผ่านมาในการค้นหาทางออนไลน์เพื่อบอกวิธีการแจกจ่ายที่ใช้ แต่ล้มเหลวอย่างมากในการค้นหาแหล่งข้อมูลใด ๆ ที่ช่วยในการตัดสินใจ ฮิสโตแกรมตัวอย่างของข้อมูลมีลักษณะดังนี้: ฉันไม่รู้ว่าจะเลือกครอบครัวที่เหมาะสมเพื่อใช้กับ GLM อย่างไร หากใครมีคำแนะนำใด ๆ หรือสามารถให้ทรัพยากรฉันฉันควรตรวจสอบที่จะยอดเยี่ยม

3
R-squared เชิงลบหมายถึงอะไร
สมมติว่าฉันมีข้อมูลบางส่วนแล้วฉันก็พอดีกับข้อมูลด้วยแบบจำลอง (การถดถอยเชิงเส้น) จากนั้นฉันคำนวณ R-squared ( )R2R2R^2 เมื่อ R-squared เป็นลบนั่นหมายความว่าอย่างไร นั่นหมายความว่าแบบจำลองของฉันไม่ดีหรือไม่? ฉันรู้ว่าช่วงสามารถเป็น [-1,1] เมื่อเป็น 0 นั่นหมายความว่าอย่างไรR2R2R^2R2R2R^2

3
การถดถอยโลจิสติกหรือการทดสอบ T?
กลุ่มบุคคลตอบคำถามหนึ่งข้อ คำตอบอาจเป็น "ใช่" หรือ "ไม่" ผู้วิจัยต้องการทราบว่าอายุนั้นเกี่ยวข้องกับประเภทของคำตอบหรือไม่ ความสัมพันธ์ถูกประเมินโดยทำการถดถอยโลจิสติกโดยอายุเป็นตัวแปรอธิบายและประเภทของคำตอบ (ใช่ไม่ใช่) เป็นตัวแปรตาม มันถูกแยกจากกันโดยการคำนวณอายุเฉลี่ยของกลุ่มที่ตอบว่า "ใช่" และ "ไม่" ตามลำดับและทำการทดสอบTเพื่อเปรียบเทียบค่าเฉลี่ย การทดสอบทั้งสองดำเนินการตามคำแนะนำของบุคคลที่แตกต่างกันและไม่มีการทดสอบใดที่แน่นอนว่าเป็นวิธีที่เหมาะสม ในมุมมองของคำถามการวิจัยซึ่งจะเป็นการทดสอบที่ดีกว่า สำหรับการทดสอบสมมติฐานค่า p ไม่มีนัยสำคัญ (การถดถอย) และนัยสำคัญ (การทดสอบ T) ตัวอย่างน้อยกว่า 20 ราย

2
การแทนเอฟเฟ็กต์การโต้ตอบในกราฟ acyclic โดยตรง
กราฟไซเคิลกำกับ (DAGs; เช่น, กรีนแลนด์และอัล, 1999) เป็นส่วนหนึ่งของการอนุมานเชิงสาเหตุของการอนุมานเชิงสาเหตุจากการตีความเชิงลบของค่ายเหตุ ในกราฟเหล่านี้การมีลูกศรจากตัวแปรAAAไปยังตัวแปรอ้างว่าตัวแปรสาเหตุโดยตรง (การเปลี่ยนแปลงความเสี่ยง) ตัวแปรและการไม่มีลูกศรดังกล่าวยืนยันว่าตัวแปรไม่ได้ก่อให้เกิดโดยตรง ของ) ตัวแปรBBBBAAABBBAAABBB ยกตัวอย่างเช่นคำแถลง "การสัมผัสกับควันบุหรี่โดยตรงทำให้เกิดการเปลี่ยนแปลงความเสี่ยงของ Mesothelioma" โดยลูกศรสีดำจาก "การสัมผัสกับควันบุหรี่" เป็น "Mesothelioma" ในแผนภาพสาเหตุDAG ไม่ใช่ด้านล่าง ในทำนองเดียวกันคำแถลง "การเปิดรับแร่ใยหินโดยตรงทำให้เกิดการเปลี่ยนแปลงความเสี่ยงของ Mesothelioma" ถูกแสดงโดยลูกศรสีดำจาก "การสัมผัสแร่ใยหิน" เป็น "Mesothelioma" ในกราฟสาเหตุไม่ใช่ DAGด้านล่าง ฉันใช้คำที่ไม่ใช่ DAGเพื่ออธิบายกราฟสาเหตุด้านล่างเนื่องจากลูกศรสีแดงซึ่งฉันตั้งใจจะยืนยันบางสิ่งเช่น "การสัมผัสกับแร่ใยหินทำให้เกิดการเปลี่ยนแปลงในผลกระทบโดยตรงจากการได้รับควันบุหรี่จากความเสี่ยงของ Mesothelioma" (ใยหินทำกายภาพ ความเสียหายต่อเซลล์ของปอดนั้นนอกจากจะทำให้เกิดความเสี่ยงต่อการเปลี่ยนแปลงของ Mesothelioma โดยตรงยังทำให้เซลล์มีความเสี่ยงต่อการเกิดมะเร็งจากการสัมผัสควันบุหรี่มากขึ้นและทำให้การสัมผัสกับแร่ใยหินและยาสูบเพิ่มขึ้น ความเสี่ยงที่มากกว่าผลรวมของความเสี่ยงแยกกันทั้งสอง) และสิ่งนี้ค่อนข้างไม่สอดคล้องกับความหมายที่เป็นทางการของลูกศรสาเหตุใน DAG ที่ฉันอธิบายเมื่อเริ่มต้นคำถามของฉัน (เช่นเพราะลูกศรสีแดงไม่ยุติในตัวแปร) หนึ่งจะแสดงผลกระทบปฏิสัมพันธ์อย่างถูกต้องภายในพิธีการทางสายตาของ DAG อย่างไร อ้างอิง กรีนแลนด์, เอส., เพิร์ล, เจและโรบินส์, …

2
ใช้เมทริกซ์สหสัมพันธ์เพื่อเลือกตัวทำนายสำหรับการถดถอยที่ถูกต้องหรือไม่?
ไม่กี่วันที่ผ่านมานักวิจัยของฉันบอกฉันเกี่ยวกับวิธีการของเขาในการเลือกตัวแปรให้เป็นแบบจำลองการถดถอยเชิงเส้น ฉันเดาว่ามันไม่ดี แต่ฉันต้องถามคนอื่นเพื่อให้แน่ใจ วิธีการคือ: ดูเมทริกซ์สหสัมพันธ์ระหว่างตัวแปรทั้งหมด (รวมถึงตัวแปร Dependent Y) และเลือกตัวทำนาย X เหล่านั้นซึ่งสัมพันธ์กับ Y มากที่สุด เขาไม่ได้พูดถึงเกณฑ์ใด ๆ ถาม:เขาพูดถูกมั้ย [ฉันคิดว่าวิธีการเลือกนี้ไม่ถูกต้องเนื่องจากมีหลายสิ่งหลายอย่างเช่นเป็นทฤษฎีที่บอกว่าควรเลือกตัวทำนายหรือละเว้นอคติตัวแปร (OVB)

2
วิธีตีความ QQ-plot ของ p-values
ฉันกำลังศึกษาสมาคมโรค GWAS SNP โดยใช้ซอฟต์แวร์ที่เรียกว่า plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ) ด้วยผลลัพธ์การเชื่อมโยงฉันได้รับค่า p สำหรับ SNP ทั้งหมดที่วิเคราะห์ ตอนนี้ฉันใช้ QQ-plot ของค่า p เหล่านั้นเพื่อแสดงว่าค่า p ต่ำมากแตกต่างจากการกระจายค่า p-value ที่คาดหวัง (การกระจายแบบสม่ำเสมอ) หากค่า p เบี่ยงเบนจากการแจกแจงที่คาดหวังหนึ่ง "อาจ" เรียกว่าค่า p สำหรับค่านัยสำคัญทางสถิติ อย่างที่คุณเห็นใน QQ-plot ตรงปลายหางด้านบน 4 จุดสุดท้ายนั้นค่อนข้างยากที่จะตีความ สองจุดสุดท้ายในสีเทาแสดงให้เห็นว่าค่า p เหล่านั้นอยู่ในการกระจายที่คาดหวังของค่า p ในขณะที่อีกสองไม่ได้ ทีนี้วิธีการตีความสิ่งนี้จุดสองจุดสุดท้ายมีค่า p ต่ำกว่าแต่ไม่ใช่ "นัยสำคัญ" ตาม QQ-plot ในขณะที่อีกสองจุดที่มีค่า p สูงกว่าคือ "สำคัญ"? …
17 qq-plot 

2
LDA สัมประสิทธิ์เชิงเส้นคืออะไรใน LDA
ในRฉันใช้ldaฟังก์ชั่นจากห้องสมุดMASSเพื่อจัดหมวดหมู่ ตามที่ฉันเข้าใจ LDA แล้วอินพุตxxxจะได้รับการกำหนดเลเบลyyyซึ่งเพิ่มp(y|x)p(y|x)p(y|x)ได้สูงสุดใช่ไหม แต่เมื่อผมเหมาะสมกับรูปแบบซึ่งในx=(Lag1,Lag2)x=(Lag1,Lag2)x=(Lag1,Lag2)y=Direction,y=Direction,y=Direction,ฉันไม่เข้าใจเอาท์พุทจากlda, แก้ไข:เพื่อทำซ้ำผลลัพธ์ด้านล่างให้เรียกใช้ครั้งแรก: library(MASS) library(ISLR) train = subset(Smarket, Year < 2005) lda.fit = lda(Direction ~ Lag1 + Lag2, data = train) > lda.fit Call: lda(Direction ~ Lag1 + Lag2, data = train) Prior probabilities of groups: Down Up 0.491984 0.508016 Group means: Lag1 Lag2 Down 0.04279022 0.03389409 …

1
ไม่ว่าการแจกแจงที่มีช่วงเวลาเดียวกันจะเหมือนกันหรือไม่
การติดตามมีความคล้ายคลึง แต่แตกต่างจากโพสต์ก่อนหน้าที่นี่และที่นี่ เมื่อมีการแจกแจงสองแบบซึ่งยอมรับช่วงเวลาของคำสั่งทั้งหมดถ้าทุกช่วงเวลาของการแจกแจงสองครั้งเหมือนกัน มีการแจกแจงสองแบบซึ่งยอมรับฟังก์ชั่นการสร้างโมเมนต์ถ้ามีช่วงเวลาเดียวกันการสร้างโมเมนต์ของพวกมันจะเหมือนกันหรือไม่?

2
มันเหมาะสมหรือไม่ที่จะใช้ตัวแปรวันที่ในการถดถอย
ฉันไม่คุ้นเคยกับการใช้ตัวแปรในรูปแบบวันที่ในอาร์ฉันแค่สงสัยว่ามันเป็นไปได้ที่จะเพิ่มตัวแปรวันที่เป็นตัวแปรอธิบายในรูปแบบการถดถอยเชิงเส้น ถ้าเป็นไปได้เราจะตีความค่าสัมประสิทธิ์ได้อย่างไร มันเป็นผลของหนึ่งวันกับตัวแปรผลลัพธ์หรือไม่? ดูของฉันเค้าด้วยตัวอย่างสิ่งที่ฉันพยายามที่จะทำ

4
ปรีชาสำหรับฟังก์ชันอันตรายสะสม (การวิเคราะห์การอยู่รอด)
ฉันกำลังพยายามที่จะรับสัญชาติญาณสำหรับแต่ละหน้าที่หลักในวิทยาศาสตร์คณิตศาสตร์ประกันภัย (โดยเฉพาะสำหรับ Cox Proportional Hazards Model) นี่คือสิ่งที่ฉันมี: f(x)ฉ(x)f(x) : เริ่มตั้งแต่เวลาเริ่มต้นการกระจายความน่าจะเป็นของเวลาที่คุณจะตาย F(x)F(x)F(x) : แค่การแจกแจงสะสม ในช่วงเวลาประชากร% ใดที่จะตาย?TTT S(x)S(x)S(x) :(x) ในช่วงเวลา % ของประชากรจะมีชีวิตอยู่เท่าไหร่?1−F(x)1−F(x)1-F(x)TTT h(x)h(x)h(x) : ฟังก์ชั่นอันตราย ในช่วงเวลาที่กำหนดของผู้คนยังมีชีวิตอยู่สิ่งนี้สามารถใช้เพื่อประเมินว่ามีกี่คนที่จะตายในช่วงเวลาถัดไปหรือถ้าช่วงเวลา -> 0, ความน่าจะเป็นของการเสียชีวิตแบบ 'ทันที'TTT H(x)H(x)H(x) : อันตรายที่สะสม ไม่มีความเห็น. แนวคิดเบื้องหลังการรวมค่าอันตรายโดยเฉพาะเมื่อต่อเนื่องคืออะไร หากเราใช้ตัวอย่างแบบไม่ต่อเนื่องที่มีอัตราการตายตลอดสี่ฤดูกาลและฟังก์ชั่นอันตรายมีดังนี้: เริ่มต้นที่ Spring ทุกคนยังมีชีวิตอยู่และ 20% จะตาย ตอนนี้ในฤดูร้อนของเหลือ 50% จะตาย ตอนนี้ในฤดูใบไม้ร่วงของที่เหลืออยู่ 75% จะตาย ฤดูกาลสุดท้ายคือฤดูหนาว ของที่เหลืออยู่ 100% จะตาย จากนั้นอันตรายสะสมคือ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.