สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
R-squared ในการถดถอยแบบควอไทล์
ฉันใช้การถดถอยเชิงปริมาณเพื่อหาตัวทำนาย 90 เปอร์เซ็นต์ของข้อมูลของฉัน ฉันกำลังทำสิ่งนี้ใน R โดยใช้quantregแพ็คเกจ ฉันจะกำหนดr2r2r^2สำหรับการถดถอยแบบควอไทล์ซึ่งจะบ่งบอกความแปรปรวนของตัวแปรทำนายได้เท่าใด สิ่งที่ฉันอยากรู้: "วิธีใดที่ฉันสามารถใช้เพื่อค้นหาว่ามีการอธิบายความแปรปรวนมากแค่ไหน" ระดับนัยสำคัญโดยค่า P summary(rq(formula,tau,data))มีให้บริการในผลลัพธ์ของคำสั่ง: ฉันจะได้รับความดีของความพอดีได้อย่างไร

1
ความแตกต่างระหว่างการถดถอยโลจิสติกและ Logit คืออะไร?
ความแตกต่างระหว่างการถดถอยโลจิสติกและ Logit คืออะไร? ฉันเข้าใจว่าพวกเขาเหมือนกัน (หรือแม้กระทั่งสิ่งเดียวกัน) แต่มีคนอธิบายความแตกต่างระหว่างสองสิ่งนี้ได้ไหม เป็นเรื่องเกี่ยวกับอัตราต่อรองหรือไม่

1
เมื่อใดหากเคยเป็นค่ามัธยฐานของสถิติสถิติที่เพียงพอหรือไม่
ฉันพบข้อสังเกตเกี่ยวกับสถิติทางเคมีว่าค่ามัธยฐานตัวอย่างมักจะเป็นทางเลือกสำหรับสถิติที่เพียงพอ แต่นอกเหนือจากกรณีที่เห็นได้ชัดจากการสังเกตเพียงหนึ่งหรือสองครั้งซึ่งมันเท่ากับค่าเฉลี่ยตัวอย่างฉันไม่สามารถคิดถึงสิ่งอื่น ๆ กรณีที่ค่ามัธยฐานตัวอย่างเพียงพอ

3
วิเคราะห์แปลง ACF และ PACF
ฉันต้องการดูว่าฉันอยู่ในเส้นทางที่ถูกต้องในการวิเคราะห์แปลง ACF และ PACF ของฉันหรือไม่: พื้นหลัง: (Reff: Philip Hans Franses, 1998) ในฐานะที่เป็นทั้ง ACF และ PACF แสดงค่าที่สำคัญฉันคิดว่ารูปแบบ ARMA จะตอบสนองความต้องการของฉัน ACF สามารถใช้ในการประเมิน MA-part, เช่น q-value, PACF สามารถใช้ในการประมาณ AR-part, เช่น p-value ในการประเมินรูปแบบการสั่งซื้อฉันดูที่ a.) ว่าค่า ACF นั้นออกมาตายเพียงพอหรือไม่ b.) ไม่ว่า ACF จะส่งสัญญาณการทำงานเกินกำหนดและ c.) หรือไม่ว่า ACF และ PACF แสดงยอดที่สำคัญและตีความได้อย่างง่ายดาย ACF และ PACF อาจแนะนำไม่เพียงรุ่นเดียว แต่หลายรุ่นที่ฉันต้องเลือกหลังจากพิจารณาเครื่องมือวินิจฉัยอื่น ๆ โดยที่ในใจฉันจะไปข้างหน้าและบอกว่าแบบจำลองที่ชัดเจนที่สุดน่าจะเป็น …

8
คุณจะเห็นภาพความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 3 ตัวได้อย่างไร
ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดสามชุดและฉันต้องการเห็นภาพความสัมพันธ์ระหว่างทั้งสามในกราฟเดียว ความคิดใด ๆ ขณะนี้ฉันกำลังใช้กราฟสามตัวต่อไปนี้: กราฟแต่ละกราฟใช้สำหรับระดับพื้นฐานของภาวะซึมเศร้า (Mild, Moderate, Severe) จากนั้นในแต่ละกราฟฉันดูความสัมพันธ์ระหว่างการรักษา (0,1) และการปรับปรุงอาการซึมเศร้า (ไม่มี, ปานกลาง, เป็นกอบเป็นกำ) กราฟ 3 ตัวนี้ทำงานเพื่อดูความสัมพันธ์แบบ 3 ทาง แต่มีวิธีการทำเช่นนี้กับกราฟเดียวหรือไม่

1
อัลกอริทึมการเรียนรู้ต้นไม้ตัดสินใจอย่างไรจัดการกับค่าที่หายไป (ใต้ฝากระโปรง)
อะไรคือวิธีที่อัลกอริทึมการเรียนรู้ต้นไม้ตัดสินใจใช้เพื่อจัดการกับค่าที่หายไป พวกเขาเพียงแค่เต็มช่องในการใช้ค่าที่เรียกว่าหายไป? ขอบคุณ

1
การเลือกรูปแบบที่มีการถดถอยโลจิสติก Firth
ในชุดข้อมูลขนาดเล็ก ( ) ที่ฉันทำงานกับหลายตัวแปรให้ฉันที่สมบูรณ์แบบการทำนาย / แยก ฉันจึงใช้การถดถอยโลจิสติก Firthเพื่อจัดการกับปัญหาn∼100n∼100n\sim100 หากฉันเลือกแบบจำลองที่ดีที่สุดโดยAICหรือBICฉันควรรวมคำว่าโทษ Firth ไว้ในความน่าจะเป็นเมื่อคำนวณเกณฑ์ข้อมูลเหล่านี้หรือไม่

2
วิธีการใช้ binomial GLMM (glmer) กับเปอร์เซ็นต์แทนที่จะเป็นจำนวนใช่หรือไม่?
ฉันมีการทดสอบซ้ำหลายครั้งโดยที่ตัวแปรตามคือร้อยละและฉันมีหลายปัจจัยเป็นตัวแปรอิสระ ฉันต้องการใช้glmerจากแพ็คเกจ R lme4เพื่อจัดการกับปัญหาการถดถอยโลจิสติก (โดยระบุfamily=binomial) เนื่องจากดูเหมือนว่าจะรองรับการตั้งค่านี้โดยตรง ข้อมูลของฉันมีลักษณะเช่นนี้: > head(data.xvsy) foldnum featureset noisered pooldur dpoolmode auc 1 0 mfcc-ms nr0 1 mean 0.6760438 2 1 mfcc-ms nr0 1 mean 0.6739482 3 0 melspec-maxp nr075 1 max 0.8141421 4 1 melspec-maxp nr075 1 max 0.7822994 5 0 chrmpeak-tpor1d nr075 1 max 0.6547476 …

4
กระบวนการ MA หรือกระบวนการ AR เหมาะสมภายใต้สถานการณ์ใด
ฉันเข้าใจว่าหากกระบวนการขึ้นอยู่กับค่าของตัวเองก่อนหน้านี้ก็เป็นกระบวนการ AR หากขึ้นอยู่กับข้อผิดพลาดก่อนหน้านี้แสดงว่าเป็นกระบวนการ MA หนึ่งในสองสถานการณ์นี้จะเกิดขึ้นเมื่อใด ใครบ้างมีตัวอย่างที่ชัดเจนที่ให้ความกระจ่างในประเด็นพื้นฐานเกี่ยวกับความหมายของกระบวนการในการสร้างแบบจำลองที่ดีที่สุดในฐานะ MA vs AR?

2
วิธีตีความพารามิเตอร์ใน GLM with family = Gamma
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันมีคำถามเกี่ยวกับการตีความพารามิเตอร์สำหรับ GLM ที่มีตัวแปรตามการกระจายแกมม่า นี่คือสิ่งที่ R ส่งคืนสำหรับ GLM ของฉันด้วยล็อกลิงค์: Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 …

2
ความสัมพันธ์ระหว่างคะแนน GINI และอัตราส่วนความน่าจะเป็นคืออะไร
ฉันกำลังศึกษาต้นไม้จำแนกและต้นไม้ถดถอยและหนึ่งในมาตรการสำหรับสถานที่แยกคือคะแนน GINI ตอนนี้ฉันถูกใช้เพื่อกำหนดตำแหน่งที่แยกที่ดีที่สุดเมื่อบันทึกอัตราส่วนความน่าจะเป็นของข้อมูลเดียวกันระหว่างการแจกแจงสองค่าเป็นศูนย์หมายความว่าโอกาสในการเป็นสมาชิกมีแนวโน้มเท่ากัน สัญชาตญาณของฉันบอกว่าต้องมีการเชื่อมต่อบางอย่างที่ GINI ต้องมีรากฐานที่ดีในทฤษฎีทางคณิตศาสตร์ของข้อมูล (Shannon) แต่ฉันไม่เข้าใจ GINI ดีพอที่จะได้รับความสัมพันธ์ของตัวเอง คำถาม: "หลักการแรก" ที่ได้มาจากคะแนนความไม่บริสุทธิ์ของ GINI เป็นตัวชี้วัดสำหรับการแยกคืออะไร? คะแนน GINI เกี่ยวข้องกับบันทึกของอัตราส่วนความน่าจะเป็นหรือปัจจัยพื้นฐานด้านข้อมูลทฤษฎีอื่น ๆ อย่างไร (Shannon Entropy, pdf , และเอนโทรปีของการข้ามเป็นส่วนหนึ่งของคะแนนเหล่านั้น) อ้างอิง: เกณฑ์การถ่วงน้ำหนักของ Gini เป็นอย่างไร คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (เพิ่ม) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity เอนโทรปีของแชนนอนอธิบายว่า: H( x ) = ΣผมP( xผม) บันทึกขP( xผม)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} …

3
การถดถอยเชิงเส้นของล็อกเทียบกับการถดถอยโลจิสติก
ใครสามารถให้รายการที่ชัดเจนของความแตกต่างระหว่างการถดถอยเชิงเส้นและการถดถอยโลจิสติก? ฉันเข้าใจว่าอดีตเป็นรูปแบบการถดถอยเชิงเส้นอย่างง่าย แต่ฉันไม่ชัดเจนว่าเมื่อใดควรใช้แต่ละอัน

5
เหตุผลในการไม่ลดขนาดอคติ (การสกัดกั้น) ในการถดถอย
สำหรับตัวแบบเชิงเส้นคำการหดตัวจะเป็นเสมอY= β0+ x β+ εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) อะไรคือเหตุผลที่เราไม่ลดขนาดอคติ (การสกัดกั้น) คำว่า ? เราควรย่อคำอคติในโมเดลโครงข่ายประสาทเทียมหรือไม่β0β0\beta_0

6
อะไรคือความแตกต่างระหว่างสถิติเชิงพรรณนาและเชิงอนุมาน
ความเข้าใจของฉันคือสถิติเชิงพรรณนาอธิบายคุณลักษณะเชิงปริมาณของตัวอย่างข้อมูลในขณะที่สถิติเชิงอนุมานได้ทำการอนุมานเกี่ยวกับประชากรที่ตัวอย่างถูกวาดขึ้นมา อย่างไรก็ตามหน้าวิกิพีเดียสำหรับสถานะการอนุมานทางสถิติ : โดยส่วนใหญ่แล้วการอนุมานทางสถิติทำให้ข้อเสนอเกี่ยวกับประชากรโดยใช้ข้อมูลที่ดึงมาจากประชากรที่สนใจผ่านการสุ่มตัวอย่างบางรูปแบบ "ส่วนใหญ่" ทำให้ฉันคิดว่าฉันอาจไม่เข้าใจแนวคิดเหล่านี้อย่างเหมาะสม มีตัวอย่างของสถิติเชิงอนุมานที่ไม่ได้ทำข้อเสนอเกี่ยวกับประชากรหรือไม่

3
จะตรวจสอบการแจกแจงปกติโดยใช้ Excel สำหรับทำการทดสอบแบบทดสอบได้อย่างไร
ฉันต้องการทราบวิธีการตรวจสอบข้อมูลการตั้งค่าสำหรับภาวะปกติใน Excel เพียงเพื่อตรวจสอบว่ามีความต้องการสำหรับการใช้ t-test ถูกพบ สำหรับหางด้านขวาเหมาะสมหรือไม่ที่จะคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพิ่ม 1, 2 และ 3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยเพื่อสร้างช่วงจากนั้นเปรียบเทียบกับค่าปกติปกติ 68/95 / 99.7 สำหรับการกระจายปกติ ฟังก์ชัน norm.dist ใน excel เพื่อทดสอบค่าเบี่ยงเบนมาตรฐานแต่ละรายการ หรือมีวิธีที่ดีกว่าในการทดสอบความเป็นปกติ?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.