สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ข้อดีของการทำ "เชือกคู่" หรือทำเชือกสองครั้ง?
ฉันเคยได้ยินวิธีการใช้ lasso สองครั้ง (เช่น double-lasso) ซึ่งคุณทำการ lasso บนชุดตัวแปรดั้งเดิมพูด S1, รับชุด sparse เรียกว่า S2 แล้วทำการ lasso อีกครั้งใน set S2 เพื่อรับ set S3 . มีคำศัพท์วิธีการสำหรับเรื่องนี้หรือไม่? นอกจากนี้ข้อดีของการทำบ่วงบาศสองครั้งคืออะไร?

2
การแปลงตัวแปรสำหรับการถดถอยหลายครั้งใน R
ฉันพยายามทำการถดถอยหลายRครั้ง อย่างไรก็ตามตัวแปรตามของฉันมีพล็อตต่อไปนี้: นี่คือเมทริกซ์ scatterplot พร้อมตัวแปรทั้งหมดของฉัน ( WARเป็นตัวแปรตาม): ฉันรู้ว่าฉันต้องทำการเปลี่ยนแปลงในตัวแปรนี้ (และอาจเป็นตัวแปรอิสระหรือไม่?) แต่ฉันไม่แน่ใจว่าจำเป็นต้องมีการแปลงที่แน่นอนหรือไม่ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ฉันยินดีที่จะให้ข้อมูลเพิ่มเติมเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม กราฟิกการวินิจฉัยจากการถดถอยของฉันมีลักษณะดังนี้: แก้ไข หลังจากเปลี่ยนตัวแปรตามและอิสระโดยใช้การแปลง Yeo-Johnson แผนการวินิจฉัยมีลักษณะดังนี้: ถ้าฉันใช้ GLM กับลิงค์ล็อกกราฟิกวินิจฉัยคือ:

2
วิธีคำนวณ SVD ของเมทริกซ์กระจัดกระจายขนาดใหญ่?
วิธีที่ดีที่สุดในการคำนวณการแยกย่อยค่าเอกเทศ (SVD) ของเมทริกซ์เชิงบวกที่มีขนาดใหญ่มาก (65M x 3.4M) คือที่ที่ข้อมูลกระจัดกระจายมาก? เมทริกซ์น้อยกว่า 0.1% ไม่ใช่ศูนย์ ฉันต้องการวิธีที่: จะพอดีกับหน่วยความจำ (ฉันรู้ว่ามีวิธีการออนไลน์อยู่) จะถูกคำนวณในเวลาที่เหมาะสม: 3,4 วัน จะแม่นยำ แต่ความแม่นยำไม่ใช่ประเด็นหลักของฉันและฉันต้องการที่จะควบคุมปริมาณทรัพยากรที่ฉันใส่เข้าไป มันจะดีถ้ามี Haskell, Python, C # และไลบรารี่ที่ใช้มัน ฉันไม่ได้ใช้ mathlab หรือ R แต่ถ้าจำเป็นฉันสามารถไปกับ R ได้
26 svd  numerics 

1
สามารถขยายการทดสอบ Mantel เป็นเมทริกซ์แบบอสมมาตรได้หรือไม่?
การทดสอบหิ้งมักจะใช้กับเมทริกซ์ระยะทาง / ความแตกต่างสมมาตร เท่าที่ฉันเข้าใจสมมติฐานของการทดสอบก็คือการวัดที่ใช้ในการกำหนดความแตกต่างจะต้องเป็นอย่างน้อยกึ่ง - ตัวชี้วัด (ตรงตามข้อกำหนดมาตรฐานของตัวชี้วัด สมมติฐานของความสมมาตรสามารถผ่อนคลายได้หรือไม่ (ให้ pre-metric)? เป็นไปได้หรือไม่ที่จะใช้การทดสอบการเปลี่ยนแปลงในกรณีนี้โดยใช้เมทริกซ์แบบเต็ม?

3
ทำไมแบบจำลองกระบวนการเกาส์เซียนเรียกว่าไม่ใช่พารามิเตอร์?
ฉันสับสนเล็กน้อย ทำไมกระบวนการแบบเกาส์ที่เรียกว่าตัวแบบไม่ใช่พารามิเตอร์? พวกเขาคิดว่าค่าการทำงานหรือส่วนย่อยของพวกเขามีเกาส์ก่อนหน้าด้วยค่าเฉลี่ย 0 และฟังก์ชันความแปรปรวนร่วมที่กำหนดให้เป็นฟังก์ชั่นเคอร์เนล ฟังก์ชั่นเคอร์เนลเหล่านี้มีพารามิเตอร์บางตัว (เช่นไฮเปอร์พารามิเตอร์) เหตุใดพวกเขาจึงเรียกว่าแบบจำลองที่ไม่ใช่พารามิเตอร์

2
การกระจายตัวของ
การกระจายของสัมประสิทธิ์การตัดสินใจคืออะไรหรือ R กำลังสอง, , ในการถดถอยเชิงเส้นหลายตัวแปรเชิงเส้นภายใต้สมมติฐาน ?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 มันขึ้นอยู่กับจำนวนของตัวทำนายและจำนวนตัวอย่างอย่างไร มีนิพจน์แบบปิดสำหรับโหมดของการแจกแจงนี้หรือไม่?kkkn>kn>kn>k โดยเฉพาะฉันมีความรู้สึกว่าการถดถอยอย่างง่าย (ด้วยตัวทำนายหนึ่งตัว ) การแจกแจงนี้มีโหมดเป็นศูนย์ แต่สำหรับการถดถอยหลายครั้งโหมดจะอยู่ในค่าบวกที่ไม่เป็นศูนย์ หากนี่เป็นเรื่องจริงมีคำอธิบายง่ายๆเกี่ยวกับ "การเปลี่ยนเฟส" นี้หรือไม่?xxx ปรับปรุง ในฐานะที่เป็น @Alecos แสดงให้เห็นด้านล่างกระจายแน่นอนยอดเขาที่ศูนย์เมื่อและและไม่ได้อยู่ที่ศูนย์เมื่อ 3 ฉันรู้สึกว่าควรมีมุมมองทางเรขาคณิตในการเปลี่ยนเฟสนี้ พิจารณามุมมองเชิงเรขาคณิตของ OLS:เป็นเวกเตอร์ใน ,กำหนดพื้นที่ย่อย -dimensional จำนวน OLS จะฉาย\ mathbf Yบนสเปซนี้และR ^ 2คือโคไซน์กำลังสองของมุมระหว่าง\ Y mathbfและประมาณการ\ hat {\ mathbf y}k=2k=2k=2k=3k=3k=3k>3k>3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2yy\mathbf yy^y^\hat{\mathbf y} ทีนี้จากคำตอบของ @ Alecos ตามมาว่าถ้าเวกเตอร์ทั้งหมดสุ่มแล้วการกระจายความน่าจะเป็นของมุมนี้จะสูงสุดที่สำหรับและแต่จะมีโหมดที่ค่าอื่น ๆสำหรับ …

6
พอดีกับคำที่ใช้ในข้อมูล
แม้ว่าฉันจะอ่านโพสต์นี้ฉันก็ยังไม่รู้ว่าจะใช้กับข้อมูลของฉันอย่างไรและหวังว่าจะมีคนช่วยฉันได้ ฉันมีข้อมูลต่อไปนี้: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, 12.046851, 12.316508, 12.147746, 12.136446, 11.744371, 8.317413, 8.790837, 10.139807, 7.019035, 7.541484, 7.199672, 9.090377, 7.532161, 8.156842, 9.329572, 9.991522, …
26 r  regression  fitting 

3
รูปแบบหัวข้อและวิธีการเกิดร่วมคำ
โมเดลหัวข้อยอดนิยมเช่น LDA มักจัดกลุ่มคำที่มีแนวโน้มที่จะเกิดร่วมกันในหัวข้อเดียวกัน (คลัสเตอร์) อะไรคือความแตกต่างหลักระหว่างโมเดลหัวข้อดังกล่าวและวิธีการจัดกลุ่มแบบง่าย ๆ ที่เกิดขึ้นร่วมกันเช่น PMI (PMI ย่อมาจาก Pointwise Information Mutual และใช้เพื่อระบุคำที่เกิดขึ้นร่วมกับคำที่กำหนด)

1
วิธีการตีความข้อผิดพลาดมาตรฐานสัมประสิทธิ์ในการถดถอยเชิงเส้น?
ฉันสงสัยว่าจะตีความข้อผิดพลาดมาตรฐานสัมประสิทธิ์ของการถดถอยได้อย่างไรเมื่อใช้ฟังก์ชันการแสดงผลใน R ตัวอย่างเช่นในผลลัพธ์ต่อไปนี้: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = 0.97 ข้อผิดพลาดมาตรฐานที่สูงกว่ามีนัยสำคัญยิ่งขึ้นหรือไม่ สำหรับค่าเบี่ยงเบนมาตรฐานที่เหลือค่าที่สูงขึ้นหมายถึงการแพร่กระจายที่มากขึ้น แต่ R กำลังสองแสดงให้เห็นอย่างใกล้ชิดนี่ไม่ได้ขัดแย้งหรือไม่

6
ขนาดตัวอย่างสำหรับการถดถอยโลจิสติก?
ฉันต้องการสร้างแบบจำลองโลจิสติกส์จากข้อมูลการสำรวจของฉัน เป็นการสำรวจขนาดเล็กของอาณานิคมทั้งสี่แห่งซึ่งมีผู้ตอบแบบสอบถามเพียง 154 คนเท่านั้น ตัวแปรตามของฉันคือ "การเปลี่ยนไปใช้งานที่น่าพอใจ" ฉันพบว่าจากผู้ตอบแบบสอบถาม 154 คน 73 คนกล่าวว่าพวกเขาเปลี่ยนใจไปทำงานเป็นที่น่าพอใจในขณะที่คนอื่น ๆ ไม่ได้ทำงาน ดังนั้นตัวแปรตามคือไบนารีในธรรมชาติและฉันตัดสินใจใช้การถดถอยโลจิสติก ฉันมีเจ็ดตัวแปรอิสระ (สามต่อเนื่องและสี่เล็กน้อย) แนวทางหนึ่งแนะนำว่าควรมี 10 กรณีสำหรับตัวแปรทำนาย / อิสระแต่ละตัว (Agresti, 2007) จากแนวทางนี้ฉันรู้สึกว่ามันเป็นการตกลงที่จะเรียกใช้การถดถอยโลจิสติก ฉันถูกไหม? ถ้าไม่โปรดแจ้งให้เราทราบวิธีการตัดสินใจจำนวนตัวแปรอิสระ?

5
กลยุทธ์สำหรับการแนะนำสถิติขั้นสูงให้กับผู้ชมที่หลากหลาย
ฉันทำงานเป็นหลักกับนักสถิติที่ไม่ใช่ในสาขาต่าง ๆ เช่นยาสังคมศาสตร์และการศึกษา ไม่ว่าฉันจะให้คำปรึกษากับนักศึกษาระดับบัณฑิตศึกษาการช่วยเหลือนักวิจัยกับบทความหรือการตรวจสอบบทความสำหรับวารสารฉันมักจะมีปัญหาที่ใครบางคน (ลูกค้าผู้เขียนคณะกรรมการวิทยานิพนธ์บรรณาธิการวารสาร) ต้องการใช้เทคนิคที่เป็นที่รู้จักกันดี ไม่เหมาะสมหรือเมื่อมีวิธีการที่ดีขึ้น แต่ไม่ค่อยมีคนรู้จัก บ่อยครั้งที่ฉันจะอธิบายเทคนิคทางเลือก แต่จะบอกว่า "ทุกคนทำอย่างอื่น" ฉันสนใจที่คนอื่นจะจัดการกับปัญหาเช่นนี้ ADDITIONS @MichaelChernick แนะนำว่าฉันสามารถแบ่งปันเรื่องราวบางอย่างได้ดังนั้นฉันจะ ขณะนี้ฉันกำลังทำงานกับคนคนหนึ่งที่ทำซ้ำกระดาษก่อนหน้านี้และเพิ่มตัวแปรอิสระหนึ่งตัวเพื่อดูว่ามันช่วย กระดาษก่อนหน้าคือตรงไปตรงมาน่ากลัว มันปฏิบัติต่อข้อมูลขึ้นอยู่กับว่าพวกเขาเป็นอิสระ; มันมากเกินไปและมีปัญหาอื่น ๆ เช่นกัน กระนั้นเขา (ลูกค้าของฉัน) ได้ส่งวิทยานิพนธ์ฉบับก่อนหน้านี้และไม่เพียง แต่ได้รับปริญญาของเขาเท่านั้น แต่ยังได้รับการยกย่องอย่างกว้างขวางสำหรับการวิจัย หลายครั้งที่ฉันพยายามโน้มน้าวให้ผู้คนไม่แบ่งขั้วตัวแปร เรื่องนี้เกิดขึ้นบ่อยมากในทางการแพทย์ ฉันอดทนชี้ให้เห็นว่าน้ำหนักแรกเกิด dicohotomizing (พูด) เป็นปกติและต่ำ (ปกติที่ 2,500 กรัม) หมายถึงการรักษาทารก 2,499 กรัมเช่นเดียวกับ 1,400 กรัมหนึ่ง; แต่การดูแลลูกน้อย 2,501 กรัมแตกต่างกันมาก แพทย์เห็นด้วยกับฉันว่ามันโง่ จากนั้นบอกว่าจะทำอย่างนั้น ฉันมีลูกค้านักศึกษาระดับบัณฑิตศึกษามานานซึ่งคณะกรรมการยืนยันในการวิเคราะห์กลุ่ม นักเรียนไม่เข้าใจวิธีการวิธีนี้ไม่ได้ตอบคำถามที่มีประโยชน์ แต่นั่นคือสิ่งที่คณะกรรมการต้องการดังนั้นนั่นคือสิ่งที่พวกเขาได้รับ กราฟฟิคสถิติทั้งหมดเป็นที่ที่หลาย ๆ …
26 consulting 

2
การตีความเชิงเรขาคณิตของการถดถอยเชิงเส้นเชิงลงโทษ
ฉันรู้ว่าการถดถอยเชิงเส้นสามารถคิดได้ว่า"เส้นที่ใกล้เคียงที่สุดในทุกจุด" : แต่มีวิธีอื่นในการดูโดยการแสดงพื้นที่คอลัมน์ในขณะที่"การฉายภาพลงบนพื้นที่ที่ทอดโดยคอลัมน์ของเมทริกซ์สัมประสิทธิ์" : คำถามของฉันคือในทั้งสองการตีความสิ่งที่เกิดขึ้นเมื่อเราใช้การถดถอยเชิงเส้นลงโทษเช่นการถดถอยสันเขาและ เชือก ? เกิดอะไรขึ้นกับบรรทัดในการตีความครั้งแรก และจะเกิดอะไรขึ้นกับการประมาณการในการตีความครั้งที่สอง? UPDATE: @JohnSmith แสดงความคิดเห็นว่ามีการลงโทษเกิดขึ้นในพื้นที่ของสัมประสิทธิ์ มีการตีความในพื้นที่นี้ด้วยหรือไม่

7
จำนวนกลุ่มขั้นต่ำที่แนะนำสำหรับปัจจัยสุ่มคือเท่าใด
ฉันกำลังใช้โมเดลผสมในR( lme4) เพื่อวิเคราะห์ข้อมูลการวัดซ้ำหลายครั้ง ฉันมีตัวแปรตอบสนอง (เนื้อหาเส้นใยของอุจจาระ) และ 3 ผลกระทบคงที่ (มวลกาย ฯลฯ ) การศึกษาของฉันมีผู้เข้าร่วม 6 คนโดยวัดซ้ำ 16 ครั้งสำหรับแต่ละคน (แม้ว่าสองคนมีเพียง 12 ครั้งเท่านั้น) อาสาสมัครเป็นกิ้งก่าที่ได้รับการผสมผสานอาหารที่แตกต่างกันใน 'การรักษา' ที่แตกต่างกัน คำถามของฉันคือ: ฉันสามารถใช้หัวเรื่องเป็นเอฟเฟกต์แบบสุ่มได้หรือไม่ ฉันรู้ว่านี่เป็นวิธีการปฏิบัติตามปกติในโมเดลเอฟเฟกต์ผสมตามยาวเพื่อพิจารณาลักษณะของกลุ่มตัวอย่างแบบสุ่มและความจริงที่ว่าการสังเกตในกลุ่มตัวอย่างนั้นมีความสัมพันธ์กันอย่างใกล้ชิดกว่ากลุ่มที่อยู่ระหว่างกลุ่ม แต่การรักษา ID หัวเรื่องเป็นผลแบบสุ่มนั้นเกี่ยวข้องกับการประเมินค่าเฉลี่ยและความแปรปรวนสำหรับตัวแปรนี้ เนื่องจากฉันมีเพียง 6 วิชา (6 ระดับของปัจจัยนี้) นี่เพียงพอที่จะทำให้ได้ลักษณะที่ถูกต้องของค่าเฉลี่ยและความแปรปรวนหรือไม่? ความจริงที่ว่าฉันมีการวัดซ้ำหลายครั้งสำหรับความช่วยเหลือในแต่ละเรื่องในเรื่องนี้ (ฉันไม่เห็นว่ามันสำคัญ) ท้ายที่สุดถ้าฉันไม่สามารถใช้ subject ID เป็นเอฟเฟกต์แบบสุ่มได้การรวมไว้เป็นเอฟเฟกต์แบบคงที่จะช่วยให้ฉันสามารถควบคุมความจริงที่ว่าฉันมีมาตรการซ้ำแล้วซ้ำอีกหรือไม่ แก้ไข:ฉันแค่ต้องการชี้แจงว่าเมื่อฉันพูดว่า "ฉันสามารถ" ใช้หัวเรื่อง ID เป็นเอฟเฟกต์แบบสุ่มได้ฉันหมายถึง "เป็นความคิดที่ดีหรือไม่" ฉันรู้ว่าฉันสามารถจัดวางโมเดลด้วยปัจจัยที่มีเพียง 2 ระดับ แต่แน่นอนว่านี่จะป้องกันได้หรือไม่ …

2
เมื่อใดจึงจะใช้การทดสอบยศรวมของวิลคอกซันแทนการทดสอบทีไม่มีคู่
นี่เป็นคำถามติดตามผลถึงสิ่งที่ Frank Harrell เขียนไว้ที่นี่ : จากประสบการณ์ของฉันขนาดตัวอย่างที่ต้องการสำหรับการแจกแจงแบบ t นั้นแม่นยำมักจะใหญ่กว่าขนาดตัวอย่างในมือ การทดสอบ Wilcoxon ที่ได้รับการจัดอันดับนั้นมีประสิทธิภาพอย่างที่คุณพูดและมีความแข็งแกร่งดังนั้นฉันจึงมักจะชอบมากกว่าการทดสอบ t ถ้าฉันเข้าใจถูกต้อง - เมื่อเปรียบเทียบตำแหน่งของตัวอย่างที่ไม่ตรงกันสองตัวอย่างเราต้องการใช้การทดสอบยศวิลคอกซันเหนือการทดสอบทีไม่มีคู่ถ้าขนาดตัวอย่างของเรามีขนาดเล็ก มีสถานการณ์ทางทฤษฎีที่เราต้องการทดสอบ Wilcoxon rank-sum มากกว่าการทดสอบ t-unpaired แม้ว่าขนาดตัวอย่างของทั้งสองกลุ่มของเรานั้นค่อนข้างใหญ่หรือไม่? แรงจูงใจของฉันสำหรับคำถามนี้เกิดจากการสังเกตว่าสำหรับการทดสอบตัวอย่าง t-test เพียงอย่างเดียวการใช้มันสำหรับการแจกแจงแบบเบ้เล็กน้อยที่ไม่ดังขนาดนั้นจะทำให้เกิดข้อผิดพลาดประเภท I ที่ผิด: n1 <- 100 mean1 <- 50 R <- 100000 P_y1 <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) P_y1[i] <- t.test(y1 , …

4
เส้นตารางและพื้นหลังสีเทาเป็นแผนภูมิที่ไม่ปลอดภัยและควรใช้เป็นข้อยกเว้นเท่านั้นหรือไม่
ดูเหมือนว่าหน่วยงานส่วนใหญ่เห็นด้วยว่าเส้นกริดที่มืดหรือโดดเด่นในแปลงนั้นเป็น "chartjunk" โดยคำจำกัดความที่สมเหตุสมผลและเบี่ยงเบนความสนใจของผู้ชมจากข้อความในเนื้อความหลักของแผนภูมิ ดังนั้นฉันจะไม่รำคาญที่จะให้การอ้างอิงในจุดนั้น เราทุกคนสามารถตกลงกันได้ว่าจะมีบางครั้งที่เส้นตารางสีซีดในการสร้างข้อมูลอ้างอิงสำหรับผู้ชมจะมีความจำเป็น Tufte ที่ถกเถียงกันอยู่ต้องใช้ (และใช้) เส้นตารางเป็นครั้งคราวตามที่ออกมาชี้ในบทความนี้ และฉันเห็นด้วยกับแนวทางของ Hadley Wickham ใน ggplot2 เพื่อทำให้เส้นตารางดังกล่าวเป็นสีขาวบนพื้นหลังสีเทาอ่อนเมื่อคุณจำเป็นต้องใช้มัน สิ่งที่ฉันไม่แน่ใจเกี่ยวกับอย่างไรก็ตามคือว่าเส้นตารางและพื้นหลังสีเทาควรเป็นค่าเริ่มต้นตามที่อยู่ใน ggplot2 ตัวอย่างเช่นดูเหมือนว่าจะไม่มีเหตุผลสำหรับพื้นหลังสีเทานอกเหนือจากกรณีเส้นกริดสีขาวในการบรรเทา - ซึ่งเพิ่มเติม begs คำถามที่ว่าทั้งสองเป็นสิ่งจำเป็น ฉันเพิ่งเริ่มใช้ ggplot2 สำหรับความต้องการด้านกราฟิกส่วนใหญ่ของฉันและคิดว่ามันยอดเยี่ยม แต่มันได้ท้าทายวิธีการ "ไม่มีกล่องไม่มีพื้นหลังไม่มีเส้นตาราง" ของฉันกับกราฟิกที่ฉันใช้มาก่อน ฉันเคยคิดว่าgridlines=OFFควรจะเป็นค่าเริ่มต้นของฉันเว้นแต่จะมีเหตุผลเฉพาะสำหรับการเพิ่มพวกเขา - โดยทั่วไปวิธีการที่แนะนำในบทความนี้เช่น แน่นอนว่ามันเป็นเรื่องตรงไปตรงมาที่จะกำหนดธีมใน ggplot2 เพื่อหลีกเลี่ยง gridlines และ background shading (และอันที่จริงแล้วเราได้ทำสิ่งนี้ในที่ทำงานของฉัน) แต่วิธีของ ggplot2 นั้นยอดเยี่ยมมากและโดยทั่วไปแล้ว ฉันขาดอะไรไป ดังนั้น - ฉันจะขอบคุณสำหรับการอ้างอิงใด ๆ ในจุดนี้ ฉันแน่ใจว่ามันถูกคิดอย่างดีผ่าน (เช่นโดย …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.