สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
แกมมากู๊ดแมน - ครูลัสและความสัมพันธ์ของเคนดัลล์เอกภาพหรือ Spearman rho เปรียบเทียบได้อย่างไร?
ในงานของฉันเรากำลังเปรียบเทียบการจัดอันดับที่คาดการณ์ไว้กับการจัดอันดับที่แท้จริงสำหรับชุดข้อมูลบางชุด จนถึงเมื่อเร็ว ๆ นี้เราได้ใช้ Kendall-Tau เพียงอย่างเดียว กลุ่มที่ทำงานในโครงการที่คล้ายกันแนะนำว่าเราพยายามใช้Goodman-Kruskal Gammaแทนและพวกเขาต้องการมัน ฉันสงสัยว่าอะไรคือความแตกต่างระหว่างอัลกอริทึมสหสัมพันธ์อันดับที่แตกต่างกัน สิ่งที่ดีที่สุดที่ฉันพบคือคำตอบนี้ซึ่งอ้างว่าใช้ Spearman แทนที่ความสัมพันธ์เชิงเส้นปกติและ Kendall-Tau นั้นตรงน้อยกว่าและคล้ายกับ Goodman-Kruskal Gamma มากขึ้น ข้อมูลที่ฉันทำงานด้วยดูเหมือนจะไม่มีความสัมพันธ์เชิงเส้นชัดเจนและข้อมูลนั้นเบ้อย่างมากและไม่ปกติ นอกจากนี้สเปียร์แมนยังรายงานความสัมพันธ์ที่สูงกว่าเคนดัลล์ - เทาสำหรับข้อมูลของเราและฉันก็สงสัยว่าสิ่งที่พูดเกี่ยวกับข้อมูลนั้นโดยเฉพาะ ฉันไม่ใช่นักสถิติดังนั้นเอกสารบางอย่างที่ฉันอ่านเกี่ยวกับสิ่งเหล่านี้ดูเหมือนจะเป็นศัพท์แสงให้ฉันขอโทษ

3
แสดงภาพล้านฉบับ PCA
เป็นไปได้หรือไม่ที่จะเห็นภาพผลลัพธ์ของการวิเคราะห์องค์ประกอบหลักในรูปแบบที่ให้ข้อมูลเชิงลึกมากกว่าแค่ตารางสรุป? เป็นไปได้ไหมที่จะทำเมื่อจำนวนการสังเกตมีขนาดใหญ่พูด ~ 1e4 และเป็นไปได้หรือไม่ที่จะทำใน R [สภาพแวดล้อมอื่น ๆ ยินดีต้อนรับ]?

2
ความแปรปรวนของผลผลิตของตัวแปรตาม
สูตรสำหรับความแปรปรวนของผลิตภัณฑ์ของตัวแปรตามคืออะไร ในกรณีของตัวแปรอิสระสูตรนั้นง่าย: var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 {\rm var}(XY) = E(X^{2}Y^{2}) - E(XY)^{2} = {\rm var}(X){\rm var}(Y) + {\rm var}(X)E(Y)^2 + {\rm var}(Y)E(X)^2 แต่สูตรสำหรับตัวแปรที่เกี่ยวข้องคืออะไร โดยวิธีการฉันจะค้นหาความสัมพันธ์ตามข้อมูลทางสถิติได้อย่างไร

3
รองรับมุมมองที่ยึดที่มั่นของค่า p
บางครั้งในรายงานฉันมีข้อจำกัดความรับผิดชอบเกี่ยวกับค่า p และสถิติเชิงอนุมานอื่น ๆ ที่ฉันได้ให้ไว้ ฉันบอกว่าเนื่องจากตัวอย่างไม่สุ่มดังนั้นสถิติดังกล่าวจะไม่ใช้อย่างเคร่งครัด ถ้อยคำเฉพาะของฉันมักจะได้รับในเชิงอรรถ: "ในขณะที่การพูดอย่างเคร่งครัดสถิติเชิงอนุมานใช้ได้เฉพาะในบริบทของการสุ่มตัวอย่างเราปฏิบัติตามการประชุมในการรายงานระดับนัยสำคัญและ / หรือช่วงความเชื่อมั่นเป็นแนวทางที่สะดวกแม้สำหรับตัวอย่างที่ไม่สุ่มดูการอนุมานทางสถิติของ Michael Oakes : พฤติกรรมศาสตร์ (NY: Wiley, 1986) ในโอกาสสองครั้ง - หนึ่งครั้งสำหรับเอกสารที่ผ่านการตรวจสอบโดยเพื่อนครั้งหนึ่งหรือสองครั้งในการตั้งค่าที่ไม่ใช่เชิงวิชาการ - บรรณาธิการหรือผู้ตรวจสอบคัดค้านข้อจำกัดความรับผิดชอบนี้เรียกมันว่าทำให้สับสนและรู้สึกว่าการค้นพบเชิงอนุมาน (และจะได้รับเสื้อคลุมของผู้มีอำนาจ) มีใครประสบปัญหานี้และหาทางออกที่ดี? ในอีกด้านหนึ่งความเข้าใจของผู้คนเกี่ยวกับค่า p โดยทั่วไปมักจะไม่พอใจแม้แต่ในบริบทของการสุ่มตัวอย่างดังนั้นบางทีมันอาจจะไม่สำคัญกับสิ่งที่เราพูด ในอีกทางหนึ่งการมีส่วนร่วมต่อไปกับความเข้าใจผิดดูเหมือนจะทำให้ส่วนหนึ่งของปัญหา ฉันควรเพิ่มว่าฉันมักจะจัดการกับการศึกษาการสำรวจที่ไม่ได้รับมอบหมายแบบสุ่มและสถานที่ที่การจำลองสถานการณ์ของมอนติคาร์โลมักจะล้มเหลวในการแก้ไขปัญหาของการเป็นตัวแทน

1
การกระจายของพารามิเตอร์ใน BUGS และ R แตกต่างกันอย่างไร?
ฉันได้พบการแจกแจงบางอย่างซึ่ง BUGS และ R มีพารามิเตอร์ต่างกัน: Normal, log-Normal และ Weibull สำหรับแต่ละสิ่งเหล่านี้ฉันรวบรวมว่าพารามิเตอร์ตัวที่สองที่ใช้โดย R จำเป็นต้องแปลงผกผัน (1 / พารามิเตอร์) ก่อนที่จะใช้ใน BUGS (หรือ JAGS ในกรณีของฉัน) ไม่มีใครทราบรายการที่ครอบคลุมของการเปลี่ยนแปลงเหล่านี้ที่มีอยู่ในปัจจุบัน? ที่ใกล้เคียงที่สุดที่ฉันสามารถหาได้คือการเปรียบเทียบการแจกแจงในตารางที่ 7 ของคู่มือผู้ใช้ JAGS 2.2.0กับผลลัพธ์?rnormอื่น ๆ และอาจเป็นข้อความความน่าจะเป็นบางอย่าง วิธีนี้ดูเหมือนจะต้องการการแปลงที่จะต้องมีการอนุมานจากไฟล์ PDF แยกต่างหาก ฉันต้องการหลีกเลี่ยงงานนี้ (และข้อผิดพลาดที่เป็นไปได้) หากทำไปแล้วหรือเริ่มรายการที่นี่ ปรับปรุง ตามคำแนะนำของเบ็นฉันได้เขียนฟังก์ชั่นต่อไปนี้เพื่อแปลงดาต้าเฟรมของพารามิเตอร์จาก R เป็น BUGS parameterization ##' convert R parameterizations to BUGS paramaterizations ##' ##' R …

3
ความสัมพันธ์ระหว่างช่วงความมั่นใจและการทดสอบสมมติฐานทางสถิติสำหรับการทดสอบที
เป็นที่ทราบกันดีว่าช่วงความมั่นใจและการทดสอบสมมติฐานทางสถิติมีความสัมพันธ์กันอย่างมาก คำถามของฉันมุ่งเน้นไปที่การเปรียบเทียบค่าเฉลี่ยสำหรับสองกลุ่มโดยยึดตามตัวแปรตัวเลข สมมุติว่าสมมุติฐานนั้นถูกทดสอบโดยใช้ t-test ในอีกด้านหนึ่งเราสามารถคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยของทั้งสองกลุ่ม มีความสัมพันธ์ระหว่างการทับซ้อนกันของช่วงความเชื่อมั่นและการปฏิเสธสมมติฐานว่างที่หมายถึงว่ามีความเท่าเทียมกันหรือไม่ ตัวอย่างเช่นการทดสอบอาจปฏิเสธสมมติฐานว่างถ้าช่วงความเชื่อมั่นไม่ทับซ้อนกัน

4
การวิเคราะห์ด้วยข้อมูลที่ซับซ้อนมีอะไรที่แตกต่างกันอย่างไร
พูดเช่นคุณกำลังทำโมเดลเชิงเส้น แต่ข้อมูลนั้นซับซ้อนYyy Y= x β+ ϵy=xβ+ϵ y = x \beta + \epsilon ชุดข้อมูลของฉันมีความซับซ้อนในขณะที่ตัวเลขทั้งหมดในที่มีรูปแบบBI) มีขั้นตอนใดบ้างที่แตกต่างเมื่อทำงานกับข้อมูลดังกล่าว?Yyy( a + b i )(a+bi)(a + bi) ฉันถามเพราะคุณจะได้รับการฝึกอบรมความแปรปรวนร่วมที่ซับซ้อนและสถิติการทดสอบที่มีมูลค่าซับซ้อน .. คุณจำเป็นต้องใช้การผันแบบคอนจูเกตแทนการแปลงสัญญาณเมื่อทำกำลังสองน้อยที่สุดหรือไม่? ค่าความแปรปรวนร่วมที่ซับซ้อนมีความหมายอะไร?

1
การเปรียบเทียบแบบจำลองเอฟเฟกต์แบบหลากหลาย
ฉันพยายามวิเคราะห์ข้อมูลบางอย่างโดยใช้แบบจำลองเอฟเฟกต์ผสม ข้อมูลที่ฉันรวบรวมนั้นเป็นตัวแทนของน้ำหนักของสัตว์เล็กที่มีจีโนไทป์ต่างกันตามเวลา ฉันใช้แนวทางที่เสนอที่นี่: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ โดยเฉพาะฉันใช้โซลูชัน # 2 ดังนั้นฉันมีสิ่งที่ชอบ require(nlme) model <- lme(weight ~ time * Genotype, random = ~1|Animal/time, data=weights) av <- anova(model) ตอนนี้ฉันต้องการเปรียบเทียบหลายอย่าง ใช้multcompฉันสามารถทำได้: require(multcomp) comp.geno <- glht(model, linfct=mcp(Genotype="Tukey")) print(summary(comp.geno)) และแน่นอนฉันสามารถทำเช่นเดียวกันกับเวลา ฉันมีสองคำถาม: ฉันจะใช้mcpเพื่อดูปฏิสัมพันธ์ระหว่างเวลาและจีโนไทป์ได้อย่างไร เมื่อฉันวิ่งglhtฉันได้รับคำเตือนนี้: covariate interactions found -- default contrast might be inappropriate มันหมายความว่าอะไร? ฉันสามารถเพิกเฉยได้อย่างปลอดภัยหรือไม่? หรือฉันควรทำอย่างไรเพื่อหลีกเลี่ยง แก้ไข: ฉันพบPDF นี้ที่ระบุว่า: …

8
เครื่องมือโอเพนซอร์สสำหรับการแสดงภาพข้อมูลหลายมิติ?
นอกจากgnuplotและggobiเครื่องมือโอเพ่นซอร์สคืออะไรที่ผู้คนใช้ในการแสดงภาพข้อมูลหลายมิติ? Gnuplot เป็นแพ็คเกจการวางแผนพื้นฐานมากหรือน้อย Ggobi สามารถทำสิ่งต่าง ๆ มากมายเช่น: ข้อมูลภาพเคลื่อนไหวตามมิติข้อมูลหรือในกลุ่มการรวบรวมแบบแยก การผสมเชิงเส้นเคลื่อนไหวเคลื่อนไหวค่าสัมประสิทธิ์ที่แตกต่างกัน คำนวณส่วนประกอบหลักและการแปลงอื่น ๆ เห็นภาพและหมุนกลุ่มข้อมูล 3 มิติ ใช้สีเพื่อแสดงมิติที่แตกต่าง มีวิธีการใดที่มีประโยชน์อื่นอีกที่มาจากโอเพ่นซอร์สและสามารถนำมาใช้ใหม่หรือปรับแต่งได้อย่างอิสระ? โปรดระบุคำอธิบายโดยย่อเกี่ยวกับความสามารถของแพ็คเกจในคำตอบ

3
สัมประสิทธิ์การถดถอยที่พลิกสัญญาณหลังจากรวมตัวทำนายอื่น ๆ
จินตนาการ คุณรันการถดถอยเชิงเส้นพร้อมตัวทำนายตัวเลขสี่ตัว (IV1, ... , IV4) เมื่อมีเพียง IV1 เท่านั้นที่รวมเป็นตัวทำนายค่าเบต้ามาตรฐานคือ +.20 เมื่อคุณรวม IV2 ถึง IV4 เครื่องหมายของสัมประสิทธิ์การถดถอยมาตรฐานของ IV1 พลิกไปที่-.25(เช่นมันจะกลายเป็นค่าลบ) สิ่งนี้ก่อให้เกิดคำถามสองสามข้อ: เกี่ยวกับคำศัพท์คุณเรียกสิ่งนี้ว่า "เอฟเฟกต์การยับยั้ง" หรือไม่? คุณจะใช้กลยุทธ์อะไรในการอธิบายและเข้าใจผลกระทบนี้? คุณมีตัวอย่างของผลกระทบดังกล่าวในทางปฏิบัติและคุณอธิบายและเข้าใจผลกระทบเหล่านี้ได้อย่างไร

6
ใครบางคนสามารถเสนอตัวอย่างของการแจกแจงแบบ unimodal ที่มีความเบ้ของศูนย์ แต่ที่ไม่สมมาตร?
ในเดือนพฤษภาคม 2553 ผู้ใช้วิกิพีเดีย Mcorazao เพิ่มประโยคหนึ่งในบทความความเบ้ว่า "ค่าศูนย์ระบุว่าค่านั้นมีการกระจายอย่างเท่าเทียมกันทั้งสองด้านของค่าเฉลี่ยซึ่งโดยทั่วไปแล้ว อย่างไรก็ตามหน้าวิกิไม่มีตัวอย่างจริงของการแจกแจงที่ทำลายกฎนี้ Googling "ตัวอย่างการแจกแจงแบบอสมมาตรที่มีความเบ้เป็นศูนย์" ยังไม่มีตัวอย่างจริงอย่างน้อยในผลลัพธ์ 20 รายการแรก การใช้คำจำกัดความที่คำนวณความเอียงโดยE[(X−μσ)3]E⁡[(X−μσ)3] \operatorname{E}\Big[\big(\tfrac{X-\mu}{\sigma}\big)^{\!3}\, \Big]และสูตร R sum((x-mean(x))^3)/(length(x) * sd(x)^3) ฉันสามารถสร้างการกระจายตัวเล็ก ๆ ตามอำเภอใจเพื่อทำให้ความเบ้ต่ำ ตัวอย่างเช่นการกระจาย x = c(1, 3.122, 5, 4, 1.1) อัตราผลตอบแทนเอียงของ5} แต่นี่คือตัวอย่างเล็ก ๆ และยิ่งกว่านั้นความเบี่ยงเบนจากสมมาตรก็ไม่ใหญ่ ดังนั้นเป็นไปได้หรือไม่ที่จะสร้างการกระจายตัวที่ใหญ่ขึ้นด้วยจุดสูงสุดที่มีความไม่สมดุลสูง แต่ก็ยังมีความเบ้ของศูนย์เกือบอยู่หรือ−5.64947⋅10−5−5.64947⋅10−5-5.64947\cdot10^{-5}

2
การถดถอยโลจิสติกส์ถูกแก้ไขเมื่อใดในรูปแบบปิด?
รับและและสมมติว่าเราจำลองงานของการทำนาย y ที่ได้รับ x โดยใช้การถดถอยโลจิสติก เมื่อใดที่สามารถเขียนสัมประสิทธิ์การถดถอยโลจิสติกในรูปแบบปิด? y ∈ { 0 , 1 }x∈{0,1}dx∈{0,1}dx \in \{0,1\}^dy∈{0,1}y∈{0,1}y \in \{0,1\} ตัวอย่างหนึ่งคือเมื่อเราใช้แบบจำลองที่อิ่มตัว นั่นคือกำหนดโดยที่ดัชนีของตั้งอยู่ในชุดพลังงานของและส่งคืน 1 ถ้า ตัวแปรทั้งหมดในชุดคือ 1 และ 0 เป็นอย่างอื่น จากนั้นคุณสามารถแสดงแต่ละในรูปแบบการถดถอยโลจิสติกนี้เป็นลอการิทึมของฟังก์ชันเหตุผลของสถิติของข้อมูลฉัน{ x 1 , ... , x d } ฉฉันฉันW ฉันP(y|x)∝exp(∑iwifi(xi))P(y|x)∝exp⁡(∑iwifi(xi))P(y|x) \propto \exp(\sum_i w_i f_i(x_i))iii{x1,…,xd}{x1,…,xd}\{x_1,\ldots,x_d\}fifif_iiiiwiwiw_i มีตัวอย่างที่น่าสนใจอื่น ๆ อีกไหมเมื่อมีแบบฟอร์มปิดอยู่?


6
วิธีเพิ่มความสามารถในการทำซ้ำในระยะยาวของการวิจัย (โดยเฉพาะการใช้ R และ Sweave)
บริบท: เพื่อตอบคำถามก่อนหน้าเกี่ยวกับการวิจัยที่ทำซ้ำได้Jake เขียน ปัญหาหนึ่งที่เราค้นพบเมื่อสร้าง JASA archive ของเราคือเวอร์ชันและค่าเริ่มต้นของแพ็คเกจ CRAN เปลี่ยนไป ดังนั้นในที่เก็บถาวรนั้นเรายังรวมรุ่นของแพ็คเกจที่เราใช้ ระบบที่ใช้ vignette อาจจะแตกเป็นเสี่ยง ๆ เมื่อคนเปลี่ยนแพ็คเกจของพวกเขา (ไม่แน่ใจว่าจะรวมแพ็คเกจเพิ่มเติมภายในแพ็คเกจที่เป็น Compendium) ได้อย่างไร ในที่สุดฉันสงสัยว่าจะทำอย่างไรเมื่อตัว R เปลี่ยนไป มีวิธีการผลิตพูดว่าเครื่องเสมือนจริงที่สร้างสภาพแวดล้อมการคำนวณทั้งหมดที่ใช้สำหรับกระดาษเช่นที่เครื่องเสมือนไม่ใหญ่หลวงหรือไม่? คำถาม: กลยุทธ์ที่ดีในการสร้างความมั่นใจว่าการวิเคราะห์ข้อมูลที่ทำซ้ำได้นั้นสามารถทำซ้ำได้ในอนาคต (เช่นห้าสิบหรือยี่สิบปีหลังจากการตีพิมพ์)? อะไรคือกลยุทธ์ที่ดีในการเพิ่มความสามารถในการทำซ้ำอย่างต่อเนื่องเมื่อใช้ Sweave และ R ดูเหมือนว่าจะเกี่ยวข้องกับปัญหาของการทำให้มั่นใจว่าโครงการการวิเคราะห์ข้อมูลที่ทำซ้ำได้จะทำงานในเครื่องของผู้อื่นที่มีค่าเริ่มต้นแพ็คเกจที่แตกต่างกันเล็กน้อย ฯลฯ

7
ทำไมการตรวจสอบความถูกต้องจึงผันผวน
ฉันมีซีเอ็นเอ็นสี่ชั้นเพื่อทำนายการตอบสนองต่อโรคมะเร็งโดยใช้ข้อมูล MRI ฉันใช้การเปิดใช้งาน ReLU เพื่อแนะนำการไม่เชิงเส้น ความแม่นยำและการสูญเสียของขบวนรถไฟเพิ่มขึ้นและลดลงแบบ monotonically ตามลำดับ แต่ความแม่นยำในการทดสอบของฉันเริ่มผันผวนอย่างมาก ฉันลองเปลี่ยนอัตราการเรียนรู้ลดจำนวนเลเยอร์ แต่ก็ไม่ได้หยุดความผันผวน ฉันได้อ่านคำตอบนี้และลองทำตามคำแนะนำในคำตอบนั้น แต่ไม่โชคดี ใครช่วยให้ฉันคิดว่าฉันจะไปไหนผิด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.