สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
เมื่อใดที่จะใช้สมการการประมาณแบบทั่วไปกับแบบจำลองเอฟเฟกต์แบบผสม
ฉันมีความสุขมากที่ใช้โมเดลเอฟเฟกต์ผสมอยู่พักหนึ่งแล้วด้วยข้อมูลระยะยาว ฉันหวังว่าฉันจะสามารถปรับความสัมพันธ์ AR ใน lmer (ฉันคิดว่าฉันถูกต้องที่ฉันไม่สามารถทำได้?) แต่ฉันไม่คิดว่ามันสำคัญอย่างยิ่งดังนั้นฉันจึงไม่ต้องกังวลมากเกินไป ฉันเพิ่งเจอสมการการประมาณทั่วไป (GEE) และดูเหมือนว่าพวกเขาจะมีความยืดหยุ่นมากกว่ารุ่น ME เมื่อมีความเสี่ยงในการถามคำถามทั่วไปมีคำแนะนำใดที่เหมาะกับภารกิจที่แตกต่างกันหรือไม่? ฉันเคยเห็นเอกสารเปรียบเทียบพวกเขาและพวกเขามีแนวโน้มที่จะเป็นของแบบฟอร์ม: "ในพื้นที่ที่มีความเชี่ยวชาญสูงนี้อย่าใช้ GEEs สำหรับ X อย่าใช้รุ่น ME สำหรับ Y" ฉันไม่พบคำแนะนำทั่วไปอีกแล้ว มีใครสอนฉันได้ไหม ขอขอบคุณ!
63 mixed-model  gee 

9
รายการสถานการณ์ที่วิธีการแบบเบย์นั้นง่ายกว่าใช้งานได้จริงหรือสะดวกกว่า
มีการถกเถียงกันมากมายในสถิติระหว่าง Bayesians และผู้ใช้บ่อย ฉันมักจะพบสิ่งเหล่านี้ค่อนข้างวาง (แม้ว่าฉันคิดว่ามันจะตายลง) ในทางกลับกันฉันได้พบกับคนหลายคนที่มองปัญหาอย่างจริงจังโดยบอกว่าบางครั้งมันสะดวกกว่าที่จะทำการวิเคราะห์เป็นประจำและบางครั้งมันก็ง่ายกว่าที่จะทำการวิเคราะห์แบบเบย์ ฉันพบว่ามุมมองนี้ใช้งานได้จริงและสดชื่น มันเกิดขึ้นกับฉันว่ามันจะมีประโยชน์หากมีรายการของกรณีดังกล่าว เพราะมีการวิเคราะห์ทางสถิติมากเกินไปและเพราะฉันคิดว่ามันเป็นเรื่องปกติในทางปฏิบัติมากขึ้นในการทำการวิเคราะห์แบบประจำ (การเข้ารหัส t-test ใน WinBUGS นั้นมีความเกี่ยวข้องมากกว่าการเรียกใช้ฟังก์ชันเดียวเพื่อดำเนินการเวอร์ชันที่ใช้บ่อยใน R ตัวอย่างเช่น) จะเป็นการดีถ้ามีรายการของสถานการณ์ที่วิธีการแบบเบย์นั้นง่ายกว่าใช้งานได้จริงและ / หรือสะดวกกว่าวิธีที่ใช้เป็นประจำ (สองคำตอบที่ฉันไม่สนใจคือ: 'เสมอ' และ 'ไม่เคย' ฉันเข้าใจว่าผู้คนมีความคิดเห็นที่ดี แต่โปรดอย่าออกอากาศพวกเขาที่นี่ถ้ากระทู้นี้กลายเป็นสถานที่สำหรับการทะเลาะวิวาทย่อยฉันอาจจะลบ มันเป้าหมายของฉันที่นี่คือการพัฒนาทรัพยากรที่จะเป็นประโยชน์สำหรับนักวิเคราะห์ที่มีงานต้องทำไม่ใช่ขวานที่จะบด) ผู้คนสามารถแนะนำมากกว่าหนึ่งกรณีได้ แต่โปรดใช้คำตอบแยกต่างหากเพื่อให้แต่ละสถานการณ์สามารถประเมิน (โหวต / อภิปราย) เป็นรายบุคคล คำตอบควรรายการ: (1) สิ่งที่ธรรมชาติของสถานการณ์ที่เป็นและ (2) ทำไมวิธีคชกรรมง่ายในกรณีนี้ บางรหัส (พูดใน WinBUGS) แสดงให้เห็นว่าการวิเคราะห์จะทำอย่างไรและทำไมรุ่น Bayesian จึงใช้งานได้ดีกว่านั้นจะเหมาะ แต่ฉันคาดหวังว่าจะยุ่งยากเกินไป หากสามารถทำได้อย่างง่ายดายฉันจะขอบคุณ แต่โปรดระบุเหตุผลว่าทำไมทั้งสองวิธี ในที่สุดฉันรู้ว่าฉันไม่ได้กำหนดความหมายสำหรับวิธีการหนึ่งที่จะ 'ง่ายกว่า' อีกวิธีหนึ่ง ความจริงก็คือฉันไม่แน่ใจว่าสิ่งใดที่ควรมีความหมายสำหรับวิธีการหนึ่งที่จะนำไปปฏิบัติได้มากกว่าวิธีอื่น …

10
Taleb และ Black Swan
หนังสือของ Taleb "The Black Swan" เป็นหนังสือขายดีที่สุดของ New York Times เมื่อมีข่าวออกมาเมื่อหลายปีก่อน หนังสือเล่มนี้อยู่ในรุ่นที่สองของมัน หลังจากพบกับนักสถิติในงาน JSM (การประชุมสถิติประจำปี) Taleb ก็ปรับลดคำวิจารณ์ของเขาลงเล็กน้อย แต่แรงผลักดันของหนังสือเล่มนี้ก็คือสถิติไม่ได้มีประโยชน์มากนักเพราะมันขึ้นอยู่กับการแจกแจงแบบปกติและเหตุการณ์ที่หายากมาก: "แบล็กสวอน" ไม่มีการแจกแจงแบบปกติ คุณคิดว่านี่เป็นคำวิจารณ์ที่ถูกต้องหรือไม่? Taleb ขาดส่วนสำคัญของการสร้างแบบจำลองทางสถิติหรือไม่? สามารถทำนายเหตุการณ์ที่เกิดขึ้นได้น้อยอย่างน้อยในแง่ที่ว่าความน่าจะเป็นของการเกิดขึ้นสามารถประมาณได้?

3
การอ้างอิงที่มีข้อโต้แย้งเปรียบเทียบกับการทดสอบนัยสำคัญสมมุติฐานว่าง?
ในช่วงไม่กี่ปีที่ผ่านมาฉันได้อ่านเอกสารจำนวนหนึ่งที่โต้แย้งการใช้การทดสอบสมมติฐานที่ไม่มีนัยสำคัญทางวิทยาศาสตร์ในทางวิทยาศาสตร์ แต่ไม่คิดว่าจะเก็บรายการถาวร เมื่อเร็ว ๆ นี้มีเพื่อนร่วมงานคนหนึ่งขอให้ฉันทำรายการแบบนี้ฉันคิดว่าฉันจะขอให้ทุกคนที่นี่ช่วยสร้างมันขึ้นมา เพื่อเริ่มต้นสิ่งต่าง ๆ นี่คือสิ่งที่ฉันมีจนถึงตอนนี้: Johansson (2011) "ยกย่องสิ่งที่เป็นไปไม่ได้: ค่า p, หลักฐานและความน่าจะเป็น" Haller & Kraus (2002) "การตีความความหมายที่ผิด: นักเรียนมีปัญหาแบ่งปันกับครู" Wagenmakers (2007) "วิธีแก้ปัญหาที่ใช้งานได้จริงเพื่อแก้ไขปัญหา p-values" Rodgers (2010) "ญาณวิทยาของการสร้างแบบจำลองทางคณิตศาสตร์และสถิติ: การปฏิวัติระเบียบวิธีที่เงียบสงบ" Dixon (1998) "ทำไมนักวิทยาศาสตร์ถึงให้คุณค่ากับค่า p" Glover & Dixon (2004) "อัตราส่วนความน่าจะเป็น: สถิติที่ง่ายและยืดหยุ่นสำหรับนักจิตวิทยาเชิงประจักษ์"

8
PCA ตามมาด้วยการหมุน (เช่น varimax) ยังคงเป็น PCA หรือไม่
ฉันได้ลองทำซ้ำการวิจัย (ใช้ PCA) จาก SPSS ใน R จากประสบการณ์ของฉันprincipal() ฟังก์ชั่นจากแพ็คเกจpsychเป็นฟังก์ชั่นเดียวที่เข้ามาใกล้ (หรือถ้าหน่วยความจำของฉันทำหน้าที่ฉันถูกต้องตาย) เพื่อให้ตรงกับผลลัพธ์ เพื่อให้ตรงกับผลเช่นเดียวกับในโปรแกรม SPSS principal(..., rotate = "varimax")ผมต้องใช้พารามิเตอร์ ฉันเคยเห็นเอกสารพูดคุยเกี่ยวกับวิธีที่พวกเขาทำ PCA แต่จากผลของ SPSS และการใช้การหมุนมันฟังดูคล้ายกับการวิเคราะห์ตัวประกอบ คำถาม: PCA คือแม้หลังจากหมุน (โดยใช้varimax) ยังคง PCA หรือไม่ ฉันรู้สึกว่านี่อาจเป็นการวิเคราะห์ตัวประกอบจริง ๆ ... ในกรณีที่ไม่ได้ฉันมีรายละเอียดอะไรบ้าง

5
อธิบายความแตกต่างระหว่างการถดถอยหลายครั้งและการถดถอยหลายตัวแปรโดยใช้สัญลักษณ์ / คณิตศาสตร์น้อยที่สุด
การถดถอยหลายตัวแปรและหลายตัวแปรแตกต่างกันจริง ๆ หรือไม่? อะไรคือสิ่งที่เปลี่ยนแปลง?

3
อะไรคือความแตกต่างระหว่างเครือข่ายประสาทและเครือข่ายความเชื่อที่ลึกซึ้ง?
ฉันได้รับความประทับใจว่าเมื่อผู้คนพูดถึงเครือข่าย 'ความเชื่อลึก' ว่านี่เป็นเครือข่ายประสาท แต่มีขนาดใหญ่มาก สิ่งนี้ถูกต้องหรือเครือข่ายที่มีความเชื่ออย่างลึกซึ้งหรือไม่ก็บอกเป็นนัยว่าอัลกอริธึมเองนั้นแตกต่างกัน (เช่นไม่มีตัวส่งต่อโครงข่ายประสาท

6
ทำไมอัลกอริทึมการจัดกลุ่ม k หมายถึงใช้เฉพาะการวัดระยะทางแบบยุคลิดเท่านั้น
มีจุดประสงค์เฉพาะในแง่ของประสิทธิภาพหรือการทำงานทำไมอัลกอริธึม k - หมายถึงไม่ใช้เช่นโคไซน์ (dis) ความคล้ายคลึงกันเป็นตัวชี้วัดระยะทาง แต่สามารถใช้บรรทัดฐานแบบยุคลิดเท่านั้น? โดยทั่วไปวิธี K-mean จะปฏิบัติตามและถูกต้องเมื่อมีการพิจารณาหรือใช้ระยะทางอื่นนอกเหนือจาก Euclidean หรือไม่? [เพิ่มโดย @ttnphns คำถามคือสองเท่า "(ไม่ใช่) ระยะทางแบบยุคลิด" อาจเกี่ยวข้องกับระยะห่างระหว่างจุดข้อมูลสองจุดหรือระยะห่างระหว่างจุดข้อมูลและจุดศูนย์กลางคลัสเตอร์ ทั้งสองวิธีมีความพยายามในการตอบที่อยู่ในคำตอบจนถึง]

4
ข้อสันนิษฐานเกี่ยวกับการประมาณการ bootstrap ของความไม่แน่นอน
ฉันขอขอบคุณความมีประโยชน์ของ bootstrap ในการได้รับการประเมินความไม่แน่นอน แต่สิ่งหนึ่งที่รบกวนฉันอยู่เสมอเกี่ยวกับเรื่องนี้คือการกระจายตัวที่สอดคล้องกับการประมาณการเหล่านั้นคือการกระจายตัวที่กำหนดโดยกลุ่มตัวอย่าง โดยทั่วไปดูเหมือนว่าเป็นความคิดที่ดีที่จะเชื่อว่าความถี่ตัวอย่างของเรามีลักษณะเหมือนกับการแจกแจงพื้นฐานดังนั้นเหตุใดจึงเป็นที่ยอมรับกันโดยทั่วไปว่าการประเมินความไม่แน่นอนขึ้นอยู่กับการกระจายที่ความถี่ตัวอย่างกำหนดการแจกแจงต้นแบบ ในทางกลับกันสิ่งนี้อาจไม่เลว (อาจดีกว่า) กว่าสมมติฐานการกระจายอื่น ๆ ที่เรามักทำ แต่ฉันก็ยังต้องการที่จะเข้าใจเหตุผลที่ดีกว่า

3
วิธีการพล็อตแผนภูมิตัวอย่างจาก randomForest :: getTree () จริง ๆ ได้อย่างไร? [ปิด]
ทุกคนมีคำแนะนำห้องสมุดหรือรหัสเกี่ยวกับวิธีการพล็อตตัวอย่างต้นไม้สองสามต้นจาก: getTree(rfobj, k, labelVar=TRUE) (ใช่ฉันรู้ว่าคุณไม่ควรทำสิ่งนี้ในเชิงปฏิบัติ RF เป็นกล่องดำ ฯลฯ ฯลฯ ฉันต้องการให้มีสติตรวจสายตาต้นไม้เพื่อดูว่าตัวแปรใดที่ทำงานผิดพลาดหรือไม่จำเป็นต้องปรับแต่ง / รวม / แยก / แปลง / ตรวจสอบ ปัจจัยที่เข้ารหัสของฉันทำงานได้ดีเพียงใด ฯลฯ ) คำถามก่อนหน้าโดยไม่มีคำตอบที่ดี: วิธีที่จะทำให้ป่าสุ่มตีความได้มากขึ้น? นอกจากนี้ยังได้รับความรู้จากป่าสุ่ม ที่จริงผมอยากจะพล็อตต้นไม้ตัวอย่าง ดังนั้นอย่าเถียงกับฉันเกี่ยวกับเรื่องนี้อยู่แล้ว ฉันไม่ได้ถามเกี่ยวกับvarImpPlot(Variance Importance Plot) หรือpartialPlotหรือMDSPlotหรือแปลงอื่น ๆ เหล่านี้ฉันมีอยู่แล้ว แต่พวกมันไม่ได้ใช้แทนการดูต้นไม้ตัวอย่าง getTree(...,labelVar=TRUE)ใช่ครับผมสายตาสามารถตรวจสอบการส่งออกของ (ฉันเดาว่าplot.rf.tree()ผลงานจะได้รับการตอบรับดีมาก)

8
หาก A และ B สัมพันธ์กับ C เหตุใด A และ B จึงไม่สัมพันธ์กัน?
ฉันรู้ด้วยสังเกตุว่าเป็นอย่างนั้น ฉันเพิ่งพัฒนาแบบจำลองที่ใช้กับปริศนานี้ ฉันยังสงสัยด้วยว่าไม่จำเป็นต้องตอบใช่หรือไม่ใช่ ฉันหมายความว่าถ้าทั้ง A และ B มีความสัมพันธ์กับ C นี่อาจมีความหมายบางอย่างเกี่ยวกับความสัมพันธ์ระหว่าง A และ B แต่ความหมายนี้อาจอ่อนแอ มันอาจเป็นเพียงทิศทางของการเข้าสู่ระบบและไม่มีอะไรอื่น นี่คือสิ่งที่ฉันหมายถึง ... สมมุติว่า A และ B ทั้งสองมีความสัมพันธ์กับ C 0.5 โดยที่ความสัมพันธ์ระหว่าง A และ B อาจเป็น 1.0 ฉันคิดว่ามันอาจจะ 0.5 หรือต่ำกว่า แต่ฉันคิดว่ามันไม่น่าเป็นไปได้ที่จะเป็นลบ คุณเห็นด้วยไหม นอกจากนี้ยังมีนัยถ้าคุณกำลังพิจารณาค่าสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันหรือแทนที่จะเป็นค่าสัมประสิทธิ์สหสัมพันธ์สเปียร์แมน (อันดับ)? การสังเกตเชิงประจักษ์ล่าสุดของฉันเกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์สเปียร์แมน

8
Bayesians: ทาสของฟังก์ชั่นโอกาส?
ในหนังสือของเขา "All of Statistics" ศ. Larry Wasserman นำเสนอตัวอย่างต่อไปนี้ (11.10, หน้า 188) สมมติว่าเรามีความหนาแน่นเช่นนั้นf ( x ) = cfffซึ่งกรัมเป็นที่รู้จักกัน(ไม่เป็นลบ, integrable) ฟังก์ชั่นและการฟื้นฟูอย่างต่อเนื่องค> 0คือไม่รู้จักf(x)=cg(x)f(x)=cg(x)f(x)=c\,g(x)gggc>0c>0c>0 เราสนใจในกรณีที่เราไม่สามารถคำนวณ x ตัวอย่างเช่นอาจเป็นกรณีที่ fเป็น pdf ในพื้นที่ตัวอย่างที่มีมิติสูงมากc=1/∫g(x)dxc=1/∫g(x)dxc=1/\int g(x)\,dxfff เป็นที่ทราบกันดีว่ามีเทคนิคการจำลองที่ช่วยให้เราสามารถสุ่มตัวอย่างจากแม้ว่าcจะไม่เป็นที่รู้จัก ดังนั้นตัวต่อคือ: เราจะประมาณค่าcจากตัวอย่างได้อย่างไร?fffcccccc ศ. Wasserman อธิบายถึงวิธีการแก้ปัญหาแบบเบย์ต่อไปนี้: ให้เป็นบางส่วนก่อนสำหรับค ความน่าจะเป็นคือ L x ( c ) = n ∏ i = 1 f ( x i …

3
สิ่งที่เหลืออยู่ในการถดถอยโลจิสติกหมายถึงอะไร
ในการตอบคำถามนี้ John Christie แนะนำว่าแบบจำลองการถดถอยแบบโลจิสติกส์ควรได้รับการประเมินโดยการประเมินส่วนที่เหลือ ฉันคุ้นเคยกับวิธีการตีความส่วนที่เหลือใน OLS พวกเขาอยู่ในระดับเดียวกับ DV และความแตกต่างอย่างชัดเจนระหว่าง y และ y ที่ทำนายโดยโมเดล อย่างไรก็ตามสำหรับการถดถอยโลจิสติกส์ในอดีตที่ผ่านมาฉันมักจะตรวจสอบการประมาณการของแบบจำลองเช่น AIC เพราะฉันไม่แน่ใจว่าสิ่งที่เหลือจะหมายถึงการถดถอยโลจิสติก หลังจากดูไฟล์ช่วยเหลือของ Rแล้วฉันเห็นว่าใน R มี glm เหลืออยู่ห้าประเภท, c("deviance", "pearson", "working","response", "partial"). ไฟล์ช่วยเหลืออ้างถึง: Davison, AC และ Snell, EJ (1991) ส่วนที่เหลือและการวินิจฉัย ใน: ทฤษฎีสถิติและแบบจำลอง ในเกียรติของเซอร์เดวิดคอคส์ FRSชั้นเลิศ Hinkley, DV, Reid, N. และ Snell, EJ, Chapman & Hall ฉันไม่มีสำเนาของสิ่งนั้น มีวิธีสั้น …


4
ฟังก์ชั่น Softmax vs Sigmoid ในลอจิสติกลอจิก
อะไรคือตัวเลือกของฟังก์ชั่น (Softmax vs Sigmoid) ในลอจิสติกลักษณนาม? สมมติว่ามี 4 ชั้นเรียนเอาท์พุท แต่ละฟังก์ชั่นด้านบนให้ความน่าจะเป็นของแต่ละคลาสเป็นเอาต์พุตที่ถูกต้อง ดังนั้นอันไหนที่จะใช้สำหรับลักษณนาม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.