สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

6
'ไม่มีเส้นตรงสูง' หมายถึงอะไร
ฉันมักจะอ่านเกี่ยวกับฟังก์ชั่นที่ว่า ในความเข้าใจของฉันมี "เส้นตรง" และ "ไม่ใช่เชิงเส้น" ดังนั้นสิ่งนี้ 'สูง' เกี่ยวกับอะไร มีความแตกต่างอย่างเป็นทางการจากไม่ใช่เชิงเส้นหรือไม่? มันถูกกำหนดอย่างไร?

4
ข้อผิดพลาดในการออกแบบการทดลอง: หลีกเลี่ยงการทดลองที่ตายแล้ว
ฉันเจอคำพูดนี้หลายครั้ง: การปรึกษานักสถิติหลังจากการทดลองเสร็จสิ้นมักจะเป็นเพียงการขอให้เขาทำการทดสอบชันสูตรศพ บางทีเขาอาจพูดได้ว่าการทดลองเสียชีวิตจากอะไร - โรนัลด์ฟิชเชอร์ (2481) สำหรับฉันดูเหมือนว่าอาจจะเกรงใจเล็กน้อย ตัวอย่างเดียวที่ฉันเคยพบอธิบายว่าการทดลองตายโดยไม่มีการออกแบบที่ดีคือการขาดการควบคุมหรือการควบคุมที่ไม่ดี ตัวอย่างเช่นการทดลองที่ควบคุมการใช้ปุ๋ย แต่ไม่สามารถควบคุมสภาพแวดล้อมที่จำเป็นสำหรับการใช้งาน อาจเป็นเพียงฉัน แต่ดูเหมือนว่าการอ่านอย่างรวดเร็วในส่วน Wikipedia เกี่ยวกับหลักการออกแบบของ Fisherจะครอบคลุมฐานส่วนใหญ่ ในฐานะนักสถิติคุณเห็นการออกแบบปัญหาที่เกี่ยวข้องกับการทดสอบกับข้อมูลบ่อยเพียงใด พวกมันเกี่ยวข้องกับปัจจัยบางอย่างที่ฟิชเชอร์พูดถึงเสมอหรือมีข้อผิดพลาดร้ายแรงอื่น ๆ ที่เราไม่ควรมองหานักวิทยาศาสตร์ที่ผ่านการฝึกอบรมทางสถิติหรือไม่?

7
ความสัมพันธ์นั้นเทียบเท่ากับความสัมพันธ์หรือไม่?
ศาสตราจารย์สถิติของฉันอ้างว่าคำว่า "สหสัมพันธ์" นั้นใช้กับความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรในขณะที่คำว่า "การเชื่อมโยง" นั้นใช้กับความสัมพันธ์ทุกประเภทอย่างกว้างขวาง กล่าวอีกนัยหนึ่งเขาอ้างว่าคำว่า "ความสัมพันธ์แบบไม่เป็นเชิงเส้น" คือคำปฏิสนธิ จากสิ่งที่ฉันสามารถทำในส่วนนี้ในบทความ Wikipedia ที่ " ความสัมพันธ์และการพึ่งพา " สัมประสิทธิ์สหสัมพันธ์ Pearson อธิบายถึงระดับของ "เส้นตรง" ในความสัมพันธ์ระหว่างสองตัวแปร นี่แสดงให้เห็นว่าคำว่า "สหสัมพันธ์" นั้นใช้กับความสัมพันธ์เชิงเส้นเท่านั้น ในทางกลับกันการค้นหาอย่างรวดเร็วของ Google สำหรับ " ความสัมพันธ์ที่ไม่ใช่เชิงเส้น " จะปรากฏขึ้นจำนวนเอกสารเผยแพร่ที่ใช้คำว่า อาจารย์ของฉันถูกต้องหรือว่า "สหสัมพันธ์" เป็นเพียงคำพ้องความหมายของ "สมาคม"?

4
ขนาดตัวอย่างขั้นต่ำสำหรับ PCA หรือ FA เมื่อเป้าหมายหลักคือการประมาณการเพียงไม่กี่องค์ประกอบ?
ถ้าฉันมีชุดข้อมูลที่มีการสังเกตและตัวแปรp (มิติ) และโดยทั่วไปnมีขนาดเล็ก ( n = 12 - 16 ) และpอาจอยู่ในช่วงตั้งแต่ขนาดเล็ก ( p = 4 - 10 ) ถึงอาจใหญ่กว่ามาก ( p = 30 - 50 )nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 ฉันจำได้ว่าเรียนรู้ว่าควรใหญ่กว่าpเพื่อเรียกใช้การวิเคราะห์องค์ประกอบหลัก (PCA) หรือการวิเคราะห์ปัจจัย (FA) แต่ดูเหมือนว่านี่อาจไม่เป็นเช่นนั้นในข้อมูลของฉัน โปรดทราบว่าเพื่อจุดประสงค์ของฉันฉันไม่ค่อยสนใจองค์ประกอบหลักใด ๆ ที่ผ่านมา PC2nnnppp คำถาม: กฎของหัวแม่มือสำหรับขนาดตัวอย่างขั้นต่ำคืออะไรเมื่อ PCA ใช้งานได้และเมื่อใด มันเป็นเรื่องที่เคยตกลงที่จะใช้เครื่องคอมพิวเตอร์ครั้งแรกไม่กี่แม้ว่าหรือn &lt; P ?n=pn=pn=pn&lt;pn&lt;pn<p มีการอ้างอิงเกี่ยวกับเรื่องนี้หรือไม่? มันเป็นสิ่งสำคัญถ้าเป้าหมายหลักของคุณคือการใช้ PC1 และอาจเป็นไปได้ว่า …

3
หากการถดถอยเชิงเส้นสัมพันธ์กับสหสัมพันธ์ของเพียร์สันมีเทคนิคการถดถอยใด ๆ ที่เกี่ยวข้องกับสหสัมพันธ์ของเคนดัลล์และสเปียร์แมนหรือไม่?
บางทีคำถามนี้อาจไร้เดียงสา แต่: หากการถดถอยเชิงเส้นสัมพันธ์อย่างใกล้ชิดกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันมีเทคนิคการถดถอยใด ๆ ที่เกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์ของเคนดัลล์และสเปียร์แมนหรือไม่?

5
อะไรจะทำให้ PCA เสื่อมเสียผลลัพธ์ของตัวจําแนก?
ฉันมีตัวจําแนกที่ฉันทําการตรวจสอบความถูกต้องข้ามพร้อมกับคุณสมบัติหนึ่งร้อยหรือมากกว่านั้นที่ฉันกําลังเลือกไปข้างหน้าเพื่อค้นหาชุดค่าผสมที่เหมาะสม ฉันยังเปรียบเทียบสิ่งนี้กับการเรียกใช้การทดสอบเดียวกันกับ PCA ซึ่งฉันใช้คุณสมบัติที่เป็นไปได้ใช้ SVD แปลงสัญญาณดั้งเดิมไปยังพื้นที่พิกัดใหม่และใช้คุณสมบัติอันดับสูงสุดในกระบวนการเลือกไปข้างหน้าของฉันkkk สัญชาตญาณของฉันคือ PCA จะปรับปรุงผลลัพธ์เนื่องจากสัญญาณจะเป็น "ข้อมูล" มากกว่าคุณลักษณะดั้งเดิม ความเข้าใจอันไร้เดียงสาของฉันเกี่ยวกับ PCA ทำให้ฉันมีปัญหาหรือไม่? ทุกคนสามารถแนะนำสาเหตุทั่วไปบางประการที่ทำให้ PCA อาจปรับปรุงผลลัพธ์ในบางสถานการณ์ แต่แย่ลงในกรณีอื่น ๆ

2
อะไรคือค่า p, d, q, ใน ARIMA?
ในarimaฟังก์ชันใน R order(1, 0, 12)หมายถึงอะไร อะไรคือค่าที่สามารถกำหนดให้p, d, qและสิ่งที่เป็นกระบวนการในการหาค่าเหล่านั้นหรือไม่
27 r  time-series  arima 

2
ในโมเดลหลายระดับความหมายเชิงปฏิบัติของการประเมินเปรียบเทียบกับพารามิเตอร์สหสัมพันธ์แบบสุ่มที่ไม่ประมาณค่าคืออะไร
ในโมเดลหลายระดับสิ่งที่เกี่ยวข้องกับการตีความและการตีความของการประมาณค่ากับความสัมพันธ์ของผลกระทบแบบสุ่มที่ไม่ประมาณค่าคืออะไร เหตุผลในทางปฏิบัติสำหรับการถามสิ่งนี้คือในกรอบ lmer ใน R ไม่มีวิธีการดำเนินการสำหรับการประเมินค่า p ผ่านเทคนิค MCMC เมื่อมีการประมาณการในรูปแบบของความสัมพันธ์ระหว่างพารามิเตอร์ ตัวอย่างเช่นเมื่อดูตัวอย่างนี้ (ส่วนที่ยกมาด้านล่าง) อะไรคือความหมายเชิงปฏิบัติของ M2 กับ M3 เห็นได้ชัดว่าในกรณีหนึ่ง P5 จะไม่ถูกประมาณและอีกอันจะเป็นเช่นนั้น คำถาม ด้วยเหตุผลเชิงปฏิบัติ (ความปรารถนาที่จะได้รับค่า p ผ่านเทคนิค MCMC) เราอาจต้องการแบบจำลองที่ไม่มีความสัมพันธ์ระหว่างเอฟเฟกต์แบบสุ่มแม้ว่า P5 นั้นจะไม่ใช่ศูนย์ก็ตาม หากมีสิ่งนี้แล้วประมาณค่า p ผ่านเทคนิค MCMC ผลลัพธ์ที่ตีความได้คืออะไร? (ฉันรู้ @ Ben Bolker ได้กล่าวถึงก่อนหน้านี้ว่า"การรวมการทดสอบอย่างมีนัยสำคัญกับ MCMC เป็นไม่ต่อเนื่องกันนิด ๆ หน่อย ๆ สถิติแม้ว่าผมเข้าใจกระตุ้นที่จะทำเช่นนั้น (รับช่วงความเชื่อมั่นเป็นที่ค้ำเพิ่มเติม)"ดังนั้นถ้ามันจะทำให้คุณนอนหลับดีขึ้น ในตอนกลางคืนแกล้งทำเป็นว่าฉันมั่นใจช่วงเวลา) หากไม่สามารถประมาณ P5 นั่นคือสิ่งเดียวกันกับที่ยืนยันว่าเป็น 0 …

2
จะสร้างช่วงความมั่นใจ 95% ของความแตกต่างระหว่างค่ามัธยฐานได้อย่างไร
ปัญหาของฉัน: กลุ่มทดลองแบบสุ่มมีการแจกแจงเบ้อย่างถูกต้องของผลลัพธ์หลัก ฉันไม่ต้องการใช้กฎเกณฑ์ปกติและใช้ CIs พื้นฐาน 95% (เช่นใช้ 1.96 X SE) ฉันรู้สึกสะดวกสบายที่จะแสดงการวัดแนวโน้มกลางว่าเป็นค่ามัธยฐาน แต่คำถามของฉันคือวิธีการสร้าง 95% CI ของความแตกต่างในค่ามัธยฐานระหว่างสองกลุ่ม สิ่งแรกที่อยู่ในใจคือ bootstrapping (ลองสุ่มใหม่พร้อมการแทนที่กำหนดค่ามัธยฐานในแต่ละกลุ่มและลบหนึ่งจากกลุ่มอื่นทำซ้ำ 1,000 ครั้งและใช้ Bias ที่ได้รับการแก้ไข 95%) นี่เป็นวิธีที่ถูกต้องหรือไม่? ข้อเสนอแนะอื่น ๆ ?

3
อะไรทำให้เกิดความไม่ต่อเนื่องในการแจกแจงค่า p ที่เผยแพร่ที่ p <.05
ในบทความล่าสุดMasicampo และ Lalande (ML) ได้รวบรวมค่า p จำนวนมากที่ตีพิมพ์ในการศึกษาที่แตกต่างกันมากมาย พวกเขาสังเกตเห็นการกระโดดที่น่าสนใจในฮิสโตแกรมของค่า p ขวาที่ระดับวิกฤตที่ยอมรับได้ 5% มีการสนทนาที่ดีเกี่ยวกับ ML ปรากฏการณ์นี้ในบล็อกของ Prof. Wasserman: http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/ ในบล็อกของเขาคุณจะพบฮิสโตแกรม: เนื่องจากระดับ 5% เป็นแบบแผนและไม่ใช่กฎหมายของธรรมชาติสิ่งที่ทำให้เกิดพฤติกรรมนี้ของการกระจายเชิงประจักษ์ของค่า p- เผยแพร่? การเลือกอคติ“ การปรับ” อย่างเป็นระบบของค่า p เหนือระดับวิกฤตที่ยอมรับได้หรืออะไร

1
องศาอิสระที่เหลือที่เหมาะสมหลังจากปล่อยเงื่อนไขจากแบบจำลอง
ฉันกำลังสะท้อนให้เห็นถึงการอภิปรายรอบคำถามนี้และโดยเฉพาะอย่างยิ่งความคิดเห็นแฟรงก์ฮาร์เรลที่ประมาณการของการเปลี่ยนแปลงรูปแบบการลดลง (เช่นหนึ่งจากการที่จำนวนของตัวแปรอธิบายได้รับการทดสอบและปฏิเสธ) ควรใช้เยองศาทั่วไปของเสรีภาพ ศาสตราจารย์ฮาร์เรลล์ชี้ให้เห็นว่าสิ่งนี้จะใกล้เคียงกับองศาอิสระที่เหลืออยู่ของแบบจำลอง "เต็ม" แบบดั้งเดิม (ที่มีตัวแปรทั้งหมด) มากกว่าแบบจำลองสุดท้าย (ซึ่งตัวแปรจำนวนหนึ่งถูกปฏิเสธ) คำถามที่ 1 หากฉันต้องการใช้วิธีการที่เหมาะสมกับบทสรุปและสถิติมาตรฐานทั้งหมดจากแบบจำลองที่ลดลง (แต่ขาดการดำเนินการอย่างเต็มรูปแบบขององศาความเป็นอิสระทั่วไป) วิธีการที่สมเหตุสมผลจะเป็นเพียงแค่ใช้องศาอิสระที่เหลือจาก แบบจำลองเต็มรูปแบบในการประมาณค่าความแปรปรวนที่เหลือเป็นต้น คำถามที่ 2 หากข้างต้นเป็นจริงและฉันต้องการที่จะทำมันRอาจจะง่ายเหมือนการตั้งค่า finalModel$df.residual &lt;- fullModel$df.residual ในบางจุดของแบบฝึกหัดการสร้างแบบจำลองที่ซึ่ง finalModel และ fullModel ถูกสร้างขึ้นด้วย lm () หรือฟังก์ชันที่คล้ายกัน หลังจากที่ฟังก์ชั่นเช่นสรุป () และ confint () ดูเหมือนจะทำงานกับ df.residual ที่ต้องการแม้ว่าจะส่งคืนข้อความแสดงข้อผิดพลาดว่ามีบางคนได้บดบังด้วยวัตถุ finalModel อย่างชัดเจน

3
ขั้นตอนวิธีโจรที่ดีที่สุด?
อัลกอริทึมโจรที่รู้จักกันดีที่สุดคือขอบเขตความเชื่อมั่นสูงสุด (UCB) ซึ่งเป็นที่นิยมของอัลกอริทึมระดับนี้ ตั้งแต่นั้นมาฉันคิดว่าตอนนี้มีอัลกอริทึมที่ดีกว่า อัลกอริทึมที่ดีที่สุดในปัจจุบันคืออะไร (ในแง่ของประสิทธิภาพเชิงประจักษ์หรือขอบเขตทางทฤษฎี) อัลกอริทึมนี้เหมาะสมที่สุดในแง่หนึ่งหรือไม่?


2
สมมติฐานที่เป็นโมฆะและทางเลือกจะต้องสมบูรณ์หรือไม่?
ฉันเห็นหลายครั้งอ้างว่าพวกเขาจะต้องละเอียดถี่ถ้วน (ตัวอย่างในหนังสือดังกล่าวมักจะตั้งอยู่ในลักษณะที่พวกเขาจริง ๆ ) ในทางกลับกันฉันก็เห็นหลายครั้งที่หนังสือระบุว่าพวกเขาควรจะพิเศษ ( ตัวอย่างเช่นเป็นและเป็น ) โดยไม่ต้องชี้แจงปัญหาที่ละเอียดถี่ถ้วน ก่อนที่จะพิมพ์ในคำถามนี้ฉันพบคำสั่งที่ค่อนข้างแข็งแกร่งในหน้า Wikipedia - "ทางเลือกไม่จำเป็นต้องเป็นการลบล้างตรรกะของสมมติฐานว่าง"H0H0\mathrm{H}_{0}μ1= μ2μ1=μ2\mu_1=\mu_2H1H1\mathrm{H}_{1}μ1&gt; μ2μ1&gt;μ2\mu_1>\mu_2 ใครบางคนที่มีประสบการณ์สามารถอธิบายซึ่งเป็นจริงและฉันจะขอบคุณสำหรับการส่องแสงในเหตุผล (ประวัติศาสตร์?) สำหรับความแตกต่างดังกล่าว (หนังสือที่เขียนโดยนักสถิติหลังจากทั้งหมดคือนักวิทยาศาสตร์ไม่ใช่นักปรัชญา)

5
ตัวอย่างรายงานการวิเคราะห์แบบผสมโดยใช้ lmer ในชีววิทยาจิตวิทยาและการแพทย์?
เนื่องจากฉันทามติทั่วไปดูเหมือนว่าจะใช้ตัวแบบผสมผ่านทางlmer()ใน R แทน ANOVA แบบคลาสสิก (ด้วยเหตุผลที่อ้างถึงบ่อยครั้งเช่นการออกแบบที่ไม่สมดุลการข้ามเอฟเฟกต์แบบสุ่มเป็นต้น) ฉันต้องการลองกับข้อมูลของฉัน อย่างไรก็ตามฉันกังวลว่าฉันจะสามารถ "ขาย" วิธีการนี้ให้กับหัวหน้างานของฉัน (ซึ่งคาดว่าการวิเคราะห์แบบดั้งเดิมด้วยค่า p ในท้ายที่สุด) หรือในภายหลังกับผู้ตรวจสอบ คุณสามารถแนะนำตัวอย่างที่ดีของบทความที่ตีพิมพ์ที่ใช้แบบจำลองผสมหรือlmer()สำหรับการออกแบบที่แตกต่างกันเช่นมาตรการซ้ำ ๆ หรือหลายแบบภายในและระหว่างเรื่องสำหรับชีววิทยาภาคสนามจิตวิทยาการแพทย์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.