คำถามติดแท็ก rule-of-thumb

คำแนะนำเกี่ยวกับการวิเคราะห์ทางสถิติที่มักเป็นประโยชน์ในทางปฏิบัติ (แต่ไม่รับประกันว่าจะได้ผลเสมอไป)

24
กฎง่ายๆสำหรับสถิติ "ทันสมัย"
ฉันชอบหนังสือ G Van Belle เกี่ยวกับกฎทางสถิติของ Thumbและข้อผิดพลาดทั่วไปในสถิติ (และวิธีการหลีกเลี่ยง)จาก Phillip I Good และ James W. Hardin ข้อผิดพลาดเหล่านี้จะจัดการกับข้อผิดพลาดทั่วไปเมื่อตีความผลลัพธ์จากการศึกษาเชิงทดลองและเชิงสังเกตการณ์และให้คำแนะนำเชิงปฏิบัติสำหรับการอนุมานเชิงสถิติหรือการวิเคราะห์ข้อมูลเชิงสำรวจ แต่ฉันรู้สึกว่าแนวทาง "ทันสมัย" ค่อนข้างขาดโดยเฉพาะอย่างยิ่งการใช้สถิติการคำนวณและการใช้งานที่เพิ่มขึ้นอย่างต่อเนื่องในหลาย ๆ ด้านหรือการแนะนำเทคนิคจากชุมชนการเรียนรู้ของเครื่องจักรเช่นชีวสถิติคลินิกหรือระบาดวิทยาทางพันธุกรรม นอกเหนือจากเทคนิคการคำนวณหรือข้อผิดพลาดทั่วไปในการสร้างภาพข้อมูลซึ่งสามารถแก้ไขได้ที่อื่นฉันต้องการถาม: อะไรคือกฎสูงสุดของหัวแม่มือที่คุณอยากจะแนะนำสำหรับการวิเคราะห์ข้อมูลที่มีประสิทธิภาพ? ( หนึ่งกฎต่อคำตอบโปรด ) ฉันกำลังคิดถึงแนวทางที่คุณอาจมอบให้กับเพื่อนร่วมงานนักวิจัยที่ไม่มีพื้นฐานด้านการสร้างแบบจำลองทางสถิติที่ดีหรือนักเรียนในระดับกลางถึงระดับสูง สิ่งนี้อาจเกี่ยวข้องกับขั้นตอนต่าง ๆ ของการวิเคราะห์ข้อมูลเช่นกลยุทธ์การสุ่มตัวอย่างการเลือกคุณสมบัติหรือการสร้างแบบจำลองการเปรียบเทียบแบบจำลองการประมาณค่าภายหลัง ฯลฯ

8
การคำนวณจำนวนที่เหมาะสมของถังขยะในฮิสโตแกรม
ฉันสนใจที่จะหาวิธีที่ดีที่สุดเท่าที่จะทำได้เพื่อหาจำนวนถังขยะที่ควรใช้ในฮิสโตแกรม ข้อมูลของฉันควรอยู่ในช่วงวัตถุสูงสุด 30 ถึง 350 และโดยเฉพาะอย่างยิ่งฉันพยายามที่จะใช้การกำหนดเกณฑ์ขั้นต่ำ (เช่นวิธีของ Otsu) โดยที่วัตถุ "ดี" ซึ่งฉันควรมีน้อยกว่าและควรแยกออกจาก " วัตถุที่ไม่ดีซึ่งควรมีความหนาแน่นมากกว่าในค่า ค่าที่เป็นรูปธรรมจะมีคะแนน 1-10 สำหรับแต่ละวัตถุ ฉันมี 5-10 วัตถุที่มีคะแนน 6-10 และ 20-25 วัตถุที่มีคะแนน 1-4 ฉันต้องการหารูปแบบฮิสโตแกรม binning ที่โดยทั่วไปแล้วอนุญาตให้บางสิ่งบางอย่างเช่นวิธีของ Otsu ในการ จำกัด วัตถุที่ให้คะแนนต่ำ อย่างไรก็ตามในการดำเนินการของ Otsu ที่ฉันเคยเห็นขนาดของช่องเก็บข้อมูลเท่ากับ 256 และบ่อยครั้งที่ฉันมีจุดข้อมูลน้อยกว่ามากที่ 256 ที่ฉันแนะนำว่า 256 ไม่ใช่หมายเลขถังขยะที่ดี ด้วยข้อมูลน้อยมากฉันควรใช้วิธีใดในการคำนวณจำนวนถังขยะที่จะใช้

7
กฎของหัวแม่มือสำหรับขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง
ภายในบริบทของข้อเสนอการวิจัยในสังคมศาสตร์ฉันถูกถามคำถามต่อไปนี้: ฉันได้ไปตลอด 100 + m (โดย m คือจำนวนผู้ทำนาย) เมื่อพิจารณาขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง สิ่งนี้เหมาะสมหรือไม่ ฉันได้รับคำถามที่คล้ายกันบ่อยครั้งด้วยกฎง่ายๆ ฉันยังอ่านกฎของหัวแม่มืออย่างมากในตำราต่าง ๆ บางครั้งฉันสงสัยว่าความนิยมของกฎในแง่ของการอ้างอิงนั้นขึ้นอยู่กับมาตรฐานที่ตั้งไว้ต่ำเพียงใด อย่างไรก็ตามฉันยังตระหนักถึงคุณค่าของฮิวริสติกที่ดีในการทำให้การตัดสินใจง่ายขึ้น คำถาม: อะไรคือประโยชน์ของกฎง่ายๆสำหรับขนาดตัวอย่างที่เล็กที่สุดในบริบทของนักวิจัยประยุกต์ที่ออกแบบการศึกษาวิจัย? คุณจะแนะนำกฎทางเลือกแบบง่ายๆสำหรับขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้งหรือไม่ อีกทางหนึ่งกลยุทธ์ทางเลือกใดที่คุณจะแนะนำสำหรับการกำหนดขนาดตัวอย่างขั้นต่ำสำหรับการถดถอยหลายครั้ง โดยเฉพาะอย่างยิ่งมันจะดีถ้ามีการกำหนดมูลค่าให้กับระดับที่กลยุทธ์ใด ๆ สามารถนำไปใช้ได้โดยผู้ที่ไม่ใช่นักสถิติ

4
การอ้างอิงใดที่ควรอ้างอิงเพื่อสนับสนุนการใช้ 30 เป็นขนาดตัวอย่างที่ใหญ่พอ
ฉันได้อ่าน / ได้ยินหลายครั้งว่าขนาดตัวอย่างของหน่วยอย่างน้อย 30 หน่วยนั้นถือว่าเป็น "กลุ่มตัวอย่างขนาดใหญ่" (สมมติฐานปกติของวิธีการมักจะถือประมาณเนื่องจาก CLT, ... ) ดังนั้นในการทดลองของฉันฉันมักจะสร้างตัวอย่าง 30 หน่วย คุณช่วยให้ฉันอ้างอิงซึ่งควรจะอ้างถึงเมื่อใช้ขนาดตัวอย่าง 30?

2
แหล่งข้อมูลออนไลน์ที่ดีพร้อมเคล็ดลับในการเชื่อมโยงกราฟระหว่างตัวแปรตัวเลขสองตัวภายใต้เงื่อนไขต่าง ๆ
บริบท: ในขณะที่ฉันได้รับชุดของฮิวริสติกเกี่ยวกับวิธีการกำหนดความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวอย่างมีประสิทธิภาพ ฉันคิดว่าคนส่วนใหญ่ที่ทำงานกับข้อมูลจะมีชุดของกฎที่คล้ายกัน ตัวอย่างของกฎดังกล่าวอาจเป็น: หากตัวแปรตัวใดตัวหนึ่งเอียงเชิงบวกให้พิจารณาการวางแผนแกนนั้นในระดับบันทึก หากมีจุดข้อมูลจำนวนมาก (เช่น n> 1,000) ให้ใช้กลยุทธ์ที่แตกต่างเช่นการใช้ความโปร่งใสบางส่วนหรือสุ่มตัวอย่างข้อมูล หากตัวแปรตัวใดตัวหนึ่งมีจำนวนหมวดหมู่ไม่ต่อเนื่องกันให้พิจารณาใช้ส่วนที่กระวนกระวายใจหรือเนื้อเรื่องของดอกทานตะวัน หากมีสามตัวหรือมากกว่าให้ลองใช้เมทริกซ์ scatterplot การปรับเทรนด์ไลน์บางรูปแบบมักมีประโยชน์ ปรับขนาดของอักขระการพล็อตเป็นขนาดตัวอย่าง (สำหรับ n ที่ใหญ่กว่าให้ใช้อักขระการพล็อตที่เล็กกว่า) และอื่น ๆ คำถาม: ฉันต้องการที่จะสามารถอ้างถึงนักเรียนไปยังหน้าเว็บหรือเว็บไซต์ที่อธิบายถึงเทคนิคเหล่านี้และเทคนิคอื่น ๆ สำหรับการวางแผนความสัมพันธ์ระหว่างตัวแปรตัวเลขสองตัวได้อย่างมีประสิทธิภาพหรืออาจเป็นตัวอย่าง มีหน้าเว็บหรือเว็บไซต์บนอินเทอร์เน็ตที่ใช้งานได้ดีหรือไม่?

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
หรือ
ไม่มีใครใช้L1L1L_1หรือL.5L.5L_.5ตัวชี้วัดสำหรับการจัดกลุ่มมากกว่าL2L2L_2 ? Aggarwal และคณะ, เกี่ยวกับพฤติกรรมที่น่าประหลาดใจของการวัดระยะทางในพื้นที่มิติสูง กล่าวว่า (ในปี 2001) L1L1L_1เป็นที่นิยมมากกว่าอย่างต่อเนื่องจากนั้น Euclidean distance metro L2L2L_2สำหรับการใช้งานการขุดข้อมูลขนาดสูง และอ้างว่าL.5L.5L_.5หรือL.1L.1L_.1สามารถทำได้ดีกว่า เหตุผลในการใช้L1L1L_1หรือL.5L.5L_.5อาจเป็นเชิงทฤษฎีหรือเชิงทดลองเช่นความอ่อนไหวต่อค่าผิดปกติ / เอกสารของKabánหรือโปรแกรมที่ทำงานบนข้อมูลจริงหรือสังเคราะห์ (ทำซ้ำได้) ตัวอย่างหรือรูปภาพจะช่วยปรีชาของคนธรรมดาของฉัน คำถามนี้เป็นคำถามติดตามคำตอบบ๊อบ Durrant ไป เมื่อ-is-ใกล้ที่สุด-เพื่อนบ้านที่มีความหมายต่อวัน ดังที่เขากล่าวตัวเลือกของpppจะเป็นทั้งข้อมูลและแอพพลิเคชั่น อย่างไรก็ตามรายงานจากประสบการณ์จริงจะเป็นประโยชน์ หมายเหตุได้เพิ่มอังคาร 7 มิถุนายน: ฉันพบ "การวิเคราะห์ข้อมูลทางสถิติตาม L1-norm และวิธีการที่เกี่ยวข้อง", Dodge ed., 2002, 454p, is 37n 3764369205 - เอกสารการประชุมนับสิบ ทุกคนสามารถวิเคราะห์ความเข้มข้นของระยะทางสำหรับคุณสมบัติเด่นของ iid ได้หรือไม่? เหตุผลหนึ่งที่ทำให้เอ็กซ์โปเนนเชียลคือ ; อื่น (ไม่ใช่ผู้เชี่ยวชาญ) คือการกระจายสูงสุดของเอนโทรปี≥ 0; …

2
“ เมื่อใดที่จะใช้ boxplot และเมื่อ barplot” กฎ (จากหัวแม่มือ?)
ทั้งพล็อตแบบ box-and-มัสสุและกราฟแท่งเป็นกราฟฟิคที่เหมาะสมสำหรับ ANOVA ตาม The R Book (Crawley, 2013) แต่สิ่งใดที่เหมาะสมกว่า ? ฉันคิดว่ามันขึ้นอยู่กับสถานการณ์ ... ใครช่วยฉันได้บ้าง

1
ขนาดตัวอย่างที่ต้องการเพื่อพิจารณาว่าชุดโฆษณาใดที่มีอัตราการคลิกผ่านสูงสุด
ฉันเป็นนักออกแบบซอฟต์แวร์โดยการแลกเปลี่ยนและฉันกำลังทำงานในโครงการสำหรับลูกค้าและฉันต้องการตรวจสอบให้แน่ใจว่าการวิเคราะห์ของฉันมีสถิติที่ดี พิจารณาสิ่งต่อไปนี้: เรามีโฆษณาn รายการ (n <10) และเราต้องการทราบว่าโฆษณาใดมีประสิทธิภาพดีที่สุด เซิร์ฟเวอร์โฆษณาของเราจะแสดงโฆษณาเหล่านี้แบบสุ่ม ความสำเร็จคือถ้าผู้ใช้คลิกที่โฆษณา - เซิร์ฟเวอร์ของเราคอยติดตามสิ่งนั้น ให้ไว้: ช่วงความเชื่อมั่น: 95% คำถาม: ขนาดตัวอย่างโดยประมาณคืออะไร? (เราต้องแสดงโฆษณาทั้งหมดกี่รายการ) ทำไม (จำได้ว่าฉันเป็นคนบ้า ๆ บอ ๆ ) ขอบคุณ

4
MANOVA และความสัมพันธ์ระหว่างตัวแปรตาม: แข็งแรงแค่ไหน?
ตัวแปรตามใน MANOVA ไม่ควร "มีความสัมพันธ์มากเกินไป" แต่ความสัมพันธ์มีความแข็งแกร่งแค่ไหน มันจะน่าสนใจที่จะได้รับความคิดเห็นของผู้คนในเรื่องนี้ ตัวอย่างเช่นคุณจะดำเนินการกับ MANOVA ในสถานการณ์ต่อไปนี้หรือไม่? Y1 และ Y2 มีความสัมพันธ์กับและr=0.3r=0.3r=0.3p&lt;0.005p&lt;0.005p<0.005 Y1 และ Y2 มีความสัมพันธ์กับและr=0.7r=0.7r=0.7p=0.049p=0.049p=0.049 ปรับปรุง ตัวแทนบางคนเสนอราคาเพื่อตอบสนองต่อ @onestop: "MANOVA ทำงานได้ดีในสถานการณ์ที่มีความสัมพันธ์ในระดับปานกลางระหว่าง DVs" (หมายเหตุหลักสูตรจาก San Francisco State Uni) "ตัวแปรตามมีความสัมพันธ์ซึ่งเหมาะสมกับ Manova" (ไพรเมอร์สหรัฐอเมริกา EPA Stats) "ตัวแปรตามควรเกี่ยวข้องกับแนวคิดและควรมีความสัมพันธ์กับตัวแปรอื่นในระดับต่ำถึงปานกลาง" (หมายเหตุหลักสูตรจากมหาวิทยาลัย Northern Arizona) "DVs มีความสัมพันธ์กันจากประมาณ. 3 ถึง. 0.7 มีสิทธิ์" (Maxwell 2001, วารสารจิตวิทยาผู้บริโภค) nb ฉันไม่ได้อ้างถึงข้อสันนิษฐานว่าสัมพันธภาพระหว่าง Y1 และ …

1
ความสัมพันธ์ระหว่างอัตราการเรียนรู้และจำนวนเลเยอร์ที่ซ่อนอยู่?
มีกฎของหัวแม่มือระหว่างความลึกของเครือข่ายประสาทและอัตราการเรียนรู้หรือไม่? ฉันสังเกตเห็นว่ายิ่งเครือข่ายลึกเท่าไรอัตราการเรียนรู้ก็จะยิ่งต่ำลงเท่านั้น หากถูกต้องทำไมถึงเป็นเช่นนั้น

1
ฮิสโตแกรมที่มีชุดถังขยะสม่ำเสมอและไม่สม่ำเสมอ
คำถามนี้อธิบายถึงความแตกต่างพื้นฐานระหว่างเครื่องแบบและฮิสโตแกรมที่ไม่ใช่แบบฟอร์ม และคำถามนี้กล่าวถึงกฎของหัวแม่มือสำหรับการเลือกจำนวนช่องเก็บของฮิสโตแกรมสม่ำเสมอที่ปรับให้เหมาะสม (ในบางแง่มุม) ระดับที่ฮิสโทแกรมแสดงถึงการกระจายตัวจากการสุ่มตัวอย่างข้อมูล ดูเหมือนว่าฉันจะไม่พบการสนทนา "การมองโลกในแง่ดี" แบบเดียวกันเกี่ยวกับฮิสโตแกรมชุดที่ไม่เหมือนกัน ฉันมีการแจกแจงแบบไม่อิงพารามิเตอร์แบบกระจุกตัวและมีค่าผิดปกติที่อยู่ไกลดังนั้นฮิสโตแกรมที่ไม่สม่ำเสมอทำให้เข้าใจได้ง่ายขึ้น แต่ฉันชอบที่จะเห็นการวิเคราะห์ที่แม่นยำยิ่งขึ้นของคำถามสองข้อต่อไปนี้: ฮิสโตแกรมแบบสม่ำเสมอเมื่อใดจะดีกว่าแบบ bin ที่ไม่สม่ำเสมอ ฮิสโตแกรมที่ไม่สม่ำเสมอนั้นมีจำนวนเท่าใด สำหรับฮิสโตแกรมที่ไม่เหมือนกันฉันถือว่าเป็นกรณีที่ง่ายที่สุดที่เรานำตัวอย่างจากการแจกแจงที่ไม่รู้จักเรียงลำดับค่าและแยกพวกมันออกเป็น b เช่นที่แต่ละ bin มีของสิ่งเหล่านี้ ตัวอย่าง (สมมติว่าสำหรับบางจำนวนเต็มขนาดใหญ่ ) ช่วงที่จะเกิดขึ้นโดยการจุดกึ่งกลางระหว่างของค่าในถังผมและ\ นาทีของค่าในถังi + 1 ที่นี่และนี่คือลิงค์ที่อธิบายฮิสโทแกรมที่ไม่เหมือนกันประเภทนี้nnnnnnkkkknkn\frac{k}{n}n ≡ c kn≡คkn \equiv c kคคcสูงสุดสูงสุด\maxผมผมiนาทีนาที\minฉัน+ 1ผม+1i+1

1
หนึ่งจะทำให้การกระจายความน่าจะเป็นก่อนเป็นทางการได้อย่างไร มีกฎของหัวแม่มือหรือเคล็ดลับที่ควรใช้หรือไม่
ในขณะที่ฉันชอบคิดว่าฉันมีความเข้าใจอย่างดีเกี่ยวกับแนวคิดของข้อมูลก่อนหน้านี้ในการวิเคราะห์ทางสถิติแบบเบย์และการตัดสินใจ ฉันมีสถานการณ์สองสามอย่างที่เป็นตัวอย่างการต่อสู้ของฉันและฉันรู้สึกว่าพวกเขาไม่ได้รับการกล่าวถึงอย่างถูกต้องในตำราทางสถิติแบบเบย์ที่ฉันได้อ่าน: สมมติว่าฉันทำแบบสำรวจไม่กี่ปีที่ผ่านมาที่บอกว่า 68% ของผู้คนจะสนใจซื้อผลิตภัณฑ์ ACME ฉันตัดสินใจที่จะเรียกใช้แบบสำรวจอีกครั้ง ในขณะที่ฉันจะใช้ขนาดตัวอย่างเดียวกับครั้งที่แล้ว (พูด, n = 400) ความคิดเห็นของผู้คนมีการเปลี่ยนแปลงตั้งแต่นั้นมา อย่างไรก็ตามหากฉันใช้เป็นรุ่นก่อนหน้ากับการแจกแจงแบบเบต้าซึ่งผู้ตอบแบบสอบถาม 272 จาก 400 คนตอบว่า "ใช่" ฉันจะให้น้ำหนักเท่ากันกับแบบสำรวจที่ฉันวิ่งไปเมื่อสองสามปีก่อน มีกฎง่ายๆที่จะสร้างความไม่แน่นอนที่ยิ่งใหญ่กว่าที่ฉันต้องการก่อนหน้านี้โดยอาศัยอำนาจของข้อมูลที่มีอายุไม่กี่ปี? ฉันเข้าใจว่าฉันสามารถลดค่าก่อนหน้านี้จาก 272/400 เป็น 136/200 แต่สิ่งนี้ให้ความรู้สึกโดยพลการมากและฉันสงสัยว่ามีรูปแบบของการให้เหตุผลบางอย่างหรืออาจเป็นในวรรณกรรม อีกตัวอย่างหนึ่งสมมติว่าเรากำลังจะทำการทดลองทางคลินิก ก่อนที่จะเริ่มการทดลองเราทำการวิจัยระดับทุติยภูมิซึ่งเราสามารถใช้เป็นข้อมูลก่อนหน้านี้รวมถึงความคิดเห็นของผู้เชี่ยวชาญผลจากการทดลองทางคลินิกก่อนหน้านี้ (จากความเกี่ยวข้องที่แตกต่างกัน) ข้อเท็จจริงทางวิทยาศาสตร์พื้นฐานอื่น ๆ (บางอันไม่ใช่เชิงปริมาณโดยธรรมชาติ) ไปสู่การแจกแจงความน่าจะเป็นก่อนหน้า? เป็นกรณีของการตัดสินใจที่จะเลือกครอบครัวและทำให้ครอบครัวกระจายข้อมูลมากพอที่จะทำให้แน่ใจว่าข้อมูลถูกครอบงำหรือมีงานจำนวนมากเพื่อสร้างการเผยแพร่ก่อนหน้าอย่างเป็นธรรมหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.