สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
การแปลงบันทึกเป็นเทคนิคที่ใช้ได้สำหรับการทดสอบข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่
ในการทบทวนกระดาษผู้เขียนกล่าวว่า "ตัวแปรผลลัพธ์อย่างต่อเนื่องที่แสดงการแจกแจงแบบเบ้ถูกแปลงโดยใช้ลอการิทึมธรรมชาติก่อนที่จะทำการทดสอบ t เพื่อให้เป็นไปตามสมมติฐานเบื้องต้นของภาวะปกติ" นี่เป็นวิธีที่ยอมรับได้ในการวิเคราะห์ข้อมูลที่ไม่ใช่ข้อมูลปกติหรือไม่ นี่อาจเป็นคำถามที่ค่อนข้างแปลก แต่ฉันไม่เคยเห็นมาก่อน

1
วางระดับที่ไม่ได้ใช้ใน facets ด้วย ggplot2 [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว เป็นไปได้หรือไม่ที่จะลดระดับที่ไม่ได้ใช้ใน ggplot2s facets? นี่คือรหัสของฉัน: tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, N = mtcars$disp)) tab$N = as.numeric(tab$N) ggplot(tab, aes(names,val)) + geom_point() + coord_flip() + theme_bw() + facet_grid(groups ~ ., drop=TRUE)#, scales="free", as.table=F, space="free") ฉันลองใช้drop=Tสวิตช์ แต่ไม่ช่วย ผมทำอะไรผิดหรือเปล่า?

3
ANOVA ควรใช้มาตรการซ้ำ ๆ มากกว่าแบบจำลองเอฟเฟกต์เมื่อใด
ในการตอบคำถามนี้เกี่ยวกับว่าการออกแบบของฉันที่ฉันนำเสนอผู้เข้าร่วมด้วยภาพจากหมวดหมู่ที่แตกต่างกันเป็นตัวอย่างที่ฉันควรใช้มาตรการ ANOVA ซ้ำ ๆ หรือไม่ฉันได้รับคำตอบว่าฉันควรใช้รูปแบบผสมแทนด้วยหนึ่งใน เหตุผลที่ทำให้ฉันมีการพึ่งพาสองรูปแบบ: สำหรับวิชาและสำหรับหมวดหมู่ คำถามของฉันคือตอนนี้: มันไม่ใช่กรณีที่คุณมีสองการพึ่งพาในลักษณะนี้เมื่อทำการออกแบบมาตรการซ้ำ ๆ แบบนี้หรือไม่? นั่นคือภายใต้สถานการณ์ใดที่ ANOVA จะทำซ้ำมาตรการจะดีกว่าวิธีการสร้างแบบจำลองผลกระทบผสมและทำไม?

4
การแสดงการตอบสนอง Likert โดยใช้ R หรือ SPSS
ฉันมีผู้ตอบแบบสอบถาม 82 คนใน 2 กลุ่ม (43 คนในกลุ่ม A และ 39 คนในกลุ่ม B) ที่ทำแบบสอบถาม 65 Likert แต่ละคำถามมีตั้งแต่ 1 - 5 (เห็นด้วยอย่างยิ่ง - ไม่เห็นด้วยอย่างยิ่ง) ฉันจึงมี dataframe ที่มี 66 คอลัมน์ (1 สำหรับแต่ละคำถาม + 1 หมายถึงการจัดสรรกลุ่ม) และ 82 แถว (1 สำหรับผู้ตอบแต่ละคน) การใช้ R หรือ SPSS ทำให้ทุกคนรู้วิธีที่ดีในการแสดงข้อมูลนี้ ฉันต้องการสิ่งนี้: (จากJason Bryer ) แต่ฉันไม่สามารถรับส่วนเริ่มต้นของรหัสในการทำงาน หรือฉันพบตัวอย่างที่ดีของวิธีการแสดงภาพข้อมูล Likert จากโพสต์ที่ผ่านการตรวจสอบความถูกต้องก่อนหน้า: …

2
การปรับปรุงความน่าจะเป็นในการจำแนกประเภทในการถดถอยโลจิสติกตลอดเวลา
ฉันกำลังสร้างแบบจำลองการทำนายที่คาดการณ์ความน่าจะเป็นของความสำเร็จของนักเรียนเมื่อสิ้นสุดภาคการศึกษา ฉันสนใจเป็นพิเศษว่านักเรียนจะประสบความสำเร็จหรือล้มเหลวโดยที่ความสำเร็จมักจะถูกกำหนดให้เป็นการสำเร็จหลักสูตรและบรรลุคะแนน 70% หรือมากกว่านั้นจากคะแนนทั้งหมดที่เป็นไปได้ เมื่อฉันปรับใช้แบบจำลองการประมาณความน่าจะเป็นความสำเร็จจะต้องได้รับการอัปเดตตลอดเวลาเนื่องจากมีข้อมูลเพิ่มเติม - โดยทันทีหลังจากมีบางสิ่งเกิดขึ้นเช่นเมื่อนักเรียนส่งการบ้านหรือได้เกรดหนึ่ง การอัปเดตนี้ฟังดูคล้ายกับ Bayesian สำหรับฉัน แต่เมื่อฉันได้รับการฝึกอบรมด้านสถิติการศึกษาซึ่งอยู่นอกเขตความสะดวกสบายของฉัน ฉันได้ใช้การถดถอยโลจิสติก (จริง ๆ lasso) กับชุดข้อมูลในอดีตที่มีสแนปชอตตามสัปดาห์ ข้อมูลชุดนี้มีข้อสังเกตความสัมพันธ์ตั้งแต่นักเรียนแต่ละคนมีTe r m L e n gt h / 7TอีRม.Lอีnก.เสื้อชั่วโมง/7TermLength/7สังเกต; การสังเกตสำหรับนักเรียนหนึ่งคนนั้นมีความสัมพันธ์กัน ฉันไม่ได้เป็นแบบอย่างเฉพาะความสัมพันธ์ภายในการสังเกตรายสัปดาห์ของนักเรียนโดยเฉพาะ ฉันเชื่อว่าฉันเพียงแค่ต้องพิจารณาว่าในการตั้งค่ารองเนื่องจากข้อผิดพลาดมาตรฐานจะมีขนาดเล็กเกินไป ฉันคิดว่า - แต่ไม่แน่ใจในเรื่องนี้ - ปัญหาเดียวที่เกิดขึ้นจากการสังเกตที่สัมพันธ์กันคือฉันต้องระวังเมื่อฉันตรวจสอบความถูกต้องเพื่อให้การสังเกตแบบคลัสเตอร์เป็นส่วนหนึ่งของข้อมูลเพื่อที่ฉันจะไม่ได้รับ อัตราความผิดพลาดนอกตัวอย่างต่ำโดยไม่ได้ตั้งใจจากการคาดการณ์เกี่ยวกับบุคคลที่โมเดลได้เห็นแล้ว ฉันใช้แพ็คเกจ glmnet ของ Rเพื่อทำ lasso ด้วย model logistic เพื่อสร้างความน่าจะเป็นที่จะประสบความสำเร็จ / ล้มเหลวและเลือกตัวทำนายสำหรับหลักสูตรใดหลักสูตรหนึ่งโดยอัตโนมัติ ฉันใช้ตัวแปรสัปดาห์เป็นปัจจัยโต้ตอบกับตัวทำนายอื่น ๆ ทั้งหมด ฉันไม่คิดว่าสิ่งนี้แตกต่างกันโดยทั่วไปจากการประเมินแบบจำลองแต่ละสัปดาห์ยกเว้นว่าจะให้ความเห็นว่าอาจมีรูปแบบทั่วไปบางอย่างที่ถือตลอดระยะเวลาที่ปรับผ่านปัจจัยการปรับความเสี่ยงต่าง …

3
การเรียนแบบกึ่งมีผู้เรียน, การเรียนแบบกระตือรือร้นและการเรียนรู้ลึกเพื่อการจำแนกประเภท
การแก้ไขครั้งสุดท้ายพร้อมการอัปเดตทรัพยากรทั้งหมด: สำหรับโครงการฉันกำลังใช้อัลกอริธึมการเรียนรู้ของเครื่องเพื่อจัดหมวดหมู่ ถาม:ข้อมูลที่มีป้ายกำกับค่อนข้าง จำกัด และข้อมูลที่ไม่มีป้ายกำกับอีกมากมาย เป้าหมาย: ใช้การจำแนกประเภทภายใต้การดูแล ใช้กระบวนการการติดฉลากแบบกึ่งกำกับอย่างใด (ที่รู้จักกันว่าการเรียนรู้ที่ใช้งานอยู่) ฉันได้พบข้อมูลจำนวนมากจากงานวิจัยเช่นการใช้ EM, Transductive SVM หรือ S3VM (Semi Supervised SVM) หรือใช้ LDA อย่างอื่นเป็นต้นแม้จะมีหนังสือไม่กี่เล่มในหัวข้อนี้ คำถาม: การใช้งานและแหล่งข้อมูลที่เป็นประโยชน์อยู่ที่ไหน? อัปเดตครั้งสุดท้าย (ขึ้นอยู่กับความช่วยเหลือที่จัดทำโดย mpiktas, bayer และ Dikran Marsupial) การเรียนรู้แบบกึ่งภายใต้การดูแล: TSVM: ในSVMligthและSVMlin EM Naive Bayes ใน Python EM ในโครงการ LinePipe การเรียนรู้ที่ใช้งานอยู่: Dualist : การใช้งานการเรียนรู้อย่างคล่องแคล่วด้วยซอร์สโค้ดในการจำแนกข้อความ หน้าเว็บนี้ให้ภาพรวมที่ยอดเยี่ยมของการเรียนรู้ที่กระตือรือร้น การประชุมเชิงปฏิบัติการการออกแบบการทดลอง: ที่นี่ การเรียนรู้ลึก: วิดีโอแนะนำที่นี่ …

2
จะคาดการณ์ได้อย่างไรว่าเหตุการณ์ต่อไปจะเกิดขึ้นตามเวลาของเหตุการณ์ก่อนหน้า?
ฉันเป็นนักเรียนมัธยมปลายและฉันกำลังทำงานในโครงการการเขียนโปรแกรมคอมพิวเตอร์ แต่ฉันไม่มีประสบการณ์ในด้านสถิติและการสร้างแบบจำลองข้อมูลนอกเหนือจากหลักสูตรสถิติของโรงเรียนมัธยมดังนั้นฉันจึงสับสน โดยพื้นฐานแล้วฉันมีรายการที่มีขนาดใหญ่พอสมควร (สมมติว่ามันใหญ่พอที่จะตรงตามข้อสันนิษฐานสำหรับการทดสอบทางสถิติหรือมาตรการต่าง ๆ ) จำนวนครั้งที่มีคนตัดสินใจพิมพ์เอกสาร จากรายการนี้ฉันต้องการสร้างแบบจำลองทางสถิติของการเรียงลำดับบางอย่างที่จะทำนายเวลาที่น่าจะเป็นไปได้มากที่สุดสำหรับงานพิมพ์ถัดไปที่ให้เวลาเหตุการณ์ก่อนหน้านี้ทั้งหมด ฉันได้อ่านสิ่งนี้แล้ว แต่คำตอบไม่ได้ช่วยในสิ่งที่ฉันมีในใจสำหรับโครงการของฉัน ฉันได้ทำการวิจัยเพิ่มเติมและพบว่าโมเดลของ Markov ที่ซ่อนอยู่นั้นน่าจะทำให้ฉันทำอย่างถูกต้อง แต่ฉันไม่สามารถหาลิงก์เกี่ยวกับวิธีสร้างโมเดลของ Markov ที่ซ่อนอยู่ได้โดยใช้เวลาเพียงไม่กี่ครั้ง ฉันยังพบว่าการใช้ตัวกรองคาลมานในรายการอาจมีประโยชน์ แต่โดยทั่วไปฉันต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับตัวกรองจากคนที่ใช้งานจริงและรู้ข้อ จำกัด และข้อกำหนดก่อนที่จะลองทำบางสิ่งและหวังว่ามันจะได้ผล ขอบคุณมัด!

5
อะนาล็อก 2 มิติของค่าเบี่ยงเบนมาตรฐานหรือไม่
ลองพิจารณาการทดลองต่อไปนี้: กลุ่มคนจะได้รับรายชื่อเมืองและขอให้ทำเครื่องหมายสถานที่ที่เกี่ยวข้องบนแผนที่ (ไม่มีป้ายกำกับ) ของโลก สำหรับแต่ละเมืองคุณจะได้รับคะแนนที่กระจายอยู่ตรงกลางของเมืองนั้น ๆ บางเมืองกล่าวว่าอิสตันบูลจะมีการกระเจิงน้อยกว่าเมืองอื่น ๆ สมมติว่าสำหรับเมืองหนึ่ง ๆ เราจะได้ชุดตัวอย่าง 2Dแทนตำแหน่งของเมือง (เช่นในระบบพิกัดท้องถิ่น) บนแผนที่ที่กำหนดโดยการทดสอบ เรื่องฉันฉันต้องการแสดงจำนวน "การกระจาย" ของคะแนนในชุดนี้เป็นตัวเลขเดียวในหน่วยที่เหมาะสม (กม.){(xi,yi)}{(xi,yi)}\{(x_i, y_i)\}(x,y)(x,y)(x, y)iii สำหรับปัญหา 1D ฉันจะเลือกค่าเบี่ยงเบนมาตรฐาน แต่มีอะนาล็อก 2 มิติที่สามารถเลือกได้อย่างสมเหตุสมผลสำหรับสถานการณ์ตามที่อธิบายไว้ข้างต้นหรือไม่

4
จะคำนวณช่วงความมั่นใจของค่าเฉลี่ยได้อย่างไร
ลองนึกภาพว่าคุณทำการทดสอบซ้ำสามครั้ง ในการทดสอบแต่ละครั้งคุณจะรวบรวมการวัดเพิ่มขึ้นสามเท่า triplicates มีแนวโน้มที่จะอยู่ใกล้กันอย่างเป็นธรรมเมื่อเทียบกับความแตกต่างระหว่างสามวิธีการทดลอง การคำนวณค่าเฉลี่ยที่ยิ่งใหญ่นั้นง่ายมาก แต่เราจะคำนวณช่วงความมั่นใจสำหรับค่าเฉลี่ยที่ยิ่งใหญ่ได้อย่างไร ข้อมูลตัวอย่าง: การทดลอง 1: 34, 41, 39 การทดลองที่ 2: 45, 51, 52 การทดลอง 3: 29, 31, 35 สมมติว่าค่าการทำซ้ำภายในการทดสอบเป็นไปตามการแจกแจงแบบเกาส์เช่นเดียวกับค่าเฉลี่ยของการทดสอบแต่ละครั้ง SD ของการเปลี่ยนแปลงภายในการทดสอบมีขนาดเล็กกว่า SD ในวิธีการทดลอง สมมติว่าไม่มีการเรียงลำดับของค่าสามค่าในการทดสอบแต่ละครั้ง คำสั่งจากซ้ายไปขวาของค่าทั้งสามในแต่ละแถวนั้นไม่มีข้อ จำกัด วิธีง่ายๆคือการคำนวณค่าเฉลี่ยของการทดสอบแต่ละครั้งก่อน: 38.0, 49.3 และ 31.7 จากนั้นคำนวณค่าเฉลี่ยและช่วงความมั่นใจ 95% ของค่าสามค่า การใช้วิธีนี้ค่าเฉลี่ยที่ยิ่งใหญ่คือ 39.7 โดยมีช่วงความมั่นใจ 95% ตั้งแต่ 17.4 ถึง 61.9 ปัญหาของวิธีการนี้คือมันไม่สนใจความแตกต่างระหว่าง triplicates ฉันสงสัยว่าจะไม่มีวิธีที่ดีในการอธิบายการเปลี่ยนแปลงนั้นหรือไม่

2
การกระจายตัวของความแตกต่างของการแจกแจงสองค่าคืออะไร
... และทำไม ? สมมติว่า , X 2เป็นตัวแปรสุ่มอิสระที่มีค่าเฉลี่ยμ 1 , μ 2และความแปรปรวนσ 2 1 , σ 2 2ตามลำดับ หนังสือสถิติพื้นฐานของฉันบอกฉันว่าการกระจายตัวของX 1 - X 2มีคุณสมบัติดังต่อไปนี้:X1X1X_1X2X2X_2μ1,μ2μ1,μ2\mu_1,\mu_2σ21,σ22σ12,σ22\sigma^2_1,\sigma^2_2X1−X2X1−X2X_1-X_2 E(X1−X2)=μ1−μ2E(X1−X2)=μ1−μ2E(X_1-X_2)=\mu_1-\mu_2 Var(X1−X2)=σ21+σ22Var(X1−X2)=σ12+σ22Var(X_1-X_2)=\sigma^2_1 +\sigma^2_2 สมมุติว่า , X 2 คือการแจกแจงแบบ t กับn 1 - 1 , n 2 - 2ดีกรีอิสระ การกระจายตัวของX 1 - X 2คืออะไร?X1X1X_1X2X2X_2n1−1n1−1n_1-1n2−2n2−2n_2-2X1−X2X1−X2X_1-X_2 คำถามนี้ได้รับการแก้ไข:คำถามเดิมคือ"อะไรคือองศาอิสระของความแตกต่างของการแจกแจงแบบสองจุด?" . mpiktas ได้ชี้ให้เห็นแล้วว่าสิ่งนี้ไม่สมเหตุสมผลเนื่องจากไม่ได้ถูกแจกแจงแบบ t …

1
Bonferroni หรือ Tukey? จำนวนการเปรียบเทียบมีขนาดใหญ่เมื่อใด
การค้นพบสถิติการอ่านของฟิลด์โดยใช้ SPSS (ฉบับที่ 3) ฉันรู้สึกสับสนเล็กน้อยเกี่ยวกับการทดสอบหลังเหตุการณ์ใน ANOVA สำหรับผู้ที่ต้องการควบคุมอัตราความผิดพลาด Type I เขาแนะนำ Bonferroni หรือ Tukey และพูดว่า (หน้า 374): Bonferroni มีพลังมากขึ้นเมื่อจำนวนการเปรียบเทียบมีขนาดเล็กในขณะที่ Tukey มีประสิทธิภาพมากกว่าเมื่อทดสอบค่าเฉลี่ยจำนวนมาก ควรวาดเส้นตรงระหว่างจำนวนที่น้อยและมาก

3
มีใครแก้ไข PTLOS แบบฝึกหัด 4.1 ได้บ้างไหม?
นี้การออกกำลังกายที่ได้รับในทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์โดยเอ็ดวินเจย์นส์, ปี 2003 มีวิธีการแก้ปัญหาบางส่วนเป็นที่นี่ ฉันได้หาทางแก้ปัญหาบางส่วนที่กว้างขึ้นและสงสัยว่ามีคนอื่นแก้ไขมันได้ไหม ฉันจะรอสักครู่ก่อนโพสต์คำตอบของฉันเพื่อให้ผู้อื่นได้ไป เอาล่ะสมมติว่าเรามีnnnพิเศษร่วมกันและสมมติฐานหมดจดแสดงโดยHi(i=1,…,n)Hi(i=1,…,n)H_i \;\;(i=1,\dots,n) ) ต่อไปสมมติว่าเรามีชุดข้อมูลmmmแสดงโดยDj(j=1,…,m)Dj(j=1,…,m)D_j \;\;(j=1,\dots,m) ) อัตราส่วนความน่าจะเป็นสำหรับข้อสมมติฐานที่ i ถูกกำหนดโดย: LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯¯¯¯¯i)LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯i)LR(H_{i})=\frac{P(D_{1}D_{2}\dots,D_{m}|H_{i})}{P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})} โปรดทราบว่าสิ่งเหล่านี้เป็นความน่าจะเป็นตามเงื่อนไข ตอนนี้สมมติว่าได้รับ ith สมมติฐานเมตรชุดข้อมูลมีความเป็นอิสระเพื่อให้เรามี:HiHiH_{i}mmm P(D1D2…,Dm|Hi)=∏j=1mP(Dj|Hi)(i=1,…,n)Condition 1P(D1D2…,Dm|Hi)=∏j=1mP(Dj|Hi)(i=1,…,n)Condition 1P(D_{1}D_{2}\dots,D_{m}|H_{i})=\prod_{j=1}^{m}P(D_{j}|H_{i}) \;\;\;\; (i=1,\dots,n)\;\;\;\text{Condition 1} ตอนนี้มันจะค่อนข้างสะดวกถ้าตัวหารยังรวมอยู่ในสถานการณ์นี้ด้วยดังนั้นเราจึงมี: P(D1D2…,Dm|H¯¯¯¯¯i)=∏j=1mP(Dj|H¯¯¯¯¯i)(i=1,…,n)Condition 2P(D1D2…,Dm|H¯i)=∏j=1mP(Dj|H¯i)(i=1,…,n)Condition 2P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})=\prod_{j=1}^{m}P(D_{j}|\overline{H}_{i}) \;\;\;\; (i=1,\dots,n)\;\;\;\text{Condition 2} สำหรับในกรณีนี้อัตราส่วนความน่าจะเป็นแยกเป็นผลิตภัณฑ์ที่มีขนาดเล็กลงสำหรับแต่ละชุดข้อมูลดังนั้นเราจึงมี: LR(Hi)=∏j=1mP(Dj|Hi)P(Dj|H¯¯¯¯¯i)LR(Hi)=∏j=1mP(Dj|Hi)P(Dj|H¯i)LR(H_i)=\prod_{j=1}^{m}\frac{P(D_{j}|H_{i})}{P(D_{j}|\overline{H}_{i})} ดังนั้นในกรณีนี้แต่ละชุดข้อมูล "จะออกเสียงลงคะแนนสำหรับHiHiH_i " หรือ "โหวตกับHiHiH_i " เป็นอิสระจากชุดข้อมูลอื่น ๆ แบบฝึกหัดคือการพิสูจน์ว่าถ้าn>2n>2n>2 (มากกว่าสองข้อสมมุติ) ไม่มีวิธีที่ไม่น่าสนใจเช่นนี้ที่แฟคตอริ่งสามารถเกิดขึ้นได้ นั่นคือถ้าคุณสมมติว่าเงื่อนไข 1 และเงื่อนไข …

7
ค่าเฉลี่ยของหน้าต่างเลื่อนใน R
ฉันมีเวกเตอร์ของค่าที่ฉันต้องการรายงานค่าเฉลี่ยในหน้าต่างตามสไลด์ที่เล็กกว่า ตัวอย่างเช่นสำหรับเวกเตอร์ของค่าต่อไปนี้: 4, 5, 7, 3, 9, 8 ขนาดหน้าต่าง 3 และสไลด์ 2 จะทำดังนี้: (4+5+7)/3 = 5.33 (7+3+9)/3 = 6.33 (9+8)/3 = 5.67 และคืนค่าเวกเตอร์ของค่าเหล่านี้: 5.33, 6.33, 5.67 มีฟังก์ชั่นง่าย ๆ ที่จะทำสิ่งนี้ให้ฉันหรือไม่? หากมันส่งคืนดัชนีของหน้าต่างเริ่มก็จะเป็นโบนัสเพิ่ม ในตัวอย่างนี้จะเป็น 1,3,5
19 r 

1
ชุมชนใช้อะไรใน Quadrant ที่สี่?
Nassim Taleb ของBlack Swanชื่อเสียง (หรือความประพฤติไม่ดี) ได้เนื้อหาเกี่ยวกับแนวคิดและการพัฒนาสิ่งที่เขาเรียกว่า "แผนที่ขอบเขตของสถิติ" เหตุผลพื้นฐานของเขาคือมีปัญหาการตัดสินใจประเภทหนึ่งที่การใช้แบบจำลองทางสถิติใด ๆ เป็นอันตราย สิ่งเหล่านี้จะเป็นปัญหาในการตัดสินใจใด ๆ ที่ผลของการตัดสินใจผิดพลาดอาจสูงเกินไปและ PDF ต้นแบบนั้นยากที่จะรู้ ตัวอย่างหนึ่งจะย่อตัวเลือกหุ้น การดำเนินการเช่นนี้สามารถนำไปสู่การสูญเสียที่ไร้ขีด จำกัด (ในทางทฤษฎีอย่างน้อย); และความน่าจะเป็นของการสูญเสียเช่นนั้นไม่เป็นที่ทราบ ในความเป็นจริงหลายคนเป็นแบบจำลองความน่าจะเป็น แต่ Taleb แย้งว่าตลาดการเงินยังไม่แก่พอที่จะให้ใครมั่นใจในรูปแบบใด ๆ เพียงเพราะหงส์ทุกครั้งที่คุณเห็นเป็นสีขาวนั่นไม่ได้หมายความว่าหงส์ดำจะเป็นไปไม่ได้หรือไม่น่าเป็นไปได้ ดังนั้นนี่คือคำถาม: มีสิ่งที่เป็นฉันทามติในชุมชนสถิติเกี่ยวกับข้อโต้แย้งของนาย Taleb? บางทีนี่ควรเป็นวิกิชุมชน ฉันไม่รู้

6
ความแตกต่างระหว่าง d ของโคเฮนกับเฮดเจดสำหรับการวัดขนาดเอฟเฟกต์
สำหรับการวิเคราะห์ขนาดเอฟเฟ็กต์ฉันสังเกตเห็นว่ามีความแตกต่างระหว่าง d ของ Cohen, g ของ Hedges และ Hedges 'g * ปกติแล้วเมทริกทั้งสามนี้คล้ายกันมากหรือไม่ อะไรจะเป็นกรณีที่พวกเขาจะให้ผลลัพธ์ที่แตกต่างกัน? นอกจากนี้ยังเป็นเรื่องของการตั้งค่าที่ฉันใช้หรือรายงานด้วย?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.