สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
ฟิชเชอร์หมายถึงอะไรโดยอ้างนี้?
ฉันเห็นข้อความที่โด่งดังนี้ทุกที่ แต่ไม่เข้าใจส่วนที่ถูกเน้นทุกครั้ง คนที่ 'ปฏิเสธ' สมมติฐานเป็นการชั่วคราวเป็นเรื่องของการฝึกฝนเป็นนิสัยเมื่อความสำคัญอยู่ที่ระดับ 1% หรือสูงกว่าจะถูกเข้าใจผิดในการตัดสินใจเช่นนั้นไม่เกิน 1% เพราะเมื่อสมมติฐานถูกต้องเขาจะถูกเข้าใจผิดในเพียง 1% ของกรณีเหล่านี้และเมื่อมันไม่ถูกต้องเขาจะไม่ผิดในการปฏิเสธ [... ] อย่างไรก็ตามการคำนวณนั้นเป็นเรื่องไร้สาระทางวิชาการเพราะในความเป็นจริงไม่มีนักวิทยาศาสตร์คนใดมีระดับความสำคัญคงที่ซึ่งปีต่อปีและในทุกสถานการณ์เขาปฏิเสธสมมติฐาน; เขาค่อนข้างจะทำให้จิตใจของเขากับแต่ละกรณีโดยเฉพาะในแง่ของหลักฐานและความคิดของเขาไม่ควรลืมว่ากรณีที่เลือกใช้การทดสอบนั้นเป็นชุดที่เลือกอย่างชัดเจนและไม่สามารถระบุเงื่อนไขการเลือกแม้สำหรับผู้ปฏิบัติงานคนเดียว และในการโต้แย้งที่ใช้มันจะผิดกฎหมายอย่างชัดเจนสำหรับคนที่จะเลือกระดับความสำคัญที่แท้จริงที่ระบุโดยการทดลองโดยเฉพาะราวกับว่ามันเป็นนิสัยตลอดชีวิตของเขาที่จะใช้เพียงแค่ระดับนี้ (วิธีการทางสถิติและการอนุมานทางวิทยาศาสตร์, 1956, p. 42-45) โดยเฉพาะอย่างยิ่งฉันไม่เข้าใจ เหตุใดจึงถูกเลือกให้ทำการทดสอบ "เลือกอย่างสูง"? สมมติว่าคุณสงสัยว่าความสูงเฉลี่ยของคนในพื้นที่นั้นน้อยกว่า 165 ซม. หรือไม่และตัดสินใจทำการทดสอบ ขั้นตอนมาตรฐานเท่าที่ฉันรู้คือการสุ่มตัวอย่างจากพื้นที่และวัดความสูง วิธีนี้จะถูกเลือกอย่างมาก? สมมติว่าคดีได้รับการคัดสรรมาอย่างดี แต่สิ่งนี้เกี่ยวข้องกับการเลือกระดับนัยสำคัญอย่างไร ลองพิจารณาตัวอย่างข้างต้นอีกครั้งถ้าวิธีการสุ่มตัวอย่างของคุณ (สิ่งที่ฉันคิดว่าฟิชเชอร์หมายถึงเงื่อนไขการเลือก ) จะเบ้และคนที่มีความสูงก็ช่วยให้งานวิจัยทั้งหมดพังลงและการกำหนดระดับนัยสำคัญ พีพีp

1
“ ความรุนแรง” ของ Deborah Mayo คืออะไร?
ทุกคนสามารถให้คำอธิบายโดยละเอียด (และชัดเจน) ว่า "ความรุนแรง" ของเธอหมายถึงอะไร (ไม่ใช่แค่ฟังก์ชั่นพลังงานที่ประเมินจากความคลาดเคลื่อนที่แตกต่างกันตามสมมติฐานว่างเปล่า?) และมันเหมาะกับวรรณกรรมทดสอบทางสถิติโดยทั่วไปหรือไม่?

3
คะแนนทดสอบเป็นไปตามการแจกแจงปกติหรือไม่
ฉันพยายามเรียนรู้ว่าการแจกแจงแบบใดที่จะใช้ใน GLMs และฉันสับสนเล็กน้อยเมื่อต้องใช้การแจกแจงแบบปกติ ในส่วนหนึ่งของตำราเรียนของฉันบอกว่าการแจกแจงแบบปกติอาจจะดีสำหรับการทำแบบจำลองคะแนนสอบ ในส่วนถัดไปมันจะถามว่าการจัดจำหน่ายแบบใดที่เหมาะสมในการสร้างแบบจำลองการเคลมประกันรถยนต์ เวลานี้มันบอกว่าการแจกแจงที่เหมาะสมจะเป็นแกมม่าหรืออินเวอร์สเกาส์เนื่องจากพวกมันมีค่าบวกอย่างต่อเนื่องเท่านั้น ฉันเชื่อว่าคะแนนสอบจะต่อเนื่องกับค่าบวกเท่านั้นดังนั้นทำไมเราถึงใช้การแจกแจงแบบปกติที่นั่น? การแจกแจงปกติไม่อนุญาตสำหรับค่าลบหรือไม่

5
แบบผสมลักษณะพิเศษ: เปรียบเทียบองค์ประกอบความแปรปรวนแบบสุ่มข้ามระดับของตัวแปรการจัดกลุ่ม
สมมติว่าฉันมีผู้เข้าร่วมยังไม่มีข้อความยังไม่มีข้อความNคนแต่ละคนให้การตอบสนองYYY 20 ครั้ง, 10 ครั้งในเงื่อนไขหนึ่งและอีก 10 ครั้ง ฉันพอดีกับโมเดลเอฟเฟกต์เชิงเส้นผสมเปรียบเทียบYYYในแต่ละเงื่อนไข นี่คือตัวอย่างที่จำลองได้ซึ่งจำลองสถานการณ์นี้โดยใช้lme4แพ็คเกจในR: library(lme4) fml <- "~ condition + (condition | participant_id)" d <- expand.grid(participant_id=1:40, trial_num=1:10) d <- rbind(cbind(d, condition="control"), cbind(d, condition="experimental")) set.seed(23432) d <- cbind(d, simulate(formula(fml), newparams=list(beta=c(0, .5), theta=c(.5, 0, 0), sigma=1), family=gaussian, newdata=d)) m <- lmer(paste("sim_1 ", fml), data=d) summary(m) แบบจำลองmทำให้เกิดผลกระทบคงที่สองแบบ (การสกัดกั้นและความลาดเอียงตามเงื่อนไข) …

1
เหตุใดจึงใช้คะแนน Normalized Gini แทน AUC เพื่อประเมินผล
การแข่งขันของ Kaggle การแข่งขันการทำนายความปลอดภัยอย่างปลอดภัยของ Porto Seguroใช้คะแนน Normalized Gini เป็นตัวชี้วัดการประเมินผลและสิ่งนี้ทำให้ฉันสงสัยเกี่ยวกับเหตุผลของการเลือกนี้ อะไรคือข้อดีของการใช้คะแนน gini ปกติแทนการวัดทั่วไปมากที่สุดเช่น AUC สำหรับการประเมิน?

3
การปรับพารามิเตอร์ไฮเปอร์: การค้นหาแบบสุ่มกับการปรับให้เหมาะสมแบบเบย์
ดังนั้นเรารู้ว่าการค้นหาแบบสุ่มทำงานได้ดีกว่าการค้นหาแบบตาราง แต่วิธีการที่ใหม่กว่าคือการเพิ่มประสิทธิภาพแบบเบย์ (ใช้กระบวนการแบบเกาส์) ฉันค้นหาการเปรียบเทียบระหว่างทั้งสองและไม่พบอะไรเลย ฉันรู้ว่าที่ cs231n ของ Stanford พวกเขาพูดถึงการค้นหาแบบสุ่มเท่านั้น แต่เป็นไปได้ว่าพวกเขาต้องการทำให้สิ่งต่าง ๆ เรียบง่าย คำถามของฉันคือ: วิธีใดดีกว่าและถ้าคำตอบคือ "บางครั้งการค้นหาแบบสุ่มบางครั้ง Bayesian" เมื่อใดฉันจึงควรเลือกวิธีอื่นมากกว่า?

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

1
คำอธิบายที่เข้าใจง่ายว่าทำไมขั้นตอน FDR ของ Benjamini-Hochberg จึงเป็นเช่นนั้น?
มีวิธีง่าย ๆ ในการอธิบายว่าทำไมขั้นตอนของ Benjamini และ Hochberg (1995) จึงควบคุมอัตราการค้นพบที่ผิดพลาด (FDR) จริงหรือไม่ ขั้นตอนนี้สวยงามและกะทัดรัดและยังพิสูจน์ได้ว่าทำไมมันทำงานภายใต้ความเป็นอิสระ (ปรากฏในภาคผนวกของกระดาษ 1995ของพวกเขา) ไม่สามารถเข้าถึงได้มาก

1
ความแตกต่างระหว่างแบบจำลองที่มีหรือไม่มีการสกัดกั้นในการถดถอยแบบโลจิสติกส์
ฉันชอบที่จะเข้าใจความแตกต่างระหว่างแบบจำลองที่มีหรือไม่มีการสกัดกั้นในการถดถอยโลจิสติก มีความแตกต่างระหว่างพวกเขายกเว้นว่ามีการสกัดกั้นค่าสัมประสิทธิ์พิจารณาล็อก (อัตราส่วนอัตราต่อรอง) เทียบกับกลุ่มพื้นฐานและไม่มีการสกัดกั้นพวกเขาถือว่าเป็นบันทึก (อัตราต่อรอง)? จากสิ่งที่ฉันได้เห็นสัมประสิทธิ์เหมือนกันในทั้งสองกรณี แต่ความสำคัญไม่เหมือนกันเสมอไปและไม่เข้าใจว่าทำไม .. จึงเป็นเช่นนั้นนอกจากนี้ในกรณีใดจะถูกต้องที่จะใช้แบบจำลองที่ไม่มีการสกัดกั้น? นี่คือแบบจำลองของฉัน: glm(NeverReturn ~ factor(Network) * TotalPrice , family = binomial)และฉันไม่แน่ใจเกี่ยวกับการสกัดกั้นออกหรือไม่เพราะที่ "คำจริง" ราคารวมไม่เกิน 50 แต่อย่างใด แต่ความน่าจะเป็นที่ 1 จะไม่เป็น 0 ดังนั้นฉันจึงสับสน

3
การถดถอยเชิงเส้นสิ่งที่สถิติ F, R กำลังสองและข้อผิดพลาดมาตรฐานที่เหลือบอกเรา?
ฉันสับสนจริง ๆ เกี่ยวกับความแตกต่างของความหมายเกี่ยวกับบริบทของการถดถอยเชิงเส้นของเงื่อนไขต่อไปนี้: สถิติ F R กำลังสอง ข้อผิดพลาดมาตรฐานที่เหลือ ฉันพบwebstie นี้ซึ่งให้ข้อมูลเชิงลึกที่ดีกับฉันเกี่ยวกับเงื่อนไขต่าง ๆ ที่เกี่ยวข้องกับการถดถอยเชิงเส้นอย่างไรก็ตามเงื่อนไขดังกล่าวข้างต้นดูเหมือนจะค่อนข้างมาก (เท่าที่ฉันเข้าใจ) ฉันจะอ้างอิงสิ่งที่ฉันอ่านและสิ่งที่ทำให้ฉันสับสน: ข้อผิดพลาดมาตรฐานที่เหลือคือการวัดคุณภาพของการถดถอยเชิงเส้น ....... ข้อผิดพลาดมาตรฐานที่เหลือคือจำนวนเฉลี่ยที่การตอบสนอง (dist) จะเบี่ยงเบนจากเส้นการถดถอยที่แท้จริง 1.นี่คือระยะทางเฉลี่ยของค่าสังเกตจากเส้น lm จริงหรือไม่ สถิติ R-squared ให้การวัดความแม่นยำของแบบจำลองที่เหมาะสมกับข้อมูลจริง 2.ตอนนี้ฉันสับสนเพราะถ้า RSE บอกเราว่าจุดสังเกตที่เราเบี่ยงเบนไปจากเส้นถดถอยไกลแค่ไหน RSE ต่ำบอกจริง ๆ ว่า "แบบจำลองของคุณเหมาะสมกับจุดข้อมูลที่สังเกต" -> ดีอย่างไร รุ่นพอดีดังนั้นความแตกต่างระหว่าง R กำลังสองและ RSE คืออะไร? สถิติ F เป็นตัวบ่งชี้ที่ดีว่ามีความสัมพันธ์ระหว่างตัวทำนายของเรากับตัวแปรตอบสนองหรือไม่ 3.จริงหรือไม่ที่เราสามารถมีค่า F ระบุความสัมพันธ์ที่แข็งแกร่งที่ไม่ใช่เชิงเส้นเพื่อให้ RSE ของเราสูงและ R กำลังสองของเราต่ำ

1
ช่วงการทำนายสำหรับตัวแปรสุ่มแบบทวินาม
สูตร (โดยประมาณหรือแน่นอน) สำหรับช่วงเวลาการทำนายสำหรับตัวแปรสุ่มแบบทวินามคืออะไร สมมติว่าและเราสังเกตว่า (ดึงมาจาก ) เป็นที่รู้จักกันY∼Binom(n,p)Y∼Binom(n,p)Y \sim \mathsf{Binom}(n, p)yyyYYYnnn เป้าหมายของเราคือการได้รับช่วงเวลาที่การคาดการณ์ 95% สำหรับการวาดใหม่จากYYYY ประมาณการจุดคือที่{n} ช่วงความมั่นใจสำหรับนั้นตรงไปตรงมา แต่ฉันไม่สามารถหาสูตรสำหรับช่วงการทำนายสำหรับได้ ถ้าเรารู้ (แทนที่จะเป็น ) ช่วงเวลาการทำนาย 95% นั้นเกี่ยวข้องกับการหาควอนไทล์ของทวินาม มีบางสิ่งที่ชัดเจนที่ฉันมองเห็นหรือไม่?พี = Ynp^np^n\hat{p}P Yพีพีp^=ynp^=yn\hat{p}=\frac{y}{n}p^p^\hat{p}YYYpppp^p^\hat{p}

3
ทำไม / ควร (?) การสุ่มตัวอย่างเชิงสถิติทำงานเพื่อการเมือง (เช่น Gallup)
โพลออกมี (พูดกัลล์อัพ) ตัวอย่างผู้คนจำนวนน้อยอย่างไร้เหตุผลเมื่อเทียบกับขนาดของประชากร (เช่นอาจเป็นพันคนจากหลายร้อยล้าน) ตอนนี้ให้ฉันสุ่มตัวอย่างประชากรเป็นวิธีสำหรับการประเมินสถิติของประชากรทำให้รู้สึกเมื่อคุณมีเหตุผลที่ดีที่จะเชื่อว่ากลุ่มตัวอย่างเป็นตัวแทนของประชากร (หรือในทำนองเดียวกันของตัวอย่างอื่น ๆ ) ตัวอย่างเช่นการสุ่มตัวอย่างทำให้เข้าใจได้ง่ายสำหรับการศึกษาทางการแพทย์เพราะเรารู้ว่านิรนัยที่มนุษย์ทุกคนมีจีโนมค่อนข้างคล้ายคลึงกันและปัจจัยนี้ทำให้ร่างกายของพวกเขามีพฤติกรรมคล้ายกัน โปรดทราบว่านี่ไม่ใช่การมีเพศสัมพันธ์แบบหลวม ๆ - จีโนมเป็นปัจจัยกำหนดที่แข็งแกร่งมาก อย่างไรก็ตามฉันไม่เข้าใจว่าอะไรคือเหตุผลที่ใช้ขนาดตัวอย่างต่ำสำหรับสิ่งต่างๆเช่นการสำรวจทางการเมือง ฉันสามารถซื้อได้ว่าอาจจะ 80-90% ของผู้คนในพื้นที่ใกล้เคียงที่ได้รับคะแนนเสียงคล้ายกันสำหรับประธานาธิบดี (เนื่องจากภูมิหลังทางสังคมและเศรษฐกิจ / การศึกษาที่คล้ายกัน) แต่สิ่งนี้ดูเหมือนว่าแทบจะไม่ได้พิสูจน์ตัวอย่างที่มีจำนวนต่ำ มีตัวอักษรไม่มีเหตุผลที่น่าสนใจ (อย่างน้อยให้ฉัน) ทำไมผู้มีสิทธิเลือกตั้ง 1,000 สุ่มควรประพฤติเช่น 200 ล้านผู้มีสิทธิเลือกตั้งอื่น ๆ สำหรับฉันคุณต้องการอย่างน้อยต้องชอบ (พูด) 100 ×จำนวนนั้น ทำไม? ฉันสามารถคิดถึงเหตุผลมากมายเช่น: มี ~ 22,000 อันมีเพียงแค่ในรัฐแคลิฟอร์เนีย ผู้คนเติบโตขึ้นอย่างแตกต่างกันในภูมิหลังทางเศรษฐกิจและการศึกษาของพวกเขาที่โพลขนาด 1,000 คนดูเหมือนจะหัวเราะเยาะ คุณจะสรุปบริเวณทั้งหมดโดยมี <1 คนโดยเฉลี่ยได้อย่างไร โดยทั่วไปผู้คนไม่สามารถเปลี่ยนแปลงการตอบสนองต่อยาของร่างกาย แต่พวกเขาสามารถเปลี่ยนความคิดเห็นเกี่ยวกับการเมืองเพียงแค่คิดถึงมัน วิธีที่ฉันเห็นมันไม่มีปัจจัยบังคับใดที่คล้ายกับ DNA ในการแพทย์เมื่อคุณต้องรับมือกับการเมือง …

2
ต้นกำเนิดของเครือข่ายประสาทเทียม autoencoder คืออะไร?
ฉันค้นหาใน Google, Wikipedia, Google scholar และอื่น ๆ แต่ไม่พบต้นกำเนิดของ Autoencoders บางทีมันอาจเป็นหนึ่งในแนวคิดเหล่านั้นที่มีการพัฒนาอย่างค่อยเป็นค่อยไปและเป็นไปไม่ได้ที่จะย้อนกลับไปยังจุดเริ่มต้นที่ชัดเจน แต่ถึงกระนั้นฉันก็ยังอยากจะสรุปบางส่วนของขั้นตอนหลักของการพัฒนาของพวกเขา บทที่เกี่ยวกับ autoencodersในเอียน Goodfellow, โยชัวเบนจิโอและหนังสือการเรียนรู้ลึกแอรอน Courville กล่าวว่า: แนวคิดของ autoencoders เป็นส่วนหนึ่งของภูมิทัศน์ทางประวัติศาสตร์ของโครงข่ายประสาทเทียมมานานหลายทศวรรษ (LeCun, 1987; Bourlard และ Kamp, 1988; Hinton and Zemel, 1994) ตามเนื้อผ้า autoencoders ถูกนำมาใช้เพื่อลดมิติหรือการเรียนรู้คุณสมบัติ งานนำเสนอนี้โดย Pascal Vincent พูดว่า: Denoising ที่ใช้ autoencoders แบบดั้งเดิมนั้นมีการนำมาใช้ก่อนหน้านี้มาก (LeCun, 1987; Gallinari และคณะ, 1987) ซึ่งเป็นทางเลือกสำหรับเครือข่าย Hopfield (Hopfield, 1982) …

2
สูตรสำหรับ Benjamini-Hochberg ปรับค่า p เป็นอย่างไร
ฉันเข้าใจขั้นตอนและสิ่งที่ควบคุม ดังนั้นสูตรสำหรับค่า p ที่ปรับในขั้นตอน BH สำหรับการเปรียบเทียบหลายรายการคืออะไร เพียงแค่ตอนนี้ฉันรู้เดิม BH ไม่ได้ผลิตปรับ P-ค่าปรับเท่านั้น (ไม่ใช่) เงื่อนไขการปฏิเสธ: https://www.jstor.org/stable/2346101 Gordon Smyth ได้แนะนำค่า p BH ที่ปรับปรุงใหม่ในปี 2002 อย่างไรก็ตามคำถามยังคงมีอยู่ มันนำมาใช้ในการวิจัยเป็นด้วยวิธีการp.adjustBH

4
ทำนายช่วงเวลาสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง
ฉันต้องการทราบว่ากระบวนการที่อธิบายด้านล่างนี้ถูกต้อง / ยอมรับได้และมีเหตุผลใด ๆ แนวคิด: อัลกอริธึมการเรียนรู้ภายใต้การดูแลไม่ถือว่าโครงสร้างหรือการแจกแจงเกี่ยวกับข้อมูล ในตอนท้ายของวันที่พวกเขาออกประมาณการจุด ฉันหวังว่าจะให้ปริมาณความไม่แน่นอนของการประมาณการอย่างใด ตอนนี้กระบวนการสร้างแบบจำลอง ML นั้นเป็นการสุ่มโดยเนื้อแท้ (เช่นในการสุ่มตัวอย่างสำหรับการตรวจสอบข้ามสำหรับการปรับค่าพารามิเตอร์และการสุ่มใน Stochastic GBM) ดังนั้นท่อส่งแบบจำลองจะให้ผลลัพธ์ที่แตกต่างกันสำหรับตัวทำนายเดียวกันกับเมล็ดแต่ละอัน ความคิดที่ไร้เดียงสาของฉันคือการเรียกใช้กระบวนการนี้ซ้ำแล้วซ้ำอีกเพื่อหาการกระจายของการทำนายและฉันหวังว่าฉันจะสามารถทำให้แถลงการณ์เกี่ยวกับความไม่แน่นอนของการทำนายได้ หากเป็นเรื่องสำคัญชุดข้อมูลที่ฉันทำงานด้วยจะเล็กมาก (ประมาณ 200 แถว) มันสมเหตุสมผลหรือไม่ เพื่อความกระจ่างแจ้งฉันไม่ได้ทำการบูตข้อมูลด้วยวิธีดั้งเดิม (เช่นฉันไม่ได้สุ่มตัวอย่างข้อมูลใหม่) ชุดข้อมูลเดียวกันถูกใช้ในการวนซ้ำทุกครั้งฉันแค่ใช้การสุ่มใน xval และ stochastic GBM

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.