คำถามติดแท็ก rare-events

10
Taleb และ Black Swan
หนังสือของ Taleb "The Black Swan" เป็นหนังสือขายดีที่สุดของ New York Times เมื่อมีข่าวออกมาเมื่อหลายปีก่อน หนังสือเล่มนี้อยู่ในรุ่นที่สองของมัน หลังจากพบกับนักสถิติในงาน JSM (การประชุมสถิติประจำปี) Taleb ก็ปรับลดคำวิจารณ์ของเขาลงเล็กน้อย แต่แรงผลักดันของหนังสือเล่มนี้ก็คือสถิติไม่ได้มีประโยชน์มากนักเพราะมันขึ้นอยู่กับการแจกแจงแบบปกติและเหตุการณ์ที่หายากมาก: "แบล็กสวอน" ไม่มีการแจกแจงแบบปกติ คุณคิดว่านี่เป็นคำวิจารณ์ที่ถูกต้องหรือไม่? Taleb ขาดส่วนสำคัญของการสร้างแบบจำลองทางสถิติหรือไม่? สามารถทำนายเหตุการณ์ที่เกิดขึ้นได้น้อยอย่างน้อยในแง่ที่ว่าความน่าจะเป็นของการเกิดขึ้นสามารถประมาณได้?

5
กลยุทธ์ในการจัดการกับการถดถอยโลจิสติกเหตุการณ์ที่หายาก
ฉันต้องการที่จะศึกษาเหตุการณ์ที่หายากในประชากรที่ จำกัด เนื่องจากฉันไม่แน่ใจว่ากลยุทธ์ใดเหมาะสมที่สุดฉันจะขอขอบคุณเคล็ดลับและข้อมูลอ้างอิงที่เกี่ยวข้องกับเรื่องนี้แม้ว่าฉันจะทราบดีว่ามันได้รับการครอบคลุมเป็นส่วนใหญ่ ฉันแค่ไม่รู้จริงๆว่าจะเริ่มจากตรงไหน ปัญหาของฉันคือวิทยาศาสตร์การเมืองหนึ่งและฉันมีประชากรที่ จำกัด ประกอบด้วย 515,843 บันทึก พวกเขาจะเชื่อมโยงกับตัวแปรไบนารีขึ้นอยู่กับ 513,334 "0" s และ 2,509 "1" s ฉันสามารถใส่เหรียญ "1" เป็นกิจกรรมที่หายากได้เพราะพวกเขาคิดเป็นเพียง 0.49% ของประชากรทั้งหมด ฉันมีชุดตัวแปรอิสระประมาณ 10 ตัวที่ฉันต้องการสร้างแบบจำลองเพื่ออธิบายสถานะของ "1" เช่นเดียวกับพวกเราหลายคนฉันอ่านบทความ 2001 ของ King & Zengเกี่ยวกับการแก้ไขเหตุการณ์ที่ไม่ค่อยเกิดขึ้น วิธีการของพวกเขาคือใช้การออกแบบตัวควบคุมเคสเพื่อลดจำนวน "0" จากนั้นใช้การแก้ไขกับดัก อย่างไรก็ตามโพสต์นี้บอกว่าการโต้แย้งของ King & Zeng นั้นไม่จำเป็นถ้าฉันรวบรวมข้อมูลของฉันครอบคลุมประชากรทั้งหมดซึ่งเป็นกรณีของฉัน ดังนั้นฉันต้องใช้แบบจำลอง logit แบบคลาสสิก น่าเสียดายสำหรับฉันแม้ว่าฉันจะได้รับค่าสัมประสิทธิ์ที่ดีมากแบบจำลองของฉันไร้ประโยชน์อย่างสมบูรณ์ในแง่ของการทำนาย (ล้มเหลวในการทำนาย 99.48% ของ "1" ของฉัน) หลังจากอ่านบทความของ …

3
เหตุการณ์อคติการถดถอยโลจิสติกที่หายาก: วิธีจำลอง p ต่ำสุดด้วยตัวอย่างน้อยที่สุด?
CrossValidated มีหลายคำถามเกี่ยวกับเวลาและวิธีการที่จะใช้การแก้ไขเหตุการณ์อคติที่หายากโดยพระบาทสมเด็จพระเจ้าอยู่หัวและเซง (2001) ฉันกำลังมองหาสิ่งที่แตกต่าง: การสาธิตแบบจำลองขั้นต่ำที่มีอคติอยู่ โดยเฉพาะอย่างยิ่งราชาและเซงรัฐ "... ในเหตุการณ์ที่หายากข้อมูลอคติในความน่าจะเป็นความหมายอย่างมีนัยสำคัญกับขนาดตัวอย่างเป็นพันและอยู่ในทิศทางที่สามารถคาดการณ์ได้: ความน่าจะเป็นของเหตุการณ์โดยประมาณนั้นเล็กเกินไป" นี่คือความพยายามของฉันในการจำลองอคติดังกล่าวใน R: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. …

1
การไล่ระดับสีเป็นการส่งเสริมที่เหมาะสมสำหรับข้อมูลที่มีอัตราเหตุการณ์ต่ำเช่น 1% หรือไม่
ฉันพยายามไล่ระดับสีบนชุดข้อมูลที่มีอัตราเหตุการณ์ประมาณ 1% โดยใช้ Enterprise miner แต่ล้มเหลวในการสร้างเอาต์พุตใด ๆ คำถามของฉันคือเนื่องจากเป็นแนวทางการตัดสินใจโดยใช้ต้นไม้มันเป็นสิทธิที่จะใช้การไล่ระดับสีด้วยเหตุการณ์ระดับต่ำเช่นนี้หรือไม่?

2
คุณอธิบายความแตกต่างระหว่างความเสี่ยงสัมพัทธ์กับความเสี่ยงแบบสัมบูรณ์ได้อย่างไร
วันก่อนฉันได้ปรึกษากับนักระบาดวิทยา เธอเป็นแพทยศาสตรบัณฑิตที่มีการศึกษาด้านสาธารณสุขในสาขาระบาดวิทยาและมีความเข้าใจทางสถิติเป็นอย่างมาก เธอให้คำปรึกษาเพื่อนร่วมงานวิจัยและผู้อยู่อาศัยของเธอและช่วยเหลือพวกเขาเกี่ยวกับปัญหาทางสถิติ เธอเข้าใจการทดสอบสมมติฐานค่อนข้างดี เธอมีปัญหาโดยทั่วไปในการเปรียบเทียบสองกลุ่มเพื่อดูว่ามีความแตกต่างในเรื่องนั้นหรือไม่ที่เกี่ยวข้องกับการเกิดภาวะหัวใจล้มเหลว (CHF) เธอทดสอบความแตกต่างของค่าเฉลี่ยในสัดส่วนของอาสาสมัครที่ได้รับ CHF ค่า p คือ 0.08 จากนั้นเธอก็ตัดสินใจที่จะดูความเสี่ยงสัมพัทธ์และรับค่า p-0.027 ดังนั้นเธอจึงถามว่าทำไมสิ่งหนึ่งถึงมีความหมาย เมื่อดูที่ช่วงความเชื่อมั่นสองด้าน 95% สำหรับความแตกต่างและอัตราส่วนที่เธอเห็นว่าช่วงความแตกต่างเฉลี่ยมี 0 แต่ขีด จำกัด ความเชื่อมั่นสูงสุดของอัตราส่วนนั้นน้อยกว่า 1 ดังนั้นทำไมเราถึงได้ผลลัพธ์ที่ไม่สอดคล้องกัน คำตอบของฉันในขณะที่ถูกต้องทางเทคนิคไม่เป็นที่น่าพอใจมาก ฉันพูดว่า "นี่เป็นสถิติที่แตกต่างกันและสามารถให้ผลลัพธ์ที่แตกต่างกันได้ค่า p มีทั้งที่มีนัยสำคัญเล็กน้อยซึ่งสามารถเกิดขึ้นได้ง่าย" ฉันคิดว่าต้องมีวิธีที่ดีกว่าในการตอบคำถามนี้ในแง่ของฆราวาสต่อแพทย์เพื่อช่วยให้พวกเขาเข้าใจความแตกต่างระหว่างการทดสอบความเสี่ยงสัมพัทธ์กับความเสี่ยงที่แน่นอน ในการศึกษา epi ปัญหานี้เกิดขึ้นมากเพราะพวกเขามักจะดูเหตุการณ์ที่หายากซึ่งอัตราการเกิดของทั้งสองกลุ่มนั้นน้อยมากและขนาดของกลุ่มตัวอย่างไม่ใหญ่มาก ฉันได้คิดเกี่ยวกับเรื่องนี้เล็กน้อยและมีความคิดบางอย่างที่ฉันจะแบ่งปัน แต่ก่อนอื่นฉันอยากได้ยินว่าคุณจะจัดการกับเรื่องนี้อย่างไร ฉันรู้ว่าพวกคุณหลายคนทำงานหรือให้คำปรึกษาในด้านการแพทย์และอาจต้องเผชิญกับปัญหานี้ คุณจะทำอย่างไร

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
ใช้ LSTM ที่ดีที่สุดสำหรับการทำนายเหตุการณ์ตามลำดับ
สมมติลำดับ 1 มิติต่อไปนี้: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... ตัวอักษรA, B, C, ..ที่นี่เป็นตัวแทนของเหตุการณ์ 'ธรรมดา' สัญลักษณ์#, $, %, ...ที่นี่แสดงถึงกิจกรรม 'พิเศษ' การเว้นวรรคชั่วคราวระหว่างเหตุการณ์ทั้งหมดนั้นไม่เหมือนกัน (ทุกอย่างจากไม่กี่วินาทีไปจนถึงหลายวัน) แม้ว่าเหตุการณ์ในอดีตที่ผ่านมามีความเป็นไปได้น้อยที่จะมีอิทธิพลต่อเหตุการณ์ในอนาคต เป็นการดีที่ฉันสามารถคำนึงถึงความล่าช้าเหล่านี้อย่างชัดเจน มีคำสั่งของประเภทเหตุการณ์ปกติ 10,000 ประเภทและลำดับเหตุการณ์พิเศษ 100 ชนิด จำนวนของกิจกรรมทั่วไปก่อนหน้ากิจกรรมพิเศษจะแตกต่างกันไป แต่ไม่น่าจะมากกว่า 100-300 โดยพื้นฐานฉันสนใจที่จะมองหารูปแบบในลำดับเหตุการณ์ปกติที่จบลงด้วยการทำนายเหตุการณ์พิเศษ ตอนนี้คุณสามารถเข้าถึงสิ่งนี้ได้หลายวิธี: การสร้างคุณสมบัติเวกเตอร์ + การจำแนกมาตรฐานการเรียนรู้กฎการเชื่อมโยง HMM ฯลฯ ในกรณีนี้ฉันอยากรู้ว่าเครือข่ายที่ใช้ LSTM …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.