คำถามติดแท็ก modeling

แท็กนี้อธิบายกระบวนการสร้างแบบจำลองการเรียนรู้ทางสถิติหรือเครื่อง เพิ่มแท็กเฉพาะเสมอ

3
เมื่อใดที่ฉันไม่สามารถแทนที่ตัวแปรสุ่มด้วยค่าเฉลี่ยได้
ความเรียบง่ายบ่อยครั้งในการสร้างแบบจำลองและการจำลองคือการแทนที่ตัวแปรสุ่มด้วยค่าเฉลี่ย เมื่อการทำให้เข้าใจง่ายนี้จะนำไปสู่ข้อสรุปที่ผิด?

3
ทดสอบการเชื่อมโยงสำหรับ DV ที่กระจายตามปกติโดยตัวแปรอิสระในทิศทางหรือไม่
มีการทดสอบสมมติฐานว่าตัวแปรตามที่กระจายตามปกติมีความสัมพันธ์กับตัวแปรกระจายตามทิศทางหรือไม่? ตัวอย่างเช่นหากเวลาของวันเป็นตัวแปรอธิบาย (และสมมติว่าสิ่งต่าง ๆ เช่นวันของสัปดาห์เดือนของปี ฯลฯ ไม่เกี่ยวข้อง) - นั่นคือวิธีการบัญชีสำหรับความจริงที่ว่า 23:00 เป็น 22 ชั่วโมงข้างหน้าของ 1am และ 2 ชั่วโมงหลัง 1am ในการทดสอบของสมาคมหรือไม่ ฉันสามารถทดสอบว่าเวลาต่อเนื่องของวันอธิบายตัวแปรตามหรือไม่โดยไม่คิดว่าเวลาเที่ยงคืน 12:00 ไม่เป็นไปตามเวลาหนึ่งนาทีหลัง 23.59 น. หรือไม่ การทดสอบนี้ใช้กับตัวแปรอธิบายแบบแยกส่วนได้หรือไม่? หรือว่าต้องมีการทดสอบแยกต่างหาก ตัวอย่างเช่นวิธีการทดสอบว่าตัวแปรตามขึ้นอยู่กับการอธิบายตามเดือนของปี (สมมติว่าวันและฤดูกาลของปีและปีที่เฉพาะเจาะจงหรือทศวรรษที่ไม่เกี่ยวข้อง) การรักษาเดือนของปีอย่างเด็ดขาดละเว้นการสั่งซื้อ แต่การรักษาเดือนของปีเป็นตัวแปรลำดับมาตรฐาน (พูด ม.ค. = 1 ... ธันวาคม = 12) ไม่สนใจว่าเดือนมกราคมจะมาสองเดือนหลังจากเดือนพฤศจิกายน

1
การกระจายที่เหมาะสมกับข้อมูลเชิงพื้นที่
ข้ามการโพสต์คำถามของฉันจาก mathoverflowเพื่อค้นหาความช่วยเหลือเฉพาะสถิติ ฉันกำลังศึกษากระบวนการทางกายภาพในการสร้างข้อมูลซึ่งมีโครงงานเป็นสองมิติด้วยค่าที่ไม่เป็นลบ แต่ละขั้นตอนมีแทร็ก (ที่คาดการณ์) จุด - - ดูภาพด้านล่างxxxYYy แทร็กตัวอย่างเป็นสีน้ำเงินแทร็กที่มีปัญหาได้รับการวาดด้วยสีเขียวและพื้นที่ที่มีข้อกังวลเป็นสีแดง: แต่ละแทร็กเป็นผลมาจากการทดสอบอิสระ มีการทดลองกว่ายี่สิบล้านครั้งในช่วงหลายปีที่ผ่านมา แต่จากการทดสอบเพียงสองพันครั้งนั้นแสดงให้เห็นถึงคุณลักษณะที่เราวางแผนไว้ เรากังวลเฉพาะกับการทดลองที่สร้างแทร็กดังนั้นชุดข้อมูลของเราคือ (โดยประมาณ) สองพันแทร็ก มีความเป็นไปได้สำหรับแทร็กที่จะเข้าสู่พื้นที่ที่น่าเป็นห่วงและเราคาดหวังว่าจะเรียงตามลำดับในแทร็ก การประมาณจำนวนนั้นเป็นคำถามในมือ:11110410410^4 เราจะคำนวณความน่าจะเป็นของการติดตามโดยพลการเข้าสู่พื้นที่ที่น่าเป็นห่วงได้อย่างไร เป็นไปไม่ได้ที่จะทำการทดลองอย่างรวดเร็วพอที่จะดูว่ามีการสร้างแทร็กบ่อยครั้งเพียงใดซึ่งเข้าสู่พื้นที่ที่น่าเป็นห่วงดังนั้นเราจึงจำเป็นต้องประเมินจากข้อมูลที่มีอยู่ เราได้ติดตั้งตัวอย่างเช่นค่าให้ไว้แต่สิ่งนี้ไม่สามารถจัดการข้อมูลได้อย่างเพียงพอเช่นแทร็กสีเขียว - ดูเหมือนว่าจำเป็นต้องมีโมเดลที่ครอบคลุมทั้งสองมิติxxxY≥ 200Y≥200y\ge200 เราได้ติดตั้งระยะห่างขั้นต่ำจากแต่ละแทร็กไปยังพื้นที่ที่น่ากังวล แต่เราไม่มั่นใจว่าสิ่งนี้จะให้ผลลัพธ์ที่สมเหตุสมผล 1) มีวิธีทราบที่เหมาะสมกับการกระจายข้อมูลประเภทนี้เพื่อการประมาณค่าหรือไม่? -หรือ- 2) มีวิธีที่ชัดเจนในการใช้ข้อมูลนี้เพื่อสร้างแบบจำลองสำหรับการสร้างแทร็กหรือไม่? ตัวอย่างเช่นใช้การวิเคราะห์องค์ประกอบหลักบนแทร็กเป็นจุดในพื้นที่ขนาดใหญ่จากนั้นปรับการกระจาย (Pearson?) ให้พอดีกับแทร็กที่ฉายลงบนส่วนประกอบเหล่านั้น

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
รูปแบบที่เหมาะสมสำหรับการแจกแจงแบบปกติสองครั้งใน PyMC
เนื่องจากฉันเป็นวิศวกรซอฟต์แวร์พยายามที่จะเรียนรู้สถิติเพิ่มเติมคุณจะต้องยกโทษให้ฉันก่อนที่ฉันจะเริ่มนี่เป็นดินแดนใหม่ที่ร้ายแรง ... ฉันได้เรียนรู้PyMCและทำงานผ่านตัวอย่างง่ายๆ (จริง ๆ ) จริงๆ ปัญหาหนึ่งที่ฉันไม่สามารถทำงานได้ (และไม่สามารถหาตัวอย่างที่เกี่ยวข้องได้) คือการปรับโมเดลให้สอดคล้องกับข้อมูลที่สร้างจากการแจกแจงปกติสองแบบ บอกว่าฉันมี 1,000 ค่า 500 สร้างขึ้นจากNormal(mean=100, stddev=20)และอีก 500 Normal(mean=200, stddev=20)สร้างขึ้นจาก ถ้าฉันต้องการให้พอดีกับแบบจำลองพวกเขาเช่นกำหนดสองวิธีและส่วนเบี่ยงเบนมาตรฐานเดียวโดยใช้ PyMC ฉันรู้ว่ามันเป็นสิ่งที่ตามแนว ... mean1 = Uniform('mean1', lower=0.0, upper=200.0) mean2 = Uniform('mean2', lower=0.0, upper=200.0) precision = Gamma('precision', alpha=0.1, beta=0.1) data = read_data_from_file_or_whatever() @deterministic(plot=False) def mean(m1=mean1, m2=mean2): # but what goes here? …
10 modeling  python  pymc 

1
การถดถอยกับข้อผิดพลาดของนักเรียนไร้ประโยชน์หรือไม่?
โปรดดูการแก้ไข เมื่อคุณมีข้อมูลที่มีก้อยมากการทำถดถอยด้วยความผิดพลาดของนักเรียนดูเหมือนจะเป็นสิ่งที่ใช้งานง่าย ขณะสำรวจความเป็นไปได้นี้ฉันพบบทความนี้: Breusch, TS, Robertson, JC, & Welsh, AH (1 พฤศจิกายน 1997) เสื้อผ้าใหม่ของจักรพรรดิ: บทวิจารณ์ของรูปแบบการถดถอยหลายตัวแปร Statistica Neerlandica, 51, 3. ) ( ลิงก์ , pdf ) ซึ่งระบุว่าพารามิเตอร์ scale และ degree of freedom ไม่สามารถระบุได้ด้วยความเคารพซึ่งกันและกันในบางแง่มุมและเนื่องจากการทำแบบถดถอยด้วยข้อผิดพลาด t ไม่ได้ทำอะไรมากไปกว่าการถดถอยเชิงเส้นมาตรฐาน Zellner (1976) เสนอรูปแบบการถดถอยซึ่งเวกเตอร์ข้อมูล (หรือเวกเตอร์ข้อผิดพลาด) ถูกแทนด้วยการรับรู้จากการแจกแจงของนักเรียนหลายตัวแปร รุ่นนี้ได้รับความสนใจเป็นอย่างมากเพราะดูเหมือนว่าจะขยายข้อสันนิษฐานแบบเกาส์เซียนแบบทั่วไปเพื่อให้มีการแจกแจงข้อผิดพลาดที่หนักกว่า จำนวนของผลลัพธ์ในเอกสารระบุว่าขั้นตอนการอนุมานมาตรฐานสำหรับแบบเกาส์เซียนยังคงเหมาะสมภายใต้สมมติฐานการกระจายแบบกว้างกว่าซึ่งนำไปสู่การเรียกร้องความทนทานของวิธีมาตรฐาน เราแสดงให้เห็นว่าแม้ว่าทั้งสองแบบจำลองทางคณิตศาสตร์จะมีความแตกต่างกัน แต่เพื่อจุดประสงค์ในการอนุมานเชิงสถิติพวกมันแยกไม่ออก ความหมายเชิงประจักษ์ของแบบจำลองหลายตัวแปร t นั้นเหมือนกับแบบจำลองแบบเกาส์เซียนอย่างแม่นยำ ดังนั้นข้อเสนอแนะของการแสดงข้อมูลที่กว้างกว่านั้นจึงเป็นการหลอกลวงและการเรียกร้องความแข็งแกร่งนั้นทำให้เข้าใจผิด บทสรุปเหล่านี้สามารถเข้าถึงได้จากมุมมองทั้งแบบประจำและแบบเบย์ เรื่องนี้ทำให้ฉันประหลาดใจ ฉันไม่มีความซับซ้อนทางคณิตศาสตร์ในการประเมินข้อโต้แย้งของพวกเขาดีดังนั้นฉันจึงมีคำถามสองสามข้อ: …

1
ความช่วยเหลือเกี่ยวกับการสร้างแบบจำลอง SEM (OpenMx, polycor)
ฉันมีปัญหามากมายกับชุดข้อมูลเดียวที่ฉันพยายามใช้ SEM เราสมมติว่ามีปัจจัยแฝง 5 ตัวคือ A, B, C, D, E พร้อมด้วยตัวชี้วัด A1 ถึง A5 (ปัจจัยที่สั่ง), B1 ถึง B3 (เชิงปริมาณ), C1, D1, E1 (ทั้งหมดสามปัจจัยสุดท้ายที่สั่งโดยมีเพียง 2 ระดับสำหรับ E1 เรามีความสนใจในความแปรปรวนร่วมระหว่างปัจจัยทั้งหมด ฉันพยายามที่จะใช้OpenMxเพื่อทำเช่นนั้น นี่คือความพยายามของฉัน: ฉันก่อนพยายามใช้การฝึกอบรมขีด จำกัด สำหรับปัจจัยที่สั่งทั้งหมด แต่การบรรจบล้มเหลว ฉันตัดสินใจที่จะใช้ความสัมพันธ์แบบ polychoric / polyserial แทนข้อมูลดิบด้วยฟังก์ชั่นhetcorจากห้องสมุดpolycor(ฉันวางแผนที่จะบูตตัวอย่างเพื่อรับช่วงความมั่นใจ) มันก็ล้มเหลวที่จะมาบรรจบกัน! ฉันพยายาม จำกัด เฉพาะบุคคลที่มีข้อมูลครบถ้วน แต่ก็ล้มเหลวด้วย! คำถามแรกของฉันคือ: มีวิธีธรรมชาติในการตีความความล้มเหลวเหล่านี้? คำถามที่สองของฉันคือฉันควรทำอย่างไร ??? แก้ไข: สำหรับผู้อ่านในอนาคตที่อาจพบปัญหาเดียวกันหลังจากที่ไปถึงรหัสของฟังก์ชั่นในการpolycor... การแก้ปัญหาเป็นเพียงการใช้งานที่มีตัวเลือกhetcor() …

1
มีแนวคิดของข้อมูล“ เพียงพอ” สำหรับการฝึกอบรมแบบจำลองทางสถิติหรือไม่?
ฉันทำงานเกี่ยวกับการสร้างแบบจำลองทางสถิติค่อนข้างมากเช่น Hidden Markov Models และ Gaussian Mixture Models ฉันเห็นว่าแบบจำลองการฝึกอบรมที่ดีในแต่ละกรณีเหล่านี้จำเป็นต้องใช้ข้อมูลจำนวนมาก (> 20,000 ประโยคสำหรับ HMMs) ที่นำมาจากสภาพแวดล้อมที่คล้ายคลึงกันเป็นการใช้งานครั้งสุดท้าย คำถามของฉันคือ: มีแนวคิดของข้อมูลการฝึกอบรมที่ "เพียงพอ" ในวรรณกรรมหรือไม่ ข้อมูลการฝึกอบรม "ดีพอ" เท่าใด ฉันจะคำนวณจำนวนประโยคที่จำเป็นสำหรับโมเดล "ดี" (ที่ให้ความแม่นยำในการรู้จำที่ดี (> 80%)) เพื่อฝึกอบรมได้อย่างไร ฉันจะรู้ได้อย่างไรว่าแบบจำลองได้รับการฝึกฝนอย่างเหมาะสมหรือไม่ สัมประสิทธิ์ในแบบจำลองจะเริ่มแสดงความผันผวนแบบสุ่มหรือไม่? ถ้าเป็นเช่นนั้นฉันจะแยกความผันผวนแบบสุ่มและการเปลี่ยนแปลงจริงเนื่องจากการอัปเดตโมเดลได้อย่างไร โปรดอ่านคำถามนี้ซ้ำในกรณีที่ต้องการแท็กเพิ่มเติม

5
การถดถอยโลจิสติกจะเอนเอียงเมื่อตัวแปรผลลัพธ์ถูกแบ่ง 5% - 95% หรือไม่
ฉันกำลังสร้างแบบจำลองความโน้มเอียงโดยใช้การถดถอยโลจิสติกสำหรับไคลเอนต์ยูทิลิตี้ ความกังวลของฉันคือจากตัวอย่างทั้งหมดบัญชี 'ไม่ดี' ของฉันมีเพียง 5% และส่วนที่เหลือดีทั้งหมด ฉันทำนายว่า 'ไม่ดี' ผลที่ได้จะเป็นแบบ Biassed หรือไม่? อะไรคือสิ่งที่ดีที่สุด 'ไม่ดีกับสัดส่วนที่ดี' เพื่อสร้างแบบจำลองที่ดี?

4
กลเม็ดและเคล็ดลับในการเริ่มต้นกับการสร้างแบบจำลองทางสถิติ?
ฉันทำงานด้านการขุดข้อมูลและมีสถิติการศึกษาน้อยมาก เมื่อเร็ว ๆ นี้ฉันได้อ่านงานจำนวนมากที่มุ่งเน้นกระบวนทัศน์แบบเบย์สำหรับการเรียนรู้และการขุดซึ่งฉันพบว่าน่าสนใจมาก คำถามของฉันคือ (ในหลายส่วน) เนื่องจากปัญหามีกรอบทั่วไปที่เป็นไปได้หรือไม่ที่จะสร้างแบบจำลองทางสถิติ สิ่งแรกที่คุณทำเมื่อได้รับชุดข้อมูลที่คุณต้องการสร้างแบบจำลองกระบวนการพื้นฐานคืออะไร? มีหนังสือ / แบบฝึกหัดที่ดีที่อธิบายกระบวนการนี้หรือเป็นเรื่องของประสบการณ์หรือไม่? การอนุมานอยู่ในระดับแนวหน้าของความคิดของคุณเมื่อสร้างแบบจำลองของคุณหรือคุณต้องการที่จะอธิบายข้อมูลก่อนที่คุณจะกังวลเกี่ยวกับวิธีการใช้ในการคำนวณ? ความเข้าใจใด ๆ จะได้รับการชื่นชมอย่างมาก! ขอบคุณ

1
โอกาสสำหรับกระบวนการนี้คืออะไร?
ผู้ป่วยเข้ารับการรักษาในโรงพยาบาล ระยะเวลาพำนักของพวกเขาขึ้นอยู่กับ 2 สิ่ง: ความรุนแรงของการบาดเจ็บและประกันของพวกเขาเต็มใจที่จะจ่ายเพื่อรักษาพวกเขาในโรงพยาบาล ผู้ป่วยบางรายจะออกไปก่อนกำหนดหากประกันของพวกเขาตัดสินใจที่จะหยุดจ่ายเงินสำหรับการเข้าพักของพวกเขา สมมติว่าต่อไปนี้: 1) ความยาวของการเข้าพัก Poisson กระจาย (เพียงสมมตินี้สำหรับตอนนี้ก็อาจจะหรืออาจจะไม่เป็นจริงสมมติฐาน) กับพารามิเตอร์\λλ\lambda 2) แผนประกันภัยหลากหลายครอบคลุมการเข้าพัก 7, 14, และ 21 วัน ผู้ป่วยจำนวนมากจะออกเดินทางหลังจาก 7,14 หรือ 21 วันอยู่ (เพราะประกันหมดและพวกเขาต้องออกไป) ถ้าฉันได้รับข้อมูลจากกระบวนการนี้มันอาจมีลักษณะดังต่อไปนี้: อย่างที่คุณเห็นมีหนามแหลมที่เครื่องหมาย 7, 14 และ 21 วัน นี่คือผู้ป่วยที่ออกเมื่อประกันสิ้นสุด เห็นได้ชัดว่าข้อมูลสามารถจำลองเป็นส่วนผสมได้ ฉันมีเวลายากลำบากที่จะเขียนความเป็นไปได้สำหรับการกระจายตัวนี้ มันเหมือนปัวซองที่พองเกินศูนย์ แต่เงินเฟ้ออยู่ที่ 7, 14 และ 21 โอกาสในการเกิดข้อมูลนี้คืออะไร? กระบวนการคิดที่อยู่เบื้องหลังความน่าจะเป็นคืออะไร?


2
การอนุมานเชิงสถิติภายใต้การสะกดผิดโมเดล
ฉันมีคำถามเกี่ยวกับระเบียบวิธีทั่วไป อาจได้รับคำตอบก่อนหน้านี้ แต่ฉันไม่สามารถค้นหาเธรดที่เกี่ยวข้องได้ ฉันจะขอบคุณพอยน์เตอร์ถึงความซ้ำซ้อนที่เป็นไปได้ ( นี่คืออันที่ยอดเยี่ยม แต่ไม่มีคำตอบนี่ก็คล้าย ๆ กับวิญญาณแม้จะมีคำตอบ แต่อันหลังนั้นเฉพาะเจาะจงมากเกินไปจากมุมมองของฉันนี่ยังปิดอยู่ค้นพบหลังจากโพสต์คำถาม) รูปแบบที่มีวิธีการทำที่ถูกต้องอนุมานทางสถิติเมื่อรูปแบบสูตรก่อนที่จะเห็นข้อมูลไม่เพียงพอที่จะอธิบายขั้นตอนการสร้างข้อมูล คำถามทั่วไปมาก แต่ฉันจะเสนอตัวอย่างโดยเฉพาะเพื่ออธิบายประเด็น อย่างไรก็ตามฉันคาดหวังคำตอบที่จะมุ่งเน้นไปที่คำถามที่เกี่ยวกับระเบียบวิธีโดยทั่วไปมากกว่าที่จะพูดถึงเรื่องรายละเอียดของตัวอย่าง ลองพิจารณาตัวอย่างคอนกรีต: ในการตั้งค่าอนุกรมเวลาผมถือว่ากระบวนการผลิตข้อมูลที่จะ กับ2) ผมมุ่งมั่นที่จะทดสอบสมมติฐานเรื่องเรื่องที่ 1 ฉันใช้สิ่งนี้ในแง่ของแบบจำลองเพื่อให้ได้สถิติเชิงสถิติที่เป็นไปได้ของสมมติฐานในเรื่องของฉันและนี่คือ จนถึงตอนนี้ดีมาก แต่เมื่อฉันสังเกตข้อมูลฉันค้นพบว่าตัวแบบไม่ได้อธิบายข้อมูลอย่างเพียงพอ ให้เราบอกว่ามีแนวโน้มเชิงเส้นดังนั้นกระบวนการสร้างข้อมูลจริงคือ ด้วยyt=β0+β1xt+ut(1)(1)yt=β0+β1xt+ut y_t=\beta_0 + \beta_1 x_t+u_t \tag{1} ut∼i.i.N(0,σ2u)ut∼i.i.N(0,σu2)u_t \sim i.i.N(0,\sigma_u^2)dYdx= 1dydx=1\frac{dy}{dx}=1( 1 )(1)(1)H0: β1= 1H0: β1=1. H_0\colon \ \beta_1=1. Yเสื้อ=γ0+γ1xเสื้อ+γ2t +โวลต์เสื้อ(2)(2)yt=γ0+γ1xt+γ2t+vt y_t=\gamma_0 + \gamma_1 x_t+\gamma_2 t + v_t …

2
การสร้างแบบจำลองคริกเก็ตเลอร์สรับ batsmen ออก
ฉันมีชุดข้อมูลที่มีรายละเอียดของเกมคริกเกตจำนวนมาก (ไม่กี่พันรายการ) ในคริกเก็ต "เลอร์ส" โยนลูกบอลซ้ำ ๆ อย่างต่อเนื่องของ "batsmen" คนขว้างลูกพยายามเอาลูกบอลออกไป ในแง่นี้มันค่อนข้างคล้ายกับเหยือกและแป้งในเบสบอล ถ้าฉันใช้ชุดข้อมูลทั้งหมดและหารจำนวนลูกบอลที่ได้ลูกบอลออกมาด้วยจำนวนลูกบอลทั้งหมดที่กลิ้งไปฉันจะเห็นว่าฉันมีความน่าจะเป็นเฉลี่ยที่นักขว้างลูกบอลจะได้ประมาณ 0.03 ( หวังว่าฉันจะไม่ผิดพลาดไปแล้ว?) สิ่งที่ฉันสนใจคือสิ่งที่ฉันสามารถทำได้เพื่อลองและคำนวณความน่าจะเป็นของผู้ตีลูกที่เฉพาะเจาะจงที่ถูกโยนออกโดยผู้เล่นลูกที่เฉพาะเจาะจงในลูกบอลหน้า ชุดข้อมูลมีขนาดใหญ่พอที่ผู้ขว้างลูกใดก็ตามจะมีลูกบอลหลายพันลูกไปยังลูกบอลหลากหลายรูปแบบ ดังนั้นฉันเชื่อว่าฉันสามารถแบ่งจำนวนของนักเล่นโบว์ลิ่งที่ทำได้สำเร็จตามจำนวนลูกบอลที่เขาได้คลำเพื่อคำนวณความน่าจะเป็นใหม่สำหรับผู้เล่นที่เฉพาะเจาะจงนั้นที่ได้ออกมาจากลูกบอลถัดไป ปัญหาของฉันคือชุดข้อมูลไม่ใหญ่พอที่จะรับประกันได้ว่าคนขว้างลูกที่ได้รับมีจำนวนลูกบอลที่มีนัยสำคัญทางสถิติที่ลูกบอลใดก็ตาม ดังนั้นหากฉันสนใจที่จะคำนวณความน่าจะเป็นของผู้ขว้างลูกที่เฉพาะเจาะจงหันหน้าไปทางลูกบอลที่เฉพาะเจาะจงฉันไม่คิดว่ามันจะไม่สามารถทำได้ในลักษณะที่เรียบง่ายแบบเดียวกัน คำถามของฉันคือว่าวิธีการต่อไปนี้ถูกต้องหรือไม่: ทั่วทั้งชุดข้อมูลความน่าจะเป็นของลูกบอลที่จะออกมาเป็น 0.03 หากฉันคำนวณว่าโดยเฉลี่ยคนขว้างลูก A มีความน่าจะเป็นที่จะออกจาก 0.06 (เช่นสองเท่าน่าจะเป็นกะลาเฉลี่ย) และโดยเฉลี่ยแล้วลูก B มีความน่าจะเป็นที่จะออกจาก 0.01 (หนึ่งในสามที่น่าจะเป็นลูกบอลเฉลี่ย) ถ้าเช่นนั้นถูกต้องหรือไม่ที่จะบอกว่าความน่าจะเป็นของลูกบอลที่เฉพาะเจาะจงนั้นออกไปในลูกบอลลูกถัดไปที่ลูกโบว์ลิ่งนั้นจะเท่ากับ 0.06 * (0.01 / 0.03) = 0.02?

5
เป็นวิธีที่ดีของกราฟิกที่แสดงจำนวนดาต้าพอยน์ที่จับคู่จำนวนมากคืออะไร?
ในเขตข้อมูลของฉันวิธีปกติในการพล็อตข้อมูลที่จับคู่นั้นเป็นชุดของส่วนของเส้นที่ลาดเอียงบาง ๆ ซ้อนทับมันด้วยค่ามัธยฐานและ CI ของค่ามัธยฐานของทั้งสองกลุ่ม: อย่างไรก็ตามพล็อตประเภทนี้กลายเป็นเรื่องยากที่จะอ่านเนื่องจากจำนวนดาต้าพอยน์มีขนาดใหญ่มาก (ในกรณีของฉันฉันมีตามลำดับ 10,000 คู่): การลดอัลฟ่าช่วยได้บ้าง แต่ก็ยังไม่ดีนัก ในขณะที่ค้นหาวิธีแก้ปัญหาฉันพบบทความนี้และตัดสินใจลองใช้ 'เส้นคู่ขนานพล็อต' อีกครั้งมันทำงานได้ดีมากสำหรับดาต้าพอยน์จำนวนน้อย: แต่มันก็ยิ่งยากที่จะทำให้เรื่องแบบนี้ดูดีเมื่อมีขนาดใหญ่มาก:ยังไม่มีข้อความยังไม่มีข้อความN ฉันคิดว่าฉันสามารถแสดงการแจกแจงของทั้งสองกลุ่มแยกต่างหากเช่นกับบ็อกซ์พล็อตหรือไวโอลินและพล็อตบรรทัดที่มีแถบข้อผิดพลาดด้านบนแสดงสองค่ามัธยฐาน / CIs แต่ฉันไม่ชอบความคิดนั้น ลักษณะการจับคู่ของข้อมูล ฉันยังไม่กระตือรือร้นในความคิดของพล็อตกระจาย 2D: ฉันต้องการการเป็นตัวแทนที่กะทัดรัดกว่าและเป็นแนวคิดหนึ่งที่ค่าของทั้งสองกลุ่มถูกพล็อตตามแกนเดียวกัน เพื่อความสมบูรณ์นี่คือข้อมูลที่มีลักษณะเหมือนการกระจายแบบสองมิติ: ไม่มีใครรู้วิธีที่ดีกว่าในการแสดงข้อมูลที่จับคู่กับขนาดตัวอย่างที่มีขนาดใหญ่มาก? คุณสามารถเชื่อมโยงฉันกับตัวอย่างได้ไหม แก้ไข ขออภัยฉันชัดเจนว่าไม่ได้ทำงานได้ดีพอที่จะอธิบายสิ่งที่ฉันกำลังมองหา ใช่พล็อตกระจายแบบ 2D ทำงานได้และมีหลายวิธีที่สามารถปรับปรุงให้ดีขึ้นเพื่อถ่ายทอดความหนาแน่นของคะแนนได้ดีขึ้น - ฉันสามารถกำหนดรหัสจุดตามการประมาณความหนาแน่นของเคอร์เนลได้ฉันสามารถสร้างฮิสโตแกรม 2D ได้ ฉันสามารถพล็อตรูปทรงที่ด้านบนของจุดเป็นต้น ฯลฯ ... อย่างไรก็ตามฉันคิดว่านี่เกินความจริงสำหรับข้อความที่ฉันพยายามสื่อ ฉันไม่สนใจเกี่ยวกับการแสดงความหนาแน่นของคะแนน 2 มิติต่อ se - ทั้งหมดที่ฉันต้องทำคือการแสดงให้เห็นว่าค่าสำหรับ 'บาร์' โดยทั่วไปมีขนาดใหญ่กว่าที่สำหรับ 'จุด' ในวิธีที่ง่ายและชัดเจนที่สุดเท่าที่จะทำได้ และโดยไม่สูญเสียธรรมชาติของข้อมูลที่จับคู่ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.