สถิติและข้อมูลขนาดใหญ่

3

การจัดกลุ่มหรือการจัดหมวดหมู่ภายใต้การดูแล?

คำถามที่สองคือฉันพบในการสนทนาที่ไหนสักแห่งบนเว็บที่พูดถึง "การจัดกลุ่มแบบมีผู้ดูแล" เท่าที่ฉันทราบการจัดกลุ่มไม่ได้รับการสำรองดังนั้นความหมายที่อยู่เบื้องหลัง "การจัดกลุ่มแบบมีผู้ดูแล" คืออะไร ความแตกต่างเกี่ยวกับ "การจำแนกประเภท" คืออะไร? มีลิงค์มากมายที่พูดถึง: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf ฯลฯ ...

22 clustering classification unsupervised-learning statistical-learning

4

ค่าที่คาดหวังของลอการิทึมธรรมชาติ

ฉันรู้ว่ากับ ค่าคงที่ดังนั้นเมื่อได้รับมันง่ายที่จะแก้ ฉันก็รู้ว่าคุณไม่สามารถใช้สิ่งนั้นได้เมื่อฟังก์ชั่นไม่เชิงเส้นเช่นในกรณีนี้และเพื่อแก้ปัญหานั้นฉันต้องทำการประมาณ กับเทย์เลอร์ ดังนั้นคำถามของฉันคือฉันจะแก้ปัญหา ? ฉันจะประมาณเทย์เลอร์ด้วยหรือไม่a , b E ( X ) E ( 1 / X ) ≠ 1 / E ( X ) E ( ln ( 1 + X ) )E( a X+ b ) = a E( X) + bE(aX+b)=aE(X)+bE(aX+b) = aE(X)+ba , ba,ba,b E( …

22 mathematical-statistics

5

การถดถอยเชิงปริมาณเมื่อใดที่แย่กว่า OLS

นอกเหนือจากสถานการณ์เฉพาะบางอย่างที่เราต้องเข้าใจความสัมพันธ์ที่มีเงื่อนไขอย่างมีเงื่อนไขแล้วสถานการณ์ใดที่นักวิจัยควรเลือก OLS เหนือ Quantile Regression ฉันไม่ต้องการคำตอบว่า "ถ้าไม่มีประโยชน์ในการทำความเข้าใจความสัมพันธ์ท้าย" เพราะเราสามารถใช้การถดถอยแบบมัธยฐานแทน OLS

22 least-squares econometrics regression-strategies quantile-regression semiparametric

3

กำหนดขนาดตัวอย่างอย่างปลอดภัยสำหรับการทดสอบ A / B

ฉันเป็นวิศวกรซอฟต์แวร์ที่ต้องการสร้างเครื่องมือทดสอบ A / B ฉันไม่มีพื้นหลังสถิติที่มั่นคง แต่ได้อ่านบ้างเล็กน้อยในช่วงสองสามวันที่ผ่านมา ฉันกำลังทำตามวิธีการที่อธิบายไว้ที่นี่และจะสรุปประเด็นที่เกี่ยวข้องด้านล่าง เครื่องมือนี้จะช่วยให้นักออกแบบและผู้เชี่ยวชาญด้านโดเมนสามารถกำหนดค่าเว็บไซต์เพื่อแยกทราฟฟิกที่ได้รับที่ URL เฉพาะระหว่างสอง URL ขึ้นไป ยกตัวอย่างเช่นการจราจรมาถึงที่http://example.com/hello1อาจจะแยกระหว่างhttp://example.com/hello1และhttp://example.com/hello2 ปริมาณการใช้ข้อมูลจะถูกแบ่งเท่า ๆ กันระหว่าง URL เป้าหมายและประสิทธิภาพของกระบวนการทางการตลาดในแต่ละ URL เป้าหมายจะถูกเปรียบเทียบ ในการทดลองนี้ขนาดของกลุ่มตัวอย่างNจะสอดคล้องกับผู้เข้าชม การทดสอบจะวัด "การแปลง" ซึ่งเป็นคำที่อธิบายเมื่อผู้เข้าชมยอมรับการกระทำเฉพาะในกระบวนการทางการตลาด การแปลงจะแสดงเป็นเปอร์เซ็นต์และต้องการอัตราการแปลงที่สูงขึ้น สิ่งนี้ทำให้การทดสอบเป็นการเปรียบเทียบสัดส่วนอิสระ เครื่องมือนี้จะต้องสามารถใช้งานได้ง่ายเพื่อสร้างการทดสอบที่มีผลลัพธ์ที่ปลอดภัย การเลือกค่าที่เหมาะสมของNเป็นสิ่งสำคัญ Nในบทความที่เชื่อมโยงข้างต้นการวิเคราะห์พลังงานของทั้งสองสัดส่วนอิสระเป็นลูกจ้างที่จะหา วิธีนี้ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้ารวมทั้งระบุเป้าหมายการปรับปรุงการแปลงที่ต้องการ นอกจากนี้ยังระบุระดับนัยสำคัญ 95% และพลังทางสถิติ 80% คำถาม: เป็นวิธีการกำหนดNเสียงนี้หรือไม่ ถ้าอย่างนั้นวิธีที่ปลอดภัยที่สุดในการกำหนดอัตราการแปลงของการควบคุมก่อนที่จะเริ่มการทดสอบคืออะไร? มีวิธีที่ดีในการพิจารณาNว่าไม่ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้าหรือไม่? เป็นวิธีการในบทความเสียงที่เชื่อมโยง ? ถ้าไม่มีวิธีใดที่สามารถเข้าถึงได้และย่อยง่ายที่คุณสามารถเชื่อมโยงฉันได้หรือไม่

22 hypothesis-testing statistical-significance proportion ab-test

3

แบบจำลองการถดถอยที่มีความแปรปรวนไม่เท่ากัน

ฉันต้องการให้พอดีกับโมเดลเชิงเส้น (lm) ซึ่งความแปรปรวนของค่าคงที่นั้นขึ้นอยู่กับตัวแปรอธิบายอย่างชัดเจน วิธีที่ฉันรู้ว่าการทำเช่นนี้คือการใช้ GLM กับครอบครัวแกมมาในการจำลองความแปรปรวนและแล้วใส่ลงไปในสิ่งที่ตรงกันข้ามน้ำหนักในการทำงาน LM (ตัวอย่าง: http://nitro.biosci.arizona.edu/r/chapter31 .pdf ) ฉันสงสัยว่า: นี่เป็นเทคนิคเดียวหรือไม่ วิธีการอื่นใดที่เกี่ยวข้อง? แพ็คเกจ / ฟังก์ชัน R ใดที่เกี่ยวข้องกับการสร้างแบบจำลองนี้? (อื่น ๆ แล้ว glm, lm)

22 r generalized-linear-model linear-model heteroscedasticity gamlss

1

การประมาณที่ไม่สอดคล้องกันจะดีกว่าไหม?

ความสอดคล้องเป็นตัวประมาณค่าคุณสมบัติตามธรรมชาติและสำคัญ แต่มีสถานการณ์ที่อาจจะดีกว่าถ้าใช้ตัวประมาณค่าที่ไม่สอดคล้องกันแทนที่จะเป็นตัวประมาณที่สอดคล้องกัน? โดยเฉพาะอย่างยิ่งมีตัวอย่างของตัวประมาณค่าที่ไม่สอดคล้องกันซึ่งมีประสิทธิภาพดีกว่าตัวประมาณค่าที่สอดคล้องกันที่สมเหตุสมผลสำหรับขอบเขตทั้งหมด (เทียบกับฟังก์ชันการสูญเสียที่เหมาะสม)?nnn

22 estimation consistency

3

แบบจำลองเสถียรภาพเมื่อจัดการกับขนาดใหญ่ปัญหาเล็ก

บทนำ: ฉันมีชุดข้อมูลที่มีคลาสสิก "ปัญหาใหญ่, ปัญหาเล็ก" จำนวนตัวอย่างที่มีอยู่n = 150 ในขณะที่จำนวนผู้ทำนายที่เป็นไปได้p = 400 ผลลัพธ์เป็นตัวแปรต่อเนื่อง ฉันต้องการค้นหาคำอธิบาย "สำคัญ" ที่สุดนั่นคือผู้ที่ดีที่สุดในการอธิบายผลลัพธ์และช่วยสร้างทฤษฎี หลังจากการวิจัยในหัวข้อนี้ฉันพบว่า LASSO และ Elastic Net มักใช้ในกรณีของ p ขนาดใหญ่, n ขนาดเล็ก บางส่วนของการพยากรณ์ของฉันมีความสัมพันธ์และฉันต้องการที่จะรักษาการจัดกลุ่มของพวกเขาในการประเมินความสำคัญดังนั้นฉันเลือกใช้สำหรับยืดหยุ่นสุทธิ ฉันคิดว่าฉันสามารถใช้ค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยเป็นตัวชี้วัดสำคัญ (โปรดแก้ไขให้ฉันถ้าฉันผิดชุดข้อมูลของฉันเป็นมาตรฐาน) ปัญหา: เนื่องจากตัวอย่างจำนวนน้อยของฉันฉันจะสร้างแบบจำลองที่เสถียรได้อย่างไร แนวทางปัจจุบันของฉันคือค้นหาพารามิเตอร์การปรับแต่งที่ดีที่สุด (แลมบ์ดาและอัลฟ่า) ในการค้นหากริดบน 90% ของชุดข้อมูลที่มีการตรวจสอบความถูกต้องข้าม 10 เท่าโดยเฉลี่ยคะแนน MSE จากนั้นฉันจะฝึกโมเดลด้วยพารามิเตอร์การปรับที่ดีที่สุดทั้งชุดข้อมูล 90% ฉันสามารถประเมินโมเดลของฉันโดยใช้ R กำลังสองในส่วนของ 10% ของชุดข้อมูล (ซึ่งบัญชีตัวอย่างเพียง 15 ตัวอย่าง) เมื่อเรียกใช้โพรซีเดอร์นี้ซ้ำ ๆ ฉันพบความแปรปรวนจำนวนมากในการประเมิน …

22 regression cross-validation model-selection feature-selection elastic-net

4

สิ่งที่จะพูดกับลูกค้าที่คิดว่าช่วงความมั่นใจกว้างเกินไปที่จะมีประโยชน์หรือไม่

สมมติว่าฉันเป็นที่ปรึกษาและฉันต้องการอธิบายให้ลูกค้าฟังถึงประโยชน์ของช่วงความมั่นใจ ลูกค้าบอกกับฉันว่าช่วงเวลาของฉันกว้างเกินไปที่จะเป็นประโยชน์และเขาต้องการที่จะใช้ครึ่งกว้าง ฉันจะตอบอย่างไร

22 confidence-interval interpretation

1

ใน R ให้ผลลัพธ์จากออพติไมซ์ด้วยเมทริกซ์แบบ Hessian วิธีการคำนวณช่วงความเชื่อมั่นของพารามิเตอร์โดยใช้เมทริกซ์เฮสเซียน?

ให้ผลลัพธ์จากออพติไมซ์ด้วยเมทริกซ์แบบ Hessian จะคำนวณช่วงความเชื่อมั่นของพารามิเตอร์โดยใช้เมทริกซ์แบบเฮสเซียนได้อย่างไร fit<-optim(..., hessian=T) hessian<-fit$hessian ฉันส่วนใหญ่สนใจในบริบทของการวิเคราะห์ความน่าจะเป็นสูงสุด แต่ฉันอยากรู้ว่าวิธีการนั้นสามารถขยายออกไปได้หรือไม่

22 r maximum-likelihood

4

วิธีการเขียนสูตรโมเดลเชิงเส้นด้วย 100 ตัวแปรใน R

ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ มีวิธีง่าย ๆ ใน R ในการสร้างการถดถอยเชิงเส้นเหนือโมเดลที่มี 100 พารามิเตอร์ใน R หรือไม่? สมมติว่าเรามีเวกเตอร์ Y 10 ค่าและ dataframe X กับ 10 คอลัมน์และ 100 Y = X[[1]] + X[[2]] + ... + X[[100]]แถวในสัญกรณ์คณิตศาสตร์ผมจะเขียน ฉันจะเขียนสิ่งที่คล้ายกันในไวยากรณ์ R ได้อย่างไร

22 r

2

ฉันจะใส่ชุดข้อมูลกับการกระจาย Pareto ใน R ได้อย่างไร

สมมติว่ามีข้อมูลต่อไปนี้: 8232302 684531 116857 89724 82267 75988 63871 23718 1696 436 439 248 235 ต้องการวิธีง่ายๆในการจัดวางชุดข้อมูลนี้ (และชุดข้อมูลอื่น ๆ ) ให้เป็นแบบ Pareto เป็นการดีที่มันจะส่งออกค่าทางทฤษฎีที่ตรงกันจับคู่พารามิเตอร์น้อยลง

22 r pareto-distribution

1

วิธีการสลายอนุกรมเวลาที่มีองค์ประกอบตามฤดูกาลหลายรายการ

ฉันมีอนุกรมเวลาที่มีส่วนประกอบตามฤดูกาลสองเท่าและฉันต้องการแยกส่วนประกอบออกเป็นส่วนประกอบอนุกรมเวลาดังต่อไปนี้ (แนวโน้มองค์ประกอบตามฤดูกาล 1 องค์ประกอบตามฤดูกาล 2 และองค์ประกอบผิดปกติ) เท่าที่ฉันทราบขั้นตอน STL สำหรับการแยกย่อยซีรีย์ใน R อนุญาตเพียงหนึ่งองค์ประกอบตามฤดูกาลดังนั้นฉันจึงลองย่อยสลายซีรีส์สองครั้ง ขั้นแรกโดยการตั้งค่าความถี่ให้เป็นองค์ประกอบตามฤดูกาลแรกโดยใช้รหัสต่อไปนี้: ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") จากนั้นฉันแยกส่วนประกอบที่ผิดปกติของซีรี่ส์ที่ย่อยสลาย ( dec_1) โดยการตั้งค่าความถี่ให้เป็นองค์ประกอบตามฤดูกาลที่สองเช่น: ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") ฉันไม่มั่นใจกับวิธีนี้มากนัก และฉันอยากรู้ว่ามีวิธีอื่นใดในการย่อยสลายซีรีส์ที่มีหลายฤดูกาล นอกจากนี้ฉันได้สังเกตเห็นว่าtbats()ฟังก์ชั่นในแพ็คเกจการคาดการณ์ R ช่วยให้ผู้ใช้สามารถปรับโมเดลให้เหมาะกับซีรี่ส์ที่มีหลายฤดูกาลได้ แต่ก็ไม่ได้บอกว่าจะสลายซีรีย์ด้วย

22 r time-series forecasting decomposition multiple-seasonalities

2

ควรเปรียบเทียบแบบจำลองเอฟเฟกต์ผสมและหรือตรวจสอบความถูกต้องอย่างไร

รุ่นเอฟเฟกต์ผสม (เชิงเส้น) เป็นอย่างไรเมื่อเปรียบเทียบกับแบบอื่น ฉันรู้ว่าสามารถใช้การทดสอบอัตราส่วนความน่าจะเป็นได้ แต่วิธีนี้ไม่ได้ผลหากแบบจำลองหนึ่งไม่ใช่ 'ส่วนย่อย' ของแบบจำลองอื่นที่ถูกต้องหรือไม่ การประมาณของตัวแบบ df นั้นตรงไปตรงมาเสมอหรือไม่? จำนวนผลกระทบคงที่ + จำนวนองค์ประกอบความแปรปรวนโดยประมาณ? เราเพิกเฉยต่อการประมาณผลกระทบแบบสุ่มหรือไม่? สิ่งที่เกี่ยวกับการตรวจสอบ? ความคิดแรกของฉันคือการตรวจสอบข้าม แต่การพับแบบสุ่มอาจไม่ทำงานเนื่องจากโครงสร้างของข้อมูล วิธีการของ 'ปล่อยให้หนึ่งวิชา / กลุ่มออก' เหมาะสมหรือไม่? สิ่งที่เกี่ยวกับการออกจากการสังเกตหนึ่ง Mallows Cp สามารถตีความได้ว่าเป็นการประมาณการข้อผิดพลาดในการทำนายแบบจำลอง การเลือกแบบจำลองผ่าน AIC พยายามลดข้อผิดพลาดในการคาดการณ์ให้น้อยที่สุด (ดังนั้น Cp และ AIC ควรเลือกแบบจำลองเดียวกันหากข้อผิดพลาดคือ Gaussian ฉันเชื่อ) นี่หมายความว่า AIC หรือ Cp สามารถใช้เพื่อเลือกโมเดลเอฟเฟกต์เชิงเส้น 'ที่ดีที่สุด' จากการรวบรวมโมเดลที่ไม่ซ้อนกันบางส่วนในแง่ของการคาดการณ์ข้อผิดพลาดหรือไม่? (หากพวกเขาสอดคล้องกับข้อมูลเดียวกัน) BIC ยังคงมีแนวโน้มที่จะเลือกรูปแบบ 'ของจริง' ในบรรดาผู้สมัครหรือไม่? ฉันยังอยู่ภายใต้ความประทับใจว่าเมื่อเปรียบเทียบโมเดลเอฟเฟกต์ผสมผ่าน AIC …

22 hypothesis-testing mixed-model cross-validation aic degrees-of-freedom

5

ความแปรปรวนของตัวแปรสุ่มที่มีขอบเขต

สมมติว่าตัวแปรสุ่มมีขอบเขตที่ต่ำกว่าและขอบเขตสูงสุด [0,1] จะคำนวณความแปรปรวนของตัวแปรดังกล่าวได้อย่างไร?

22 variance standard-deviation measurement-error

4

การตีความความแตกต่างระหว่างการแจกแจงแบบปกติและกำลังไฟฟ้า (การแจกแจงระดับเครือข่าย)

ก่อนอื่นฉันไม่ใช่นักสถิติ อย่างไรก็ตามฉันได้ทำการวิเคราะห์เครือข่ายเชิงสถิติสำหรับปริญญาเอกของฉันแล้ว เป็นส่วนหนึ่งของการวิเคราะห์เครือข่ายฉันได้วางแผนฟังก์ชันการแจกแจงสะสมแบบสะสม (CCDF) ขององศาเครือข่าย สิ่งที่ฉันพบคือไม่เหมือนกับการกระจายเครือข่ายแบบเดิม (เช่น WWW) การกระจายนั้นเหมาะสมที่สุดโดยการกระจายแบบ lognormal ฉันพยายามปรับให้เข้ากับกฎหมายพลังงานและการใช้สคริปต์ Matlab ของ Clauset et al ฉันพบว่าหางของเส้นโค้งเป็นไปตามกฎหมายพลังงานโดยมีการตัดออก เส้นประหมายถึงความเหมาะสมของกฏหมายพลังงาน เส้นสีม่วงแสดงถึงการใส่แบบปกติ เส้นสีเขียวแสดงถึงความพอดีแบบเอ็กซ์โปเนนเชียล สิ่งที่ฉันพยายามจะเข้าใจคือทั้งหมดนี้หมายถึงอะไร ฉันได้อ่านเอกสารนี้โดยนิวแมนซึ่งสัมผัสกับหัวข้อนี้เล็กน้อย: http://arxiv.org/abs/cond-mat/0412004 ด้านล่างนี้เป็นสิ่งที่ฉันคาดเดา: หากการกระจายการศึกษาระดับปริญญาเป็นไปตามการกระจายของกฎหมายพลังงานฉันเข้าใจว่าหมายถึงมีสิ่งที่แนบมาเป็นพิเศษเชิงเส้นในการกระจายการเชื่อมโยงและระดับเครือข่าย (รวยได้รับผลกระทบยิ่งขึ้นหรือกระบวนการ Yules) ฉันพูดถูกหรือเปล่าว่าด้วยการแจกแจงแบบปกติที่ฉันเห็นมันมีสิ่งที่แนบมาแบบไม่เชิงเส้นตรงจุดเริ่มต้นของเส้นโค้งและกลายเป็นเส้นตรงไปยังหางที่สามารถใช้กฎหมายพลังงานได้หรือไม่? นอกจากนี้เนื่องจากการแจกแจงแบบบันทึกปกติเกิดขึ้นเมื่อลอการิทึมของตัวแปรสุ่ม (พูด X) กระจายตามปกติหมายความว่าในการแจกแจงแบบบันทึกปกติมีค่าน้อยกว่า X และค่าน้อยกว่า X ตัวแปรสุ่มที่ตามหลังการกระจายตัวของกฎหมายพลังงานจะมีอะไรบ้าง ที่สำคัญกว่านั้นเกี่ยวกับการกระจายระดับเครือข่ายไฟล์แนบที่มีสิทธิใช้งานปกติบันทึกยังแนะนำเครือข่ายที่ไม่มีสเกลหรือไม่? สัญชาตญาณของฉันบอกฉันว่าเนื่องจากหางของเส้นโค้งสามารถติดตั้งโดยกฎกำลังได้เครือข่ายจึงยังสามารถสรุปได้ว่าเป็นลักษณะที่แสดงขนาดฟรี

22 curve-fitting networks lognormal power-law