สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
การจัดกลุ่มหรือการจัดหมวดหมู่ภายใต้การดูแล?
คำถามที่สองคือฉันพบในการสนทนาที่ไหนสักแห่งบนเว็บที่พูดถึง "การจัดกลุ่มแบบมีผู้ดูแล" เท่าที่ฉันทราบการจัดกลุ่มไม่ได้รับการสำรองดังนั้นความหมายที่อยู่เบื้องหลัง "การจัดกลุ่มแบบมีผู้ดูแล" คืออะไร ความแตกต่างเกี่ยวกับ "การจำแนกประเภท" คืออะไร? มีลิงค์มากมายที่พูดถึง: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf ฯลฯ ...

4
ค่าที่คาดหวังของลอการิทึมธรรมชาติ
ฉันรู้ว่ากับ ค่าคงที่ดังนั้นเมื่อได้รับมันง่ายที่จะแก้ ฉันก็รู้ว่าคุณไม่สามารถใช้สิ่งนั้นได้เมื่อฟังก์ชั่นไม่เชิงเส้นเช่นในกรณีนี้และเพื่อแก้ปัญหานั้นฉันต้องทำการประมาณ กับเทย์เลอร์ ดังนั้นคำถามของฉันคือฉันจะแก้ปัญหา ? ฉันจะประมาณเทย์เลอร์ด้วยหรือไม่a , b E ( X ) E ( 1 / X ) ≠ 1 / E ( X ) E ( ln ( 1 + X ) )E( a X+ b ) = a E( X) + bE(aX+b)=aE(X)+bE(aX+b) = aE(X)+ba , ba,ba,b E( …

5
การถดถอยเชิงปริมาณเมื่อใดที่แย่กว่า OLS
นอกเหนือจากสถานการณ์เฉพาะบางอย่างที่เราต้องเข้าใจความสัมพันธ์ที่มีเงื่อนไขอย่างมีเงื่อนไขแล้วสถานการณ์ใดที่นักวิจัยควรเลือก OLS เหนือ Quantile Regression ฉันไม่ต้องการคำตอบว่า "ถ้าไม่มีประโยชน์ในการทำความเข้าใจความสัมพันธ์ท้าย" เพราะเราสามารถใช้การถดถอยแบบมัธยฐานแทน OLS

3
กำหนดขนาดตัวอย่างอย่างปลอดภัยสำหรับการทดสอบ A / B
ฉันเป็นวิศวกรซอฟต์แวร์ที่ต้องการสร้างเครื่องมือทดสอบ A / B ฉันไม่มีพื้นหลังสถิติที่มั่นคง แต่ได้อ่านบ้างเล็กน้อยในช่วงสองสามวันที่ผ่านมา ฉันกำลังทำตามวิธีการที่อธิบายไว้ที่นี่และจะสรุปประเด็นที่เกี่ยวข้องด้านล่าง เครื่องมือนี้จะช่วยให้นักออกแบบและผู้เชี่ยวชาญด้านโดเมนสามารถกำหนดค่าเว็บไซต์เพื่อแยกทราฟฟิกที่ได้รับที่ URL เฉพาะระหว่างสอง URL ขึ้นไป ยกตัวอย่างเช่นการจราจรมาถึงที่http://example.com/hello1อาจจะแยกระหว่างhttp://example.com/hello1และhttp://example.com/hello2 ปริมาณการใช้ข้อมูลจะถูกแบ่งเท่า ๆ กันระหว่าง URL เป้าหมายและประสิทธิภาพของกระบวนการทางการตลาดในแต่ละ URL เป้าหมายจะถูกเปรียบเทียบ ในการทดลองนี้ขนาดของกลุ่มตัวอย่างNจะสอดคล้องกับผู้เข้าชม การทดสอบจะวัด "การแปลง" ซึ่งเป็นคำที่อธิบายเมื่อผู้เข้าชมยอมรับการกระทำเฉพาะในกระบวนการทางการตลาด การแปลงจะแสดงเป็นเปอร์เซ็นต์และต้องการอัตราการแปลงที่สูงขึ้น สิ่งนี้ทำให้การทดสอบเป็นการเปรียบเทียบสัดส่วนอิสระ เครื่องมือนี้จะต้องสามารถใช้งานได้ง่ายเพื่อสร้างการทดสอบที่มีผลลัพธ์ที่ปลอดภัย การเลือกค่าที่เหมาะสมของNเป็นสิ่งสำคัญ Nในบทความที่เชื่อมโยงข้างต้นการวิเคราะห์พลังงานของทั้งสองสัดส่วนอิสระเป็นลูกจ้างที่จะหา วิธีนี้ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้ารวมทั้งระบุเป้าหมายการปรับปรุงการแปลงที่ต้องการ นอกจากนี้ยังระบุระดับนัยสำคัญ 95% และพลังทางสถิติ 80% คำถาม: เป็นวิธีการกำหนดNเสียงนี้หรือไม่ ถ้าอย่างนั้นวิธีที่ปลอดภัยที่สุดในการกำหนดอัตราการแปลงของการควบคุมก่อนที่จะเริ่มการทดสอบคืออะไร? มีวิธีที่ดีในการพิจารณาNว่าไม่ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้าหรือไม่? เป็นวิธีการในบทความเสียงที่เชื่อมโยง ? ถ้าไม่มีวิธีใดที่สามารถเข้าถึงได้และย่อยง่ายที่คุณสามารถเชื่อมโยงฉันได้หรือไม่

3
แบบจำลองการถดถอยที่มีความแปรปรวนไม่เท่ากัน
ฉันต้องการให้พอดีกับโมเดลเชิงเส้น (lm) ซึ่งความแปรปรวนของค่าคงที่นั้นขึ้นอยู่กับตัวแปรอธิบายอย่างชัดเจน วิธีที่ฉันรู้ว่าการทำเช่นนี้คือการใช้ GLM กับครอบครัวแกมมาในการจำลองความแปรปรวนและแล้วใส่ลงไปในสิ่งที่ตรงกันข้ามน้ำหนักในการทำงาน LM (ตัวอย่าง: http://nitro.biosci.arizona.edu/r/chapter31 .pdf ) ฉันสงสัยว่า: นี่เป็นเทคนิคเดียวหรือไม่ วิธีการอื่นใดที่เกี่ยวข้อง? แพ็คเกจ / ฟังก์ชัน R ใดที่เกี่ยวข้องกับการสร้างแบบจำลองนี้? (อื่น ๆ แล้ว glm, lm)

1
การประมาณที่ไม่สอดคล้องกันจะดีกว่าไหม?
ความสอดคล้องเป็นตัวประมาณค่าคุณสมบัติตามธรรมชาติและสำคัญ แต่มีสถานการณ์ที่อาจจะดีกว่าถ้าใช้ตัวประมาณค่าที่ไม่สอดคล้องกันแทนที่จะเป็นตัวประมาณที่สอดคล้องกัน? โดยเฉพาะอย่างยิ่งมีตัวอย่างของตัวประมาณค่าที่ไม่สอดคล้องกันซึ่งมีประสิทธิภาพดีกว่าตัวประมาณค่าที่สอดคล้องกันที่สมเหตุสมผลสำหรับขอบเขตทั้งหมด (เทียบกับฟังก์ชันการสูญเสียที่เหมาะสม)?nnn

3
แบบจำลองเสถียรภาพเมื่อจัดการกับขนาดใหญ่ปัญหาเล็ก
บทนำ: ฉันมีชุดข้อมูลที่มีคลาสสิก "ปัญหาใหญ่, ปัญหาเล็ก" จำนวนตัวอย่างที่มีอยู่n = 150 ในขณะที่จำนวนผู้ทำนายที่เป็นไปได้p = 400 ผลลัพธ์เป็นตัวแปรต่อเนื่อง ฉันต้องการค้นหาคำอธิบาย "สำคัญ" ที่สุดนั่นคือผู้ที่ดีที่สุดในการอธิบายผลลัพธ์และช่วยสร้างทฤษฎี หลังจากการวิจัยในหัวข้อนี้ฉันพบว่า LASSO และ Elastic Net มักใช้ในกรณีของ p ขนาดใหญ่, n ขนาดเล็ก บางส่วนของการพยากรณ์ของฉันมีความสัมพันธ์และฉันต้องการที่จะรักษาการจัดกลุ่มของพวกเขาในการประเมินความสำคัญดังนั้นฉันเลือกใช้สำหรับยืดหยุ่นสุทธิ ฉันคิดว่าฉันสามารถใช้ค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยเป็นตัวชี้วัดสำคัญ (โปรดแก้ไขให้ฉันถ้าฉันผิดชุดข้อมูลของฉันเป็นมาตรฐาน) ปัญหา: เนื่องจากตัวอย่างจำนวนน้อยของฉันฉันจะสร้างแบบจำลองที่เสถียรได้อย่างไร แนวทางปัจจุบันของฉันคือค้นหาพารามิเตอร์การปรับแต่งที่ดีที่สุด (แลมบ์ดาและอัลฟ่า) ในการค้นหากริดบน 90% ของชุดข้อมูลที่มีการตรวจสอบความถูกต้องข้าม 10 เท่าโดยเฉลี่ยคะแนน MSE จากนั้นฉันจะฝึกโมเดลด้วยพารามิเตอร์การปรับที่ดีที่สุดทั้งชุดข้อมูล 90% ฉันสามารถประเมินโมเดลของฉันโดยใช้ R กำลังสองในส่วนของ 10% ของชุดข้อมูล (ซึ่งบัญชีตัวอย่างเพียง 15 ตัวอย่าง) เมื่อเรียกใช้โพรซีเดอร์นี้ซ้ำ ๆ ฉันพบความแปรปรวนจำนวนมากในการประเมิน …

4
สิ่งที่จะพูดกับลูกค้าที่คิดว่าช่วงความมั่นใจกว้างเกินไปที่จะมีประโยชน์หรือไม่
สมมติว่าฉันเป็นที่ปรึกษาและฉันต้องการอธิบายให้ลูกค้าฟังถึงประโยชน์ของช่วงความมั่นใจ ลูกค้าบอกกับฉันว่าช่วงเวลาของฉันกว้างเกินไปที่จะเป็นประโยชน์และเขาต้องการที่จะใช้ครึ่งกว้าง ฉันจะตอบอย่างไร

1
ใน R ให้ผลลัพธ์จากออพติไมซ์ด้วยเมทริกซ์แบบ Hessian วิธีการคำนวณช่วงความเชื่อมั่นของพารามิเตอร์โดยใช้เมทริกซ์เฮสเซียน?
ให้ผลลัพธ์จากออพติไมซ์ด้วยเมทริกซ์แบบ Hessian จะคำนวณช่วงความเชื่อมั่นของพารามิเตอร์โดยใช้เมทริกซ์แบบเฮสเซียนได้อย่างไร fit<-optim(..., hessian=T) hessian<-fit$hessian ฉันส่วนใหญ่สนใจในบริบทของการวิเคราะห์ความน่าจะเป็นสูงสุด แต่ฉันอยากรู้ว่าวิธีการนั้นสามารถขยายออกไปได้หรือไม่

4
วิธีการเขียนสูตรโมเดลเชิงเส้นด้วย 100 ตัวแปรใน R
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ มีวิธีง่าย ๆ ใน R ในการสร้างการถดถอยเชิงเส้นเหนือโมเดลที่มี 100 พารามิเตอร์ใน R หรือไม่? สมมติว่าเรามีเวกเตอร์ Y 10 ค่าและ dataframe X กับ 10 คอลัมน์และ 100 Y = X[[1]] + X[[2]] + ... + X[[100]]แถวในสัญกรณ์คณิตศาสตร์ผมจะเขียน ฉันจะเขียนสิ่งที่คล้ายกันในไวยากรณ์ R ได้อย่างไร
22 r 

2
ฉันจะใส่ชุดข้อมูลกับการกระจาย Pareto ใน R ได้อย่างไร
สมมติว่ามีข้อมูลต่อไปนี้: 8232302 684531 116857 89724 82267 75988 63871 23718 1696 436 439 248 235 ต้องการวิธีง่ายๆในการจัดวางชุดข้อมูลนี้ (และชุดข้อมูลอื่น ๆ ) ให้เป็นแบบ Pareto เป็นการดีที่มันจะส่งออกค่าทางทฤษฎีที่ตรงกันจับคู่พารามิเตอร์น้อยลง

1
วิธีการสลายอนุกรมเวลาที่มีองค์ประกอบตามฤดูกาลหลายรายการ
ฉันมีอนุกรมเวลาที่มีส่วนประกอบตามฤดูกาลสองเท่าและฉันต้องการแยกส่วนประกอบออกเป็นส่วนประกอบอนุกรมเวลาดังต่อไปนี้ (แนวโน้มองค์ประกอบตามฤดูกาล 1 องค์ประกอบตามฤดูกาล 2 และองค์ประกอบผิดปกติ) เท่าที่ฉันทราบขั้นตอน STL สำหรับการแยกย่อยซีรีย์ใน R อนุญาตเพียงหนึ่งองค์ประกอบตามฤดูกาลดังนั้นฉันจึงลองย่อยสลายซีรีส์สองครั้ง ขั้นแรกโดยการตั้งค่าความถี่ให้เป็นองค์ประกอบตามฤดูกาลแรกโดยใช้รหัสต่อไปนี้: ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") จากนั้นฉันแยกส่วนประกอบที่ผิดปกติของซีรี่ส์ที่ย่อยสลาย ( dec_1) โดยการตั้งค่าความถี่ให้เป็นองค์ประกอบตามฤดูกาลที่สองเช่น: ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") ฉันไม่มั่นใจกับวิธีนี้มากนัก และฉันอยากรู้ว่ามีวิธีอื่นใดในการย่อยสลายซีรีส์ที่มีหลายฤดูกาล นอกจากนี้ฉันได้สังเกตเห็นว่าtbats()ฟังก์ชั่นในแพ็คเกจการคาดการณ์ R ช่วยให้ผู้ใช้สามารถปรับโมเดลให้เหมาะกับซีรี่ส์ที่มีหลายฤดูกาลได้ แต่ก็ไม่ได้บอกว่าจะสลายซีรีย์ด้วย

2
ควรเปรียบเทียบแบบจำลองเอฟเฟกต์ผสมและหรือตรวจสอบความถูกต้องอย่างไร
รุ่นเอฟเฟกต์ผสม (เชิงเส้น) เป็นอย่างไรเมื่อเปรียบเทียบกับแบบอื่น ฉันรู้ว่าสามารถใช้การทดสอบอัตราส่วนความน่าจะเป็นได้ แต่วิธีนี้ไม่ได้ผลหากแบบจำลองหนึ่งไม่ใช่ 'ส่วนย่อย' ของแบบจำลองอื่นที่ถูกต้องหรือไม่ การประมาณของตัวแบบ df นั้นตรงไปตรงมาเสมอหรือไม่? จำนวนผลกระทบคงที่ + จำนวนองค์ประกอบความแปรปรวนโดยประมาณ? เราเพิกเฉยต่อการประมาณผลกระทบแบบสุ่มหรือไม่? สิ่งที่เกี่ยวกับการตรวจสอบ? ความคิดแรกของฉันคือการตรวจสอบข้าม แต่การพับแบบสุ่มอาจไม่ทำงานเนื่องจากโครงสร้างของข้อมูล วิธีการของ 'ปล่อยให้หนึ่งวิชา / กลุ่มออก' เหมาะสมหรือไม่? สิ่งที่เกี่ยวกับการออกจากการสังเกตหนึ่ง Mallows Cp สามารถตีความได้ว่าเป็นการประมาณการข้อผิดพลาดในการทำนายแบบจำลอง การเลือกแบบจำลองผ่าน AIC พยายามลดข้อผิดพลาดในการคาดการณ์ให้น้อยที่สุด (ดังนั้น Cp และ AIC ควรเลือกแบบจำลองเดียวกันหากข้อผิดพลาดคือ Gaussian ฉันเชื่อ) นี่หมายความว่า AIC หรือ Cp สามารถใช้เพื่อเลือกโมเดลเอฟเฟกต์เชิงเส้น 'ที่ดีที่สุด' จากการรวบรวมโมเดลที่ไม่ซ้อนกันบางส่วนในแง่ของการคาดการณ์ข้อผิดพลาดหรือไม่? (หากพวกเขาสอดคล้องกับข้อมูลเดียวกัน) BIC ยังคงมีแนวโน้มที่จะเลือกรูปแบบ 'ของจริง' ในบรรดาผู้สมัครหรือไม่? ฉันยังอยู่ภายใต้ความประทับใจว่าเมื่อเปรียบเทียบโมเดลเอฟเฟกต์ผสมผ่าน AIC …


4
การตีความความแตกต่างระหว่างการแจกแจงแบบปกติและกำลังไฟฟ้า (การแจกแจงระดับเครือข่าย)
ก่อนอื่นฉันไม่ใช่นักสถิติ อย่างไรก็ตามฉันได้ทำการวิเคราะห์เครือข่ายเชิงสถิติสำหรับปริญญาเอกของฉันแล้ว เป็นส่วนหนึ่งของการวิเคราะห์เครือข่ายฉันได้วางแผนฟังก์ชันการแจกแจงสะสมแบบสะสม (CCDF) ขององศาเครือข่าย สิ่งที่ฉันพบคือไม่เหมือนกับการกระจายเครือข่ายแบบเดิม (เช่น WWW) การกระจายนั้นเหมาะสมที่สุดโดยการกระจายแบบ lognormal ฉันพยายามปรับให้เข้ากับกฎหมายพลังงานและการใช้สคริปต์ Matlab ของ Clauset et al ฉันพบว่าหางของเส้นโค้งเป็นไปตามกฎหมายพลังงานโดยมีการตัดออก เส้นประหมายถึงความเหมาะสมของกฏหมายพลังงาน เส้นสีม่วงแสดงถึงการใส่แบบปกติ เส้นสีเขียวแสดงถึงความพอดีแบบเอ็กซ์โปเนนเชียล สิ่งที่ฉันพยายามจะเข้าใจคือทั้งหมดนี้หมายถึงอะไร ฉันได้อ่านเอกสารนี้โดยนิวแมนซึ่งสัมผัสกับหัวข้อนี้เล็กน้อย: http://arxiv.org/abs/cond-mat/0412004 ด้านล่างนี้เป็นสิ่งที่ฉันคาดเดา: หากการกระจายการศึกษาระดับปริญญาเป็นไปตามการกระจายของกฎหมายพลังงานฉันเข้าใจว่าหมายถึงมีสิ่งที่แนบมาเป็นพิเศษเชิงเส้นในการกระจายการเชื่อมโยงและระดับเครือข่าย (รวยได้รับผลกระทบยิ่งขึ้นหรือกระบวนการ Yules) ฉันพูดถูกหรือเปล่าว่าด้วยการแจกแจงแบบปกติที่ฉันเห็นมันมีสิ่งที่แนบมาแบบไม่เชิงเส้นตรงจุดเริ่มต้นของเส้นโค้งและกลายเป็นเส้นตรงไปยังหางที่สามารถใช้กฎหมายพลังงานได้หรือไม่? นอกจากนี้เนื่องจากการแจกแจงแบบบันทึกปกติเกิดขึ้นเมื่อลอการิทึมของตัวแปรสุ่ม (พูด X) กระจายตามปกติหมายความว่าในการแจกแจงแบบบันทึกปกติมีค่าน้อยกว่า X และค่าน้อยกว่า X ตัวแปรสุ่มที่ตามหลังการกระจายตัวของกฎหมายพลังงานจะมีอะไรบ้าง ที่สำคัญกว่านั้นเกี่ยวกับการกระจายระดับเครือข่ายไฟล์แนบที่มีสิทธิใช้งานปกติบันทึกยังแนะนำเครือข่ายที่ไม่มีสเกลหรือไม่? สัญชาตญาณของฉันบอกฉันว่าเนื่องจากหางของเส้นโค้งสามารถติดตั้งโดยกฎกำลังได้เครือข่ายจึงยังสามารถสรุปได้ว่าเป็นลักษณะที่แสดงขนาดฟรี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.