คำถามติดแท็ก modeling

แท็กนี้อธิบายกระบวนการสร้างแบบจำลองการเรียนรู้ทางสถิติหรือเครื่อง เพิ่มแท็กเฉพาะเสมอ

2
การกระจายตัวที่อธิบายความแตกต่างระหว่างตัวแปรกระจายแบบทวินามลบ
การกระจาย Skellamอธิบายความแตกต่างระหว่างสองตัวแปรที่มีการแจกแจงปัวส์ซอง มีการแจกแจงแบบเดียวกันที่อธิบายความแตกต่างระหว่างตัวแปรที่ตามหลังการแจกแจงทวินามลบหรือไม่ ข้อมูลของฉันผลิตโดยกระบวนการปัวซง แต่รวมถึงเสียงรบกวนในปริมาณที่เหมาะสม ดังนั้นการสร้างแบบจำลองข้อมูลด้วยการแจกแจงลบทวินาม (NB) จึงทำงานได้ดี ถ้าฉันต้องการจำลองความแตกต่างระหว่างชุดข้อมูล NB สองชุดตัวเลือกของฉันคืออะไร หากช่วยได้ให้ถือว่าวิธีการและความแปรปรวนที่คล้ายกันสำหรับทั้งสองชุด

1
คุณสมบัติของการถดถอยโลจิสติก
เรากำลังทำงานกับการถดถอยแบบโลจิสติกส์และเราได้ตระหนักว่าความน่าจะเป็นโดยประมาณโดยเฉลี่ยเท่ากับสัดส่วนของตัวอย่างในตัวอย่าง นั่นคือค่าเฉลี่ยของค่าติดตั้งเท่ากับค่าเฉลี่ยของตัวอย่าง ใครช่วยอธิบายเหตุผลให้ฉันหรือให้ข้อมูลอ้างอิงกับฉันที่ฉันสามารถหาการสาธิตนี้ได้?

5
การถดถอยปัวซองด้วยข้อมูลขนาดใหญ่: การเปลี่ยนหน่วยการวัดเป็นความผิดหรือไม่?
เนื่องจากแฟกทอเรียลในการแจกแจงปัวส์ซองมันไม่น่าเป็นไปได้ที่จะประเมินโมเดลปัวซอง (ตัวอย่างเช่นการใช้โอกาสสูงสุด) เมื่อการสังเกตมีขนาดใหญ่ ตัวอย่างเช่นถ้าฉันพยายามประเมินแบบจำลองเพื่ออธิบายจำนวนการฆ่าตัวตายในปีที่กำหนด (มีข้อมูลรายปีเท่านั้น) และพูดว่ามีการฆ่าตัวตายหลายพันคนทุกปีมันผิดหรือไม่ที่จะแสดงการฆ่าตัวตายเป็นร้อย ๆ ดังนั้น 2998 จะเป็น 29.98 ~ = 30? กล่าวอีกนัยหนึ่งการเปลี่ยนหน่วยการวัดเพื่อให้สามารถจัดการข้อมูลได้เป็นความผิดหรือไม่?

3
ความสัมพันธ์ระหว่าง R-squared และ p-value ในการถดถอยคืออะไร?
tl; dr - สำหรับการถดถอยของ OLS ค่า R-squared ที่สูงขึ้นนั้นแสดงถึงค่า P ที่สูงขึ้นด้วยหรือไม่ โดยเฉพาะสำหรับตัวแปรอธิบายเดี่ยว (Y = a + bX + e) ​​แต่ก็สนใจที่จะทราบสำหรับตัวแปรอธิบายหลายตัวแปร (Y = a + b1X + ... bnX + e) บริบท - ฉันกำลังดำเนินการถดถอย OLS ในช่วงของตัวแปรและกำลังพยายามพัฒนารูปแบบการอธิบายที่ดีที่สุดโดยสร้างตารางที่มีค่า R-squared ระหว่างเส้นตรงลอการิทึม ฯลฯ การแปลงของตัวแปรอธิบาย (อิสระ) แต่ละตัว และตัวแปรตอบกลับ (ขึ้นอยู่กับ) ดูเหมือนว่า: ชื่อตัวแปร - รูปแบบเชิงเส้น - --ln (ตัวแปร) --exp …

7
ทำไมข้อมูลที่เอียงจึงไม่เหมาะสำหรับการสร้างแบบจำลอง?
ส่วนใหญ่เวลาที่ผู้คนพูดถึงการเปลี่ยนแปลงของตัวแปร (สำหรับทั้งตัวทำนายและตัวแปรตอบกลับ) พวกเขาคุยกันถึงวิธีการรักษาความเบ้ของข้อมูล สิ่งที่ฉันไม่สามารถเข้าใจได้คือทำไมการลบความเบ้จึงถือเป็นวิธีปฏิบัติที่ดีที่สุด ความเบ้นั้นส่งผลกระทบต่อประสิทธิภาพการทำงานของแบบจำลองประเภทต่าง ๆ เช่นแบบจำลองที่ใช้แบบต้นไม้แบบเชิงเส้นและแบบที่ไม่ใช่เชิงเส้นได้อย่างไร แบบจำลองประเภทใดที่ได้รับผลกระทบมากขึ้นจากความเบ้และทำไม

1
การติดตั้งอุปกรณ์ในรุ่น R ที่ค่าสัมประสิทธิ์อยู่ภายใต้ข้อ จำกัด เชิงเส้น
ฉันจะกำหนดสูตรแบบจำลองใน R ได้อย่างไรเมื่อมีข้อ จำกัด เชิงเส้นตรงหนึ่งข้อ (หรือมากกว่า) ที่สัมพันธ์กับสัมประสิทธิ์ ตัวอย่างเช่นสมมติว่าคุณรู้ว่า b1 = 2 * b0 ในรูปแบบการถดถอยเชิงเส้นอย่างง่าย ขอขอบคุณ!
16 r  regression  modeling 

2
การแจกจ่ายแบบใดที่จะใช้กับแบบจำลองเวลาก่อนรถไฟมาถึง
ฉันกำลังพยายามสร้างแบบจำลองข้อมูลบางอย่างในเวลาที่รถไฟมาถึง ฉันต้องการที่จะใช้การกระจายที่จับ"อีกต่อไปผมรอจะขึ้นรถไฟไปนี้จะแสดงขึ้น" ดูเหมือนว่าการแจกจ่ายดังกล่าวควรมีลักษณะเป็น CDF ดังนั้น P (รถไฟแสดงขึ้น | รอ 60 นาที) ใกล้เคียงกับ 1 การกระจายแบบใดที่เหมาะสมที่จะใช้ที่นี่

7
เส้นโค้ง (หรือรุ่น) ชนิดใดที่ฉันควรจะพอดีกับข้อมูลเปอร์เซ็นต์ของฉัน
ฉันพยายามสร้างรูปที่แสดงความสัมพันธ์ระหว่างสำเนาไวรัสและการครอบคลุมจีโนม (GCC) นี่คือข้อมูลของฉันที่มีลักษณะ: ตอนแรกฉันเพิ่งวางแผนการถดถอยเชิงเส้น แต่หัวหน้างานของฉันบอกฉันว่ามันไม่ถูกต้องและลองใช้เส้นโค้ง sigmoidal ดังนั้นฉันจึงใช้ geom_smooth: library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + …

2
ควรหยุดการปรับแต่งโมเดลเมื่อใด
ฉันเรียนสถิติจากหนังสือหลายเล่มในช่วง 3 ปีที่ผ่านมาและขอบคุณเว็บไซต์นี้ที่ฉันได้เรียนรู้มากมาย อย่างไรก็ตามคำถามพื้นฐานหนึ่งข้อยังคงไม่ได้รับคำตอบสำหรับฉัน อาจมีคำตอบที่ง่ายหรือยากมาก แต่ฉันรู้ว่าต้องใช้ความเข้าใจอย่างลึกซึ้งเกี่ยวกับสถิติ เมื่อปรับแบบจำลองให้สอดคล้องกับข้อมูลไม่ว่าจะเป็นวิธีการแบบประจำหรือแบบเบย์เราขอเสนอแบบจำลองซึ่งอาจประกอบด้วยรูปแบบการทำงานสำหรับความน่าจะเป็นรูปแบบก่อนหน้าหรือเคอร์เนล (ไม่ใช่พารามิเตอร์) เป็นต้นปัญหาคือโมเดลใด ๆ เหมาะกับตัวอย่างที่มีระดับดี เราสามารถค้นหาแบบจำลองที่ดีกว่าหรือแย่กว่าเสมอเมื่อเทียบกับสิ่งที่อยู่ในมือ ในบางจุดที่เราหยุดและเริ่มต้นการสรุปสรุปพารามิเตอร์ของประชากรรายงานช่วงความเชื่อมั่นคำนวณความเสี่ยง ฯลฯ ดังนั้นไม่ว่าข้อสรุปใดที่เราวาดจะมีเงื่อนไขตามแบบจำลองที่เราตัดสินใจเลือกเสมอ แม้ว่าเราจะใช้เครื่องมือในการประมาณระยะทาง KL ที่คาดหวังเช่น AIC, MDL เป็นต้น แต่ก็ไม่ได้พูดอะไรเกี่ยวกับตำแหน่งที่เรายืนอยู่บนพื้นฐานแบบสัมบูรณ์ แต่เพียงปรับปรุงการประมาณค่าแบบสัมพันธ์ ตอนนี้สมมติว่าเราต้องการกำหนดขั้นตอนตามขั้นตอนเพื่อนำไปใช้กับชุดข้อมูลใด ๆ เมื่อสร้างแบบจำลอง เราควรระบุอะไรเป็นกฏการหยุด? อย่างน้อยเราสามารถผูกข้อผิดพลาดของแบบจำลองซึ่งจะทำให้เรามีจุดหยุดตามวัตถุประสงค์ (ซึ่งแตกต่างจากการหยุดการฝึกอบรมโดยใช้ตัวอย่างการตรวจสอบความถูกต้องเนื่องจากมันให้จุดหยุดภายในคลาสโมเดลที่ประเมินมากกว่า wrt DGP จริง)

5
การสร้างแบบจำลองทางสถิติคืออะไร
การสร้างแบบจำลองทางสถิติคืออะไร ทุกวันนี้เมื่อฉันสมัครงานวิจัยหรืองานที่ปรึกษามักจะมีคำว่า "การสร้างแบบจำลอง" หรือ "การสร้างแบบจำลอง" ขึ้นมา คำนี้ฟังดูเท่ห์ แต่พวกเขาหมายถึงอะไรกันแน่ วิธีทำคุณสร้างแบบจำลองของคุณ? ฉันค้นหาแบบจำลองการคาดการณ์ซึ่งรวมถึง k-nn และการถดถอยโลจิสติก
15 modeling 

3
คำว่ากำลังสองหรือการปฏิสัมพันธ์มีนัยสำคัญในการแยก แต่ไม่ได้อยู่ด้วยกัน
ในฐานะที่เป็นส่วนหนึ่งของการมอบหมายฉันต้องทำแบบจำลองให้พอดีกับตัวแปรทำนายสองตัว จากนั้นฉันต้องวาดพล็อตของแบบจำลองที่เหลือต่อหนึ่งในตัวทำนายที่รวมไว้และทำการเปลี่ยนแปลงตามนั้น พล็อตแสดงแนวโน้มของเส้นโค้งดังนั้นฉันจึงรวมคำกำลังสองสำหรับตัวทำนายนั้น โมเดลใหม่แสดงคำว่ากำลังสองให้มีนัยสำคัญ ดีมากจนถึงตอนนี้ อย่างไรก็ตามข้อมูลชี้ให้เห็นว่าการโต้ตอบนั้นสมเหตุสมผลเช่นกัน การเพิ่มคำที่ใช้ในการโต้ตอบกับโมเดลดั้งเดิมนั้นยังคงแนวโน้มของ curvilinear และก็มีความสำคัญเช่นกันเมื่อเพิ่มเข้ากับโมเดล ปัญหาคือเมื่อเพิ่มทั้งสองกำลังสองและคำการโต้ตอบในรูปแบบหนึ่งในนั้นไม่สำคัญ ฉันควรรวมคำใด (กำลังสองหรือการโต้ตอบ) ไว้ในโมเดลและทำไม

4
มองหาการรักษาเบื้องต้นที่ดีของการวิเคราะห์เมตา
เพื่อนร่วมงาน (ที่ไม่ใช่นักสถิติ) กำลังเผชิญหน้ากับการวิเคราะห์เมตาในเอกสารที่เขาวิจารณ์วารสารทางการแพทย์และกำลังมองหาวิธีการรักษาระดับเบื้องต้นที่ดีเพื่อที่เขาจะได้ให้ความรู้กับตัวเอง คำแนะนำใด ๆ ที่ชื่นชอบ? หนังสือเอกสารบทความการสำรวจที่ไม่ใช่ทางเทคนิคล้วน แต่เป็นเรื่องปกติ (ใช่เขาคุ้นเคยกับรายการ Wikipedia และสิ่งอื่น ๆ ที่เข้าถึงได้ง่ายจากการค้นหาของ Google เช่นบทความเล็ก ๆ ที่ดีของ Jerry Dallal )

5
อัลกอริทึมการจำแนกทางสถิติใดที่สามารถทำนายความจริง / เท็จสำหรับลำดับของอินพุตได้
กำหนดลำดับของอินพุตฉันต้องพิจารณาว่าลำดับนี้มีคุณสมบัติที่ต้องการหรือไม่ คุณสมบัติสามารถเป็นจริงหรือเท็จนั่นคือมีเพียงสองคลาสที่เป็นไปได้ที่ลำดับสามารถเป็นของ ความสัมพันธ์ที่แน่นอนระหว่างลำดับและคุณสมบัตินั้นไม่ชัดเจน แต่ฉันเชื่อว่ามันสอดคล้องกันมากและควรให้ยืมเพื่อการจำแนกทางสถิติ ฉันมีหลายกรณีที่ต้องฝึกลักษณนามถึงแม้ว่ามันอาจจะมีเสียงดังเล็กน้อยในแง่ที่ว่ามีความเป็นไปได้ที่จะมีการมอบหมายลำดับคลาสที่ไม่ถูกต้องในชุดฝึกอบรมนี้ ตัวอย่างข้อมูลการฝึกอบรม: Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... ในแง่หยาบทรัพย์สินจะถูกกำหนดโดยชุดของค่าในลำดับ (เช่นการปรากฏตัวของ "11" หมายความว่าทรัพย์สินเกือบจะเป็นเท็จ) เช่นเดียวกับคำสั่งของค่า (เช่น "21 7 …

2
การสร้างแบบจำลองการกระจายปัวซองด้วยการกระจายเกินพิกัด
ฉันมีชุดข้อมูลที่ฉันคาดว่าจะติดตามการกระจายของปัวซอง แต่มันมีการกระจายตัวเกินประมาณ 3 เท่า ในปัจจุบันฉันกำลังสร้างแบบจำลองการกระจายเกินปกตินี้โดยใช้โค้ดต่อไปนี้ในอาร์ ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) สายตาสิ่งนี้ดูเหมือนจะสอดคล้องกับข้อมูลเชิงประจักษ์ของฉันได้เป็นอย่างดี ถ้าฉันมีความสุขกับแบบที่มีเหตุผลใด ๆ ที่ฉันควรจะทำบางสิ่งบางอย่างที่ซับซ้อนมากขึ้นเช่นการใช้การแจกแจงแบบทวินามลบตามที่อธิบายไว้ที่นี่ ? (ถ้าเป็นเช่นนั้นพอยน์เตอร์หรือลิงก์ในการทำเช่นนั้นจะได้รับการชื่นชมมาก) โอ้และฉันรู้ว่าสิ่งนี้สร้างการกระจายแบบขรุขระเล็กน้อย (เนื่องจากการคูณด้วยสาม) แต่นั่นไม่ควรสำคัญสำหรับแอปพลิเคชันของฉัน อัปเดต: เพื่อประโยชน์ของผู้อื่นที่ค้นหาและพบคำถามนี้ต่อไปนี้เป็นฟังก์ชั่น R ที่ใช้ง่ายในการสร้างแบบจำลองปัวซองที่ใช้โอเวอร์เซ็ตโดยใช้การแจกแจงแบบทวินามลบ ตั้งค่า d เป็นอัตราส่วนค่าเฉลี่ย / ความแปรปรวนที่ต้องการ: rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else …

2
การกระจายก่อนดีสำหรับดีกรีอิสระในการกระจายคืออะไร?
ฉันต้องการใช้ที่การกระจายเพื่อส่งคืนสินทรัพย์ช่วงเวลาสั้น ๆ ในโมเดลแบบเบย์ ฉันต้องการประเมินทั้งองศาอิสระ (พร้อมกับพารามิเตอร์อื่น ๆ ในโมเดลของฉัน) สำหรับการแจกแจง ฉันรู้ว่าผลตอบแทนของสินทรัพย์นั้นไม่ปกติ แต่ฉันไม่รู้มากไปกว่านั้น อะไรคือการแจกแจงก่อนที่เหมาะสมและให้ข้อมูลอย่างละเอียดสำหรับองศาอิสระในโมเดลดังกล่าว?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.