คำถามติดแท็ก predictive-models

แบบจำลองเชิงทำนายเป็นแบบจำลองทางสถิติซึ่งมีจุดประสงค์หลักคือการทำนายการสังเกตอื่น ๆ ของระบบอย่างเหมาะสมเมื่อเทียบกับแบบจำลองที่มีจุดประสงค์เพื่อทดสอบสมมติฐานเฉพาะหรืออธิบายปรากฏการณ์ทางกลไก ดังนั้นโมเดลการทำนายที่ให้ความสำคัญกับความสามารถในการตีความและความสำคัญกับประสิทธิภาพก็จะน้อยลง

1
กำหนดความแม่นยำของแบบจำลองซึ่งประมาณความน่าจะเป็นของเหตุการณ์
ฉันกำลังสร้างโมเดลเหตุการณ์ที่มีสองผลลัพธ์คือ a และ b ฉันได้สร้างแบบจำลองซึ่งประมาณความน่าจะเป็นที่จะเกิดขึ้นหรือ a (เช่นแบบจำลองจะคำนวณว่าจะเกิดขึ้นโดยมีโอกาส 40% และ b จะเกิดขึ้นกับโอกาส 60%) ฉันมีบันทึกผลการทดลองเป็นจำนวนมากพร้อมการประมาณการจากแบบจำลอง ฉันต้องการวัดความแม่นยำของแบบจำลองที่ใช้ข้อมูลนี้ - เป็นไปได้และถ้าเป็นเช่นนั้น

2
ในการอนุมานแบบเบย์เหตุใดคำศัพท์บางคำจึงลดลงจากการคาดการณ์หลัง
ในการวิเคราะห์แบบผันคำกริยาแบบเบส์ของเควินเมอร์ฟี่ย์เรื่องการกระจายแบบเกาส์เซียนเขาเขียนว่า p(x∣D)=∫p(x∣θ)p(θ∣D)dθp(x∣D)=∫p(x∣θ)p(θ∣D)dθ p(x \mid D) = \int p(x \mid \theta) p(\theta \mid D) d \theta โดยที่เป็นข้อมูลที่โมเดลมีความเหมาะสมและเป็นข้อมูลที่มองไม่เห็น สิ่งที่ฉันไม่เข้าใจคือสาเหตุที่การพึ่งพาหายไปในเทอมแรกในอินทิกรัล การใช้กฎพื้นฐานความน่าจะเป็นฉันจะคาดหวัง:DDDxxxDDD p(a)p(a∣b)p(x∣D)=∫p(a∣c)p(c)dc=∫p(a∣c,b)p(c∣b)dc↓=∫p(x∣θ,D)⋆p(θ∣D)dθp(a)=∫p(a∣c)p(c)dcp(a∣b)=∫p(a∣c,b)p(c∣b)dc↓p(x∣D)=∫p(x∣θ,D)⏞⋆p(θ∣D)dθ \begin{align} p(a) &= \int p(a \mid c) p(c) dc \\ p(a \mid b) &= \int p(a \mid c, b) p(c \mid b) dc \\ &\downarrow \\ p(x \mid D) &= \int …

1
การตีความค่าสัมประสิทธิ์การถดถอย LASSO
ขณะนี้ฉันกำลังทำงานเพื่อสร้างแบบจำลองการทำนายผลเลขฐานสองบนชุดข้อมูลที่มีตัวแปร ~ 300 และ 800 ข้อสังเกต ฉันได้อ่านมากเกี่ยวกับปัญหาที่เกี่ยวข้องกับการถดถอยแบบขั้นตอนและทำไมไม่ใช้มัน ฉันอ่านเกี่ยวกับการถดถอยของ LASSO และความสามารถในการเลือกคุณสมบัติและประสบความสำเร็จในการนำไปใช้งานด้วยการใช้แพ็คเกจ "caret" และ "glmnet" ฉันสามารถดึงค่าสัมประสิทธิ์ของแบบจำลองด้วยค่าที่ดีที่สุดlambdaและalphaจาก "caret"; อย่างไรก็ตามฉันไม่คุ้นเคยกับวิธีตีความค่าสัมประสิทธิ์ สัมประสิทธิ์ LASSO ตีความในวิธีเดียวกันกับการถดถอยโลจิสติกหรือไม่? มันจะเหมาะสมที่จะใช้คุณสมบัติที่เลือกจาก LASSO ในการถดถอยโลจิสติก? แก้ไข การตีความของค่าสัมประสิทธิ์เช่นเดียวกับค่าสัมประสิทธิ์แทนจากการถดถอย LASSO เป็นอัตราต่อรองสำหรับการเปลี่ยนแปลง 1 หน่วยในสัมประสิทธิ์ในขณะที่ค่าคงที่สัมประสิทธิ์อื่น ๆ ทั้งหมด https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

3
การถดถอยด้วยข้อมูลที่เบ้
กำลังพยายามคำนวณจำนวนการเข้าชมจากข้อมูลประชากรและบริการ ข้อมูลเบ้มาก histograms: แปลง qq (ซ้ายคือบันทึก): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) cityและserviceเป็นตัวแปรปัจจัย ฉันได้ค่า p ต่ำ *** สำหรับตัวแปรทั้งหมด แต่ฉันยังได้ค่า r-squared ต่ำที่ 0.05 ด้วย ฉันควรทำอย่างไรดี? รุ่นอื่นจะทำงานเช่นเลขชี้กำลังหรืออะไรบางอย่าง

1
ทำไม Netflix จึงเปลี่ยนจากระบบการจัดอันดับห้าดาวเป็นระบบ Like / Dislike
Netflix ใช้เพื่อจัดทำข้อเสนอแนะของผู้ใช้เกี่ยวกับการให้คะแนนภาพยนตร์ / รายการอื่น ๆ ระบบการจัดอันดับนี้มีห้าดาว ตอนนี้ Netflix อนุญาตให้ผู้ใช้ชอบ / ไม่ชอบ (thumbs-up / thumbs-down) ภาพยนตร์ / รายการ พวกเขาอ้างว่าให้คะแนนภาพยนตร์ได้ง่ายกว่า การจำแนกแบบสองทางนี้จะไม่สามารถคาดการณ์ทางสถิติได้น้อยกว่าระบบการจำแนกแบบ 5 ทิศทางหรือไม่? มันจะไม่จับการเปลี่ยนแปลงที่น้อยลงหรือไม่

1
วิธีการตีความผลลัพธ์เมื่อสันเขาและเชือกแยกทั้งสองทำงานได้ดี แต่ให้ค่าสัมประสิทธิ์ที่แตกต่างกัน
ฉันกำลังใช้ตัวแบบการถดถอยทั้งกับ Lasso และ Ridge (เพื่อทำนายตัวแปรผลลัพธ์แบบไม่ต่อเนื่องตั้งแต่ 0-5) ก่อนที่จะใช้รูปแบบที่ผมใช้SelectKBestวิธีการในการscikit-learnที่จะลดการตั้งค่าให้สถานที่นั้น250ไป25 หากไม่มีการเลือกคุณสมบัติเริ่มต้นทั้ง Lasso และ Ridge ให้คะแนนความแม่นยำที่ต่ำกว่า [ซึ่งอาจเป็นเพราะกลุ่มตัวอย่างขนาดเล็ก 600] นอกจากนี้โปรดทราบว่าคุณลักษณะบางอย่างมีความสัมพันธ์ หลังจากรันโมเดลฉันสังเกตว่าความแม่นยำในการทำนายนั้นใกล้เคียงกับ Lasso และ Ridge อย่างไรก็ตามเมื่อฉันตรวจสอบ 10 คุณสมบัติแรกหลังจากสั่งซื้อโดยค่าสัมประสิทธิ์สัมบูรณ์ฉันเห็นว่ามีการทับซ้อนกันมากที่สุด 50% นั่นคือเนื่องจากความสำคัญของคุณสมบัติที่แตกต่างกันได้รับการกำหนดโดยแต่ละวิธีฉันอาจมีการตีความที่แตกต่างกันโดยสิ้นเชิงกับรุ่นที่ฉันเลือก โดยปกติแล้วคุณสมบัติดังกล่าวจะแสดงถึงพฤติกรรมบางประการของผู้ใช้ในเว็บไซต์ ดังนั้นฉันต้องการอธิบายสิ่งที่ค้นพบโดยเน้นคุณสมบัติ (พฤติกรรมผู้ใช้) ด้วยความสามารถในการคาดเดาที่สูงขึ้นและคุณสมบัติที่อ่อนแอกว่า (พฤติกรรมผู้ใช้) อย่างไรก็ตามฉันไม่ทราบวิธีการก้าวไปข้างหน้า ณ จุดนี้ ฉันจะเข้าใกล้การตีความตัวแบบได้อย่างไร ตัวอย่างเช่นควรรวมทั้งสองและเน้นที่ทับซ้อนกันหรือฉันควรจะไปกับ Lasso เพราะมันให้ตีความมากกว่า

1
เมื่อใดที่ฉันจะหยุดมองหานางแบบ?
ฉันกำลังมองหาแบบจำลองระหว่างการสะสมพลังงานและสภาพอากาศ ฉันมีราคา MWatt ที่ซื้อระหว่างประเทศในยุโรปและมีค่ามากมายในสภาพอากาศ (ไฟล์ Grib) แต่ละชั่วโมงในระยะเวลา 5 ปี (2554-2558) ราคา / วัน นี่คือต่อวันเป็นเวลาหนึ่งปี ฉันมีสิ่งนี้ต่อชั่วโมงใน 5 ปี ตัวอย่างของสภาพอากาศ 3Dscatterplot ในเคลวินเป็นเวลาหนึ่งชั่วโมง ฉันมี 1,000 ค่าต่อข้อมูลต่อชั่วโมงและ 200 ข้อมูลเช่น klevin, ลม, geopential ฯลฯ ฉันพยายามที่จะคาดการณ์ราคาเฉลี่ยต่อชั่วโมงของ Mwatt ข้อมูลของฉันบนอากาศมีความหนาแน่นสูงมากค่ามากกว่า 10,000 ค่า / ชั่วโมงและมีความสัมพันธ์สูง มันเป็นปัญหาของข้อมูลขนาดใหญ่ระยะสั้น ฉันได้ลองใช้วิธี Lasso, Ridge และ SVR ด้วยราคาเฉลี่ยของ MWatt ตามผลลัพธ์และข้อมูลสภาพอากาศของฉันเป็นรายได้ ฉันใช้ข้อมูลการฝึกอบรม 70% และทดสอบ 30% หากข้อมูลการทดสอบของฉันไม่ได้คาดการณ์ …

2
ต้นไม้การตัดสินใจและการถดถอย - ค่าที่ทำนายได้นั้นอาจอยู่นอกช่วงของข้อมูลการฝึกอบรมหรือไม่?
เมื่อพูดถึงต้นไม้ตัดสินใจค่าที่ทำนายได้จะอยู่นอกขอบเขตของข้อมูลการฝึกอบรมหรือไม่? ตัวอย่างเช่นหากช่วงชุดข้อมูลการฝึกอบรมของตัวแปรเป้าหมายคือ 0-100 เมื่อฉันสร้างแบบจำลองของฉันและนำไปใช้กับสิ่งอื่นค่าของฉันจะเป็น -5 หรือไม่ หรือ 150 เนื่องจากความเข้าใจของฉันเกี่ยวกับการตัดสินใจต้นไม้ถดถอยก็ยังคงเป็นกฎพื้นฐาน - ความก้าวหน้าทางซ้าย / ขวาและที่ด้านล่างของต้นไม้ในชุดฝึกอบรมไม่สามารถมองเห็นคุณค่านอกช่วงที่กำหนดได้มันจะไม่สามารถทำได้ ทำนายมันได้หรือ

3
ทรัพยากรเพื่อการเรียนรู้เกี่ยวกับเทคนิคหลายเป้าหมาย?
ฉันกำลังมองหาแหล่งข้อมูล (หนังสือบันทึกการบรรยายและอื่น ๆ ) เกี่ยวกับเทคนิคที่สามารถจัดการข้อมูลที่มีเป้าหมายหลายอย่าง (เช่นตัวแปรตามสามตัว: 2 แยกและ 1 ต่อเนื่อง) ใครบ้างมีทรัพยากร / ความรู้เกี่ยวกับเรื่องนี้? ฉันรู้ว่ามันเป็นไปได้ที่จะใช้โครงข่ายประสาทเทียมสำหรับสิ่งนี้

1
ตัวชี้วัดการประเมินผลการทำนายสำหรับข้อมูลแผง / ยาว
ฉันต้องการประเมินแบบจำลองต่างๆที่ให้การคาดการณ์พฤติกรรมในระดับรายเดือน ข้อมูลมีความสมดุลและ 100,000 และ 12 ผลลัพธ์คือการเข้าร่วมคอนเสิร์ตในเดือนที่กำหนดดังนั้นจึงเป็นศูนย์สำหรับ ~ 80% ของผู้คนในเดือนใด ๆ แต่มีผู้ใช้งานจำนวนมาก การคาดการณ์ที่ฉันไม่ได้ดูเหมือนจะเคารพธรรมชาติการนับของผลลัพธ์: คอนเสิร์ตที่เป็นเศษส่วนนั้นแพร่หลายn=n=n=T=T=T= ฉันไม่รู้อะไรเกี่ยวกับแบบจำลอง ฉันสังเกตการคาดการณ์กล่องดำ 6 แบบที่แตกต่างกันสำหรับแต่ละคนต่อเดือน ฉันมีข้อมูลเพิ่มเติมอีกหนึ่งปีที่ผู้สร้างแบบจำลองไม่ได้มีไว้สำหรับการประเมิน (แม้ว่าผู้ชมคอนเสิร์ตจะยังคงเหมือนเดิม) และฉันอยากจะวัดว่าแต่ละคนทำงานได้ดีแค่ไหน (ในแง่ของความแม่นยำและความแม่นยำ) ตัวอย่างเช่นแบบจำลองบางแบบทำนายผลได้ดีสำหรับผู้ที่มาชมคอนเสิร์ตบ่อยครั้ง แต่ล้มเหลวในการทานมันฝรั่งหรือไม่? การทำนายเดือนมกราคมดีกว่าการคาดการณ์ในเดือนธันวาคมหรือไม่? หรือจะเป็นการดีถ้าได้รู้ว่าการคาดคะเนทำให้ฉันสามารถจัดอันดับคนได้อย่างถูกต้องตามความเป็นจริงแม้ว่าขนาดที่แน่นอนไม่น่าเชื่อถือy^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 ความคิดแรกของฉันคือการเรียกใช้ผลกระทบคงที่ของจริงในการคาดการณ์และเวลาหุ่นและดู RMSEs หรือสำหรับแต่ละรุ่น แต่นั่นไม่ได้ตอบคำถามเกี่ยวกับว่าแต่ละรุ่นทำงานได้ดีหรือไม่หรือถ้าความแตกต่างนั้นสำคัญ (เว้นแต่ฉันจะบูต RMSE) การกระจายของผลลัพธ์ยังทำให้ฉันกังวลด้วยวิธีนี้R2R2R^2 ความคิดที่สองของฉันคือการทิ้งผลลัพธ์ลงใน 0, 1-3 และ 3+ และคำนวณเมทริกซ์ความสับสน แต่สิ่งนี้จะละเว้นมิติเวลายกเว้นว่าฉันทำ 12 ข้อเหล่านี้ มันก็ค่อนข้างหยาบ ฉันตระหนักถึงคำสั่ง Stata concordโดย TJ Steichen และ …

2
มี overfitting ในวิธีการ modellng นี้หรือไม่
เมื่อไม่นานมานี้ฉันได้รับแจ้งว่ากระบวนการที่ฉันติดตาม (องค์ประกอบของวิทยานิพนธ์ MS) อาจถูกมองว่าเหมาะสมเกินไป ฉันกำลังมองหาที่จะได้รับความเข้าใจที่ดีขึ้นนี้และดูว่าคนอื่นเห็นด้วย วัตถุประสงค์ของบทความนี้คือ เปรียบเทียบประสิทธิภาพของต้นไม้การถดถอยแบบไล่ระดับสีไล่ระดับกับการสุ่มป่าบนชุดข้อมูล ดูประสิทธิภาพของรุ่นสุดท้ายที่เลือก (ทั้ง GBM หรือ RF) gbmและแพคเกจในการวิจัยที่มีการใช้พร้อมกับrandomForest caret กระบวนการตามเป็นดังนี้: การประมวลผลข้อมูลเบื้องต้นล่วงหน้า (เช่นการเสียบค่าที่ขาดหายไปของตัวทำนายที่ระบุด้วยหมวดหมู่ที่แตกต่างที่เรียกว่า "หายไป") ตัวแปรเป้าหมายไม่ได้พิจารณาถึงการประมวลผลล่วงหน้าใด ๆ (ซึ่งน้อยมาก) สร้างตารางค่าสำหรับเมตา - พารามิเตอร์ของแต่ละอัลกอริทึม (เช่นจำนวนการวนซ้ำสำหรับ GBM) สร้างชุดข้อมูลแยก 25 ชุด (การฝึกอบรม 65% และการทดสอบ 35%) ทำซ้ำ 25 ครั้งต่อไปนี้สำหรับ GBM (แต่ละครั้งใช้หนึ่งในการสุ่มแยกรถไฟ / ทดสอบแต่ละครั้งที่การฝึกอบรมและชุดทดสอบเป็น "การเปลี่ยนแปลงในปัจจุบัน" ของการเปลี่ยนแปลงหลักสูตร ใช้การตรวจสอบความถูกต้องไขว้ 5 เท่าเพื่อค้นหาการตั้งค่าพารามิเตอร์ "ดีที่สุด" ของอัลกอริทึมเหนือการค้นหากริด ไม่มีอะไรจากการวิ่งก่อนหน้านี้เลยในการวิ่งปัจจุบัน เมื่อพิจารณาแล้วให้พอดีกับรูปแบบของชุดการฝึกอบรม "ปัจจุบัน" …

3
แทงเลือกวิธีการเปิดของพวกเขาได้อย่างไร
ฉันรู้ว่าผู้รับแทงปรับอัตราต่อรองของพวกเขาเพื่อเพิ่มผลกำไรสูงสุดโดยการคาดการณ์ความน่าจะเป็นของปริมาณเงินที่วางไว้ในทุกผลลัพธ์ แทงเลือกวิธีการเปิดของพวกเขาได้อย่างไร

1
ช่วงความเชื่อมั่นสำหรับความแตกต่างในอนุกรมเวลา
ฉันมีโมเดลสุ่มที่ใช้ในการจำลองอนุกรมเวลาของกระบวนการบางอย่าง ฉันสนใจผลของการเปลี่ยนพารามิเตอร์หนึ่งค่าเป็นค่าเฉพาะและต้องการแสดงความแตกต่างระหว่างอนุกรมเวลา (พูดแบบจำลอง A และแบบจำลอง B) และช่วงความเชื่อมั่นแบบจำลองบางประเภท ฉันทำการจำลองสถานการณ์จากรุ่น A และพวงจากรุ่น B แล้วลบค่ามัธยฐานในแต่ละจุดเพื่อค้นหาความแตกต่างของค่ามัธยฐานตลอดเวลา ฉันใช้วิธีการเดียวกันเพื่อค้นหา 2.5 และ 97.5 quantiles ดูเหมือนว่าจะเป็นวิธีที่อนุรักษ์นิยมมากเนื่องจากฉันไม่ได้พิจารณาแต่ละชุดเวลาร่วมกัน (เช่นแต่ละจุดถือว่าเป็นอิสระจากชุดอื่น ๆ ทั้งหมดในเวลาก่อนหน้าและอนาคต) มีวิธีที่ดีกว่าในการทำเช่นนี้?

1
การทำนายกระบวนการหน่วยความจำระยะยาว
ฉันกำลังทำงานกับกระบวนการสองสถานะด้วยxเสื้อxtx_tใน{ 1 , - 1 }{1,−1}\{1, -1\}สำหรับt = 1 , 2 , ...t=1,2,…t = 1, 2, \ldots ฟังก์ชั่น autocorrelation เป็นตัวบ่งชี้ของกระบวนการที่มีหน่วยความจำยาวนั่นคือมันแสดงการสลายตัวของกฎกำลังไฟฟ้าที่มีเลขชี้กำลัง <1 คุณสามารถจำลองชุดที่คล้ายกันใน R ด้วย: > library(fArma) > x<-fgnSim(10000,H=0.8) > x<-sign(x) > acf(x) คำถามของฉัน: มีวิธีบัญญัติมาตรฐานหรือไม่ที่จะทำนายค่าถัดไปในซีรีส์ที่ได้รับมาจากฟังก์ชั่น วิธีหนึ่งในการทำนายก็คือใช้ x^( t ) = x ( t - 1 )x^(t)=x(t−1)\hat{x}(t) = x(t-1) ซึ่งมีอัตราการจำแนกประเภทโดยที่คือความสัมพันธ์แบบอัตโนมัติ -1 แต่ฉันรู้สึกว่ามันต้องเป็นไปได้ที่จะทำได้ดีขึ้นโดยคำนึงถึงโครงสร้างหน่วยความจำระยะยาวρ( …

2
สัญชาตญาณที่อยู่เบื้องหลังเครือข่ายประสาทแบบ Long Long Term Memory (LSTM) กำเริบคืออะไร?
แนวคิดที่อยู่เบื้องหลัง Recurrent Neural Network (RNN) ชัดเจนสำหรับฉัน ฉันเข้าใจในวิธีต่อไปนี้: เรามีลำดับของการสังเกต ( ) (หรือกล่าวอีกนัยหนึ่งคืออนุกรมเวลาหลายตัวแปร) การสังเกตแต่ละครั้งเป็นเวกเตอร์ตัวเลข -dimensional ภายในโมเดล RNN เราถือว่าการสังเกตต่อไปเป็นหน้าที่ของการสังเกตการณ์ก่อนหน้านี้เช่นเดียวกับ "สถานะที่ซ่อน" ก่อนหน้านี้ซึ่งสถานะที่ซ่อนอยู่จะถูกแสดงด้วยตัวเลข เวกเตอร์ (ขนาดของสถานะที่ถูกตรวจสอบและสถานะที่ซ่อนอยู่อาจแตกต่างกัน) รัฐที่ซ่อนตัวเองก็สันนิษฐานว่าขึ้นอยู่กับการสังเกตก่อนหน้านี้และสถานะที่ซ่อนอยู่:โอ⃗ 1, o⃗ 2, … , o⃗ no→1,o→2,…,o→n\vec o_1, \vec o_2, \dots, \vec o_nโอ⃗ ผมo→i\vec o_iยังไม่มีข้อความNNโอ⃗ ฉัน+ 1o→i+1\vec o_{i+1}โอ⃗ ผมo→i\vec o_{i}ชั่วโมง⃗ ผมh→i\vec h_i โอ⃗ ผม, ชั่วโมง⃗ ผม= F( o⃗ ฉัน- …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.