คำถามติดแท็ก predictive-models

แบบจำลองเชิงทำนายเป็นแบบจำลองทางสถิติซึ่งมีจุดประสงค์หลักคือการทำนายการสังเกตอื่น ๆ ของระบบอย่างเหมาะสมเมื่อเทียบกับแบบจำลองที่มีจุดประสงค์เพื่อทดสอบสมมติฐานเฉพาะหรืออธิบายปรากฏการณ์ทางกลไก ดังนั้นโมเดลการทำนายที่ให้ความสำคัญกับความสามารถในการตีความและความสำคัญกับประสิทธิภาพก็จะน้อยลง

1
มีวิธีการที่แข็งแกร่งจริง ๆ ดีกว่า?
ฉันมีสองกลุ่มวิชา A และ B แต่ละกลุ่มมีขนาดประมาณ 400 และประมาณ 300 ตัวทำนาย เป้าหมายของฉันคือการสร้างแบบจำลองการทำนายสำหรับตัวแปรการตอบสนองแบบไบนารี ลูกค้าของฉันต้องการเห็นผลของการใช้แบบจำลองที่สร้างขึ้นจาก A บน B (ในหนังสือของเขาที่ชื่อว่า "กลยุทธ์การสร้างแบบจำลองการถดถอย" @ Frankankarrell กล่าวว่าดีกว่าที่จะรวมชุดข้อมูลสองชุดและสร้างแบบจำลองบนนั้น พลังและความแม่นยำ --- ดูหน้า 90, การตรวจสอบความถูกต้องภายนอกฉันมักจะเห็นด้วยกับเขาโดยพิจารณาว่าการรวบรวมประเภทข้อมูลที่ฉันมีมีราคาแพงมากและใช้เวลานาน แต่ฉันไม่มีทางเลือกเกี่ยวกับสิ่งที่ลูกค้าต้องการ .) ตัวทำนายของฉันหลายคนมีความสัมพันธ์สูงและเบ้มาก ฉันใช้การถดถอยโลจิสติกเพื่อสร้างแบบจำลองการทำนายของฉัน นักทำนายของฉันส่วนใหญ่มาจากกลศาสตร์ ยกตัวอย่างเช่นเวลารวมเรื่องที่อยู่ภายใต้ความเครียดสูงกว่าเกณฑ์สำหรับช่วงเวลาสำหรับค่าต่างๆของและ&lt;t_2 เป็นที่ชัดเจนว่าจากคำจำกัดความของพวกเขาหลายครั้งรวมกันเกี่ยวกับพีชคณิตซึ่งกันและกัน ผู้ทำนายหลายคนที่ไม่เกี่ยวข้องกับพีชคณิตมีความเกี่ยวข้องเนื่องจากลักษณะของพวกเขา: วัตถุที่อยู่ภายใต้ความเครียดสูงในช่วงเวลามักจะอยู่ภายใต้ความเครียดสูงในช่วงเวลาแม้ว่าαα\alpha[ t1, t2][เสื้อ1,เสื้อ2][t_1, t_2]α &gt; 0α&gt;0\alpha > 00 ≤ t1&lt; t20≤เสื้อ1&lt;เสื้อ20 \leq t_1 < t_2[ t1, t2][เสื้อ1,เสื้อ2][t_1, t_2][ …

2
แบบจำลองการอยู่รอดเพื่อทำนายการเปลี่ยนแปลง - ตัวทำนายเวลาที่ต่างกัน?
ฉันกำลังมองหาที่จะสร้างแบบจำลองการทำนายสำหรับทำนายปั่นป่วนและกำลังมองหาที่จะใช้แบบจำลองการอยู่รอดแบบไม่ต่อเนื่องเวลาพอดีกับชุดข้อมูลการฝึกอบรมระยะเวลาบุคคล (แถวหนึ่งสำหรับลูกค้าแต่ละรายและระยะเวลาไม่ต่อเนื่องพวกเขาตกอยู่ในความเสี่ยง ถ้าปั่นเกิดขึ้นในช่วงเวลานั้นอีก 0) ฉันเหมาะสมกับโมเดลโดยใช้การถดถอยโลจิสติกส์ธรรมดาโดยใช้เทคนิคจากนักร้องและวิลเล็ต จำนวนลูกค้าที่เกิดขึ้นสามารถเกิดขึ้นได้ทุกที่ในช่วงเดือน แต่มันก็แค่สิ้นเดือนที่เรารู้เกี่ยวกับมัน (บางครั้งในช่วงเดือนที่พวกเขาออกไป) ใช้เวลา 24 เดือนในการฝึกอบรม ตัวแปรเวลาที่ใช้คือเวลาเริ่มต้นของตัวอย่าง - ลูกค้าทั้งหมดที่ใช้งานจนถึงวันที่ 12/31/2008 - พวกเขาทั้งหมดได้รับ t = 0 ตั้งแต่เดือนมกราคม 2552 (ไม่ใช่วิธีแบบดั้งเดิมที่จะทำ แต่ฉันเชื่อว่าวิธีการสร้าง แบบจำลองการทำนายกับแบบสถิติดั้งเดิม) covariate ที่ใช้คืออายุของลูกค้า ณ เวลานั้น มีชุดของโควาเรียต์ที่สร้างขึ้น - บางชุดที่ไม่เปลี่ยนแปลงในแถวของชุดข้อมูล (สำหรับลูกค้าที่ระบุ) และบางชุดที่ทำ ตัวแปรแปรปรวนเวลาเหล่านี้เป็นปัญหาและสิ่งที่ทำให้ฉันถามรูปแบบการอยู่รอดสำหรับการทำนายแบบปั่นป่วน (เปรียบเทียบกับตัวจําแนกปกติที่ทำนายการปั่นในอีก x เดือนถัดไปตามข้อมูลสแนปชอตปัจจุบัน) คนที่ไม่แปรเปลี่ยนเวลาอธิบายกิจกรรมในเดือนก่อนและคาดว่าจะเป็นตัวกระตุ้นที่สำคัญ การดำเนินการตามรูปแบบการทำนายนี้อย่างน้อยตามความคิดปัจจุบันของฉันคือการให้คะแนนฐานลูกค้า ณ สิ้นเดือนแต่ละเดือนเพื่อคำนวณความน่าจะเป็น / ความเสี่ยงจากการปั่นป่วนในช่วงเดือนถัดไป จากนั้นอีกครั้งสำหรับ 1,2 หรือ 3 เดือนถัดไป จากนั้นสำหรับอีก …

1
วิธีการตีความผลลัพธ์ของการทำนาย.coxph?
หลังจากติดตั้ง coxmodel เป็นไปได้ที่จะคาดการณ์และดึงความเสี่ยงสัมพัทธ์ของข้อมูลใหม่ สิ่งที่ฉันไม่เข้าใจคือวิธีคำนวณความเสี่ยงสัมพัทธ์สำหรับบุคคลและสิ่งที่สัมพันธ์กับ (เช่นค่าเฉลี่ยของประชากร) คำแนะนำใด ๆ สำหรับทรัพยากรที่จะช่วยให้เข้าใจ (ฉันไม่ได้ก้าวหน้ามากในการวิเคราะห์การเอาชีวิตรอด

4
บนกล่องจอร์จ Galit Shmueli และวิธีการทางวิทยาศาสตร์?
(คำถามนี้ดูเหมือนว่าจะเหมาะกว่าสำหรับปรัชญา SE ฉันหวังว่านักสถิติสามารถอธิบายความเข้าใจที่คลาดเคลื่อนเกี่ยวกับคำแถลงของ Box และ Shmueli ได้ดังนั้นฉันจึงโพสต์ไว้ที่นี่) George Box (จากชื่อเสียงของ ARIMA) กล่าวว่า: "ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์" Galit Shmueli ในกระดาษชื่อดังของเธอ"เพื่ออธิบายหรือทำนาย" , (และอ้างอิงคนอื่นที่เห็นด้วยกับเธอ) ระบุว่า: การอธิบายและการทำนายไม่เหมือนกันและบางรุ่นทำหน้าที่อธิบายได้ดีถึงแม้ว่าพวกเขาจะทำงานได้ดีในการทำนาย ฉันรู้สึกว่าหลักการเหล่านี้ขัดแย้งกับสิ่งใด หากแบบจำลองไม่สามารถคาดเดาได้ดีจะเป็นประโยชน์หรือไม่ ที่สำคัญกว่านั้นถ้าแบบจำลองอธิบายได้ดี (แต่ไม่จำเป็นต้องคาดเดาได้ดี) มันจะต้องเป็นจริง (เช่นไม่ผิด) ไม่ทางใดก็ทางหนึ่ง แล้วตาข่ายกับกล่องของ "ทุกรุ่นผิด" อย่างไร ท้ายที่สุดถ้าแบบจำลองอธิบายได้ดี แต่ไม่คาดการณ์ได้ดีมันจะเป็นไปได้อย่างไรทางวิทยาศาสตร์? เกณฑ์การแบ่งเขตทางวิทยาศาสตร์ส่วนใหญ่ (การตรวจสอบยืนยันการปลอมแปลง ฯลฯ ) หมายถึงว่าคำสั่งทางวิทยาศาสตร์จะต้องมีอำนาจการทำนายหรือเรียกขาน: ทฤษฎีหรือรูปแบบที่ถูกต้องเฉพาะถ้ามันสามารถทดสอบเชิงประจักษ์ (หรือเท็จ) ซึ่งหมายความว่ามัน ต้องทำนายผลลัพธ์ในอนาคต คำถามของฉัน: คำแถลงของ Box และความคิดของ Shmueli ขัดแย้งหรือไม่หรือฉันขาดบางสิ่งบางอย่างเช่นแบบจำลองไม่มีพลังการทำนาย แต่ยังคงมีประโยชน์หรือไม่? หากคำแถลงของ …

6
การใช้ SVM ที่เร็วที่สุด
คำถามทั่วไปเพิ่มเติม ฉันใช้ rbf SVM สำหรับการสร้างแบบจำลองการคาดการณ์ ฉันคิดว่าโปรแกรมปัจจุบันของฉันต้องใช้เวลาเพิ่มขึ้นเล็กน้อย ฉันใช้ scikit เรียนรู้ด้วยการค้นหากริดแบบหยาบไปจนถึงแบบละเอียด + การตรวจสอบความถูกต้องไขว้ การวิ่ง SVM แต่ละครั้งใช้เวลาประมาณหนึ่งนาที แต่ด้วยการวนซ้ำทั้งหมดฉันยังพบว่ามันช้าเกินไป สมมติว่าในที่สุดฉันก็มีหลายเธรดส่วนการตรวจสอบความถูกต้องข้ามหลายคอร์คำแนะนำใด ๆ ในการเร่งความเร็วโปรแกรมของฉัน มีการใช้งาน SVM ที่เร็วขึ้นหรือไม่ ฉันเคยได้ยิน GPU SVM บางตัวแล้ว แต่ยังไม่ได้เจาะเข้าไปมากนัก ผู้ใช้คนใดและเร็วกว่ากันไหม


5
มันเป็นการโกงที่จะปล่อยค่าผิดปกติตาม boxplot ของ Mean Absolute Error เพื่อปรับปรุงตัวแบบการถดถอยหรือไม่
ฉันมีแบบจำลองการทำนายทดสอบด้วยวิธีการสี่วิธีดังที่คุณเห็นในรูปแบบกล่องด้านล่าง แอตทริบิวต์ที่ตัวแบบทำนายนั้นอยู่ในช่วง 0-8 คุณอาจสังเกตเห็นว่ามีค่าผิดปกติที่มีขอบบนหนึ่งค่าและค่าผิดปกติที่ต่ำกว่าสามค่าที่ระบุโดยวิธีการทั้งหมด ฉันสงสัยว่าเหมาะสมที่จะลบอินสแตนซ์เหล่านี้ออกจากข้อมูลหรือไม่ หรือนี่เป็นการโกงเพื่อปรับปรุงตัวแบบการทำนาย?

2
จะทำการตรวจสอบข้ามกับโมเดลอันตรายตามสัดส่วนของ Cox ได้อย่างไร
สมมติว่าฉันได้สร้างแบบจำลองการทำนายสำหรับการเกิดโรคเฉพาะในชุดข้อมูลหนึ่ง (ชุดข้อมูลการสร้างแบบจำลอง) และตอนนี้ต้องการตรวจสอบว่ารูปแบบการทำงานในชุดข้อมูลใหม่ได้ดีเพียงใด (ชุดข้อมูลการตรวจสอบความถูกต้อง) สำหรับแบบจำลองที่สร้างขึ้นด้วยการถดถอยโลจิสติกฉันจะคำนวณความน่าจะเป็นที่คาดการณ์สำหรับแต่ละคนในชุดข้อมูลการตรวจสอบความถูกต้องตามค่าสัมประสิทธิ์แบบจำลองที่ได้จากชุดข้อมูลการสร้างแบบจำลองแล้วหลังจากแยกขั้ว ที่ช่วยให้ฉันสามารถคำนวณอัตราบวกที่แท้จริง (ความไว) และอัตราลบที่แท้จริง (ความจำเพาะ) ยิ่งกว่านั้นฉันสามารถสร้างเส้นโค้ง ROC ทั้งหมดได้โดยการปรับค่า cutoff แล้วรับ AUC สำหรับกราฟ ROC ตอนนี้สมมติว่าฉันมีข้อมูลการอยู่รอด ดังนั้นฉันใช้โมเดลอันตรายตามสัดส่วนของ Cox ในชุดข้อมูลการสร้างแบบจำลองและตอนนี้ต้องการตรวจสอบว่าแบบจำลองนั้นทำงานได้ดีเพียงใดในชุดข้อมูลการตรวจสอบความถูกต้อง เนื่องจากความเสี่ยงพื้นฐานไม่ใช่ฟังก์ชันพารามิเตอร์ในโมเดล Cox ฉันไม่เห็นว่าฉันจะได้รับโอกาสรอดชีวิตที่คาดการณ์ไว้สำหรับแต่ละคนในชุดข้อมูลการตรวจสอบตามค่าสัมประสิทธิ์แบบจำลองที่ได้จากชุดข้อมูลการสร้างแบบจำลองอย่างไร ดังนั้นฉันจะไปเกี่ยวกับการตรวจสอบว่าแบบจำลองทำงานได้ดีในชุดข้อมูลการตรวจสอบได้อย่างไร มีวิธีการที่กำหนดไว้สำหรับการทำเช่นนี้หรือไม่? และถ้าใช่จะมีการใช้งานในซอฟต์แวร์ใด ๆ หรือไม่? ขอบคุณล่วงหน้าสำหรับคำแนะนำใด ๆ !

1
การลดอคติในการสร้างแบบจำลองอธิบายทำไม? (Galit Shmueli“ อธิบายหรือทำนาย”)
นี้อ้างอิงคำถาม Galit Shmueli กระดาษ"ที่จะอธิบายหรือทำนาย" โดยเฉพาะอย่างยิ่งในหัวข้อ 1.5 "การอธิบายและการทำนายต่างกัน" ศาสตราจารย์ Shmueli เขียน: ในการอธิบายแบบจำลองการมุ่งเน้นไปที่การลดอคติเพื่อให้ได้การแสดงที่ถูกต้องที่สุดของทฤษฎีพื้นฐาน นี่ทำให้ฉันงงทุกครั้งที่ฉันอ่านกระดาษ การลดอคติในการประมาณการให้ความหมายที่ถูกต้องที่สุดในการแสดงถึงทฤษฎีพื้นฐานได้อย่างไร? ฉันได้ดูการพูดคุยของศาสตราจารย์ Shmueli ที่นี่ด้วยซึ่งจัดส่งที่ JMP Discovery Summit 2017 และเธอกล่าวว่า: ... สิ่งต่าง ๆ ที่เหมือนกับนางแบบหดตัวตระการตาคุณจะไม่มีวันได้เห็น เนื่องจากรูปแบบเหล่านั้นโดยการออกแบบแนะนำความเอนเอียงเพื่อลดอคติ / ความแปรปรวนโดยรวม นั่นเป็นเหตุผลที่พวกเขาจะไม่อยู่ที่นั่นมันไม่มีเหตุผลใด ๆ ที่จะทำเช่นนั้น ทำไมคุณต้องทำให้แบบจำลองของคุณลำเอียงโดยมีจุดประสงค์ นี่ไม่ใช่คำถามของฉันที่ชัดเจนเพียงแค่ปรับการอ้างสิทธิ์ที่ฉันไม่เข้าใจ หากทฤษฏีมีพารามิเตอร์มากมายและเรามีข้อมูลไม่เพียงพอที่จะประมาณค่าเหล่านั้นข้อผิดพลาดในการประมาณจะถูกควบคุมโดยความแปรปรวน เหตุใดจึงไม่เหมาะสมที่จะใช้ขั้นตอนการประเมินแบบเอนเอียงเช่นการถดถอยสัน (ส่งผลให้การประเมินแบบเอนเอียงของความแปรปรวนต่ำกว่า) ในสถานการณ์นี้

2
เหตุใดการคาดการณ์ของอนุกรมเวลาจึง“ แย่มาก”
ฉันพยายามเรียนรู้วิธีใช้ Neural Networks ฉันกำลังอ่านบทช่วยสอนนี้ หลังจากติดตั้งโครงข่ายประสาทในอนุกรมเวลาโดยใช้ค่าที่เพื่อทำนายค่าที่t + 1ผู้เขียนได้รับพล็อตต่อไปนี้โดยที่เส้นสีฟ้าคืออนุกรมเวลาสีเขียวคือการทำนายข้อมูลรถไฟสีแดงคือ การคาดการณ์ข้อมูลการทดสอบ (เขาใช้การทดสอบรถไฟแบบแยก)เสื้อเสื้อtt + 1เสื้อ+1t+1 และเรียกมันว่า "เราจะเห็นว่าแบบจำลองนั้นทำงานได้ค่อนข้างแย่ในการปรับทั้งชุดฝึกอบรมและชุดทดสอบ เสื้อเสื้อtt - 1เสื้อ-1t-1t - 2เสื้อ-2t-2t + 1เสื้อ+1t+1 และพูดว่า "เมื่อมองที่กราฟเราจะเห็นโครงสร้างเพิ่มเติมในการทำนาย" คำถามของฉัน ทำไมคนยากจนคนแรก? มันเกือบจะสมบูรณ์แบบสำหรับฉันมันทำนายการเปลี่ยนแปลงทุกอย่างสมบูรณ์แบบ และในทำนองเดียวกันทำไมอันดับสองถึงดีกว่า? "โครงสร้าง" อยู่ที่ไหน สำหรับฉันมันดูด้อยกว่าครั้งแรกมาก โดยทั่วไปการคาดการณ์ของซีรีย์เวลาจะดีและเมื่อไร

4
ตัวแบบทำนายผล: สถิติไม่สามารถเอาชนะการเรียนรู้ของเครื่องได้? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ขณะนี้ฉันกำลังติดตามโปรแกรมหลักที่เน้นเรื่องสถิติ / เศรษฐมิติ ในอาจารย์ของฉันนักเรียนทุกคนต้องทำวิจัย 3 เดือน สัปดาห์ที่แล้วทุกกลุ่มต้องนำเสนองานวิจัยของพวกเขากับนักศึกษาปริญญาโทคนอื่น ๆ เกือบทุกกลุ่มมีการสร้างแบบจำลองทางสถิติและแบบจำลองการเรียนรู้ของเครื่องสำหรับหัวข้อการวิจัยและการคาดการณ์นอกเวลาตัวอย่างทุกครั้งจะมาพูดคุยเกี่ยวกับแบบจำลองการเรียนรู้ของเครื่องอย่างง่าย ๆ เอาชนะแบบจำลองทางสถิติที่ซับซ้อนมาก เดือน ไม่ว่าแบบจำลองทางสถิติของทุกคนจะดีแค่ไหนป่าสุ่มที่เรียบง่ายก็มีข้อผิดพลาดน้อยกว่าตัวอย่างมาก ฉันสงสัยว่านี่เป็นข้อสังเกตที่ยอมรับกันโดยทั่วไปหรือไม่? ถ้ามันมาจากการพยากรณ์นอกตัวอย่างไม่มีวิธีใดที่จะเอาชนะรูปแบบป่าเรียบง่ายหรือรูปแบบการไล่ระดับสีที่รุนแรง ทั้งสองวิธีนี้ง่ายมากที่จะใช้งานโดยใช้แพ็คเกจ R ในขณะที่โมเดลสถิติทั้งหมดที่ทุกคนสร้างขึ้นนั้นต้องการทักษะความรู้และความพยายามในการประเมินค่อนข้างมาก คุณคิดอย่างไรกับเรื่องนี้? ประโยชน์เพียงอย่างเดียวของตัวแบบเชิงสถิติ / เศรษฐมิติที่คุณได้รับการตีความคืออะไร? หรือโมเดลของเราไม่ดีพอที่พวกเขาล้มเหลวที่จะมีประสิทธิภาพสูงกว่าการทำนายป่าแบบสุ่มอย่างง่ายหรือไม่? มีเอกสารใดบ้างที่ตอบปัญหานี้?

4
ระเบียบวิธีการป่าแบบสุ่มสามารถนำไปใช้กับการถดถอยเชิงเส้นได้หรือไม่?
ป่าสุ่มทำงานโดยการสร้างกลุ่มของต้นไม้การตัดสินใจที่ต้นไม้แต่ละต้นถูกสร้างขึ้นโดยใช้ตัวอย่างบูตสแตรปของข้อมูลการฝึกอบรมดั้งเดิม (ตัวอย่างของตัวแปรอินพุตและการสังเกต) สามารถใช้กระบวนการที่คล้ายกันสำหรับการถดถอยเชิงเส้นได้หรือไม่? สร้างโมเดลการถดถอยเชิงเส้น k โดยใช้ตัวอย่างบูทสแตรปแบบสุ่มสำหรับแต่ละการถดถอย k อะไรคือเหตุผลที่ไม่สร้าง "การถดถอยแบบสุ่ม" เหมือนโมเดล ขอบคุณ หากมีบางสิ่งที่ฉันเข้าใจผิดไปจากเดิมโปรดแจ้งให้เราทราบ

2
ประสิทธิภาพของตัวแบบในการสร้างแบบจำลองควอไทล์
ฉันใช้การถดถอยแบบควอไทล์ (เช่นผ่านgbmหรือquantregใน R) - ไม่ได้มุ่งเน้นไปที่ค่ามัธยฐาน แต่แทนที่จะเป็นควอไทล์บน (เช่น 75) มาจากพื้นหลังการสร้างแบบจำลองการคาดการณ์ฉันต้องการวัดความเหมาะสมของแบบจำลองในชุดทดสอบและสามารถอธิบายสิ่งนี้กับผู้ใช้ทางธุรกิจ คำถามของฉันเป็นอย่างไร ในการตั้งค่าทั่วไปที่มีเป้าหมายต่อเนื่องฉันสามารถทำสิ่งต่อไปนี้: คำนวณ RMSE โดยรวม จัดทำชุดข้อมูลตามค่าที่ทำนายและเปรียบเทียบค่าเฉลี่ยจริงกับค่าเฉลี่ยที่คาดการณ์ในแต่ละช่วง เป็นต้น สิ่งที่สามารถทำได้ในกรณีนี้ที่ไม่มีมูลค่าจริง (ฉันไม่คิดว่าอย่างน้อย) เพื่อเปรียบเทียบการทำนายกับ? นี่คือตัวอย่างรหัส: install.packages("quantreg") library(quantreg) install.packages("gbm") library(gbm) data("barro") trainIndx&lt;-sample(1:nrow(barro),size=round(nrow(barro)*0.7),replace=FALSE) train&lt;-barro[trainIndx,] valid&lt;-barro[-trainIndx,] modGBM&lt;-gbm(y.net~., # formula data=train, # dataset distribution=list(name="quantile",alpha=0.75), # see the help for other choices n.trees=5000, # number of trees shrinkage=0.005, # shrinkage …

1
ประสิทธิภาพการทำนายขึ้นอยู่กับความเชี่ยวชาญของนักวิเคราะห์ข้อมูลมากกว่าวิธี?
ฉันเจอข่าวลือว่าการศึกษาบางส่วนแสดงให้เห็นว่าประสิทธิภาพของแบบจำลองการทำนายขึ้นอยู่กับความเชี่ยวชาญของนักวิเคราะห์ข้อมูลด้วยวิธีที่เลือกมากกว่าวิธีการเลือก กล่าวอีกนัยหนึ่งข้อกล่าวอ้างว่ามันสำคัญกว่าที่นักวิเคราะห์ข้อมูลจะคุ้นเคยกับวิธีที่เลือกมากกว่าวิธีที่ "เหมาะสม" วิธีที่ดูเหมือนจะเป็นปัญหาจากมุมมองเชิงทฤษฎีมากกว่า สิ่งนี้ถูกกล่าวถึงในบริบทของเคมีบำบัดซึ่งโดยทั่วไปแล้วจะเกี่ยวข้องกับปัญหาของตัวแปรหลายอย่าง (100s - 1000s), collinearity หลายอันและแน่นอนว่ามีตัวอย่างน้อยเกินไป การทำนายอาจเป็นการจำแนกหรือการถดถอย ประสบการณ์ส่วนตัวของฉันแสดงให้เห็นว่าสิ่งนี้เป็นไปได้แต่มีการพูดถึงการศึกษา (ฉันถามคนที่พูดถึงเรื่องนั้นทางอีเมลหลังจากการค้นหาที่รวดเร็ว แต่ไม่สำเร็จ แต่ไม่เคยได้รับคำตอบใด ๆ ) อย่างไรก็ตามด้วยการค้นหาที่ละเอียดยิ่งขึ้นฉันก็ไม่สามารถติดตามบทความใด ๆ ได้ มีใครตระหนักถึงการค้นพบดังกล่าวหรือไม่ ถ้าไม่ใช่ประสบการณ์ส่วนตัวของ Big Guys ที่นี่พูดว่าอะไร?

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training &lt;- twoClassSim(50, linearVars = 2) set.seed(849) testing &lt;- twoClassSim(500, linearVars = 2) trainX &lt;- training[, -ncol(training)] testX &lt;- testing[, -ncol(testing)] trainY &lt;- training$Class # Using glmnet to …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.