คำถามติดแท็ก predictive-models

แบบจำลองเชิงทำนายเป็นแบบจำลองทางสถิติซึ่งมีจุดประสงค์หลักคือการทำนายการสังเกตอื่น ๆ ของระบบอย่างเหมาะสมเมื่อเทียบกับแบบจำลองที่มีจุดประสงค์เพื่อทดสอบสมมติฐานเฉพาะหรืออธิบายปรากฏการณ์ทางกลไก ดังนั้นโมเดลการทำนายที่ให้ความสำคัญกับความสามารถในการตีความและความสำคัญกับประสิทธิภาพก็จะน้อยลง

2
การทำนาย 'เกณฑ์ทอง' เพื่อตัดสินความสามารถของนักสถิติหรือไม่?
ฉันอ่านโมเดลเชิงเส้นตำราเรียนของ Faraway ที่มี R (รุ่นที่ 1) เมื่อสุดสัปดาห์ที่แล้ว Faraway มีบทที่เรียกว่า "กลยุทธ์เชิงสถิติและความไม่แน่นอนของแบบจำลอง" เขาอธิบาย (หน้า 158) ว่าเขาสร้างข้อมูลปลอมโดยใช้แบบจำลองที่ซับซ้อนมากจากนั้นเขาขอให้นักเรียนทำแบบจำลองข้อมูลและเปรียบเทียบผลลัพธ์ที่ทำนายของนักเรียนเทียบกับผลการอ่าน น่าเสียดายที่นักเรียนส่วนใหญ่ติดตั้งข้อมูลการทดสอบมากเกินไปและให้ค่าที่ทำนายไว้ทั้งหมด เพื่ออธิบายปรากฏการณ์นี้เขาเขียนสิ่งที่น่าประทับใจสำหรับฉัน: "เหตุผลที่แบบจำลองแตกต่างกันมากคือนักเรียนใช้วิธีการต่าง ๆ ตามลำดับที่แตกต่างกันบางคนเลือกการเปลี่ยนแปลงก่อนที่จะเปลี่ยนรูปแบบและวิธีอื่น ๆ ตรงกันข้ามบางวิธีทำซ้ำหลังจากเปลี่ยนรูปแบบและคนอื่นไม่ได้ นักเรียนหลายคนใช้และไม่พบสิ่งผิดปกติอย่างชัดเจนกับสิ่งที่พวกเขาทำนักเรียนคนหนึ่งทำผิดในการคำนวณค่าของเขาหรือเธอ แต่ก็ไม่มีอะไรผิดปกติในส่วนที่เหลือประสิทธิภาพของงานมอบหมายนี้ไม่ได้แสดงให้เห็น ความสัมพันธ์ใด ๆ กับสิ่งนั้นในการสอบ " ฉันได้รับการศึกษาว่าความแม่นยำในการทำนายแบบจำลองนั้นเป็น 'เกณฑ์ทองคำ' สำหรับเราในการเลือกประสิทธิภาพของแบบจำลองที่ดีที่สุด ถ้าฉันไม่เข้าใจผิดนี่เป็นวิธียอดนิยมที่ใช้ในการแข่งขัน Kaggle แต่ที่นี่ Faraway ได้สังเกตเห็นบางอย่างของธรรมชาติที่แตกต่างกันซึ่งการทำนายแบบจำลองนั้นไม่สามารถทำได้ด้วยความสามารถของนักสถิติที่เกี่ยวข้อง กล่าวอีกนัยหนึ่งว่าเราสามารถสร้างแบบจำลองที่ดีที่สุดในแง่ของพลังการทำนายได้หรือไม่นั้นไม่ได้ตัดสินจากประสบการณ์ของเรา แต่จะถูกกำหนดโดย 'ความไม่แน่นอนของโมเดล' (โชคไม่ดี?) คำถามของฉันคือ: สิ่งนี้เป็นจริงในการวิเคราะห์ข้อมูลในชีวิตจริงเช่นกัน? หรือฉันสับสนกับสิ่งที่พื้นฐานมาก ๆ เพราะถ้าสิ่งนี้เป็นจริงแล้วความหมายของการวิเคราะห์ข้อมูลจริงนั้นยิ่งใหญ่: โดยไม่ทราบว่า "แบบจำลองของจริง" ที่อยู่เบื้องหลังข้อมูลนั้นไม่มีความแตกต่างที่สำคัญระหว่างงานที่ทำโดยนักสถิติที่มีประสบการณ์ / ไม่มีประสบการณ์: ทั้งคู่ …

1
เมื่อสร้างแบบจำลองการถดถอยโดยใช้ชุดการสร้างแบบจำลอง / การตรวจสอบความถูกต้องแยกเป็นสัดส่วนแล้วมันเหมาะสมหรือไม่ที่จะ "หมุนเวียน" ข้อมูลการตรวจสอบความถูกต้อง?
สมมติว่าฉันมีการแบ่ง 80/20 ระหว่างการสร้างแบบจำลอง / การตรวจสอบความถูกต้อง ฉันพอดีกับแบบจำลองกับชุดข้อมูลการสร้างแบบจำลองและฉันพอใจกับข้อผิดพลาดที่ฉันเห็นในชุดข้อมูลการตรวจสอบความถูกต้อง ก่อนที่ฉันจะนำเสนอโมเดลของฉันสำหรับการทำคะแนนการสังเกตการณ์ในอนาคตมีความเหมาะสมหรือไม่ที่จะรวมการตรวจสอบกลับกับข้อมูลการสร้างแบบจำลองเพื่อรับการประมาณค่าพารามิเตอร์ที่อัปเดตกับข้อมูล 100% ฉันได้ยินสองมุมมองเกี่ยวกับเรื่องนี้: การตรวจสอบความถูกต้องที่ฉันดำเนินการคือการตรวจสอบความถูกต้องของโครงสร้างแบบจำลองนั่นคือชุดของตัวทำนายและการแปลงที่ฉันใช้ มันไม่สมเหตุสมผลเลยที่จะทิ้งข้อมูล 20% ของฉันไว้ในตารางเมื่อฉันสามารถใช้เพื่อปรับปรุงการประมาณของฉัน การตรวจสอบความถูกต้องที่ฉันดำเนินการส่วนหนึ่งเป็นการตรวจสอบความถูกต้องของพารามิเตอร์ประมาณการที่ฉันคำนวณในชุดข้อมูลการสร้างแบบจำลองของฉัน หากฉันอัปเดตโมเดลพอดีฉันได้เปลี่ยนค่าประมาณและฉันไม่มีวิธีที่มีวัตถุประสงค์เพื่อทดสอบประสิทธิภาพของโมเดลที่อัปเดตแล้ว ฉันเคยตามอาร์กิวเมนต์ # 1 เสมอ แต่ไม่นานมานี้ฉันได้ยินคนหลายคนโต้แย้ง # 2 ฉันต้องการที่จะเห็นสิ่งที่คนอื่นคิดเกี่ยวกับเรื่องนี้ คุณเคยเห็นการสนทนาที่ดีในวรรณคดีหรือที่อื่น ๆ ในหัวข้อนี้หรือไม่?

2
เมื่อใดที่จะเข้าสู่ระบบ / ขยายตัวแปรของคุณเมื่อใช้โมเดลฟอเรสต์แบบสุ่ม?
ฉันกำลังถดถอยด้วยการสุ่มป่าเพื่อทำนายราคาตามคุณลักษณะหลายอย่าง โค้ดถูกเขียนเป็น Python โดยใช้ Scikit-learn คุณจะตัดสินใจว่าคุณควรแปลงตัวแปรของคุณโดยใช้exp/ logก่อนที่จะใช้เพื่อให้พอดีกับรูปแบบการถดถอยอย่างไร จำเป็นหรือไม่เมื่อใช้วิธี Ensemble เช่น Random Forest?

2
การบรรจุด้วยการสุ่มตัวอย่างมากเกินไปสำหรับโมเดลการทำนายเหตุการณ์ที่หายาก
ไม่มีใครรู้ว่าสิ่งต่อไปนี้ได้รับการอธิบายและ (อย่างใดอย่างหนึ่ง) ถ้ามันดูเหมือนเป็นวิธีที่เป็นไปได้สำหรับการเรียนรู้รูปแบบการทำนายที่มีตัวแปรเป้าหมายที่ไม่สมดุลมาก? บ่อยครั้งในการใช้งาน CRM ของการขุดข้อมูลเราจะหารูปแบบที่เหตุการณ์เชิงบวก (ความสำเร็จ) นั้นหายากมากเมื่อเทียบกับคนส่วนใหญ่ (ระดับลบ) ตัวอย่างเช่นฉันอาจมี 500,000 อินสแตนซ์ที่มีเพียง 0.1% ของระดับความสนใจเชิงบวก (เช่นลูกค้าที่ซื้อ) ดังนั้นเพื่อสร้างแบบจำลองการทำนายวิธีการหนึ่งคือการสุ่มตัวอย่างข้อมูลโดยที่คุณเก็บอินสแตนซ์ของคลาสที่เป็นบวกทั้งหมดและมีเพียงตัวอย่างของอินสแตนซ์คลาสที่เป็นค่าลบเพื่อให้อัตราส่วนของ 75% เป็นบวกถึงลบ) การสุ่มตัวอย่างการ Undersampling, SMOTE และอื่น ๆ เป็นวิธีการทั้งหมดในวรรณคดี สิ่งที่ฉันอยากรู้คือการรวมกลยุทธ์การสุ่มตัวอย่างพื้นฐานด้านบน แต่กับการบรรจุของคลาสลบ รักษาอินสแตนซ์ของคลาสที่เป็นบวกทั้งหมด (เช่น 1,000) ตัวอย่างอินสแตนซ์คลาสเชิงลบเพื่อสร้างตัวอย่างที่สมดุล (เช่น 1,000) พอดีกับรุ่น ทำซ้ำ ใครเคยได้ยินเรื่องนี้มาก่อน ปัญหาที่ดูเหมือนว่าไม่มีการบรรจุหีบห่อคือการสุ่มตัวอย่างคลาสเชิงลบเพียง 1,000 ครั้งเมื่อมี 500,000 คือพื้นที่ของตัวทำนายจะเบาบางและคุณอาจไม่ได้แสดงถึงค่า / รูปแบบของตัวทำนายที่เป็นไปได้ การบรรจุถุงดูเหมือนจะช่วยได้ ฉันดูที่ rpart และไม่มีสิ่งใด "หยุด" เมื่อตัวอย่างอย่างใดอย่างหนึ่งไม่มีค่าทั้งหมดสำหรับตัวทำนาย (ไม่แตกเมื่อทำนายอินสแตนซ์ด้วยค่าตัวทำนายเหล่านั้น: library(rpart) …

2
ทำไม P> 0.5 cutoff ไม่“ ดีที่สุด” สำหรับการถดถอยโลจิสติก
คำนำ: ฉันไม่สนใจเกี่ยวกับข้อดีของการใช้ cutoff หรือไม่หรือควรเลือก cutoff ด้วยวิธีใด คำถามของฉันเป็นคณิตศาสตร์อย่างหมดจดและเนื่องจากความอยากรู้ การถดถอยแบบลอจิสติกเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขหลังของคลาส A กับคลาส B และมันเหมาะกับไฮเปอร์เพลนที่ความน่าจะเป็นแบบเงื่อนไขหลังมีค่าเท่ากัน ดังนั้นในทางทฤษฎีฉันเข้าใจว่า 0.5 การจำแนกจุดจะลดข้อผิดพลาดทั้งหมดโดยไม่คำนึงถึงความสมดุลเนื่องจากมันเป็นแบบจำลองความน่าจะเป็นด้านหลัง (สมมติว่าคุณพบอัตราส่วนระดับเดียวกันอย่างสม่ำเสมอ) ในตัวอย่างชีวิตจริงของฉันฉันได้รับความแม่นยำต่ำมากโดยใช้ P> 0.5 เป็นตัวเลือกการแยกประเภทของฉัน (ความแม่นยำประมาณ 51%) อย่างไรก็ตามเมื่อฉันดูที่ AUC มันสูงกว่า 0.99 ดังนั้นฉันจึงดูค่า cutoff ที่แตกต่างกันและพบว่า P> 0.6 ให้ความแม่นยำ 98% (90% สำหรับคลาสที่เล็กกว่าและ 99% สำหรับคลาสที่ใหญ่กว่า) - มีเพียง 2% ของคดีที่ไม่ได้จัดประเภท ชั้นเรียนมีความไม่สมดุลอย่างมาก (1: 9) และเป็นปัญหาระดับสูง อย่างไรก็ตามฉันจัดสรรคลาสอย่างเท่าเทียมกันในแต่ละชุดการตรวจสอบความถูกต้องไขว้กันเพื่อไม่ให้มีความแตกต่างระหว่างความสมดุลของคลาสระหว่างแบบจำลองพอดีกับการคาดเดา ฉันพยายามใช้ข้อมูลเดียวกันจากตัวแบบและในการทำนายและปัญหาเดียวกันก็เกิดขึ้น ฉันสนใจในเหตุผลที่ 0.5 จะไม่ลดข้อผิดพลาดให้น้อยที่สุดฉันคิดว่านี่น่าจะเป็นเพราะการออกแบบถ้าแบบจำลองนั้นพอดีโดยลดการสูญเสียเอนโทรปี …

2
การทำนายการถดถอยแบบเชิงปริมาณ
ฉันสนใจที่จะใช้การถดถอยเชิงปริมาณสำหรับแบบจำลองบางส่วนของฉัน แต่ต้องการที่จะชี้แจงให้ชัดเจนเกี่ยวกับสิ่งที่ฉันสามารถทำได้โดยใช้วิธีการนี้ ฉันเข้าใจว่าฉันสามารถได้รับการวิเคราะห์ที่แข็งแกร่งยิ่งขึ้นของความสัมพันธ์ IV / DV โดยเฉพาะอย่างยิ่งเมื่อต้องเผชิญกับค่าผิดปกติและ heteroscedasticity แต่ในกรณีของฉันการมุ่งเน้นไปที่การทำนาย โดยเฉพาะอย่างยิ่งฉันสนใจที่จะปรับปรุงแบบจำลองของฉันโดยไม่ต้องหันไปใช้แบบจำลองที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากขึ้นหรือแม้แต่การถดถอยเชิงเส้นแบบชิ้นเล็ก ๆ ที่การทำนายมันเป็นไปได้หรือไม่ที่จะเลือกผลลัพธ์ความน่าจะเป็นที่มากที่สุดโดยใช้ค่าของตัวทำนาย? กล่าวอีกนัยหนึ่งเป็นไปได้หรือไม่ที่จะกำหนดความน่าจะเป็นแบบควอนไทล์ของผลลัพธ์ที่คาดการณ์ไว้แต่ละตัวตามค่าของตัวทำนาย

4
รับค่าเริ่มต้นที่ถูกต้องสำหรับโมเดล nls ใน R
ฉันกำลังพยายามจัดทำแบบจำลองกฎหมายพลังงานอย่างง่ายกับชุดข้อมูลที่เป็นดังนี้: mydf: rev weeks 17906.4 1 5303.72 2 2700.58 3 1696.77 4 947.53 5 362.03 6 เป้าหมายคือการส่งผ่านสายไฟฟ้าและใช้มันเพื่อทำนายrevvlaues สำหรับสัปดาห์ต่อ ๆ ไป มีงานวิจัยมากมายพาฉันไปที่nlsฟังก์ชั่นซึ่งฉันได้ปฏิบัติดังนี้ newMod <- nls(rev ~ a*weeks^b, data=modeldf, start = list(a=1,b=1)) predict(newMod, newdata = data.frame(weeks=c(1,2,3,4,5,6,7,8,9,10))) ในขณะที่งานนี้สำหรับlmรุ่นที่ผมได้รับsingular gradientข้อผิดพลาดที่ผมเข้าใจจะทำอย่างไรกับค่าเริ่มต้นของฉันและa bฉันลองใช้ค่าที่แตกต่างกันไปจนถึงการพล็อตเรื่องนี้ใน Excel ผ่าน lone รับสมการจากนั้นใช้ค่าจากสมการ แต่ฉันยังคงได้รับข้อผิดพลาด ฉันดูคำตอบจำนวนมากเช่นนี้และลองคำตอบที่สอง (ไม่เข้าใจคำตอบแรก) แต่ไม่มีผลลัพธ์ ฉันสามารถใช้ความช่วยเหลือบางอย่างที่นี่เกี่ยวกับวิธีค้นหาค่าเริ่มต้นที่ถูกต้อง หรือมิฉะนั้นฉันสามารถใช้ฟังก์ชั่นอื่นแทน nls ได้ ในกรณีที่คุณต้องการสร้างใหม่mydfได้อย่างง่ายดาย: …

2
การหดตัวคืออะไร?
การหดตัวของคำถูกโยนลงไปมากในบางวงการ แต่สิ่งที่หดตัวดูเหมือนจะไม่มีคำจำกัดความที่ชัดเจน หากฉันมีอนุกรมเวลา (หรือการรวบรวมการสังเกตของกระบวนการบางอย่าง) อะไรคือวิธีการที่แตกต่างกันที่ฉันสามารถวัดการหดตัวเชิงประจักษ์บางประเภทในซีรีย์ การหดตัวเชิงทฤษฎีประเภทต่างๆที่ฉันสามารถพูดคุยเกี่ยวกับคืออะไร? การหดตัวสามารถช่วยในการทำนายได้อย่างไร ผู้คนสามารถให้ข้อมูลเชิงลึกหรือการอ้างอิงที่ดีได้หรือไม่?

2
วิธีการเลือกความกว้างถังที่ดีที่สุดในขณะที่การสอบเทียบโมเดลความน่าจะเป็นเป็นอย่างไร
ความเป็นมา:มีคำถาม / คำตอบที่ดีเกี่ยวกับวิธีการปรับเทียบแบบจำลองซึ่งทำนายความน่าจะเป็นของผลลัพธ์ที่เกิดขึ้น ตัวอย่างเช่น คะแนนหนาม , และการสลายตัวของมันเข้าไปในความละเอียดของความไม่แน่นอนและความน่าเชื่อถือ แผนการสอบเทียบและการถดถอยแบบไอโซโทนิก วิธีการเหล่านี้มักจะต้องใช้วิธีการ binning กับความน่าจะเป็นที่คาดการณ์ดังนั้นพฤติกรรมของผลลัพธ์ (0, 1) จะถูกทำให้ราบเรียบเหนือถังขยะโดยรับผลลัพธ์ที่เป็นค่าเฉลี่ย ปัญหา: อย่างไรก็ตามฉันไม่พบสิ่งใดที่แนะนำให้ฉันทราบเกี่ยวกับวิธีเลือกความกว้างของถังขยะ คำถาม:ฉันจะเลือกความกว้างของถังที่เหมาะสมได้อย่างไร ความพยายาม:มีความกว้างถังขยะทั่วไปสองแห่งที่ใช้งานอยู่: ความกว้างเท่ากัน binning เช่น 10 bins ละครอบคลุม 10% ของช่วงเวลา [0, 1] วิธี Binning ของ Tukey กล่าวถึงที่นี่ แต่ตัวเลือกเหล่านี้ของถังขยะจะเหมาะสมที่สุดหากมีใครสนใจที่จะค้นหาช่วงเวลาในความน่าจะเป็นที่คาดการณ์ซึ่งคาดการณ์ผิดมากที่สุด?

1
การทดสอบความเหมาะสมในการถดถอยโลจิสติก เราต้องการทดสอบแบบใด
ฉันหมายถึงคำถามและคำตอบ: วิธีการเปรียบเทียบ (ความน่าจะเป็น) ความสามารถในการทำนายของแบบจำลองที่พัฒนาจากการถดถอยโลจิสติก? โดย @Clark Chong และคำตอบ / ความคิดเห็นโดย @Frank Harrell และคำถามองศาความเป็นอิสระของในการทดสอบ Hosmer-Lemeshowχ2χ2\chi^2และความคิดเห็น ฉันได้อ่านเอกสารDW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "การเปรียบเทียบการทดสอบความดีพอดีสำหรับรูปแบบการถดถอยโลจิสติก", สถิติการแพทย์, ฉบับที่ 16, 965-980 (1997) หลังจากอ่านฉันสับสนเพราะคำถามที่ฉันอ้างถึงขอให้ชัดเจนสำหรับ "(ความน่าจะเป็น) ความสามารถในการทำนาย" ซึ่งในความคิดของฉันไม่เหมือนกับสิ่งที่ดี - ของ - พอดี - แบบทดสอบในกระดาษ supra มุ่ง: ดังที่พวกเราส่วนใหญ่ทราบกันว่าการถดถอยแบบลอจิสติกถือว่าการเชื่อมโยงรูปตัว S ระหว่างตัวแปรอธิบายและความน่าจะเป็นของความสำเร็จรูปแบบการทำงานของรูปตัว S คือ P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|xi)=11+e−(β0+∑iβixi)P(y=1|_{x_i})=\frac{1}{1+e^{-(\beta_0+\sum_i \beta_i x_i)}} โดยไม่ต้องแสร้งว่าไม่มีข้อบกพร่องในการทดสอบ …

1
มีปัญหากับความสัมพันธ์แบบหลายค่าและการถดถอยเชิงเส้นหรือไม่
เมื่อใช้ลูกบาศก์ธรรมชาติ (เช่นถูก จำกัด ) Splines ฟังก์ชันพื้นฐานที่สร้างขึ้นนั้นมี collinear สูงและเมื่อใช้ในการถดถอยดูเหมือนจะสร้างสถิติ VIF สูง (ปัจจัยเงินเฟ้อแปรปรวน) สูงมากส่งสัญญาณความหลากหลายทางชีวภาพ เมื่อมีการพิจารณากรณีของแบบจำลองเพื่อการคาดการณ์นี่เป็นปัญหาหรือไม่ ดูเหมือนว่ามันจะเป็นอย่างนั้นเสมอเพราะธรรมชาติของโครงสร้างการสร้างเส้นโค้ง นี่คือตัวอย่างใน R: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 …

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
คุณสมบัติวิศวกรรมที่ไม่เชื่อเรื่องพระเจ้าที่ยังคงรักษาความหมายของความหมาย?
คุณสมบัติทางวิศวกรรมมักเป็นส่วนประกอบสำคัญในการเรียนรู้ของเครื่อง (มันถูกใช้อย่างหนักเพื่อเอาชนะ KDD Cup ในปี 2010 ) อย่างไรก็ตามฉันพบว่าเทคนิคทางวิศวกรรมส่วนใหญ่มีคุณสมบัติเช่นกัน ทำลายความหมายใด ๆ ที่ใช้งานง่ายของคุณสมบัติพื้นฐานหรือ มีความเฉพาะเจาะจงกับโดเมนหนึ่ง ๆ หรือแม้กระทั่งคุณสมบัติบางประเภท ตัวอย่างแบบดั้งเดิมของอดีตคือการวิเคราะห์องค์ประกอบหลัก สำหรับฉันแล้วความรู้ใด ๆ ที่ผู้เชี่ยวชาญในหัวเรื่องจะมีเกี่ยวกับคุณลักษณะนั้นจะถูกทำลายโดยการแปลงคุณสมบัติเหล่านั้นให้เป็นองค์ประกอบหลัก ตรงกันข้ามกับเทคนิคง่ายๆในการแปลงวันที่เป็นคุณสมบัติสำหรับ "วันของเดือน" และ "วันของสัปดาห์" ความหมายพื้นฐานยังคงอยู่ในคุณลักษณะใหม่ แต่เห็นได้ชัดว่าเทคนิคเฉพาะนี้ใช้เฉพาะกับวันที่เท่านั้นและไม่ใช่คุณสมบัติที่กำหนดเอง มีเนื้อหามาตรฐานของเทคนิควิศวกรรมฟีเจอร์ที่ไม่ทำลายความหมายของคุณสมบัติพื้นฐานในขณะที่ใช้กับโดเมนที่กำหนดเอง (หรืออย่างน้อยก็มีโดเมนที่หลากหลาย)

2
การทำนายเป้าหมายหรือคลาสหลายอัน?
สมมติว่าฉันกำลังสร้างแบบจำลองการทำนายที่ฉันพยายามทำนายเหตุการณ์หลาย ๆ เหตุการณ์ (ตัวอย่างเช่นทั้งการตายและการโยนเหรียญ) อัลกอริทึมส่วนใหญ่ที่ฉันคุ้นเคยกับการทำงานกับเป้าหมายเดียวเท่านั้นดังนั้นฉันสงสัยว่ามีวิธีการมาตรฐานสำหรับสิ่งนี้ ฉันเห็นสองตัวเลือกที่เป็นไปได้ บางทีวิธีที่ไร้เดียงสาที่สุดก็คือการปฏิบัติต่อพวกเขาเป็นสองปัญหาที่แตกต่างกันแล้วรวมผลลัพธ์ อย่างไรก็ตามนั่นมีข้อเสียอย่างร้ายแรงเมื่อเป้าหมายทั้งสองนั้นไม่ได้เป็นอิสระ (และในหลาย ๆ กรณีพวกเขาอาจต้องพึ่งพาอย่างมาก ) แนวทางที่เหมาะสมกว่าสำหรับฉันคือการสร้างแอตทริบิวต์เป้าหมายแบบรวม ดังนั้นในกรณีของการตายและเหรียญเราจะมีสถานะ ( , ฯลฯ ) อย่างไรก็ตามสิ่งนี้สามารถนำไปสู่จำนวนของรัฐ / คลาสในเป้าหมายคอมโพสิตที่ค่อนข้างใหญ่ได้อย่างรวดเร็ว (ถ้าเรามี 2 ลูกเต๋าเป็นต้น) นอกจากนี้ดูเหมือนว่าจะแปลกในกรณีที่คุณลักษณะหนึ่งเป็นหมวดหมู่ในขณะที่คนอื่นเป็นตัวเลข (ตัวอย่างเช่นถ้าทำนายอุณหภูมิและประเภทของการเร่งรัด)6⋅2=126⋅2=126\cdot 2=12(1,H),(1,T),(2,H)(1,H),(1,T),(2,H)(1, H), (1, T), (2, H) มีวิธีมาตรฐานในการจัดเรียงของสิ่งนี้หรือไม่? นอกจากนี้ยังมีอัลกอริทึมการเรียนรู้ที่ออกแบบมาเพื่อจัดการกับสิ่งนี้โดยเฉพาะหรือไม่?

2
SVM, การโต้ตอบที่ผันแปรและข้อมูลการฝึกอบรมเหมาะสม
ฉันมีคำถามทั่วไป 2 ข้อขึ้นไป 1) ฉันอยากรู้ว่า SVM จัดการการโต้ตอบของตัวแปรอย่างไรเมื่อสร้างแบบจำลองการทำนาย เช่นถ้าฉันมีคุณสมบัติสองอย่างคือ f1 และ f2 และเป้าหมายนั้นขึ้นอยู่กับ f1, f2 และพูดว่า f1 * f2 (หรือฟังก์ชั่น h (f1, f2)), SVM จะพอดี (ไม่ใช่แค่ OOS แต่ยังอยู่ในข้อมูลการฝึกอบรม) ปรับปรุงเมื่อรวม f1, f2 และ h (f1, f2) ในคุณสมบัติมากกว่าเพียงแค่รวมถึง f1 และ f2? อัลกอริทึม SVM จัดการกับการโต้ตอบกับคุณลักษณะหรือไม่ ดูเหมือนว่าจะเป็นไปตามที่ SVM พยายามสร้างไฮเปอร์เพลนในพื้นที่มิติที่สูงขึ้น แต่ไม่แน่ใจว่าต้องการถามเช่นไร 2) เมื่อทำการติดตั้ง SVM บนข้อมูลการฝึกอบรมให้มีคุณสมบัติเพียงพอและค้นหาพารามิเตอร์ที่เหมาะสม (ผ่านการค้นหาแบบ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.