คำถามติดแท็ก validation

กระบวนการประเมินว่าผลลัพธ์ของการวิเคราะห์นั้นมีแนวโน้มที่จะอยู่นอกเหนือการตั้งค่าการวิจัยดั้งเดิมหรือไม่ อย่าใช้แท็กนี้เพื่อพูดคุยเกี่ยวกับ 'ความถูกต้อง' ของการวัดหรือเครื่องมือ (เช่นการวัดสิ่งที่มันอ้างถึง) ใช้แท็ก [ความถูกต้อง] แทน

1
logloss vs gini / auc
ฉันได้ฝึกสองรุ่น (ตัวแยกประเภทไบนารีโดยใช้ h2o AutoML) และฉันต้องการเลือกหนึ่งตัวที่จะใช้ ฉันมีผลลัพธ์ต่อไปนี้: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucและloglossคอลัมน์ที่เป็นตัวชี้วัดการตรวจสอบข้าม (การตรวจสอบข้ามใช้เฉพาะข้อมูลการฝึกอบรม) พบ..._trainและ..._validตัวชี้วัดโดยการเรียกใช้การฝึกอบรมและการตรวจสอบความถูกต้องผ่านรูปแบบตามลำดับ ฉันต้องการใช้logloss_validหรือgini_validเพื่อเลือกรุ่นที่ดีที่สุด รุ่น 1 มี gini ที่ดีกว่า (เช่น AUC ที่ดีขึ้น) แต่รุ่นที่สองมี logloss ที่ดีกว่า คำถามของฉันคือแบบใดที่ฉันจะเลือกซึ่งฉันคิดว่าจะเป็นคำถามอะไรคือข้อดี / ข้อเสียของการใช้ gini (AUC) หรือ logloss เพื่อการตัดสินใจ

1
เมื่อสร้างแบบจำลองการถดถอยโดยใช้ชุดการสร้างแบบจำลอง / การตรวจสอบความถูกต้องแยกเป็นสัดส่วนแล้วมันเหมาะสมหรือไม่ที่จะ "หมุนเวียน" ข้อมูลการตรวจสอบความถูกต้อง?
สมมติว่าฉันมีการแบ่ง 80/20 ระหว่างการสร้างแบบจำลอง / การตรวจสอบความถูกต้อง ฉันพอดีกับแบบจำลองกับชุดข้อมูลการสร้างแบบจำลองและฉันพอใจกับข้อผิดพลาดที่ฉันเห็นในชุดข้อมูลการตรวจสอบความถูกต้อง ก่อนที่ฉันจะนำเสนอโมเดลของฉันสำหรับการทำคะแนนการสังเกตการณ์ในอนาคตมีความเหมาะสมหรือไม่ที่จะรวมการตรวจสอบกลับกับข้อมูลการสร้างแบบจำลองเพื่อรับการประมาณค่าพารามิเตอร์ที่อัปเดตกับข้อมูล 100% ฉันได้ยินสองมุมมองเกี่ยวกับเรื่องนี้: การตรวจสอบความถูกต้องที่ฉันดำเนินการคือการตรวจสอบความถูกต้องของโครงสร้างแบบจำลองนั่นคือชุดของตัวทำนายและการแปลงที่ฉันใช้ มันไม่สมเหตุสมผลเลยที่จะทิ้งข้อมูล 20% ของฉันไว้ในตารางเมื่อฉันสามารถใช้เพื่อปรับปรุงการประมาณของฉัน การตรวจสอบความถูกต้องที่ฉันดำเนินการส่วนหนึ่งเป็นการตรวจสอบความถูกต้องของพารามิเตอร์ประมาณการที่ฉันคำนวณในชุดข้อมูลการสร้างแบบจำลองของฉัน หากฉันอัปเดตโมเดลพอดีฉันได้เปลี่ยนค่าประมาณและฉันไม่มีวิธีที่มีวัตถุประสงค์เพื่อทดสอบประสิทธิภาพของโมเดลที่อัปเดตแล้ว ฉันเคยตามอาร์กิวเมนต์ # 1 เสมอ แต่ไม่นานมานี้ฉันได้ยินคนหลายคนโต้แย้ง # 2 ฉันต้องการที่จะเห็นสิ่งที่คนอื่นคิดเกี่ยวกับเรื่องนี้ คุณเคยเห็นการสนทนาที่ดีในวรรณคดีหรือที่อื่น ๆ ในหัวข้อนี้หรือไม่?

3
เหตุใดจึงไม่มีวิธีการพัก (การแยกข้อมูลเป็นการฝึกอบรมและการทดสอบ) ที่ใช้ในสถิติแบบดั้งเดิม
ในห้องเรียนของฉันเกี่ยวกับ data mining วิธี holdout ถูกนำเสนอเป็นวิธีการประเมินประสิทธิภาพของแบบจำลอง อย่างไรก็ตามเมื่อฉันเข้าชั้นเฟิสต์คลาสของฉันในโมเดลเชิงเส้นนี่ไม่ได้ถูกนำมาใช้เป็นวิธีการตรวจสอบความถูกต้องของแบบจำลอง การวิจัยออนไลน์ของฉันยังไม่แสดงจุดแยก เหตุใดจึงไม่ใช้วิธีการพักในสถิติแบบดั้งเดิม

1
ชื่อของอะนาล็อกข้อผิดพลาดแบบสัมบูรณ์ถึงคะแนน Brier หรือไม่?
คำถามเมื่อวานนี้กำหนดความแม่นยำของแบบจำลองซึ่งประมาณความน่าจะเป็นของเหตุการณ์ทำให้ฉันสงสัยเกี่ยวกับการให้คะแนนความน่าจะเป็น หนามคะแนน เป็นตัวชี้วัดข้อผิดพลาดเฉลี่ยกำลังสอง การวัดประสิทธิภาพข้อผิดพลาดแบบอะนาล็อกหมายความว่าแบบอะนา มีชื่อด้วยใช่ไหม11ยังไม่มีข้อความΣi = 1ยังไม่มีข้อความ( p r e dฉันคทีฉันo nผม- r e fe r e n c eผม)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1ยังไม่มีข้อความΣi = 1ยังไม่มีข้อความ| predฉันคทีฉันo nผม- r e fe r e n c eผม|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i|

3
แบ่งข้อมูลอนุกรมเวลาออกเป็นชุดการฝึกอบรม / ทดสอบ / การตรวจสอบความถูกต้อง
อะไรคือวิธีที่ดีที่สุดในการแบ่งข้อมูลอนุกรมเวลาออกเป็นชุดรถไฟ / ทดสอบ / การตรวจสอบความถูกต้องซึ่งจะใช้ชุดการตรวจสอบความถูกต้องสำหรับการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ เรามีข้อมูลการขายรายวัน 3 ปีและแผนของเราคือใช้ข้อมูลการฝึกอบรม 2015-2016 จากนั้นสุ่มตัวอย่าง 10 สัปดาห์จากข้อมูล 2017 เพื่อใช้เป็นชุดการตรวจสอบและอีก 10 สัปดาห์จากข้อมูล 2017 สำหรับ ชุดทดสอบ จากนั้นเราจะเดินหน้าในแต่ละวันในชุดทดสอบและการตรวจสอบความถูกต้อง

2
อัตราความผิดพลาดเป็นฟังก์ชันนูนของแลมบ์ดาของพารามิเตอร์การทำให้เป็นมาตรฐานหรือไม่?
ในการเลือก lambda พารามิเตอร์การทำให้เป็นมาตรฐานใน Ridge หรือ Lasso วิธีที่แนะนำคือลองค่า lambda ที่แตกต่างกัน, วัดข้อผิดพลาดใน Validation Set และสุดท้ายเลือกค่าของ lambda ที่ส่งกลับข้อผิดพลาดต่ำสุด มันไม่ได้เป็นคลีตสำหรับฉันถ้าฟังก์ชั่น f (lambda) = error คือ Convex มันเป็นอย่างนี้ได้ไหม? นั่นคือเส้นโค้งนี้มีมากกว่าหนึ่ง minima ท้องถิ่น (ซึ่งจะบอกเป็นนัยว่าการหาข้อผิดพลาดขั้นต่ำในบางพื้นที่ของแลมบ์ดาไม่ได้จำกัดความเป็นไปได้ที่ในบางภูมิภาคอื่น ๆ จะมีแลมบ์ดาที่กลับมา คำแนะนำของคุณจะได้รับการชื่นชม

1
สัญชาตญาณของการแปรผันของข้อมูล (VI) สำหรับการตรวจสอบความถูกต้องของคลัสเตอร์คืออะไร
สำหรับนักสถิติที่ไม่ใช่ฉันมันยากมากที่จะจับความคิดของVIตัวชี้วัด (การเปลี่ยนแปลงของข้อมูล) แม้หลังจากอ่านบทความที่เกี่ยวข้องโดย Marina Melia "การเปรียบเทียบการจัดกลุ่ม - ระยะทางตามข้อมูล " (วารสารการวิเคราะห์หลายตัวแปร 2007) ในความเป็นจริงฉันไม่คุ้นเคยกับคำศัพท์หลาย ๆ ด้านล่างคือ MWE และฉันต้องการทราบว่าผลลัพธ์หมายถึงอะไรในการวัดต่างๆที่ใช้ ฉันมีสองกลุ่มนี้ใน R และใน ID เดียวกัน: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, …

1
ตัวชี้วัดการประเมินผลการทำนายสำหรับข้อมูลแผง / ยาว
ฉันต้องการประเมินแบบจำลองต่างๆที่ให้การคาดการณ์พฤติกรรมในระดับรายเดือน ข้อมูลมีความสมดุลและ 100,000 และ 12 ผลลัพธ์คือการเข้าร่วมคอนเสิร์ตในเดือนที่กำหนดดังนั้นจึงเป็นศูนย์สำหรับ ~ 80% ของผู้คนในเดือนใด ๆ แต่มีผู้ใช้งานจำนวนมาก การคาดการณ์ที่ฉันไม่ได้ดูเหมือนจะเคารพธรรมชาติการนับของผลลัพธ์: คอนเสิร์ตที่เป็นเศษส่วนนั้นแพร่หลายn=n=n=T=T=T= ฉันไม่รู้อะไรเกี่ยวกับแบบจำลอง ฉันสังเกตการคาดการณ์กล่องดำ 6 แบบที่แตกต่างกันสำหรับแต่ละคนต่อเดือน ฉันมีข้อมูลเพิ่มเติมอีกหนึ่งปีที่ผู้สร้างแบบจำลองไม่ได้มีไว้สำหรับการประเมิน (แม้ว่าผู้ชมคอนเสิร์ตจะยังคงเหมือนเดิม) และฉันอยากจะวัดว่าแต่ละคนทำงานได้ดีแค่ไหน (ในแง่ของความแม่นยำและความแม่นยำ) ตัวอย่างเช่นแบบจำลองบางแบบทำนายผลได้ดีสำหรับผู้ที่มาชมคอนเสิร์ตบ่อยครั้ง แต่ล้มเหลวในการทานมันฝรั่งหรือไม่? การทำนายเดือนมกราคมดีกว่าการคาดการณ์ในเดือนธันวาคมหรือไม่? หรือจะเป็นการดีถ้าได้รู้ว่าการคาดคะเนทำให้ฉันสามารถจัดอันดับคนได้อย่างถูกต้องตามความเป็นจริงแม้ว่าขนาดที่แน่นอนไม่น่าเชื่อถือy^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 ความคิดแรกของฉันคือการเรียกใช้ผลกระทบคงที่ของจริงในการคาดการณ์และเวลาหุ่นและดู RMSEs หรือสำหรับแต่ละรุ่น แต่นั่นไม่ได้ตอบคำถามเกี่ยวกับว่าแต่ละรุ่นทำงานได้ดีหรือไม่หรือถ้าความแตกต่างนั้นสำคัญ (เว้นแต่ฉันจะบูต RMSE) การกระจายของผลลัพธ์ยังทำให้ฉันกังวลด้วยวิธีนี้R2R2R^2 ความคิดที่สองของฉันคือการทิ้งผลลัพธ์ลงใน 0, 1-3 และ 3+ และคำนวณเมทริกซ์ความสับสน แต่สิ่งนี้จะละเว้นมิติเวลายกเว้นว่าฉันทำ 12 ข้อเหล่านี้ มันก็ค่อนข้างหยาบ ฉันตระหนักถึงคำสั่ง Stata concordโดย TJ Steichen และ …

3
การตรวจสอบความสอดคล้องคืออะไร?
ฉันถูกถามคำถามเช่น "คุณตรวจสอบความสอดคล้องในงานประจำวันของคุณหรือไม่" ระหว่างการสัมภาษณ์ทางโทรศัพท์สำหรับตำแหน่งนักชีวสถิติ ฉันไม่รู้จะตอบยังไง ข้อมูลใด ๆ ที่มีความนิยม
11 validation 

2
วิธีสร้างตัวอย่างตัวแทนจากชุดข้อมูลขนาดใหญ่โดยรวม
เทคนิคทางสถิติในการสร้างชุดตัวอย่างซึ่งเป็นตัวแทนของประชากรทั้งหมด (ด้วยระดับความเชื่อมั่นที่รู้จักกัน) คืออะไร? นอกจากนี้ วิธีการตรวจสอบถ้าตัวอย่างที่ตรงกับชุดข้อมูลโดยรวม? เป็นไปได้หรือไม่หากไม่แยกชุดข้อมูลทั้งหมด (ซึ่งอาจเป็นหลายพันล้านรายการ)

2
Optimism bias - การประเมินความผิดพลาดโดยประมาณ
หนังสือองค์ประกอบของการเรียนรู้เชิงสถิติ (มีให้ใน PDF ออนไลน์) กล่าวถึงอคติที่เหมาะสม (7.21, หน้า 229) มันระบุว่าอคติในแง่ดีคือความแตกต่างระหว่างข้อผิดพลาดการฝึกอบรมและข้อผิดพลาดในตัวอย่าง (ข้อผิดพลาดสังเกตว่าถ้าเราตัวอย่างค่าผลลัพธ์ใหม่ที่แต่ละจุดฝึกอบรมเดิม) (ต่อด้านล่าง) ถัดไปจะระบุอคติเชิงบวกนี้ ( ) เท่ากับความแปรปรวนร่วมของค่า y ที่เราประมาณและค่า y ที่แท้จริง (สูตรต่อด้านล่าง) ฉันมีปัญหาในการทำความเข้าใจว่าทำไมสูตรนี้บ่งบอกถึงการมองในแง่ดี อย่างไร้เดียงสาฉันจะคิดว่าความแปรปรวนร่วมที่แข็งแกร่งระหว่างจริงและทำนายเพียงอธิบายความถูกต้อง - ไม่มองในแง่ดี แจ้งให้เราทราบหากมีคนสามารถช่วยได้มาของสูตรหรือแบ่งปันสัญชาตญาณ ωω\omegayyyyyy

4
การคำนวณอัตราส่วนของข้อมูลตัวอย่างที่ใช้สำหรับการปรับแบบจำลอง / การฝึกอบรมและการตรวจสอบความถูกต้อง
ระบุขนาดตัวอย่าง "N" ที่ฉันวางแผนจะใช้ในการคาดการณ์ข้อมูล มีวิธีใดบ้างในการแบ่งข้อมูลเพื่อให้ฉันใช้บางวิธีเพื่อสร้างแบบจำลองและข้อมูลส่วนที่เหลือเพื่อตรวจสอบความถูกต้องของแบบจำลอง ฉันรู้ว่าไม่มีคำตอบขาวดำสำหรับเรื่องนี้ แต่มันน่าสนใจที่จะรู้ "กฎง่ายๆ" หรืออัตราส่วนที่ใช้ ฉันรู้จักมหาวิทยาลัยอีกครั้งหนึ่งในอาจารย์ของเราเคยพูดแบบจำลอง 60% และตรวจสอบความถูกต้อง 40%
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.