คำถามติดแท็ก model-selection

การเลือกแบบจำลองเป็นปัญหาในการตัดสินว่าแบบจำลองจากชุดใดมีประสิทธิภาพดีที่สุด วิธีการที่นิยม ได้แก่R2เกณฑ์ AIC และ BIC ชุดทดสอบและการตรวจสอบความถูกต้องข้าม การเลือกคุณสมบัติเป็นส่วนย่อยของการเลือกรุ่น

11
วิธีการเลือกจำนวนของเลเยอร์และโหนดที่ซ่อนอยู่ในเครือข่ายประสาทเทียมไปข้างหน้า?
มีวิธีมาตรฐานและเป็นที่ยอมรับสำหรับการเลือกจำนวนเลเยอร์และจำนวนโหนดในแต่ละเลเยอร์ในเครือข่ายนิวรัลไปข้างหน้าหรือไม่? ฉันสนใจวิธีการสร้างเครือข่ายประสาทอัตโนมัติ

11
มีเหตุผลใดที่จะชอบ AIC หรือ BIC มากกว่าอีก?
AIC และ BIC เป็นทั้งสองวิธีในการประเมินแบบจำลองที่ถูกลงโทษสำหรับจำนวนพารามิเตอร์โดยประมาณ ดังที่ฉันเข้าใจ BIC จะลงโทษโมเดลสำหรับพารามิเตอร์ฟรีมากกว่า AIC นอกเหนือจากการตั้งค่าตามความเข้มงวดของเกณฑ์แล้วมีเหตุผลอื่นอีกไหมที่จะชอบ AIC มากกว่า BIC หรือในทางกลับกัน?

3
จะรู้ได้อย่างไรว่าปัญหาการเรียนรู้เครื่องของคุณสิ้นหวัง?
ลองนึกภาพสถานการณ์การเรียนรู้ของเครื่องมาตรฐาน: คุณกำลังเผชิญหน้ากับชุดข้อมูลหลายตัวแปรขนาดใหญ่และคุณมีความเข้าใจที่ไม่ชัดเจน สิ่งที่คุณต้องทำคือการคาดเดาเกี่ยวกับตัวแปรตามสิ่งที่คุณมี ตามปกติคุณจะต้องล้างข้อมูลดูสถิติเชิงพรรณนาเรียกใช้บางรุ่นตรวจสอบความถูกต้องของข้อมูลเป็นต้น แต่หลังจากผ่านไปหลายครั้งพยายามกลับไปกลับมาและลองใช้แบบจำลองหลาย ๆ แบบซึ่งดูเหมือนว่าจะไม่มีอะไรเกิดขึ้น คุณสามารถใช้เวลาหลายชั่วโมงหลายวันหรือหลายสัปดาห์สำหรับปัญหาดังกล่าว ... คำถามคือเมื่อจะหยุด? คุณจะรู้ได้อย่างไรว่าข้อมูลของคุณสิ้นหวังจริง ๆ และโมเดลแฟนซีทั้งหมดจะไม่ทำให้คุณดีไปกว่าการคาดการณ์ผลลัพธ์เฉลี่ยสำหรับทุกกรณีหรือวิธีแก้ปัญหาเล็กน้อยอื่น ๆ แน่นอนว่านี่เป็นปัญหาการคาดการณ์ แต่เท่าที่ฉันรู้มันยากที่จะประเมินการคาดการณ์สำหรับข้อมูลหลายตัวแปรก่อนที่จะลองทำบางสิ่ง หรือฉันผิด คำเตือน:คำถามนี้ได้รับแรงบันดาลใจจากคำถามนี้ เมื่อไหร่ที่ฉันจะหยุดหานางแบบ? ที่ไม่ดึงดูดความสนใจมาก มันจะดีที่มีคำตอบรายละเอียดสำหรับคำถามดังกล่าวสำหรับการอ้างอิง

8
อัลกอริทึมสำหรับการเลือกรูปแบบอัตโนมัติ
ฉันต้องการใช้อัลกอริทึมสำหรับการเลือกแบบจำลองอัตโนมัติ ฉันกำลังคิดที่จะทำการถดถอยแบบขั้นตอน แต่จะต้องทำทุกอย่าง (จะต้องเป็นไปตามการถดถอยเชิงเส้น) ปัญหาของฉันคือฉันไม่สามารถหาวิธีการหรือการใช้งานโอเพนซอร์ซ (ฉันกำลังใช้ภาษาจาวา) วิธีการที่ฉันมีในใจจะเป็นเช่น: คำนวณเมทริกซ์สหสัมพันธ์ของปัจจัยทั้งหมด เลือกปัจจัยที่มีความสัมพันธ์ต่ำกัน ลบปัจจัยที่มี t-stat ต่ำ เพิ่มปัจจัยอื่น ๆ (ยังคงขึ้นอยู่กับปัจจัยความสัมพันธ์ต่ำที่พบใน 2) ทำซ้ำหลาย ๆ ครั้งจนกว่าเกณฑ์บางอย่าง (เช่น AIC) จะเกินเกณฑ์ที่กำหนดหรือไม่สามารถทำได้หรือเราไม่สามารถหาค่าที่มากขึ้นได้ ฉันรู้ว่ามีการใช้งาน R สำหรับขั้นตอนนี้ (stepAIC) แต่ฉันพบว่ารหัสค่อนข้างเข้าใจยาก นอกจากนี้ฉันไม่สามารถค้นหาบทความที่อธิบายการถดถอยแบบขั้นตอนได้

6
วิธีการเลือกแบบจำลองการทำนายหลังจากการตรวจสอบความถูกต้องข้ามของ k-fold?
ฉันสงสัยว่าจะเลือกแบบจำลองการทำนายได้อย่างไรหลังจากทำการตรวจสอบความถูกต้องข้ามแบบ K-fold นี่อาจเป็นประโยคที่เชื่องช้าดังนั้นให้ฉันอธิบายรายละเอียดเพิ่มเติม: เมื่อใดก็ตามที่ฉันรันการตรวจสอบความถูกต้องข้าม K-fold ฉันใช้ K ชุดย่อยของข้อมูลการฝึกอบรมและจบลงด้วย K โมเดลที่แตกต่างกัน ฉันอยากรู้วิธีเลือกหนึ่งในรุ่น K เพื่อที่ฉันจะได้นำเสนอให้ใครบางคนและพูดว่า "นี่เป็นรุ่นที่ดีที่สุดที่เราสามารถผลิตได้" ตกลงไหมที่จะเลือกรุ่นใดรุ่นหนึ่ง K? หรือมีแนวปฏิบัติที่ดีที่สุดบางประเภทที่เกี่ยวข้องเช่นการเลือกแบบจำลองที่ทำให้เกิดข้อผิดพลาดในการทดสอบค่ามัธยฐาน?

5
การฝึกอบรมกับชุดข้อมูลเต็มรูปแบบหลังจากการตรวจสอบข้าม?
เป็นความคิดที่ดีหรือไม่ที่จะทำการฝึกอบรมกับชุดข้อมูลแบบเต็มหลังจากการตรวจสอบข้าม ? นำไปทางอื่นมันก็โอเคในการฝึกอบรมกับทุกกลุ่มตัวอย่างในชุดของฉันและไม่สามารถที่จะตรวจสอบว่ามีการติดตั้งอุปกรณ์นี้โดยเฉพาะoverfits ? พื้นหลังบางส่วนเกี่ยวกับปัญหา: บอกว่าฉันมีครอบครัวของแบบจำลอง parametrized โดย\บอกฉันด้วยว่าฉันมีชุดของจุดข้อมูลและฉันทำการเลือกแบบจำลองด้วยการตรวจสอบความถูกต้องไขว้ของ k-fold เพื่อเลือกรูปแบบที่ดีที่สุดในการสรุปข้อมูล Nα⃗ α→\vec\alphaNNN สำหรับการเลือกแบบจำลองฉันสามารถทำการค้นหา (เช่นการค้นหากริด) บนโดยตัวอย่างเช่นการรันการตรวจสอบความถูกต้องไขว้กันของ k-fold สำหรับผู้สมัครแต่ละคน ในแต่ละเท่าในการตรวจสอบข้ามผมจบลงด้วยรูปแบบการเรียนรู้ \บีตาอัลฟ่าα⃗ α→\vec\alpha βαβα\beta_\alpha จุดของการตรวจสอบข้ามคือสำหรับแต่ละเท่านี้ฉันสามารถตรวจสอบว่ารูปแบบการเรียนรู้มีมากเกินไปโดยการทดสอบกับ "ข้อมูลที่มองไม่เห็น" ขึ้นอยู่กับผลลัพธ์ฉันสามารถเลือกโมเดลเรียนรู้สำหรับพารามิเตอร์ที่ได้รับการสรุปที่ดีที่สุดระหว่างการตรวจสอบข้ามในการค้นหากริด→ α bestβbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} ตอนนี้บอกว่าหลังจากที่เลือกรูปแบบที่ผมต้องการที่จะใช้ทุกจุดในชุดของฉันและหวังว่าจะได้เรียนรู้รูปแบบที่ดีขึ้น สำหรับวันนี้ผมสามารถใช้พารามิเตอร์ที่สอดคล้องกับรูปแบบที่ผมเลือกระหว่างการเลือกรูปแบบแล้วหลังการฝึกอบรมในชุดข้อมูลที่เต็มผมจะได้รับใหม่ได้เรียนรู้รูปแบบ{เต็ม} ปัญหาคือว่าถ้าฉันใช้คะแนนทั้งหมดในชุดข้อมูลของฉันสำหรับการฝึกอบรม ฉันไม่สามารถตรวจสอบว่าชุดการเรียนรู้แบบใหม่ชุดนี้กับข้อมูลที่มองไม่เห็นหรือไม่ วิธีที่ถูกต้องในการคิดเกี่ยวกับปัญหานี้คืออะไร?→ α b e s t β f u l l β f u l lNNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full}

2
เรารู้มากแค่ไหนเกี่ยวกับการแฮ็ก p-in“ ในป่า”?
วลีp -hacking (เช่น: "data dredging" , "snooping" หรือ "Fishing") หมายถึงการทุจริตต่อหน้าที่ทางสถิติหลายรูปแบบซึ่งผลลัพธ์กลายเป็นนัยสำคัญทางสถิติเชิงประจักษ์ มีหลายวิธีในการจัดหาผลลัพธ์ "ที่สำคัญกว่า" ซึ่งรวมถึง แต่ไม่ จำกัด เพียง: วิเคราะห์เฉพาะชุดย่อย "น่าสนใจ" ของข้อมูลซึ่งพบรูปแบบ ล้มเหลวในการปรับอย่างเหมาะสมสำหรับการทดสอบหลายรายการโดยเฉพาะการทดสอบหลังการทดสอบและความล้มเหลวในการรายงานการทดสอบที่ไม่ได้มีนัยสำคัญ ลองการทดสอบที่แตกต่างกันของสมมติฐานเดียวกันเช่นทั้งการทดสอบแบบพารามิเตอร์และแบบไม่อิงพารามิเตอร์ ( มีการพูดคุยกันในหัวข้อนี้ ) แต่มีการรายงานที่สำคัญที่สุดเท่านั้น ทำการทดลองกับการรวม / แยกจุดข้อมูลจนกว่าจะได้ผลลัพธ์ที่ต้องการ โอกาสครั้งหนึ่งเกิดขึ้นเมื่อ "การทำความสะอาดข้อมูลผิดปกติ" แต่เมื่อใช้คำจำกัดความที่คลุมเครือ (เช่นในการศึกษาทางเศรษฐมิติของ "ประเทศที่พัฒนาแล้ว" คำจำกัดความที่แตกต่างกันทำให้เกิดกลุ่มประเทศที่แตกต่างกัน) หรือเกณฑ์การคัดเลือกเชิงคุณภาพ อาจเป็นข้อโต้แย้งที่สมดุลอย่างละเอียดว่าวิธีการศึกษาเฉพาะนั้นมีความแข็งแกร่งเพียงพอที่จะรวม); ตัวอย่างก่อนหน้านี้เกี่ยวข้องกับการหยุดที่ไม่จำเป็นเช่นการวิเคราะห์ชุดข้อมูลและตัดสินใจว่าจะรวบรวมข้อมูลมากขึ้นหรือไม่ขึ้นอยู่กับข้อมูลที่เก็บจนถึงปัจจุบัน ("นี่เป็นสิ่งสำคัญเกือบจะเป็นไปได้ลองวัดนักเรียนอีกสามคน!") ในการวิเคราะห์ การทดลองระหว่างการปรับตัวแบบจำลองโดยเฉพาะอย่างยิ่ง covariates ที่จะรวม แต่ยังเกี่ยวกับการแปลงข้อมูล / รูปแบบการทำงาน ดังนั้นเราจึงรู้ว่าการแฮ็คpสามารถทำได้ มันมักจะถูกระบุว่าเป็นหนึ่งใน"อันตรายของp-value "และถูกกล่าวถึงในรายงาน ASA เกี่ยวกับนัยสำคัญทางสถิติที่กล่าวถึงที่นี่ในการตรวจสอบข้ามดังนั้นเราจึงรู้ว่ามันเป็นสิ่งที่ไม่ดี …

3
การตรวจสอบความถูกต้องไขว้แบบซ้อนสำหรับการเลือกโมเดล
หนึ่งจะใช้การตรวจสอบข้ามซ้อนสำหรับการเลือกรูปแบบได้อย่างไร จากสิ่งที่ฉันอ่านทางออนไลน์ CV ที่ซ้อนกันทำงานได้ดังต่อไปนี้: มีวง CV ภายในซึ่งเราอาจทำการค้นหากริด (เช่นใช้ K-fold สำหรับทุกรุ่นที่มีเช่นการรวมกันของพารามิเตอร์ / คุณสมบัติ) มีลูป CV ด้านนอกที่เราวัดประสิทธิภาพของโมเดลที่ชนะในโฟลด์ภายในโดยแยกจากภายนอก ในตอนท้ายของกระบวนการนี้เราจบลงด้วยรุ่น (เป็นจำนวนเท่าในวงด้านนอก) โมเดลเหล่านี้เป็นรุ่นที่ได้รับรางวัลในการค้นหากริดภายใน CV ภายในและมีแนวโน้มที่แตกต่างกัน (เช่น SVM ที่มีเมล็ดที่แตกต่างกันได้รับการฝึกฝนด้วยคุณสมบัติที่แตกต่างกันขึ้นอยู่กับการค้นหากริด)เคKKKKKK ฉันจะเลือกรุ่นจากผลลัพธ์นี้ได้อย่างไร สำหรับฉันแล้วการเลือกรุ่นที่ดีที่สุดจากรุ่นชนะนั้นจะไม่เป็นการเปรียบเทียบที่ยุติธรรมเนื่องจากแต่ละรุ่นได้รับการฝึกอบรมและทดสอบในส่วนต่าง ๆ ของชุดข้อมูลKKK ดังนั้นฉันจะใช้ CV ที่ซ้อนกันสำหรับการเลือกรุ่นได้อย่างไร นอกจากนี้ฉันได้อ่านหัวข้อที่พูดถึงการเลือกแบบจำลองที่ซ้อนกันมีประโยชน์สำหรับการวิเคราะห์ขั้นตอนการเรียนรู้ การวิเคราะห์ / ตรวจสอบประเภทใดที่ฉันสามารถทำกับคะแนนที่ฉันได้รับจากการพับ K ภายนอก

14
ทำไมสถิติที่ไม่ทนทาน (และทนทาน) จึงถูกแทนที่ด้วยเทคนิคแบบดั้งเดิม?
เมื่อแก้ปัญหาทางธุรกิจโดยใช้ข้อมูลเป็นเรื่องธรรมดาที่มีสมมติฐานอย่างน้อยหนึ่งข้อที่ว่าสถิติแบบดั้งเดิมไม่ถูกต้อง ส่วนใหญ่ไม่มีใครมารบกวนการตรวจสอบสมมติฐานเหล่านั้นเพื่อให้คุณไม่เคยรู้จริง ตัวอย่างเช่นเมตริกเว็บทั่วไปจำนวนมากจึงเป็น "แบบหางยาว" (สัมพันธ์กับการแจกแจงแบบปกติ) คือตอนนี้มีการบันทึกไว้เป็นอย่างดีเพื่อให้เราได้รับอนุญาต อีกตัวอย่างหนึ่งชุมชนออนไลน์ - แม้ในชุมชนที่มีสมาชิกนับพันก็มีเอกสารครบถ้วนว่าส่วนแบ่งที่ใหญ่ที่สุดของการมีส่วนร่วมในการมีส่วนร่วมในชุมชนเหล่านี้ส่วนใหญ่เป็นของกลุ่มผู้มีอิทธิพลน้อย (เช่นไม่กี่เดือนที่ผ่านมาหลังจากที่ SO API ให้บริการในรุ่นเบต้าสมาชิกStackOverflowเผยแพร่การวิเคราะห์สั้น ๆ จากข้อมูลที่เขาเก็บรวบรวมผ่านทาง API ข้อสรุปของเขา - น้อยกว่าร้อยละหนึ่งของบัญชีสมาชิก SO ส่วนใหญ่ กิจกรรมบน SO (สมมุติว่าถามคำถามและตอบคำถาม) อีก 1-2% คิดเป็นสัดส่วนที่เหลือและสมาชิกส่วนใหญ่ที่ไม่ทำอะไรเลย) การแจกแจงของการเรียงลำดับนั้น - บ่อยครั้งมากกว่ากฎแทนที่จะเป็นข้อยกเว้น - มักถูกสร้างแบบจำลองที่ดีที่สุดด้วยฟังก์ชันความหนาแน่นของกฎกำลังไฟฟ้า สำหรับการแจกแจงแบบนี้แม้แต่ทฤษฎีบทขีด จำกัด กลางก็เป็นปัญหาที่จะนำมาใช้ ดังนั้นเมื่อมีประชากรจำนวนมากเช่นนี้เป็นที่สนใจของนักวิเคราะห์และเนื่องจากรูปแบบคลาสสิกนั้นมีประสิทธิภาพในการแสดงข้อมูลเหล่านี้ได้ไม่ดีนักและเนื่องจากวิธีการที่แข็งแกร่งและทนทานได้เกิดขึ้นมาระยะหนึ่งแล้ว (อย่างน้อย 20 ปี) พวกเขาไม่ได้ใช้บ่อยขึ้นหรือไม่ (ฉันยังสงสัยว่าทำไมฉันไม่ใช้บ่อยขึ้น แต่นั่นไม่ใช่คำถามสำหรับCrossValidated ) ใช่ฉันรู้ว่ามีบทตำราที่อุทิศให้กับสถิติที่มีประสิทธิภาพและฉันรู้ว่ามี (ไม่กี่) R แพ็คเกจ ( robustbaseเป็นสิ่งที่ฉันคุ้นเคยและใช้) เป็นต้น …

5
อะไรคือทางเลือกที่ทันสมัยใช้ง่ายในการถดถอยแบบขั้นตอน
ฉันมีชุดข้อมูลที่มีตัวแปรอิสระประมาณ 30 ตัวและต้องการสร้างโมเดลเชิงเส้นทั่วไป (GLM) เพื่อสำรวจความสัมพันธ์ระหว่างพวกเขากับตัวแปรตาม ฉันรู้ว่าวิธีการที่ฉันถูกสอนสำหรับสถานการณ์นี้ถดถอยแบบขั้นตอนขณะนี้ถือว่าบาปสถิติ ควรใช้วิธีการแบบจำลองที่ทันสมัยในสถานการณ์นี้อย่างไร

6
การเลือกตัวแปรสำหรับการสร้างแบบจำลองการทำนายจำเป็นจริงๆในปี 2559?
คำถามนี้ถูกถามใน CV เมื่อหลายปีที่ผ่านมาดูเหมือนว่ามูลค่าของ repost ในแง่ของ 1) ลำดับความสำคัญของเทคโนโลยีการคำนวณที่ดีกว่า (เช่นการคำนวณแบบขนาน, HPC เป็นต้น) และ 2) เทคนิคที่ใหม่กว่าเช่น [3] ก่อนบริบทบางอย่าง สมมติว่าเป้าหมายไม่ใช่การทดสอบสมมติฐานไม่ใช่การประมาณผล แต่คาดการณ์จากชุดทดสอบที่ไม่เห็น ดังนั้นจะไม่มีการให้น้ำหนักกับผลประโยชน์ใด ๆ ที่สามารถตีความได้ ประการที่สองสมมติว่าคุณไม่สามารถแยกแยะความเกี่ยวข้องของตัวทำนายใด ๆ ในการพิจารณาเรื่องเช่น พวกเขาดูเหมือนจะมีเหตุผลเป็นรายบุคคลหรือใช้ร่วมกับตัวทำนายอื่น ๆ ประการที่สามคุณต้องเผชิญหน้ากับผู้ทำนายหลายล้านคน ข้อที่สี่สมมติว่าคุณมีสิทธิ์เข้าถึง AWS ด้วยงบประมาณไม่ จำกัด ดังนั้นพลังในการคำนวณจึงไม่ใช่ข้อ จำกัด ปกติสำหรับการเลือกตัวแปรคือ 1) ประสิทธิภาพ; เร็วกว่าเพื่อให้พอดีกับโมเดลที่เล็กลงและถูกลงเพื่อรวบรวมตัวทำนายที่น้อยลง, 2) การตีความ; การรู้ตัวแปร "สำคัญ" จะช่วยให้เข้าใจกระบวนการที่เป็นพื้นฐาน [1] ตอนนี้เป็นที่ทราบกันอย่างกว้างขวางว่าวิธีการเลือกตัวแปรหลายวิธีนั้นไม่มีประสิทธิภาพและมักเป็นอันตรายทันที (เช่นการถดถอยแบบขั้นตอนไปข้างหน้า) [2] ประการที่สองถ้าแบบจำลองที่เลือกนั้นดีคุณไม่จำเป็นต้องลดรายชื่อผู้ทำนายเลย แบบจำลองควรทำเพื่อคุณ ตัวอย่างที่ดีคือ lasso ซึ่งกำหนดค่าสัมประสิทธิ์เป็นศูนย์ให้กับตัวแปรที่ไม่เกี่ยวข้องทั้งหมด …

2
ทำไมต้องมีสามพาร์ติชั่นเท่านั้น? (การฝึกอบรมการตรวจสอบการทดสอบ)
เมื่อคุณพยายามที่จะจัดให้โมเดลเข้ากับชุดข้อมูลขนาดใหญ่คำแนะนำทั่วไปคือการแบ่งพาร์ติชันข้อมูลออกเป็นสามส่วน ได้แก่ การฝึกอบรมการตรวจสอบความถูกต้องและชุดข้อมูลการทดสอบ นี่เป็นเพราะโมเดลมักจะมี "ระดับ" ของพารามิเตอร์สามตัว: "พารามิเตอร์" ตัวแรกคือคลาสโมเดล (เช่น SVM, โครงข่ายประสาทเทียม, ฟอเรสต์แบบสุ่ม) ชุดพารามิเตอร์ที่สองคือพารามิเตอร์ "การทำให้เป็นมาตรฐาน" หรือ " เช่นค่าสัมประสิทธิ์การลงโทษบ่วงบาศเลือกเคอร์เนลโครงข่ายโครงข่ายประสาทเทียม) และเซตที่สามคือสิ่งที่มักจะพิจารณาว่า "พารามิเตอร์" (เช่นค่าสัมประสิทธิ์สำหรับ covariates) เมื่อกำหนดคลาสของโมเดลและตัวเลือกพารามิเตอร์หลายตัวพารามิเตอร์หนึ่งจะเลือกโดยการเลือกพารามิเตอร์ที่ช่วยลดข้อผิดพลาดในชุดฝึกอบรม เมื่อกำหนดคลาสของโมเดลหนึ่งจะทำไฮเปอร์พารามิเตอร์โดยย่อข้อผิดพลาดให้น้อยที่สุดในชุดการตรวจสอบความถูกต้อง มีการเลือกคลาสรุ่นตามประสิทธิภาพในชุดทดสอบ แต่ทำไมไม่แบ่งพาร์ติชันเพิ่มเติม? บ่อยครั้งที่ใครคนหนึ่งสามารถแบ่งพารามิเตอร์หลายตัวเป็นสองกลุ่มและใช้ "การตรวจสอบ 1" เพื่อให้พอดีกับที่หนึ่งและ "การตรวจสอบที่ 2" เพื่อให้พอดีกับที่สอง หรืออย่างใดอย่างหนึ่งก็สามารถรักษาขนาดของข้อมูลการฝึกอบรม / ข้อมูลการตรวจสอบแยกเป็นพารามิเตอร์ที่จะปรับ นี่เป็นวิธีปฏิบัติทั่วไปในบางแอปพลิเคชันหรือไม่ มีทฤษฎีใดบ้างเกี่ยวกับการแบ่งพาร์ติชั่นข้อมูลที่ดีที่สุด?

2
การอภิปรายที่ชัดเจนยิ่งขึ้นของการเลือกตัวแปร
พื้นหลัง ฉันกำลังทำวิจัยทางคลินิกด้านการแพทย์และมีหลักสูตรสถิติหลายหลักสูตร ฉันไม่เคยตีพิมพ์บทความโดยใช้การถดถอยเชิงเส้น / โลจิสติกและต้องการเลือกตัวแปรอย่างถูกต้อง การตีความเป็นสิ่งสำคัญดังนั้นจึงไม่มีเทคนิคการเรียนรู้ด้วยเครื่อง ฉันได้สรุปความเข้าใจของฉันเกี่ยวกับการเลือกตัวแปร - บางคนจะมีจิตใจที่เข้าใจถึงความเข้าใจผิด ๆ ผมพบว่าสอง (1) ที่คล้ายกัน (2) โพสต์ CV ให้เป็นหนึ่งในนี้ แต่พวกเขาไม่ได้ค่อนข้างเต็มที่ตอบข้อสงสัยของฉัน ความคิดใด ๆ ที่จะได้รับการชื่นชมมาก! ฉันมี 3 คำถามหลักในตอนท้าย ปัญหาและการสนทนา ปัญหาการถดถอย / การจำแนกประเภทโดยทั่วไปของฉันมีการสังเกต 200-300 ครั้งอัตราการเกิดเหตุการณ์ไม่พึงประสงค์ 15% (หากการจำแนก) และข้อมูลเกี่ยวกับตัวแปร 25 จาก 40 ที่อ้างว่ามีผลกระทบ "นัยสำคัญทางสถิติ" ในวรรณคดีหรือทำให้น่าเชื่อถือ ความรู้สึกโดยโดเมนความรู้ ฉันใส่ "นัยสำคัญทางสถิติ" ในเครื่องหมายคำพูดเพราะดูเหมือนว่าทุกคนและแม่ของพวกเขาใช้การถดถอยแบบขั้นตอน แต่Harrell (3) และFlom (4) ดูเหมือนจะไม่ชอบด้วยเหตุผลหลายประการ สิ่งนี้ได้รับการสนับสนุนเพิ่มเติมจากการสนทนาโพสต์บล็อกของ Gelman …

3
AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - ฉันสามารถใช้มันแทนกันได้หรือไม่?
บนหน้า 34 ของPRNN Brian Ripley ให้ความเห็นว่า "The AIC ได้รับการตั้งชื่อโดย Akaike (1974) ว่าเป็น 'An Information Criterion' ถึงแม้ว่าดูเหมือนว่าโดยทั่วไปเชื่อว่า A ย่อมาจาก Akaike" แน่นอนเมื่อแนะนำสถิติ AIC, Akaike (1974, p.719) อธิบายว่า "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". พิจารณาใบเสนอราคานี้เป็นคำทำนายที่ทำในปี 1974 เป็นที่น่าสนใจที่จะทราบว่าในเวลาเพียงสี่ปีสองประเภทของสถิติ BIC (Bayesian IC) ถูกเสนอโดย …

3
ตัวแบบเชิงเส้นพร้อมการตอบสนองแบบแปลงรูปเทียบกับแบบจำลองเชิงเส้นแบบทั่วไปพร้อมลิงค์บันทึก
ในบทความนี้มีชื่อว่า "การเลือกรุ่นเชิงเส้นในแบบฉบับที่นำไปใช้กับข้อมูลทางการแพทย์" ผู้เขียนเขียน: ในโมเดลเชิงเส้นทั่วไปค่าเฉลี่ยถูกเปลี่ยนโดยฟังก์ชันลิงก์แทนที่จะเปลี่ยนการตอบสนองเอง การเปลี่ยนแปลงสองวิธีสามารถนำไปสู่ผลลัพธ์ที่แตกต่างกันมาก ตัวอย่างเช่น ค่าเฉลี่ยของการตอบสนองการเข้าสู่ระบบเปลี่ยนไม่ได้เช่นเดียวกับลอการิทึมของการตอบสนองเฉลี่ย โดยทั่วไปแล้วอดีตไม่สามารถแปลงเป็นคำตอบที่หมายถึงได้ง่าย ดังนั้นการแปลงค่าเฉลี่ยจึงทำให้สามารถตีความผลลัพธ์ได้ง่ายขึ้นโดยเฉพาะในพารามิเตอร์ค่าเฉลี่ยนั้นยังคงอยู่ในระดับเดียวกับการตอบสนองที่วัดได้ ดูเหมือนว่าพวกเขาแนะนำการปรับให้เหมาะสมของโมเดลเชิงเส้นทั่วไป (GLM) พร้อมกับลิงค์บันทึกแทนที่จะเป็นโมเดลเชิงเส้น (LM) พร้อมการตอบกลับที่เปลี่ยนรูปแบบ ฉันไม่เข้าใจถึงข้อดีของวิธีการนี้และดูเหมือนว่าผิดปกติสำหรับฉัน ตัวแปรตอบสนองของฉันดูเหมือนกระจายตามปกติ ฉันได้รับผลลัพธ์ที่คล้ายกันในแง่ของค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานด้วยวิธีใดวิธีหนึ่ง ฉันยังคงสงสัยว่า: ถ้าตัวแปรมีการแจกแจงแบบล็อกปกติไม่ใช่ค่าเฉลี่ยของตัวแปรที่แปลงล็อกซึ่งดีกว่าล็อกของตัวแปรที่ไม่ถูกแปลงค่าเฉลี่ยเนื่องจากค่าเฉลี่ยคือการสรุปปกติของการแจกแจงแบบปกติและล็อก - ตัวแปรแปรผันมีการกระจายตามปกติในขณะที่ตัวแปรตัวเองไม่ได้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.