คำถามเชิงปรัชญาเกี่ยวกับการถดถอยโลจิสติก: เหตุใดค่าเกณฑ์ที่เหมาะสมที่สุดจึงไม่ผ่านการฝึกอบรม


13

โดยปกติแล้วในการถดถอยโลจิสติกเราพอดีแบบและได้รับการคาดการณ์ในชุดการฝึกอบรม จากนั้นเราจะตรวจสอบความถูกต้องของการคาดการณ์การฝึกอบรมเหล่านี้ (บางอย่างเช่นที่นี่ ) และตัดสินใจค่าเกณฑ์ที่เหมาะสมโดยพิจารณาจาก ROC curve

ทำไมเราไม่รวมการตรวจสอบข้ามเขตแดนเข้ากับรูปแบบที่แท้จริงและฝึกอบรมทุกสิ่งตั้งแต่ต้นจนจบ

คำตอบ:


19

เกณฑ์ไม่ได้รับการฝึกอบรมที่มีรูปแบบเพราะถดถอยโลจิสติไม่ได้แยกประเภท (cf, ทำไมไม่ถดถอยโลจิสติเรียกว่าโลจิสติกการจัดประเภท? ) มันเป็นแบบจำลองในการประมาณค่าพารามิเตอร์ซึ่งควบคุมพฤติกรรมของการแจกแจงเบอร์นูลลี นั่นคือคุณกำลังสมมติว่าการกระจายการตอบสนองตามเงื่อนไขบน covariates คือ Bernoulli และคุณต้องการประเมินว่าพารามิเตอร์ที่ควบคุมตัวแปรนั้นเปลี่ยนแปลงเป็นฟังก์ชันของ covariates อย่างไร มันเป็นรูปแบบที่น่าจะเป็นทางตรงเท่านั้น แน่นอนมันสามารถใช้เป็นตัวจําแนกในภายหลังและบางครั้งอยู่ในบริบทบางอย่าง แต่ก็ยังคงเป็นแบบจำลองความน่าจะเป็น p


1
โอเคฉันเข้าใจส่วนหนึ่งของทฤษฎีนั้น (ขอบคุณสำหรับคำอธิบายฝีปากนั้น!) แต่ทำไมเราไม่สามารถรวมการจัดหมวดหมู่ไว้ในแบบจำลองได้ นั่นคือเหตุผลที่เราไม่สามารถหา p จากนั้นหาเกณฑ์และฝึกอบรมทั้งหมดตั้งแต่ต้นจนจบเพื่อลดการสูญเสียบางส่วน?
StatsSorceress

4
คุณทำได้อย่างแน่นอน( คำตอบของ @Sycorax พูดถึงความเป็นไปได้นั้น) แต่เนื่องจากนั่นไม่ใช่สิ่งที่ตัวเองเป็น LR แต่เป็นการเพิ่มการเฉพาะกิจบางอย่างคุณจะต้องเขียนรหัสการเพิ่มประสิทธิภาพแบบเต็มรูปแบบด้วยตัวเอง หมายเหตุ BTW ซึ่ง Frank Harrell ได้ชี้ให้เห็นว่ากระบวนการนี้จะนำไปสู่สิ่งที่อาจได้รับการพิจารณาว่าเป็นแบบจำลองที่ด้อยกว่าในหลายมาตรฐาน
gung - Reinstate Monica

1
อืมมม ฉันอ่านคำตอบที่ได้รับการยอมรับในคำถามที่เกี่ยวข้องที่นี่และฉันเห็นด้วยกับมันในทางทฤษฎี แต่บางครั้งในแอปพลิเคชันการจัดหมวดหมู่การเรียนรู้ของเครื่องเราไม่สนใจประเภทข้อผิดพลาดสัมพัทธ์เราแค่สนใจ ในกรณีนี้คุณสามารถฝึกอบรมแบบตัวต่อตัวตามที่ฉันอธิบายได้ไหม
StatsSorceress

4
ดังที่ฉันได้กล่าวไปแล้วคุณสามารถตั้งค่าการเพิ่มประสิทธิภาพที่กำหนดเองของคุณเองซึ่งจะฝึกโมเดลและเลือกเกณฑ์พร้อมกัน คุณต้องทำด้วยตัวเองและโมเดลสุดท้ายน่าจะแย่กว่ามาตรฐานส่วนใหญ่
gung - Reinstate Monica

1
@StatsSorceress "... บางครั้งอยู่ในการจัดหมวดหมู่การเรียนรู้ของเครื่อง ... " ในบางครั้งควรมีการเน้นย้ำอย่างมาก เป็นการยากที่จะจินตนาการถึงโครงการที่ความแม่นยำเป็นคำตอบที่ถูกต้อง จากประสบการณ์ของฉันมันมักเกี่ยวข้องกับความแม่นยำและความทรงจำของชนกลุ่มน้อย
Wayne

15

เป็นเพราะขีด จำกัด ที่เหมาะสมไม่เพียง แต่เป็นฟังก์ชันของอัตราบวกจริง (TPR), อัตราบวกปลอม (FPR), ความแม่นยำหรืออย่างอื่น ส่วนผสมสำคัญอื่น ๆ ที่เป็นค่าใช้จ่ายและผลตอบแทนของการที่ถูกต้องและไม่ถูกต้องในการตัดสินใจ

หากเป้าหมายของคุณเป็นหวัดธรรมดาการตอบสนองของคุณต่อการทดสอบเชิงบวกคือกำหนดแอสไพรินสองตัวและค่าใช้จ่ายของการบวกที่ไม่ได้รับการรักษาที่แท้จริงคืออาการปวดศีรษะที่ไม่จำเป็นสองวันจากนั้นการตัดสินใจที่ดีที่สุด แตกต่างจากถ้าเป้าหมายของคุณเป็นโรคที่คุกคามชีวิตและการตัดสินใจของคุณคือ (a) ขั้นตอนที่ค่อนข้างง่ายเช่นการผ่าตัดไส้ติ่งหรือ (b) การแทรกแซงที่สำคัญเช่นเคมีบำบัดเป็นเวลาหลายเดือน! และโปรดทราบว่าแม้ว่าตัวแปรเป้าหมายของคุณอาจเป็นแบบไบนารี (ป่วย / ดีต่อสุขภาพ) การตัดสินใจของคุณอาจมีค่ามากขึ้น (ส่งบ้านที่มีแอสไพรินสองตัว / ทำการทดสอบเพิ่มเติม / ยอมรับมากขึ้นที่โรงพยาบาลและเฝ้าดู / ทำงานทันที)

Bottom line: หากคุณทราบโครงสร้างต้นทุนและการตัดสินใจที่แตกต่างกันทั้งหมดคุณสามารถฝึกอบรมระบบสนับสนุนการตัดสินใจ (DSS) ได้โดยตรงซึ่งรวมถึงการจำแนกประเภทความน่าจะเป็นหรือการทำนาย อย่างไรก็ตามฉันขอยืนยันว่าการคาดการณ์หรือการจำแนกประเภทที่แยกแยะผ่านเกณฑ์นั้นไม่ใช่วิธีที่เหมาะสมในการทำเช่นนี้

ดูเพิ่มเติมคำตอบของฉันก่อนหน้านี้ "การจำแนกประเภทความน่าจะเป็นเกณฑ์" ด้าย หรือคำตอบของฉันนี้ หรือที่หนึ่ง


4

ความกังวลทางปรัชญากันนี้จะทำให้เกิดปัญหาในการคำนวณ

เหตุผลก็คือฟังก์ชั่นที่มีเอาต์พุตต่อเนื่องนั้นค่อนข้างง่ายในการปรับให้เหมาะสม คุณมองหาทิศทางที่ฟังก์ชั่นเพิ่มขึ้นแล้วไปในทิศทางนั้น หากเราเปลี่ยนฟังก์ชั่นการสูญเสียของเราเพื่อรวมขั้นตอน "การตัดออก" ผลลัพธ์ของเราจะไม่ต่อเนื่องดังนั้นฟังก์ชันการสูญเสียของเราจึงไม่ต่อเนื่อง ตอนนี้เมื่อเราเปลี่ยนพารามิเตอร์ของฟังก์ชันลอจิสติกของเราด้วย "นิด ๆ หน่อย ๆ " และร่วมกันเปลี่ยนค่า cutoff ด้วย "นิด ๆ หน่อย ๆ " การสูญเสียของเราให้ค่าที่เหมือนกันและการเพิ่มประสิทธิภาพกลายเป็นเรื่องยาก แน่นอนว่าเป็นไปไม่ได้ (มีสาขาวิชาทั้งหมดในการเพิ่มประสิทธิภาพแบบไม่ต่อเนื่อง ) แต่การเพิ่มประสิทธิภาพอย่างต่อเนื่องก็ยังห่างไกลปัญหาที่ง่ายขึ้นในการแก้ไขเมื่อคุณเพิ่มประสิทธิภาพพารามิเตอร์จำนวนมาก สะดวกเมื่อแบบโลจิสติกส์พอดีการค้นหา cutoff ที่ดีที่สุดแม้ว่ายังคงเป็นปัญหาของการส่งออกที่ไม่ต่อเนื่องตอนนี้เป็นเพียงตัวแปรเดียวและเราสามารถทำการค้นหากริดหรือบางอย่างซึ่งสามารถทำงานได้ในตัวแปรเดียว


3

โดยไม่คำนึงถึงโมเดลพื้นฐานเราสามารถคำนวณการแจกแจงการสุ่มตัวอย่างของ TPR และ FPR ได้ที่ขีด จำกัด นี่ก็หมายความว่าเราสามารถจำแนกลักษณะความแปรปรวนใน TPR และ FPR ที่ขีด จำกัด บางอย่างและเราสามารถกลับสู่การแลกเปลี่ยนอัตราข้อผิดพลาดที่ต้องการ

เส้นโค้ง ROC นั้นหลอกลวงเล็กน้อยเพราะสิ่งเดียวที่คุณควบคุมคือขีด จำกัด อย่างไรก็ตามพล็อตแสดง TPR และ FPR ซึ่งเป็นฟังก์ชันของเกณฑ์ นอกจากนี้ TPR และ FPR เป็นสถิติทั้งสองดังนั้นพวกเขาจึงอยู่ภายใต้ความหลากหลายของการสุ่มตัวอย่าง นี่ก็หมายความว่าถ้าคุณต้องทำซ้ำขั้นตอน (พูดโดยการตรวจสอบข้าม) คุณสามารถเกิดขึ้นกับ FPR และ TPR ที่แตกต่างกันที่ค่าเกณฑ์บางอย่างที่เฉพาะเจาะจง

อย่างไรก็ตามหากเราสามารถประเมินความแปรปรวนใน TPR และ FPR ดังนั้นไม่จำเป็นต้องทำซ้ำขั้นตอน ROC เราเพิ่งเลือกขีด จำกัด ที่จุดสิ้นสุดของช่วงความมั่นใจ (ที่มีความกว้าง) จะยอมรับได้ นั่นคือเลือกโมเดลเพื่อให้ FPR มีความน่าเชื่อถือต่ำกว่าค่าสูงสุดที่นักวิจัยระบุไว้และ / หรือ TPR นั้นมีค่าสูงกว่าค่าต่ำสุดที่นักวิจัยระบุ หากแบบจำลองของคุณไม่สามารถบรรลุเป้าหมายของคุณคุณจะต้องสร้างแบบจำลองที่ดีกว่า

แน่นอนว่าค่า TPR และ FPR ใดที่สามารถยอมรับได้ในการใช้งานของคุณจะขึ้นอยู่กับบริบท

สำหรับข้อมูลเพิ่มเติมโปรดดูROC Curves สำหรับข้อมูลอย่างต่อเนื่อง โดย Wojtek J. Krzanowski และ David J. Hand


นี่ไม่ได้ตอบคำถามของฉันจริงๆ แต่มันเป็นคำอธิบายที่ดีมากเกี่ยวกับเส้นโค้ง ROC
StatsSorceress

สิ่งนี้ไม่ตอบคำถามของคุณในทางใด คำถามของคุณคือถ้าไม่ถามเกี่ยวกับวิธีการเลือกเกณฑ์สำหรับการจัดหมวดหมู่?
Sycorax พูดว่า Reinstate Monica

2
ฉันไม่ทราบวิธีการทางสถิติใด ๆ ที่ใช้งานได้ ทำไมล้อสี่เหลี่ยมจัตุรัสถึงเป็นความคิดที่ดี? มันแก้ปัญหาอะไรได้บ้าง?
Sycorax พูดว่า Reinstate Monica

1
"ฉันจะเลือกเกณฑ์ในวิธีที่ลดเวลาการฝึกอบรมได้อย่างไร" ดูเหมือนจะเป็นคำถามที่แตกต่างจากคำถามแรกของคุณ
Sycorax พูดว่า Reinstate Monica

1
ไม่ว่าฉันจะไม่เห็นวิธีการนี้ช่วยประหยัดเวลา การสร้าง ROC curve ไม่ใช่ส่วนที่แพงที่สุดในการประเมินโมเดลดังนั้นการย้ายตัวเลือกขีด จำกัด ในขั้นตอนการปรับให้เหมาะสมที่สุดดูเหมือนจะเป็นแบบเฉพาะกิจและไม่จำเป็น
Sycorax พูดว่า Reinstate Monica

-2

โดยทั่วไปแล้วในการวิจัยทางชีวการแพทย์เราไม่ได้ใช้ชุดฝึกอบรม - เราเพียงแค่ใช้การถดถอยโลจิสติกในชุดข้อมูลแบบเต็มเพื่อดูว่าตัวทำนายใดเป็นปัจจัยเสี่ยงที่สำคัญสำหรับผลลัพธ์ที่เรากำลังมองหา หรือดูที่ตัวทำนายความสนใจหนึ่งตัวในขณะที่ควบคุมผลกระทบของตัวทำนายที่เป็นไปได้อื่น ๆ ต่อผลลัพธ์
ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดยค่าเกณฑ์ แต่มีพารามิเตอร์ต่างๆที่หนึ่งอาจพยายามที่จะเพิ่มประสิทธิภาพ: AUC, ค่า cutoff สำหรับการแบ่งขั้วตัวแปรทำนายต่อเนื่อง, ค่าทำนายเชิงบวกและลบ, ช่วงความเชื่อมั่นและค่า p อัตราการบวกลบและเท็จเท็จ การถดถอยโลจิสติกส์จะดูประชากรของอาสาสมัครและประเมินความแข็งแกร่งและทิศทางเชิงสาเหตุของปัจจัยเสี่ยงที่นำไปสู่ผลลัพธ์ที่น่าสนใจในประชากรนั้น นอกจากนี้ยังเป็นไปได้ที่จะ "เรียกใช้ในสิ่งที่ตรงกันข้าม" เพื่อที่จะพูดและกำหนดความเสี่ยงของบุคคลต่อผลลัพธ์ที่ได้จากปัจจัยเสี่ยงที่บุคคลนั้นมี การถดถอยแบบลอจิสติกจะกำหนดความเสี่ยงของผลลัพธ์แต่ละรายการขึ้นอยู่กับปัจจัยความเสี่ยงของแต่ละบุคคลและโดยค่าเริ่มต้นคือ 0.5 หากเรื่อง ' ความน่าจะเป็นที่จะมีผลลัพธ์ (ขึ้นอยู่กับข้อมูลและหัวเรื่องทั้งหมดในแบบจำลองของคุณ) คือ 0.5 หรือสูงกว่ามันทำนายว่าเขาจะได้ผลลัพธ์ ถ้าต่ำกว่า 0.5 มันจะทำนายว่าเขาจะไม่ แต่คุณสามารถปรับระดับ cutoff นี้ได้เช่นเพื่อตั้งค่าสถานะบุคคลที่อาจมีความเสี่ยงที่จะเกิดผลลัพธ์มากขึ้นแม้ว่าจะมีราคาที่เป็นบวกมากกว่าที่ทำนายโดยโมเดล คุณสามารถปรับระดับการตัดยอดนี้เพื่อปรับการตัดสินใจคัดกรองให้เหมาะสมเพื่อทำนายว่าบุคคลใดควรได้รับการแนะนำให้ติดตามผลทางการแพทย์เพิ่มเติมเช่น และเพื่อสร้างค่าการทำนายเชิงบวกของคุณค่าการทำนายเชิงลบและอัตราการบวกเชิงลบเท็จและเท็จสำหรับการทดสอบการคัดกรองตามรูปแบบการถดถอยโลจิสติก คุณสามารถพัฒนาแบบจำลองบนชุดข้อมูลของคุณครึ่งและทดสอบอีกครึ่งหนึ่ง แต่คุณไม่ต้อง ไม่จำเป็นต้อง (และการทำเช่นนั้นจะลดข้อมูล 'การฝึกอบรม' ของคุณลงครึ่งหนึ่งและลดพลังในการค้นหาตัวทำนายที่สำคัญในแบบจำลอง) ใช่คุณสามารถ 'ฝึกทุกอย่างจบสิ้น' แน่นอนว่าในการวิจัยด้านชีวการแพทย์คุณต้องการตรวจสอบความถูกต้องของประชากรอีกกลุ่มหนึ่งซึ่งเป็นข้อมูลอีกชุดหนึ่งก่อนที่จะบอกว่าผลลัพธ์ของคุณสามารถทำให้เป็นประชากรทั่วไปได้กว้างขึ้น อีกวิธีหนึ่งคือใช้วิธี bootstrapping-type ที่คุณรันโมเดลของคุณบนตัวอย่างย่อยของประชากรการศึกษาของคุณจากนั้นแทนที่อาสาสมัครเหล่านั้นกลับไปที่กลุ่มและทำซ้ำกับกลุ่มตัวอย่างหลายครั้ง (โดยทั่วไปคือ 1,000 ครั้ง) หากคุณได้รับผลลัพธ์ที่สำคัญเวลาส่วนใหญ่ที่กำหนด (เช่น 95% ของเวลา) โมเดลของคุณจะได้รับการตรวจสอบความถูกต้อง --- อย่างน้อยในข้อมูลของคุณเอง แต่อีกครั้งประชากรการศึกษาที่คุณใช้น้อยกว่า มีโอกาสน้อยที่มันจะเป็นไปได้ว่านักทำนายบางคนจะเป็นปัจจัยเสี่ยงที่สำคัญสำหรับผลลัพธ์ นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับการศึกษาทางชีวการแพทย์ที่มีผู้เข้าร่วมจำนวน จำกัด
การใช้ครึ่งหนึ่งของข้อมูลของคุณเพื่อ 'ฝึกอบรม' โมเดลของคุณและ 'ตรวจสอบ' อีกครึ่งหนึ่งนั้นเป็นภาระที่ไม่จำเป็น คุณไม่ทำเช่นนั้นสำหรับการทดสอบ t หรือการถดถอยเชิงเส้นเหตุใดจึงต้องใช้ในการถดถอยโลจิสติก สิ่งที่จะทำมากที่สุดคือให้คุณพูดว่า 'ใช่มันใช้งานได้' แต่ถ้าคุณใช้ชุดข้อมูลแบบเต็มแล้วคุณจะตัดสินเอง การแบ่งข้อมูลของคุณออกเป็นชุดข้อมูลขนาดเล็กจะเสี่ยงต่อการไม่ตรวจสอบปัจจัยเสี่ยงที่สำคัญในประชากรที่ศึกษา (หรือประชากรที่ใช้ในการตรวจสอบความถูกต้อง) เมื่อพวกเขาอยู่ในความเป็นจริงเนื่องจากขนาดกลุ่มตัวอย่างขนาดเล็ก 'ตัวอย่างการตรวจสอบความถูกต้อง' ของคุณจะไม่แสดงการเชื่อมโยงจากโอกาส ตรรกะที่อยู่เบื้องหลังวิธีการ 'ตรวจสอบแล้วยืนยัน' ดูเหมือนว่าหากปัจจัยเสี่ยงที่คุณระบุว่ามีนัยสำคัญยังไม่แข็งแกร่งพอ จากนั้นจะไม่มีนัยสำคัญทางสถิติเมื่อสร้างแบบจำลองในครึ่งหนึ่งของข้อมูลที่คุณเลือกแบบสุ่ม แต่ตัวอย่างที่เลือกแบบสุ่มอาจไม่แสดงการเชื่อมโยงโดยบังเอิญหรือเพราะมันมีขนาดเล็กเกินไปสำหรับปัจจัยเสี่ยงที่จะมีนัยสำคัญทางสถิติ แต่ขนาดของปัจจัยเสี่ยงและนัยสำคัญทางสถิติซึ่งกำหนดความสำคัญของพวกเขาและด้วยเหตุนี้จึงเป็นการดีที่สุดที่จะใช้ชุดข้อมูลแบบเต็มของคุณเพื่อสร้างแบบจำลองของคุณ นัยสำคัญทางสถิติจะลดลงอย่างมีนัยสำคัญเมื่อขนาดตัวอย่างเล็กลงเช่นเดียวกับการทดสอบทางสถิติส่วนใหญ่ การถดถอยโลจิสติกเป็นศิลปะที่เกือบเท่ากับวิทยาศาสตร์ทางสถิติ มีวิธีการที่แตกต่างกันในการใช้และพารามิเตอร์ที่แตกต่างเพื่อเพิ่มประสิทธิภาพขึ้นอยู่กับการออกแบบการศึกษาของคุณ ไม่มีนัยสำคัญทางสถิติเมื่อสร้างแบบจำลองในครึ่งหนึ่งของข้อมูลที่เลือกแบบสุ่ม แต่ตัวอย่างที่เลือกแบบสุ่มอาจไม่แสดงการเชื่อมโยงโดยบังเอิญหรือเพราะมันมีขนาดเล็กเกินไปสำหรับปัจจัยเสี่ยงที่จะมีนัยสำคัญทางสถิติ แต่ขนาดของปัจจัยเสี่ยงและนัยสำคัญทางสถิติซึ่งกำหนดความสำคัญของพวกเขาและด้วยเหตุนี้จึงเป็นการดีที่สุดที่จะใช้ชุดข้อมูลแบบเต็มของคุณเพื่อสร้างแบบจำลองของคุณ นัยสำคัญทางสถิติจะลดลงอย่างมีนัยสำคัญเมื่อขนาดตัวอย่างเล็กลงเช่นเดียวกับการทดสอบทางสถิติส่วนใหญ่ การถดถอยโลจิสติกเป็นศิลปะที่เกือบเท่ากับวิทยาศาสตร์ทางสถิติ มีวิธีการที่แตกต่างกันในการใช้และพารามิเตอร์ที่แตกต่างเพื่อเพิ่มประสิทธิภาพขึ้นอยู่กับการออกแบบการศึกษาของคุณ ไม่มีนัยสำคัญทางสถิติเมื่อสร้างแบบจำลองในครึ่งหนึ่งของข้อมูลที่เลือกแบบสุ่ม แต่ตัวอย่างที่เลือกแบบสุ่มอาจไม่แสดงการเชื่อมโยงโดยบังเอิญหรือเพราะมันมีขนาดเล็กเกินไปสำหรับปัจจัยเสี่ยงที่จะมีนัยสำคัญทางสถิติ แต่ขนาดของปัจจัยเสี่ยงและนัยสำคัญทางสถิติซึ่งกำหนดความสำคัญของพวกเขาและด้วยเหตุนี้จึงเป็นการดีที่สุดที่จะใช้ชุดข้อมูลแบบเต็มของคุณเพื่อสร้างแบบจำลองของคุณ นัยสำคัญทางสถิติจะลดลงอย่างมีนัยสำคัญเมื่อขนาดตัวอย่างเล็กลงเช่นเดียวกับการทดสอบทางสถิติส่วนใหญ่ การถดถอยโลจิสติกเป็นศิลปะที่เกือบเท่ากับวิทยาศาสตร์ทางสถิติ มีวิธีการที่แตกต่างกันในการใช้และพารามิเตอร์ที่แตกต่างเพื่อเพิ่มประสิทธิภาพขึ้นอยู่กับการออกแบบการศึกษาของคุณ แต่ตัวอย่างที่เลือกแบบสุ่มอาจไม่แสดงการเชื่อมโยงโดยบังเอิญหรือเพราะมันมีขนาดเล็กเกินไปสำหรับปัจจัยเสี่ยงที่จะมีนัยสำคัญทางสถิติ แต่ขนาดของปัจจัยเสี่ยงและนัยสำคัญทางสถิติซึ่งกำหนดความสำคัญของพวกเขาและด้วยเหตุนี้จึงเป็นการดีที่สุดที่จะใช้ชุดข้อมูลแบบเต็มของคุณเพื่อสร้างแบบจำลองของคุณ นัยสำคัญทางสถิติจะลดลงอย่างมีนัยสำคัญเมื่อขนาดตัวอย่างเล็กลงเช่นเดียวกับการทดสอบทางสถิติส่วนใหญ่ การถดถอยโลจิสติกเป็นศิลปะที่เกือบเท่ากับวิทยาศาสตร์ทางสถิติ มีวิธีการที่แตกต่างกันในการใช้และพารามิเตอร์ที่แตกต่างเพื่อเพิ่มประสิทธิภาพขึ้นอยู่กับการออกแบบการศึกษาของคุณ แต่ตัวอย่างที่เลือกแบบสุ่มอาจไม่แสดงการเชื่อมโยงโดยบังเอิญหรือเพราะมันมีขนาดเล็กเกินไปสำหรับปัจจัยเสี่ยงที่จะมีนัยสำคัญทางสถิติ แต่ขนาดของปัจจัยเสี่ยงและนัยสำคัญทางสถิติซึ่งกำหนดความสำคัญของพวกเขาและด้วยเหตุนี้จึงเป็นการดีที่สุดที่จะใช้ชุดข้อมูลแบบเต็มของคุณเพื่อสร้างแบบจำลองของคุณ นัยสำคัญทางสถิติจะลดลงอย่างมีนัยสำคัญเมื่อขนาดตัวอย่างเล็กลงเช่นเดียวกับการทดสอบทางสถิติส่วนใหญ่ การถดถอยโลจิสติกเป็นศิลปะที่เกือบเท่ากับวิทยาศาสตร์ทางสถิติ มีวิธีการที่แตกต่างกันในการใช้และพารามิเตอร์ที่แตกต่างเพื่อเพิ่มประสิทธิภาพขึ้นอยู่กับการออกแบบการศึกษาของคุณ ขนาดของปัจจัยเสี่ยงและนัยสำคัญทางสถิติซึ่งกำหนดความสำคัญของพวกเขาและด้วยเหตุนี้จึงเป็นการดีที่สุดที่จะใช้ชุดข้อมูลแบบเต็มของคุณเพื่อสร้างแบบจำลองของคุณ นัยสำคัญทางสถิติจะลดลงอย่างมีนัยสำคัญเมื่อขนาดตัวอย่างเล็กลงเช่นเดียวกับการทดสอบทางสถิติส่วนใหญ่ การถดถอยโลจิสติกเป็นศิลปะที่เกือบเท่ากับวิทยาศาสตร์ทางสถิติ มีวิธีการที่แตกต่างกันในการใช้และพารามิเตอร์ที่แตกต่างเพื่อเพิ่มประสิทธิภาพขึ้นอยู่กับการออกแบบการศึกษาของคุณ ขนาดของปัจจัยเสี่ยงและนัยสำคัญทางสถิติซึ่งกำหนดความสำคัญของพวกเขาและด้วยเหตุนี้จึงเป็นการดีที่สุดที่จะใช้ชุดข้อมูลแบบเต็มของคุณเพื่อสร้างแบบจำลองของคุณ นัยสำคัญทางสถิติจะลดลงอย่างมีนัยสำคัญเมื่อขนาดตัวอย่างเล็กลงเช่นเดียวกับการทดสอบทางสถิติส่วนใหญ่ การถดถอยโลจิสติกเป็นศิลปะที่เกือบเท่ากับวิทยาศาสตร์ทางสถิติ มีวิธีการที่แตกต่างกันในการใช้และพารามิเตอร์ที่แตกต่างเพื่อเพิ่มประสิทธิภาพขึ้นอยู่กับการออกแบบการศึกษาของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.