คำถามติดแท็ก feature-selection

วิธีการและหลักการในการเลือกชุดย่อยของคุณลักษณะสำหรับใช้ในการสร้างแบบจำลองเพิ่มเติม

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

1
ในฟอเรสต์ฟอเรสต์ทำไมคุณสมบัติย่อยบางส่วนของคุณสมบัติแบบสุ่มจึงถูกเลือกที่ระดับโหนดแทนที่จะเป็นระดับต้นไม้
คำถามของฉัน:ทำไมป่าสุ่มพิจารณาย่อยสุ่มของคุณสมบัติสำหรับการแยกในระดับโหนดภายในแต่ละต้นไม้มากกว่าในระดับต้นไม้ ? ข้อมูลประกอบ:นี่เป็นคำถามเชิงประวัติ ดีบุกกามโฮตีพิมพ์บทความนี้เกี่ยวกับการสร้าง "ป่าตัดสินใจ" โดยการสุ่มเลือกชุดย่อยของคุณสมบัติที่จะใช้สำหรับการเติบโตในแต่ละต้นไม้ในปี 1998 หลายปีต่อมาในปี 2001 ลีโอเบรแมนตีพิมพ์สุ่มป่าเขาน้ำเชื้อกระดาษประเด็นเซตคุณลักษณะแบบสุ่ม เลือกที่แต่ละโหนดภายในแต่ละต้นไม่ใช่ที่แต่ละต้น ในขณะที่ Breiman อ้างถึง Ho เขาไม่ได้อธิบายการย้ายจากระดับต้นไม้ไปเป็นการเลือกคุณลักษณะแบบสุ่มในระดับโหนด ฉันสงสัยว่าอะไรเป็นแรงจูงใจในการพัฒนานี้โดยเฉพาะ ดูเหมือนว่าการเลือกชุดย่อยคุณลักษณะที่ระดับต้นไม้จะยังคงบรรลุความสัมพันธ์ที่ต้องการของต้นไม้ ทฤษฎีของฉัน:ฉันไม่ได้เห็นสิ่งนี้พูดชัดแจ้งที่อื่น แต่ดูเหมือนว่าวิธีการย่อยแบบสุ่มจะมีประสิทธิภาพน้อยกว่าในแง่ของการประเมินความสำคัญของคุณลักษณะ เพื่อให้ได้การประมาณค่าความสำคัญของตัวแปรสำหรับต้นไม้แต่ละต้นคุณลักษณะจะได้รับการพิจารณาแบบสุ่มทีละตัวและการเพิ่มขึ้นของการจำแนกประเภทหรือเพิ่มข้อผิดพลาดสำหรับการสำรวจนอกถุงจะถูกบันทึก ตัวแปรที่การจำแนกประเภทผิดพลาดหรือเพิ่มข้อผิดพลาดเป็นผลมาจากการเปลี่ยนแปลงแบบสุ่มนี้มีค่าสูงคือตัวแปรที่มีความสำคัญที่สุด ถ้าเราใช้วิธีการสุ่มสเปซสำหรับแต่ละต้นไม้เราเป็นเพียงการพิจารณาของพีคุณลักษณะ มันอาจใช้เวลาหลายต้นที่จะต้องพิจารณาทุกหน้าทำนายแม้แต่ครั้งเดียว ในทางกลับกันถ้าเราพิจารณาส่วนย่อยที่แตกต่างกันมผมของพีให้บริการในแต่ละโหนดเราจะพิจารณาแต่ละคุณลักษณะครั้งมากขึ้นหลังจากที่ต้นไม้น้อยลงทำให้เราประมาณการที่แข็งแกร่งมากขึ้นมีความสำคัญคุณลักษณะmmmppppppmimim_ippp สิ่งที่ฉันได้ดูไปแล้ว:จนถึงตอนนี้ฉันได้อ่านกระดาษของ Breiman และกระดาษของ Ho แล้วทำการค้นหาออนไลน์แบบกว้าง ๆ เพื่อเปรียบเทียบวิธีต่างๆโดยไม่ต้องค้นหาคำตอบที่ชัดเจน โปรดทราบว่าคำถามที่คล้ายกันถูกถามก่อน คำถามนี้จะเพิ่มเติมอีกเล็กน้อยโดยรวมถึงการเก็งกำไรของฉัน / ทำงานเพื่อแก้ไขปัญหาที่เป็นไปได้ ฉันจะสนใจคำตอบการอ้างอิงที่เกี่ยวข้องหรือการศึกษาแบบจำลองเปรียบเทียบสองแนวทาง หากไม่มีการเตรียมพร้อมฉันวางแผนที่จะทำการจำลองสถานการณ์ของตัวเองโดยเปรียบเทียบทั้งสองวิธี

1
การวิเคราะห์ความอ่อนไหวในโครงข่ายประสาทลึก
คำถามต่อไปนี้ได้ตอบแล้ว (การดึงความสำคัญของน้ำหนักจากเครือข่ายฟีดไปข้างหน้าหนึ่งชั้น ) ฉันกำลังมองหาการอนุมานเกี่ยวกับความเกี่ยวข้องของอินพุตในเครือข่ายประสาท เมื่อพิจารณาถึงเครือข่ายที่ลึกซึ่งการสร้างความสำคัญของอินพุตใหม่โดยการย้อนกลับผ่านชั้นจากโหนดผลลัพธ์ที่น่าสนใจอาจเป็นเรื่องยากหรือใช้เวลานาน ป้อนข้อมูลและพิจารณาวิธีการที่โหนด ouptut เปลี่ยนแปลงความสนใจ มีวิธีที่ยอมรับได้ของการวิเคราะห์ความไวในเครือข่ายประสาทหรือไม่? ฉันยินดีต้อนรับรหัส Python ให้ทำเช่นนั้นหากมี

1
Bayesian lasso vs spike และ slab
คำถาม:อะไรคือข้อดี / ข้อเสียของการใช้อันใดอันหนึ่งก่อนหน้าสำหรับการเลือกตัวแปร? สมมติว่าฉันมีความน่าจะเป็น: ที่ฉันสามารถใส่ได้ทั้งหนึ่งในไพรเออร์นี้: or: y∼N(Xw,σ2I)y∼N(Xw,σ2I)y\sim\mathcal{N}(Xw,\sigma^2I)wi∼πδ0+(1−π)N(0,100)π=0.9,wi∼πδ0+(1−π)N(0,100)π=0.9, w_i\sim \pi\delta_0+(1-\pi)\mathcal{N}(0,100)\\ \pi=0.9\,, wi∼exp(−λ|wi|)λ∼Γ(1,1).wi∼exp⁡(−λ|wi|)λ∼Γ(1,1). w_i\sim \exp(-\lambda|w_i|)\\ \lambda \sim \Gamma(1,1)\,. ฉันใส่เพื่อเน้นน้ำหนักส่วนใหญ่เป็นศูนย์และแกมม่าก่อนหน้าบนเพื่อเลือกพารามิเตอร์ 'normalizing'π=0.9π=0.9\pi=0.9λλ\lambda อย่างไรก็ตามอาจารย์ของฉันยังคงยืนยันว่ารุ่น lasso 'ลดค่าสัมประสิทธิ์และไม่ได้ทำการเลือกตัวแปรที่เหมาะสมจริง ๆ นั่นคือมีการหดตัวมากเกินไปของพารามิเตอร์ที่เกี่ยวข้อง ฉันพบว่าการนำ Lasso ไปใช้งานได้ง่ายขึ้นเนื่องจากฉันใช้ Bayes แบบแปรผัน ในความเป็นจริงแล้วSparse Bayesian Learning paper ซึ่งวางก่อนหน้าของให้การแก้ปัญหาแบบสปอร์1|wi|1|wi|\frac{1}{|w_i|}

3
ทำไมเครือข่ายนิวรัลจึงต้องเลือกคุณสมบัติ / วิศวกรรม
โดยเฉพาะอย่างยิ่งในบริบทของการแข่งขัน kaggle ฉันได้สังเกตเห็นว่าประสิทธิภาพของโมเดลนั้นเกี่ยวกับการเลือกคุณสมบัติ / วิศวกรรม ในขณะที่ฉันสามารถเข้าใจได้อย่างสมบูรณ์ว่าเหตุใดในกรณีที่ต้องจัดการกับอัลกอริธึม ML / แบบเก่ามากกว่าเดิมฉันไม่เห็นว่าทำไมมันถึงเป็นเช่นนี้เมื่อใช้โครงข่ายประสาทเทียมลึก อ้างถึงหนังสือการเรียนรู้ลึก: การเรียนรู้เชิงลึกแก้ปัญหาศูนย์กลางนี้ในการเรียนรู้การเป็นตัวแทนโดยการแนะนำการเป็นตัวแทนที่แสดงในแง่ของการเป็นตัวแทนอื่น ๆ ที่ง่ายกว่าการเป็นตัวแทน การเรียนรู้อย่างลึกซึ้งทำให้คอมพิวเตอร์สามารถสร้างแนวคิดที่ซับซ้อนจากแนวคิดที่เรียบง่าย ดังนั้นฉันจึงคิดเสมอว่าถ้า "ข้อมูลอยู่ในข้อมูล" เครือข่ายประสาทที่มีความลึกและมีพารามิเตอร์เพียงพอจะรับคุณสมบัติที่เหมาะสมเมื่อใช้เวลาในการฝึกอบรมเพียงพอ

2
ทำไมการเลือกชุดย่อยที่ดีที่สุดจึงไม่ได้รับความนิยมเมื่อเทียบกับเชือก
ฉันกำลังอ่านเกี่ยวกับการเลือกชุดย่อยที่ดีที่สุดในองค์ประกอบของหนังสือการเรียนรู้ทางสถิติ ถ้าฉันมีตัวทำนาย 3 ตัวฉันจะสร้างชุดย่อย:2 3 = 8x1, x2, x3x1,x2,x3x_1,x_2,x_323= 823=82^3=8 ชุดย่อยที่ไม่มีตัวทำนาย เซตย่อยที่มีตัวทำนายx1x1x_1 เซตย่อยที่มีตัวทำนายx2x2x_2 เซตย่อยที่มีตัวทำนายx3x3x_3 เซตย่อยที่มีตัวทำนายx1, x2x1,x2x_1,x_2 เซตย่อยที่มีตัวทำนายx1, x3x1,x3x_1,x_3 เซตย่อยที่มีตัวทำนายx2, x3x2,x3x_2,x_3 เซตย่อยที่มีตัวทำนายx1, x2, x3x1,x2,x3x_1,x_2,x_3 จากนั้นฉันจะทดสอบแบบจำลองเหล่านี้ทั้งหมดในข้อมูลการทดสอบเพื่อเลือกแบบที่ดีที่สุด ตอนนี้คำถามของฉันคือเหตุใดการเลือกชุดย่อยที่ดีที่สุดจึงไม่ได้รับความนิยมเมื่อเทียบกับเช่นบ่วงบาศ ถ้าฉันเปรียบเทียบฟังก์ชั่น thresholding ของเซตย่อยและ lasso ที่ดีที่สุดฉันจะเห็นว่าเซตย่อยที่ดีที่สุดกำหนดค่าสัมประสิทธิ์บางค่าให้เป็นศูนย์เช่น lasso แต่ค่าสัมประสิทธิ์อื่น ๆ (ที่ไม่ใช่ศูนย์) จะยังคงมีค่า ols พวกเขาจะไม่ได้รับอคติ ในขณะที่ lasso สัมประสิทธิ์บางอย่างจะเป็นศูนย์และอื่น ๆ (ไม่ใช่ศูนย์) จะมีอคติ รูปด้านล่างแสดงว่าดีกว่า: จากภาพส่วนหนึ่งของเส้นสีแดงในกล่องเซตย่อยที่ดีที่สุดวางลงบนสีเทา อีกส่วนหนึ่งวางอยู่ในแกน x ซึ่งสัมประสิทธิ์บางค่าเป็นศูนย์ เส้นสีเทากำหนดโซลูชันที่ไม่เอนเอียง ในเชือกอคติบางส่วนเป็นที่รู้จักโดย\จากรูปนี้ฉันเห็นว่าเซตย่อยที่ดีที่สุดดีกว่าบ่วงบาศ! …

2
แนวทางที่ขัดแย้งกันในการเลือกตัวแปร: AIC, p-values ​​หรือทั้งสองอย่าง?
จากสิ่งที่ฉันเข้าใจการเลือกตัวแปรตามค่า p (อย่างน้อยในบริบทการถดถอย) มีข้อบกพร่องสูง ดูเหมือนว่าการเลือกตัวแปรตาม AIC (หรือคล้ายกัน) ก็ถือว่ามีข้อบกพร่องบางอย่างด้วยเหตุผลที่คล้ายกันแม้ว่าจะดูเหมือนไม่ชัดเจน (เช่นดูคำถามของฉันและลิงก์บางส่วนในหัวข้อนี้ที่นี่: "การเลือกรุ่นตามขั้นตอน" คืออะไร? ) แต่สมมติว่าคุณเลือกหนึ่งในสองวิธีนี้เพื่อเลือกชุดพยากรณ์ที่ดีที่สุดในแบบจำลองของคุณ อัมและแอนเดอร์สัน 2002 (การเลือกแบบจำลองและการอนุมานหลายรูปแบบ: วิธีปฏิบัติเชิงทฤษฎีสารสนเทศ, หน้า 83) ระบุว่าไม่ควรผสมการเลือกตัวแปรตาม AIC กับการทดสอบสมมติฐาน : "การทดสอบสมมติฐานว่างและแนวทางสารสนเทศเชิงทฤษฎีควร ไม่ใช้ร่วมกันพวกเขาเป็นกระบวนทัศน์การวิเคราะห์ที่แตกต่างกันมาก " ในอีกทางหนึ่ง Zuur และคณะ 2009 (โมเดลเอฟเฟ็กต์ผสมกับส่วนขยายในระบบนิเวศด้วย R, หน้า 541) ดูเหมือนจะสนับสนุนการใช้AIC เพื่อค้นหาแบบจำลองที่ดีที่สุดก่อนแล้วจึงทำการ "ปรับจูน" โดยใช้การทดสอบสมมติฐาน : "ข้อเสียคือ AIC และคุณอาจต้องใช้การปรับแต่งแบบละเอียด (โดยใช้การทดสอบสมมติฐานจากแนวทางที่หนึ่ง) เมื่อ AIC ได้เลือกแบบจำลองที่ดีที่สุด " คุณสามารถดูว่าสิ่งนี้ทำให้ผู้อ่านหนังสือทั้งสองเล่มสับสนอย่างไร 1) "ค่าย" …

2
ความแตกต่างระหว่างการเลือกคุณสมบัติและการลดขนาดคืออะไร?
ฉันรู้ว่าทั้งการเลือกคุณสมบัติและการลดมิติข้อมูลมุ่งไปที่การลดจำนวนคุณสมบัติในชุดคุณสมบัติดั้งเดิม อะไรคือความแตกต่างที่แน่นอนระหว่างสองสิ่งนี้หากเราทำสิ่งเดียวกันทั้งสองอย่าง

2
ถ้า p> n, lasso เลือกได้ไม่เกิน n ตัวแปร
แรงจูงใจอย่างหนึ่งของตาข่ายยางยืดคือข้อ จำกัด ของ LASSO ดังต่อไปนี้: ในกรณีสายบาศกเลือกตัวแปร n ส่วนใหญ่ก่อนที่จะอิ่มตัวเนื่องจากลักษณะของปัญหาการปรับให้เหมาะสมของนูน นี่ดูเหมือนจะเป็นคุณสมบัติที่ จำกัด สำหรับวิธีการเลือกตัวแปร ยิ่งไปกว่านั้นเชือกไม่ได้กำหนดไว้อย่างชัดเจนเว้นแต่ขอบเขตของ L1-norm ของสัมประสิทธิ์มีค่าน้อยกว่าค่าที่แน่นอนp > np>np > n ( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full ) ฉันเข้าใจว่า LASSO เป็นปัญหาการเขียนโปรแกรมสมการกำลังสอง แต่ยังสามารถแก้ไขได้ผ่าน LARS หรือการไล่ระดับสีแบบองค์ประกอบที่ชาญฉลาด แต่ฉันไม่เข้าใจว่าในอัลกอริธึมเหล่านี้ฉันพบปัญหาหรือไม่ถ้าโดยที่คือจำนวนตัวทำนายและคือขนาดตัวอย่าง และทำไมปัญหานี้แก้ไขได้โดยใช้สุทธิยืดหยุ่นที่ฉันเพิ่มปัญหาไปตัวแปรที่ชัดเจนเกินหน้าp n p + n pp > np>np > nพีppnnnp + np+np+nพีpp

2
มีสถานการณ์ใดบ้างที่ควรใช้การถดถอยแบบขั้นตอน?
การถดถอยแบบขั้นตอนได้รับการใช้มากเกินไปในเอกสารชีวการแพทย์จำนวนมากในอดีต แต่สิ่งนี้ดูเหมือนว่าจะดีขึ้นด้วยการศึกษาที่ดีขึ้นของปัญหามากมาย ผู้ตรวจสอบรุ่นเก่าหลายคนยังคงขอมัน สถานการณ์ใดที่การถดถอยแบบขั้นตอนมีบทบาทและควรใช้ถ้ามี

2
เหตุใดจึงใช้กลุ่มบ่วงบาศแทนสายบ่วง
ฉันได้อ่านว่ากลุ่ม lasso ใช้สำหรับการเลือกตัวแปรและ sparsity ในกลุ่มของตัวแปร ฉันต้องการทราบสัญชาตญาณที่อยู่เบื้องหลังการเรียกร้องนี้ เหตุใดจึงเลือกกลุ่มบาศกลุส ทำไมเส้นทางการแก้ปัญหาแบบกลุ่มแบบไม่ต่อเนื่องเป็นเส้นตรง

1
อธิบายขั้นตอนของอัลกอริธึม LLE (การฝังเชิงเส้นในพื้นที่) ไหม
ฉันเข้าใจหลักการพื้นฐานที่อยู่เบื้องหลังอัลกอริทึมสำหรับ LLE ประกอบด้วยสามขั้นตอน การค้นหาย่านที่คุ้นเคยของแต่ละจุดข้อมูลด้วยตัวชี้วัดบางอย่างเช่น k-nn ค้นหาน้ำหนักสำหรับแต่ละเพื่อนบ้านซึ่งแสดงถึงผลกระทบที่เพื่อนบ้านมีต่อจุดข้อมูล สร้างการฝังข้อมูลในระดับต่ำตามน้ำหนักที่คำนวณ แต่คำอธิบายทางคณิตศาสตร์ของขั้นตอนที่ 2 และ 3 นั้นสร้างความสับสนในหนังสือเรียนและแหล่งข้อมูลออนไลน์ทั้งหมดที่ฉันได้อ่าน ฉันไม่สามารถให้เหตุผลว่าทำไมจึงใช้สูตรนี้ ขั้นตอนเหล่านี้มีการปฏิบัติอย่างไรในทางปฏิบัติ มีวิธีที่เข้าใจง่าย ๆ ในการอธิบายสูตรทางคณิตศาสตร์ที่ใช้หรือไม่? ข้อมูลอ้างอิง: http://www.cs.nyu.edu/~roweis/lle/publications.html

2
LASSO เลือกตัวทำนายที่สัมพันธ์กันเมื่อใด
ฉันใช้แพ็คเกจ 'lars' ใน R ด้วยรหัสต่อไปนี้: > library(lars) > set.seed(3) > n <- 1000 > x1 <- rnorm(n) > x2 <- x1+rnorm(n)*0.5 > x3 <- rnorm(n) > x4 <- rnorm(n) > x5 <- rexp(n) > y <- 5*x1 + 4*x2 + 2*x3 + 7*x4 + rnorm(n) > x <- cbind(x1,x2,x3,x4,x5) > …

2
การค้นหาคุณสมบัติที่ดีที่สุดในรูปแบบการโต้ตอบ
ฉันมีรายการโปรตีนพร้อมค่าคุณลักษณะ ตารางตัวอย่างมีลักษณะดังนี้: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 แถวคือโปรตีนและคอลัมน์เป็นคุณสมบัติ ฉันยังมีรายการโปรตีนที่มีปฏิสัมพันธ์เช่นกัน ตัวอย่างเช่น Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 ปัญหา : สำหรับการวิเคราะห์เบื้องต้นฉันต้องการทราบว่าคุณลักษณะใดที่มีส่วนร่วมมากที่สุดสำหรับการโต้ตอบของโปรตีน ความเข้าใจของฉันคือโดยปกติต้นไม้การตัดสินใจสามารถใช้เพื่อให้ได้คุณลักษณะที่สำคัญที่สุดตามเอนโทรปี แต่ฉันไม่แน่ใจว่าจะขยายไปยังคู่โปรตีนได้อย่างไร (เช่นปฏิกิริยา) มีวิธีการสำหรับวัตถุประสงค์ดังกล่าวหรือไม่?

3
การกระจายความน่าจะเป็นแบบคลัสเตอร์ - วิธีการและตัวชี้วัด?
ฉันมีจุดข้อมูลบางอย่างซึ่งแต่ละอันประกอบด้วย 5 เวกเตอร์ของผลลัพธ์ที่ไม่ต่อเนื่องแบบจับกันเป็นกลุ่มผลของเวกเตอร์แต่ละตัวที่สร้างโดยการกระจายตัวที่แตกต่างกัน (ชนิดที่ฉันไม่แน่ใจการคาดเดาที่ดีที่สุดของฉันคือ Weibull กฎหมาย (1 ถึง 0, ประมาณ) ฉันกำลังมองหาที่จะใช้อัลกอริทึมการจัดกลุ่มเช่น K-Means เพื่อใส่แต่ละจุดข้อมูลลงในกลุ่มตามคุณลักษณะของการกระจายองค์ประกอบ 5 ฉันสงสัยว่ามีตัวชี้วัดระยะทางที่กำหนดไว้หรือไม่ซึ่งจะสวยงามสำหรับวัตถุประสงค์เหล่านี้ ฉันมีความคิดสามข้อ แต่ฉันไม่ใช่นักสถิติที่มีประสบการณ์ (เป็นนักวิทยาศาสตร์คอมพิวเตอร์การขุดข้อมูลเริ่มต้น) ดังนั้นฉันจึงมีความคิดเล็ก ๆ น้อย ๆ ว่าฉันอยู่ไกลแค่ไหน เนื่องจากฉันไม่รู้แน่ชัดว่าการแจกแจงแบบไหนฉันกำลังเข้าใกล้ปัญหาของฉันคือการสับการกระจายแต่ละครั้ง (ฉันมี 5 ต่อจุด) ลงในแต่ละค่าของข้อมูลที่ไม่ต่อเนื่อง (ฉันแพด แต่ละอันที่สอดคล้องกับความยาวเดียวกันกับศูนย์ที่ท้าย) และใช้แต่ละค่าเหล่านี้เป็นแอตทริบิวต์ที่แยกต่างหากสำหรับจุดข้อมูลเอง ฉันลองใช้ทั้งระยะทางแมนฮัตตันและระยะทางแบบยุคลิดเป็นตัวชี้วัดตามคุณลักษณะเหล่านี้สำหรับทั้ง PDF และ CDF อีกครั้งเนื่องจากฉันไม่ทราบว่ามีการแจกแจงแบบใดฉันจึงคิดว่าถ้าฉันจะวัดระยะห่างระหว่างการแจกแจงโดยรวมฉันสามารถใช้การทดสอบแบบไม่อิงพารามิเตอร์ระหว่างการแจกแจงเช่นการทดสอบ KS เพื่อค้นหาโอกาสที่การแจกแจงที่กำหนดถูกสร้างขึ้นโดย PDF ที่แตกต่างกัน ฉันคิดว่าตัวเลือกแรกของฉัน (ด้านบน) โดยใช้ระยะทางแมนฮัตตันจะเป็นขอบเขตบนของสิ่งที่ฉันอาจใช้วิธีนี้ (เนื่องจากสถิติ KS คือค่าสัมบูรณ์สูงสุดของความแตกต่างของ CDFs ซึ่งระยะทางแมนฮัตตันเป็น ผลรวมของค่าสัมบูรณ์ของความแตกต่างใน PDF) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.