การทดสอบสมมติฐานและระยะทางรวมทั้งหมดกับ Kullback-Leibler divergence

ในการวิจัยของฉันฉันพบปัญหาทั่วไปต่อไปนี้: ฉันมีการแจกแจงและครั้งในโดเมนเดียวกันและมีตัวอย่างจำนวนมาก (แต่ จำกัด ) จากการแจกแจงเหล่านั้น ตัวอย่างมีการกระจายอย่างเป็นอิสระและเหมือนกันจากหนึ่งในสองการแจกแจง (แม้ว่าการแจกแจงอาจเกี่ยวข้อง: ตัวอย่างเช่นอาจเป็นส่วนผสมของและการกระจายอื่น ๆ ) สมมติฐานว่างเปล่าคือตัวอย่างมาจากสมมุติฐานสำรองคือ ตัวอย่างมาจากQ $P$ $Q$ $Q$ $P$ $P$ $Q$

ฉันพยายามที่จะอธิบายลักษณะ Type I และ Type II ข้อผิดพลาดในการทดสอบตัวอย่างที่รู้กระจาย $P$ และQ $Q$ โดยเฉพาะอย่างยิ่งผมสนใจในขอบเขตหนึ่งข้อผิดพลาดที่กำหนดอื่น ๆ นอกเหนือไปจากความรู้ของ $P$ และQ $Q$

ฉันได้ถามคำถามทางคณิตศาสตร์เกี่ยวกับความสัมพันธ์ของระยะทางรวมการเปลี่ยนแปลงระหว่าง $P$ และ $Q$ กับการทดสอบสมมติฐานและได้รับคำตอบที่ฉันยอมรับ คำตอบนั้นสมเหตุสมผล แต่ฉันยังไม่สามารถสรุปความหมายที่ลึกกว่าความสัมพันธ์ของระยะทางรวมของการเปลี่ยนแปลงและการทดสอบสมมติฐานที่เกี่ยวข้องกับปัญหาของฉัน ดังนั้นฉันตัดสินใจที่จะเปิดฟอรั่มนี้

คำถามแรกของฉันคือ: ความผันแปรทั้งหมดนั้นรวมกับผลรวมของความน่าจะเป็นของข้อผิดพลาด Type I และ Type II ที่เป็นอิสระจากวิธีการทดสอบสมมติฐานที่มีอยู่หรือไม่ ในสาระสำคัญตราบใดที่มีความน่าจะเป็นที่ไม่ใช่ศูนย์ที่ตัวอย่างอาจถูกสร้างขึ้นโดยการแจกแจงอย่างใดอย่างหนึ่งความน่าจะเป็นที่มีข้อผิดพลาดอย่างน้อยหนึ่งข้อต้องไม่เป็นศูนย์ โดยพื้นฐานแล้วคุณไม่สามารถหลบหนีความเป็นไปได้ที่ผู้ทดสอบสมมติฐานของคุณจะทำผิดพลาดไม่ว่าคุณจะประมวลผลสัญญาณมากแค่ไหน และขอบเขตความแปรปรวนโดยรวมที่เป็นไปได้แน่นอน ความเข้าใจของฉันถูกต้องหรือไม่

นอกจากนี้ยังมีความสัมพันธ์ระหว่าง Type I และข้อผิดพลาดครั้งที่สองและพื้นฐานแจกแจงความน่าจะอีกและคือKL แตกต่าง ดังนั้นคำถามที่สองของฉันคือ: KL-divergence ผูกมัดใช้ได้กับวิธีการทดสอบสมมติฐานเฉพาะวิธีเดียวเท่านั้น (ดูเหมือนว่าจะเกิดขึ้นรอบ ๆ วิธีอัตราส่วนความน่าจะเป็นในการเข้าสู่ระบบมาก) หรือหนึ่งสามารถใช้ได้กับวิธีการทดสอบสมมติฐานทั้งหมด ถ้ามันใช้ได้กับวิธีการทดสอบสมมติฐานทั้งหมด, ทำไมมันดูแตกต่างจาก Total Variation อย่างมาก? มันทำงานแตกต่างกันอย่างไร $P$ $Q$

และคำถามพื้นฐานของฉันคือ: มีชุดสถานการณ์ที่กำหนดไว้เมื่อใดที่ฉันควรใช้ข้อผูกมัดหรือเป็นเรื่องของความสะดวกสบายอย่างแท้จริงหรือไม่? เมื่อใดที่ควรได้ผลลัพธ์ที่ได้จากการใช้หนึ่งโฮลที่ถูกผูกไว้

ฉันขอโทษถ้าคำถามเหล่านี้เล็กน้อย ฉันเป็นนักวิทยาศาสตร์คอมพิวเตอร์ (ดังนั้นนี่ดูเหมือนว่าปัญหาการจับคู่รูปแบบแฟนซีสำหรับฉัน :).) ฉันรู้ทฤษฎีข้อมูลที่ดีพอสมควรและมีพื้นฐานการศึกษาในทฤษฎีความน่าจะเป็นเช่นกัน อย่างไรก็ตามฉันเพิ่งเริ่มเรียนรู้จากการทดสอบสมมติฐานทั้งหมดนี้ หากจำเป็นฉันจะทำอย่างเต็มที่เพื่อชี้แจงคำถาม

— MBM
แหล่งที่มา

คำตอบ:

วรรณกรรม:ส่วนใหญ่ของคำตอบที่คุณต้องการอย่างแน่นอนในหนังสือโดยเลห์แมนและโรมาโน หนังสือโดยIngster และ Suslinaปฏิบัติต่อหัวข้อขั้นสูงและอาจให้คำตอบเพิ่มเติม

คำตอบ:อย่างไรก็ตามสิ่งต่าง ๆ นั้นง่ายมาก: (หรือ ) คือระยะทาง "จริง" ที่จะใช้ ไม่สะดวกในการคำนวณอย่างเป็นทางการ (โดยเฉพาะกับการวัดผลิตภัณฑ์เช่นเมื่อคุณมีตัวอย่างขนาดไอดอล ) และระยะทางอื่น ๆ (ซึ่งเป็นขอบเขตบนของ ) สามารถใช้ได้ ให้ฉันให้รายละเอียดแก่คุณ $L_1$ $TV$ $n$ $L_1$

การพัฒนา:ให้เราแสดงโดย

$g_1(\alpha_0,P_1,P_0)$ ขั้นต่ำข้อผิดพลาดชนิดที่สองมีความผิดพลาดแบบสำหรับและโมฆะและทางเลือก $\leq\alpha_0$ $P_0$ $P_1$
$g_2(t,P_1,P_0)$ ผลรวมของข้อผิดพลาดน้อยที่สุดที่เป็นไปได้ประเภท I +ประเภท II กับและเป็นโมฆะและทางเลือก $t$ $(1-t)$ $P_0$ $P_1$

นี่เป็นข้อผิดพลาดเล็กน้อยที่คุณต้องวิเคราะห์ Equalities (ไม่ใช่ขอบเขตที่ต่ำกว่า) ให้ไว้โดยทฤษฎีบทที่ 1 ด้านล่าง (ในแง่ของระยะทาง (หรือระยะทางโทรทัศน์ถ้าคุณใช้) ความไม่เท่าเทียมกันระหว่างระยะทางและระยะทางอื่น ๆ จะถูกกำหนดโดยทฤษฎีบท 2 (โปรดทราบว่าเพื่อลดขอบเขตข้อผิดพลาดที่คุณต้องใช้ในขอบเขตบนของหรือ ) $L_1$ $L_1$ $L_1$ $TV$

ซึ่งผูกพันกับการใช้แล้วเป็นเรื่องของความสะดวกสบายเพราะมักจะเป็นเรื่องยากมากที่จะคำนวณกว่า Hellinger หรือ Kullback หรือ 2 ตัวอย่างหลักของความแตกต่างดังกล่าวปรากฏขึ้นเมื่อและคือมาตรการผลิตภัณฑ์ซึ่งเกิดขึ้นในกรณีที่คุณต้องการทดสอบกับพร้อมกับตัวอย่างขนาด iid ในกรณีนี้และอื่น ๆ ได้มาจาก (เหมือนกันสำหรับและ ) แต่คุณไม่สามารถทำได้ด้วย ... $L_1$ $\chi^2$ $P_1$ $P_0$ $P_i=p_i^{\otimes n}$ $i=0,1$ $p_1$ $p_0$ $n$ $h(P_1,P_0)$ $h(p_1,p_0)$ $KL$ $\chi^2$ $L_1$

นิยาม:ความสัมพันธ์ระหว่างสองมาตรการและถูกกำหนดให้เป็นnu_0) $A_1(\nu_1,\nu_0)$ $\nu_1$ $\nu_2$

A_{1} (ν_{1}, ν_{0}) = \int min (d ν_{1}, d ν_{0})

$A_1(\nu_1,\nu_0)=\int \min(d\nu_1,d\nu_0)$

ทฤษฎีบท 1หาก(ครึ่งหนึ่งห่างจากทีวี) แล้ว $|\nu_1-\nu_0|_1=\int|d\nu_1-d\nu_0|$

$2A_1(\nu_1,\nu_0)=\int (\nu_1+\nu_0)-|\nu_1-\nu_0|_1$ (\
$g_1(\alpha_0,P_1,P_0)=\sup_{t\in [0,1/\alpha_0]} \left ( A_1(P_1,tP_0)-t\alpha_0 \right )$
$g_2(t,P_1,P_0)=A_1(t P_0,(1-t)P_1)$

ผมเขียนหลักฐานที่นี่

ทฤษฎีบทที่ 2สำหรับการแจกแจงความน่าจะเป็นและ : $P_1$ $P_0$

\frac{1}{2} | P_{1} - P_{0} |_{1} \leq h (P_{1}, P_{0}) \leq \sqrt{K (P_{1}, P_{0})} \leq \sqrt{χ^{2} (P_{1}, P_{0})}

$\frac{1}{2}|P_1-P_0|_1\leq h(P_1,P_0)\leq \sqrt{K(P_1,P_0)} \leq \sqrt{\chi^2(P_1,P_0)}$

ขอบเขตเหล่านี้เกิดจากนักสถิติที่รู้จักกันดีหลายคน (LeCam, Pinsker, ... ) คือระยะ Hellinger, KL divergence และ divergence ไคสแควร์ พวกมันถูกกำหนดไว้ที่นี่ทั้งหมด และหลักฐานของขอบเขตเหล่านี้จะได้รับ (สิ่งเพิ่มเติมสามารถพบได้ในหนังสือTsybacov ) นอกจากนี้ยังมีบางสิ่งที่เกือบจะต่ำกว่าของHellinger ... $h$ $K$ $\chi^2$ $L_1$

— โรบินกีร์ด
แหล่งที่มา

ขอบคุณสำหรับคำตอบตอนนี้ฉันพยายามแยกแยะ ในปัญหาของฉันฉันได้รับอนุญาตประเภทข้อผิดพลาด ฉันยังมีสองกระจายและP_1ฉันรู้ว่าทีวีระหว่างพวกเขา (เช่นเดียวกับ KL) ดังนั้นสิ่งที่คุณกำลังพูดคือทีวีให้ขอบล่างของข้อผิดพลาด Type II ที่แคบกว่าที่ KL ทำหมายความว่าฉันควรใช้ TV สำหรับการวิเคราะห์ของฉันถ้าฉันต้องการขอบเขตที่แคบที่สุดเท่าที่จะทำได้?

P_{0}

$P_0$

P_{1}

$P_1$

— MBM

และขอบคุณสำหรับคำแนะนำหนังสือของ Lehmann และ Romano มันดูมีประโยชน์มากและไม่มากเกินหัวของฉัน อีกทั้งห้องสมุดของฉันก็เป็นเจ้าของสำเนาด้วย! :)

— MBM

@Bullmoose สิ่งที่ทฤษฎีบท 1 บอกไว้ที่นี่คือ TV (หรือ L1) เกี่ยวข้องกับความเสมอภาคกับซึ่งเกี่ยวข้องกับความเสมอภาคกับ g_2 หรือ g_1 (ผลรวมขั้นต่ำของข้อผิดพลาดหรือข้อผิดพลาดประเภท II ที่ควบคุมประเภท 1) ไม่มีความไม่เท่าเทียมกันอยู่ที่นี่ ความไม่เท่าเทียมเกิดขึ้นเมื่อคุณต้องไปจาก L1 ถึง Kullback

A_{1}

$A_1$

— robin girard

น่าเสียดายที่ฉันมีพื้นหลังเพียงเล็กน้อยในทฤษฎีการวัด ผมคิดว่าผมเรียงลำดับของการเข้าใจในสิ่งที่และมี แต่ผมไม่ชัดเจนเกี่ยวกับA_1บอกว่าฉันมีการแจกแจงแบบเกาส์สองครั้ง ทีวี (หรือ L1) ระหว่างนั้นคือ แต่จะเป็นอย่างไร จากคำจำกัดความดูเหมือนว่า ...

g_{1}

$g_1$

g_{2}

$g_2$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} | \frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}} - \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}} | d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\left|\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1}-\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right|dx$

A_{1}

$A_1$

\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} min (\frac{\exp (- x^{2} / 2 σ_{1}^{2})}{σ_{1}}, \frac{\exp (- x^{2} / 2 σ_{2}^{2})}{σ_{2}}) d x

$\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}\min\left(\frac{\exp(-x^2/2\sigma^2_1)}{\sigma_1},\frac{\exp(-x^2/2\sigma^2_2)}{\sigma_2}\right)dx$

— MBM

... แต่แผนที่นี้ได้อย่างไรจากกระสุนแรกในทฤษฎีบท?

\int (ν_{1} + ν_{2})

$\int (\nu_1+\nu_2)$

— MBM

คำตอบสำหรับคำถามแรกของคุณ:ใช่หนึ่งลบด้วยความแปรปรวนรวมเป็นขอบเขตล่างกับผลรวมของอัตราความผิดพลาด Type I + Type II ขอบเขตล่างนี้ใช้ไม่ว่าคุณจะเลือกวิธีทดสอบสมมติฐานใด

เหตุผล: คำตอบที่คุณมีใน Math.SEให้พิสูจน์มาตรฐานของความเป็นจริงนี้ แก้ไขการทดสอบสมมติฐาน อนุญาตให้แสดงชุดของผลลัพธ์ที่การทดสอบนี้จะปฏิเสธสมมติฐานว่าง (ชุดดังกล่าวต้องมีอยู่เสมอ) จากนั้นการคำนวณในคำตอบ Math.SE จะพิสูจน์ขอบเขตล่าง $A$

(การพูดอย่างเคร่งครัดบรรทัดของการให้เหตุผลนี้ถือว่าการทดสอบสมมติฐานของคุณเป็นขั้นตอนที่กำหนดขึ้นมา แต่แม้ว่าคุณจะพิจารณาขั้นตอนการสุ่มก็เป็นไปได้ที่จะแสดงว่าขอบเขตเดียวกันยังคงใช้อยู่)

— ใบสำคัญแสดงสิทธิอนุพันธ์
แหล่งที่มา