คำถามติดแท็ก kullback-leibler

การวัดระยะทางแบบอสมมาตร (หรือความแตกต่าง) ระหว่างการแจกแจงความน่าจะเป็น มันอาจถูกตีความว่าเป็นค่าที่คาดหวังของอัตราส่วนความน่าจะเป็นบันทึกภายใต้สมมติฐานทางเลือก

2
ความแตกต่างของ KL ระหว่าง Gaussians ที่ไม่เปลี่ยนแปลงสองตัว
ฉันจำเป็นต้องกำหนด KL-divergence ระหว่างสอง Gaussians ฉันกำลังเปรียบเทียบผลลัพธ์ของฉันกับสิ่งเหล่านี้แต่ฉันไม่สามารถทำซ้ำผลลัพธ์ของพวกเขาได้ ผลลัพธ์ของฉันผิดอย่างชัดเจนเนื่องจาก KL ไม่ใช่ 0 สำหรับ KL (p, p) ฉันสงสัยว่าฉันกำลังทำผิดพลาดและถามว่าใครสามารถตรวจสอบได้ ให้p(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)และq(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) ) จาก PRML ของ Bishop ฉันรู้ว่า KL(p,q)=−∫p(x)logq(x)dx+∫p(x)logp(x)dxKL(p,q)=−∫p(x)log⁡q(x)dx+∫p(x)log⁡p(x)dxKL(p, q) = - \int p(x) \log q(x) dx + \int p(x) \log p(x) dx โดยที่การรวมเข้าด้วยกันจะทำในทุกบรรทัดจริงและ ∫p(x)logp(x)dx=−12(1+log2πσ21),∫p(x)log⁡p(x)dx=−12(1+log⁡2πσ12),\int p(x) \log p(x) dx = -\frac{1}{2} …

5
สัญชาตญาณในความแตกต่าง Kullback-Leibler (KL)
ฉันได้เรียนรู้เกี่ยวกับสัญชาตญาณที่อยู่เบื้องหลัง KL Divergence ว่าฟังก์ชันการแจกแจงแบบจำลองแตกต่างจากการกระจายข้อมูลเชิงทฤษฎี / จริง แหล่งที่มาฉันอ่านก็จะบอกว่าเข้าใจง่ายของระยะห่างระหว่างทั้งสองกระจายเป็นประโยชน์ แต่ไม่ควรดำเนินการอย่างแท้จริงเพราะสองกระจายและที่ KL Divergence ไม่สมมาตรในและQPPPQQQPPPQQQ ฉันไม่แน่ใจว่าจะเข้าใจคำแถลงสุดท้ายได้อย่างไรหรือนี่คือสิ่งที่สัญชาตญาณของ 'ระยะทาง' แตกสลายหรือไม่ ฉันขอขอบคุณตัวอย่างที่เรียบง่าย แต่ลึกซึ้ง

1
ความแตกต่างของ KL ระหว่าง Gaussians หลายตัวแปร
ฉันมีปัญหาในการรับสูตร divergence ของ KL โดยสมมติว่ามีการแจกแจงปกติหลายตัวแปรสองตัว ฉันทำคดี univariate ค่อนข้างง่าย อย่างไรก็ตามมันก็ค่อนข้างนานแล้วที่ฉันเอาสถิติทางคณิตศาสตร์มาก่อน ฉันแน่ใจว่าฉันแค่คิดถึงบางสิ่งที่เรียบง่าย นี่คือสิ่งที่ฉันมี ... สมมติว่าทั้งและเป็นไฟล์ PDF ของการแจกแจงแบบปกติที่มีค่าเฉลี่ยและและความแปรปรวนและตามลำดับ ระยะทาง Kullback-Leibler จากถึงคือ:pppμ 1 μ 2 Σ 1 Σ 2 q pqqqμ1μ1\mu_1μ2μ2\mu_2Σ1Σ1\Sigma_1Σ2Σ2\Sigma_2qqqppp ∫[บันทึก( p ( x ) ) - บันทึก( q( x ) ) ] p ( x ) d x∫[log⁡(p(x))−log⁡(q(x))] p(x) dx\int \left[\log( p(x)) …

1
ทำไมเราใช้ Kullback-Leibler divergence แทนที่จะข้ามเอนโทรปีในฟังก์ชันวัตถุประสงค์ t-SNE
ในใจของฉัน KL แตกต่างจากการกระจายตัวอย่างไปจนถึงการแจกแจงที่แท้จริงเป็นเพียงความแตกต่างระหว่างเอนโทรปีและเอนโทรปี เหตุใดเราใช้ cross entropy เป็นฟังก์ชั่นค่าใช้จ่ายในแบบจำลองการเรียนรู้ของเครื่องหลายเครื่อง แต่ใช้ Kullback-Leibler divergence ใน t-sne ความเร็วในการเรียนรู้แตกต่างกันหรือไม่?

2
Kullback – Leibler vs Kolmogorov-Smirnov ระยะทาง
ฉันเห็นได้ว่ามีความแตกต่างอย่างเป็นทางการระหว่าง Kullback – Leibler กับ Kolmogorov-Smirnov อย่างไรก็ตามทั้งสองถูกใช้เพื่อวัดระยะห่างระหว่างการแจกแจง มีสถานการณ์ทั่วไปที่ควรใช้อย่างใดอย่างหนึ่งแทนอีกสถานการณ์หนึ่งหรือไม่? เหตุผลที่ต้องทำคืออะไร?

2
ความแตกต่างระหว่างระยะทาง Bhattacharyya และ KL divergence
ฉันกำลังมองหาคำอธิบายที่ใช้งานง่ายสำหรับคำถามต่อไปนี้: ในสถิติและทฤษฎีข้อมูลความแตกต่างระหว่างระยะทาง Bhattacharyya และความแตกต่างของ KL เป็นมาตรการของความแตกต่างระหว่างการแจกแจงความน่าจะเป็นแบบแยกสองอันคืออะไร พวกเขาไม่มีความสัมพันธ์อย่างแท้จริงและวัดระยะห่างระหว่างการแจกแจงความน่าจะเป็นสองแบบในลักษณะที่แตกต่างกันโดยสิ้นเชิงหรือไม่?

4
การวัดความเหมือนหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมสองตัว
มีการวัดความคล้ายคลึงกันหรือระยะห่างระหว่างเมทริกซ์ความแปรปรวนร่วมแบบสมมาตรสองแบบหรือไม่ (ทั้งสองมีขนาดเท่ากัน)? ฉันกำลังคิดว่านี่ของ analogues กับ KL divergence ของการแจกแจงความน่าจะเป็นสองอันหรือระยะทางแบบยุคลิดระหว่างเวกเตอร์ยกเว้นการใช้กับเมทริกซ์ ฉันคิดว่าจะมีการวัดความคล้ายคลึงกันค่อนข้างน้อย เป็นการดีที่ฉันต้องการทดสอบสมมติฐานว่างว่าเมทริกซ์ความแปรปรวนร่วมสองตัวนั้นเหมือนกัน

4
การปรับระยะ Kullback-Leibler?
มองไปที่ภาพนี้: ถ้าเราดึงตัวอย่างจากความหนาแน่นของสีแดงเราคาดว่าค่าบางค่าจะน้อยกว่า 0.25 ในขณะที่มันเป็นไปไม่ได้ที่จะสร้างตัวอย่างจากการกระจายตัวสีน้ำเงิน ด้วยเหตุนี้ระยะทาง Kullback-Leibler จากความหนาแน่นสีแดงถึงความหนาแน่นสีน้ำเงินจึงไม่มีที่สิ้นสุด อย่างไรก็ตามเส้นโค้งทั้งสองนั้นไม่ได้มีความแตกต่างในแง่ของ "ความเป็นธรรมชาติ" นี่คือคำถามของฉัน: มันมีการปรับระยะ Kullback - Leibler ที่จะอนุญาตให้มีระยะห่างแน่นอนระหว่างสองเส้นโค้งนี้หรือไม่?

3
อะไรคือข้อดีของการวัด Wasserstein เมื่อเทียบกับ Kullback-Leibler divergence?
อะไรคือความแตกต่างระหว่างWasserstein metricและKullback-Leibler divergence ? Wasserstein metric เรียกอีกอย่างหนึ่งว่าระยะทางของผู้มีอิทธิพลของโลก จากวิกิพีเดีย: Wasserstein (หรือ Vaserstein) เมตริกเป็นฟังก์ชันระยะทางที่กำหนดระหว่างการแจกแจงความน่าจะเป็นในพื้นที่เมตริกที่กำหนด M และ Kullback – Leibler divergence เป็นการวัดว่าการแจกแจงความน่าจะเป็นหนึ่งแยกจากการแจกแจงความน่าจะเป็นที่สองอย่างไร ฉันเคยเห็น KL ถูกใช้ในการเรียนรู้การใช้งานเครื่อง แต่เมื่อเร็ว ๆ นี้ฉันได้พบกับตัวชี้วัดของ Wasserstein มีแนวทางที่ดีเมื่อใช้อย่างใดอย่างหนึ่งหรือไม่? (ฉันมีชื่อเสียงไม่เพียงพอที่จะสร้างแท็กใหม่ด้วยWassersteinหรือEarth mover's distance.)

3
Kullback-Leibler divergence โดยไม่มีทฤษฎีข้อมูล
หลังจากผ่านการตรวจสอบของ Cross Validated แล้วฉันยังไม่รู้สึกว่าฉันเข้าใกล้การเข้าใจความแตกต่างของ KL นอกทฤษฎีข้อมูล มันค่อนข้างแปลกสำหรับใครบางคนที่มีพื้นฐานทางคณิตศาสตร์เพื่อให้เข้าใจคำอธิบายทฤษฎีข้อมูลได้ง่ายขึ้น เพื่อสรุปความเข้าใจของฉันจากเบื้องหลังทฤษฎีข้อมูล: ถ้าเรามีตัวแปรสุ่มที่มีจำนวนผลลัพธ์ที่แน่นอนมีการเข้ารหัสที่ดีที่สุดซึ่งช่วยให้เราสามารถสื่อสารผลลัพธ์กับคนอื่นโดยเฉลี่ยกับข้อความสั้นที่สุด (ฉันพบสิ่งนี้ง่ายที่สุดในการ รูปภาพในรูปของบิต) ความยาวที่คาดหวังของข้อความจะต้องสื่อสารผลลัพธ์โดยหากใช้การเข้ารหัสที่เหมาะสมที่สุด หากคุณต้องใช้การเข้ารหัสที่เหมาะสมที่สุดย่อยแล้ว KL divergence จะบอกเราโดยเฉลี่ยว่าข้อความของเราจะนานเท่าไร- ∑αพีαเข้าสู่ระบบ2( หน้าα)-Σαพีαเข้าสู่ระบบ2⁡(พีα) -\sum _{\alpha}p_{\alpha}\log_{2}(p_{\alpha}) ฉันชอบคำอธิบายนี้เพราะมันค่อนข้างเกี่ยวข้องกับความไม่สมมาตรของ KL divergence หากเรามีระบบที่แตกต่างกันสองระบบคือสองเหรียญที่โหลดแตกต่างกันพวกเขาจะมีการเข้ารหัสที่ดีที่สุดที่แตกต่างกัน ฉันไม่รู้สึกอย่างสัญชาตญาณว่าการใช้การเข้ารหัสของระบบที่สองสำหรับครั้งแรกนั้น "แย่พอ ๆ กัน" กับการใช้การเข้ารหัสของระบบแรกเป็นครั้งที่สอง โดยไม่ต้องผ่านกระบวนการคิดว่าฉันเชื่อมั่นในตัวเองอย่างไรตอนนี้ฉันมีความสุขมากที่จะช่วยให้คุณนี้ "ข้อความยาวคาดว่าพิเศษ" เมื่อใช้ 's เข้ารหัสสำหรับพีΣαพีα( บันทึก2Qα- บันทึก2พีα)Σαพีα(เข้าสู่ระบบ2⁡Qα-เข้าสู่ระบบ2⁡พีα)\sum _{\alpha}p_{\alpha}( \log _{2}q_{\alpha}-\log_{2}p_{\alpha})QQqพีพีp อย่างไรก็ตามคำจำกัดความส่วนใหญ่ของ KL divergence รวมถึงวิกิพีเดียก็ทำให้คำแถลง (ทำให้สิ่งนี้เป็นคำที่ไม่ต่อเนื่องเพื่อให้สามารถเปรียบเทียบกับการตีความทฤษฏีข้อมูลซึ่งทำงานได้ดีกว่าในแง่ที่ไม่ต่อเนื่องกันเป็นบิต) การแจกแจงจากนั้น KL จะให้การวัดบางส่วนของ "ความแตกต่าง" ฉันยังไม่เห็นคำอธิบายเดียวว่าแนวคิดทั้งสองนี้เกี่ยวข้องกันอย่างไร ฉันดูเหมือนจะจำได้ว่าในหนังสือของเขาเกี่ยวกับการอนุมานเดฟแมคเคย์ให้คะแนนเกี่ยวกับวิธีการบีบอัดข้อมูลและการอนุมานนั้นเป็นสิ่งเดียวกันและฉันสงสัยว่าคำถามของฉันเกี่ยวข้องกับเรื่องนี้จริงๆ …

2
ความสัมพันธ์ระหว่างคะแนน GINI และอัตราส่วนความน่าจะเป็นคืออะไร
ฉันกำลังศึกษาต้นไม้จำแนกและต้นไม้ถดถอยและหนึ่งในมาตรการสำหรับสถานที่แยกคือคะแนน GINI ตอนนี้ฉันถูกใช้เพื่อกำหนดตำแหน่งที่แยกที่ดีที่สุดเมื่อบันทึกอัตราส่วนความน่าจะเป็นของข้อมูลเดียวกันระหว่างการแจกแจงสองค่าเป็นศูนย์หมายความว่าโอกาสในการเป็นสมาชิกมีแนวโน้มเท่ากัน สัญชาตญาณของฉันบอกว่าต้องมีการเชื่อมต่อบางอย่างที่ GINI ต้องมีรากฐานที่ดีในทฤษฎีทางคณิตศาสตร์ของข้อมูล (Shannon) แต่ฉันไม่เข้าใจ GINI ดีพอที่จะได้รับความสัมพันธ์ของตัวเอง คำถาม: "หลักการแรก" ที่ได้มาจากคะแนนความไม่บริสุทธิ์ของ GINI เป็นตัวชี้วัดสำหรับการแยกคืออะไร? คะแนน GINI เกี่ยวข้องกับบันทึกของอัตราส่วนความน่าจะเป็นหรือปัจจัยพื้นฐานด้านข้อมูลทฤษฎีอื่น ๆ อย่างไร (Shannon Entropy, pdf , และเอนโทรปีของการข้ามเป็นส่วนหนึ่งของคะแนนเหล่านั้น) อ้างอิง: เกณฑ์การถ่วงน้ำหนักของ Gini เป็นอย่างไร คณิตศาสตร์ที่อยู่เบื้องหลังการจำแนกและต้นไม้การถดถอย http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (เพิ่ม) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity เอนโทรปีของแชนนอนอธิบายว่า: H( x ) = ΣผมP( xผม) บันทึกขP( xผม)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} …

3
การเชื่อมต่อระหว่างตัวชี้วัดฟิชเชอร์และเอนโทรปีสัมพัทธ์
บางคนสามารถพิสูจน์การเชื่อมต่อต่อไปนี้ระหว่างตัวชี้วัดข้อมูลฟิชเชอร์กับเอนโทรปีสัมพัทธ์ (หรือ KL divergence) อย่างเคร่งครัดทางคณิตศาสตร์อย่างหมดจด? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3)= ( 1 , ... , n ) , วันที่= ( วันที่1 , ... , วันที่n ) กรัมฉัน, J = ∫ ∂ ฉัน ( เข้าสู่ระบบP ( x ; a ) …

3
การวิเคราะห์ความแตกต่างของ Kullback-Leibler
ขอให้เราพิจารณาการแจกแจงความน่าจะเป็นสองแบบต่อไปนี้ P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 ฉันได้คำนวณการ Kullback-Leibler ซึ่งเท่ากับ0.492820258ฉันต้องการที่จะรู้โดยทั่วไปหมายเลขนี้แสดงให้ฉันเห็นอะไร? โดยทั่วไปแล้วการเบี่ยงเบน Kullback-Leibler แสดงให้ฉันเห็นว่าการกระจายความน่าจะเป็นหนึ่งเดียวจากอีกอันนั้นอยู่เท่าใด มันคล้ายกับคำศัพท์เอนโทรปี แต่ในแง่ของตัวเลขมันหมายถึงอะไร? หากฉันมีผลลัพธ์เป็นผลลัพธ์จาก 0.49 ฉันสามารถพูดได้ว่าการกระจายตัวประมาณหนึ่งตัวนั้นอยู่ไกลจากอีก 50%?0.4928202580.4928202580.492820258

1
ทำไม KL แตกต่างกันจึงไม่เป็นลบ
ทำไม KL แตกต่างกันจึงไม่เป็นลบ จากมุมมองของทฤษฎีสารสนเทศฉันมีความเข้าใจที่เข้าใจง่าย: บอกว่ามีสองตระการตาและBซึ่งจะประกอบด้วยชุดเดียวกันขององค์ประกอบที่โดดเด่นด้วยx p ( x )และq ( x )คือการแจกแจงความน่าจะเป็นที่แตกต่างกันมากกว่าชุดAและBตามลำดับAAABBBxxxp(x)p(x)p(x)q(x)q(x)q(x)AAABBB จากมุมมองของทฤษฎีข้อมูลlog2(P(x))log2⁡(P(x))\log_{2}(P(x))เป็นจำนวนเงินที่น้อยที่สุดของบิตที่จำเป็นต้องใช้สำหรับการบันทึกเป็นองค์ประกอบxxxทั้งมวล ดังนั้นความคาดหวัง ∑ x ∈ e n s e m b l e - p ( x ) ln ( p ( x ) ) สามารถตีความได้ว่าอย่างน้อยจำนวนบิตที่เราต้องการสำหรับบันทึกองค์ประกอบในAโดยเฉลี่ยAAA∑x∈ensemble−p(x)ln(p(x))∑x∈ensemble−p(x)ln⁡(p(x))\sum_{x \in ensemble}-p(x)\ln(p(x))AAA เนื่องจากสูตรนี้ให้ขอบเขตที่ต่ำกว่าบนบิตที่เราต้องการโดยเฉลี่ยดังนั้นสำหรับกลุ่มที่แตกต่างกันซึ่งทำให้มีการกระจายความน่าจะเป็นที่ต่างกันq ( x )ขอบเขตที่ให้สำหรับแต่ละองค์ประกอบxจะไม่ใช่บิตที่แน่นอน มอบให้โดยp ( x )ซึ่งหมายถึงการคาดหวัง∑ x ∈ …

2
Kullback – Leibler ความแตกต่างระหว่างการแจกแจงแกมม่าสองครั้ง
การเลือกเพื่อกำหนดพารามิเตอร์การแจกแจงแกมม่าΓ(b,c)Γ(b,c)\Gamma(b,c)โดย pdf g(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c)=1Γ(c)xc−1bce−x/bg(x;b,c) = \frac{1}{\Gamma(c)}\frac{x^{c-1}}{b^c}e^{-x/b} Kullback-Leibler divergence ระหว่างΓ(bq,cq)Γ(bq,cq)\Gamma(b_q,c_q)และΓ(bp,cp)Γ(bp,cp)\Gamma(b_p,c_p)ได้รับจาก [1] เป็น KLG( bQ, คQ; ขพี, คพี)= ( cQ- 1 ) Ψ ( cQ) - บันทึกขQ- คQ- บันทึกΓ ( cQ) + บันทึกΓ ( cพี)+ cพีเข้าสู่ระบบขพี- ( cพี- 1 ) ( Ψ ( cQ) + บันทึกขQ) + bQคQขพีKLGa(ขQ,คQ;ขพี,คพี)=(คQ-1)Ψ(คQ)-เข้าสู่ระบบ⁡bq−cq−log⁡Γ(cq)+log⁡Γ(cp)+cplog⁡bp−(cp−1)(Ψ(cq)+log⁡bq)+bqcqbp\begin{align} KL_{Ga}(b_q,c_q;b_p,c_p) &= (c_q-1)\Psi(c_q) - \log …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.