วิธีที่ดีที่สุดในการประเมินวิธีการประมาณ PDF


10

ฉันต้องการทดสอบความคิดของฉันที่ฉันคิดว่าดีกว่าสิ่งที่ฉันได้เห็น ฉันอาจจะผิด แต่ฉันต้องการที่จะทดสอบความคิดของฉันและเอาชนะข้อสงสัยของฉันโดยการสังเกตเพิ่มเติมบางอย่าง

สิ่งที่ฉันคิดที่จะทำคือ:

  1. วิเคราะห์กำหนดชุดของการแจกแจง บางส่วนเป็นแบบง่าย ๆ เช่น Gaussian, uniform, หรือ Tophat แต่สิ่งเหล่านี้ต้องยากและท้าทายเช่นการจำหน่ายซิมป์สัน
  2. ใช้งานซอฟต์แวร์ตามการแจกแจงเชิงวิเคราะห์และใช้เพื่อสร้างตัวอย่างบางส่วน
  3. เนื่องจากการแจกแจงนั้นถูกกำหนดไว้ในการวิเคราะห์ฉันจึงรู้นิยาม PDF ที่แท้จริงของพวกมันอยู่แล้ว มันเยี่ยมมาก
  4. จากนั้นฉันจะทดสอบวิธีการประมาณ PDF ต่อไปนี้กับตัวอย่างด้านบน:
    • วิธีการประมาณค่า PDF ที่มีอยู่ (เช่น KDE ที่มีเมล็ดและแบนด์วิดท์ต่างๆ)
    • ความคิดของฉันเองที่ฉันคิดว่าคุ้มค่าที่จะลอง
  5. จากนั้นฉันจะวัดข้อผิดพลาดของการประมาณกับ PDF จริง
  6. จากนั้นฉันจะรู้ว่าวิธีการประมาณ PDF แบบใดดีกว่า

คำถามของฉันคือ:

  • คำถามที่ 1:มีการปรับปรุงแผนของฉันข้างต้นหรือไม่
  • Q2:ฉันพบว่ามันยากสำหรับฉันที่จะวิเคราะห์ PDF จริงหลาย ๆ อย่าง มีรายการที่ครอบคลุมของ PDF จริงที่กำหนดไว้มากมายที่วิเคราะห์ด้วยความยากลำบากที่แตกต่างกัน (รวมถึงไฟล์ที่ยากมาก) ที่ฉันสามารถนำกลับมาใช้ใหม่ได้หรือไม่?

ฟังดูเหมือนการจำลอง Monte Carlo มากสำหรับฉัน
Christoph Hanck

คำตอบ:


2

A2: คุณสามารถทดสอบวิธีการของคุณใน 1D ในชุดต่อไปของมาตรฐาน


นั่นคือสิ่งที่ฉันกำลังมองหา และใช่กรณีที่ฉันสนใจในขณะนี้คือ 1D
มนุษย์ถ้ำ

11
  • A1 ฟังดูเหมือนแผนการที่สมเหตุสมผลสำหรับฉัน เพียงพูดถึงสองสามคะแนน คุณจะต้องทดสอบด้วยตัวชี้วัดข้อผิดพลาดที่แตกต่างกัน ( , KL divergence เป็นต้น) เนื่องจากวิธีการจะทำงานแตกต่างกันไปตามฟังก์ชันการสูญเสีย นอกจากนี้คุณจะต้องทดสอบจำนวนตัวอย่างที่แตกต่างกัน ในที่สุดวิธีการประเมินความหนาแน่นหลายวิธีมีประสิทธิภาพไม่ดีใกล้กับความไม่ต่อเนื่อง / ขอบเขตดังนั้นโปรดรวมไฟล์ PDF ที่ถูกตัดทอนในชุดของคุณLp

  • A2 คุณสนใจเฉพาะไฟล์ PDF 1 มิติหรือมีแผนจะทดสอบกรณีหลายตัวแปรหรือไม่? สำหรับชุดเบนช์มาร์กมาตรฐานฉันถามคำถามที่เกี่ยวข้องบ้างในอดีตโดยมีเป้าหมายในการทดสอบอัลกอริทึม MCMCแต่ฉันไม่พบสิ่งใดเหมือนชุด PDF ที่เป็นที่ยอมรับ

หากคุณมีเวลาและทรัพยากรในการคำนวณมากมายคุณอาจลองทำการทดสอบความคิดของคุณกับฝ่ายตรงข้าม :

  • กำหนดครอบครัวพาราความยืดหยุ่นมากของไฟล์ PDF (เช่นมีส่วนผสมที่มีขนาดใหญ่ของจำนวนของไฟล์ PDF ที่รู้จักกัน) และย้ายไปรอบ ๆ พื้นที่พารามิเตอร์ของส่วนผสมผ่านบางเพิ่มประสิทธิภาพระดับโลก nonconvexวิธี (*) เพื่อให้เป็นไปลดประสิทธิภาพของวิธีการของคุณและขยายประสิทธิภาพของวิธีการประมาณความหนาแน่นอื่น ๆ (และอาจกลับกัน) นี่จะเป็นการทดสอบที่แข็งแกร่งของจุดแข็ง / จุดอ่อนของวิธีการของคุณ

ในที่สุดความต้องการของการเป็นดีกว่าวิธีการอื่น ๆทั้งหมดเป็นแถบที่สูงเกินไป จะต้องมีบางอย่างที่ไม่มีหลักการอาหารกลางวันฟรีในที่ทำงาน (อัลกอริทึมใด ๆ ที่มีบางข้อสันนิษฐานก่อนหน้านี้เช่นความเรียบระดับความยาว ฯลฯ ) เพื่อให้วิธีการของคุณเป็นผลงานที่มีค่าคุณจะต้องแสดงให้เห็นว่ามีระบอบการปกครอง / โดเมนที่มีความสนใจโดยทั่วไปซึ่งอัลกอริทึมของคุณทำงานได้ดีขึ้น (การทดสอบที่ไม่เหมาะสมดังกล่าวข้างต้น

(*) เนื่องจากตัวชี้วัดประสิทธิภาพของคุณเป็นแบบสุ่ม (คุณจะทำการประเมินด้วยการสุ่มตัวอย่าง Monte Carlo) คุณอาจต้องการตรวจสอบคำตอบนี้เกี่ยวกับการเพิ่มประสิทธิภาพของฟังก์ชั่นวัตถุประสงค์ที่มีราคาแพงและมีเสียงดัง


1

คำถามที่ 1: มีการปรับปรุงแผนของฉันด้านบน

ขึ้นอยู่กับว่า ส่วนที่เหลือของการกระจายสารผสมมักเกิดจากการทำสิ่งโง่ ๆ เช่นการระบุการกระจายของส่วนผสมที่ไม่จำเป็นเป็นแบบจำลองข้อมูลที่จะเริ่มต้นด้วย ดังนั้นประสบการณ์ของฉันแนะนำอย่างน้อยให้ระบุเงื่อนไขการกระจายของส่วนผสมจำนวนมากในผลลัพธ์เช่นเดียวกับที่มีในโมเดล นอกจากนี้เอาต์พุตของ PDF แบบผสมนั้นไม่เหมือนกับ PDF ในโมเดล การค้นหาเริ่มต้น Mathematica รวมถึงการกระจายการผสมที่มีสองคำและสามารถระบุเป็นจำนวนที่มากขึ้น

คำถามที่ 2: มีรายการที่ครอบคลุมของไฟล์ PDF จริงที่ถูกวิเคราะห์จำนวนมากที่มีความยากลำบากแตกต่างกันไป (รวมถึงไฟล์ที่ยากมาก) ที่ฉันสามารถนำกลับมาใช้ใหม่ได้หรือไม่?

นี่คือรายการจากรูทีนFindDistributionของ Mathematica :

การกระจายอย่างต่อเนื่องเป็นไปได้สำหรับ TargetFunctions คือ: BetaDistribution, CauchyDistribution, ChiDistribution, ChiSquareDistribution, ExponentialDistribution, ExtremeValueDistribution, FrechetDistribution, GammaDistribution, GumbelDistribution, HalfNormalDistribution, InverseGaussianDistribution, LaplaceDistribution, LevyDistribution, LogisticDistribution, LogNormalDistribution, MaxwellDistribution, NormalDistribution, ParetoDistribution, RayleighDistribution, StudentTDistribution, UniformDistribution, WeibullDistribution , HistogramDistribution

การแจกแจงแบบแยกส่วนที่เป็นไปได้สำหรับ TargetFunctions คือ: BenfordDistribution, BinomialDistribution, BorelTannerDistribution, DiscistUnistribution, การกระจายแบบกระจาย, การแบ่งทางเรขาคณิต, LogisteriesDistribution, PascalDistribution, PistalDistribution

เกณฑ์ข้อมูลภายในใช้เกณฑ์ข้อมูลแบบเบย์ร่วมกับไพรเออร์ในการกำหนดเป้าหมายเป้าหมาย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.