สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ตัวอย่างของตัวแปรอิสระ (ประมาณ) ที่ขึ้นอยู่กับค่าที่สุดขั้ว?
ฉันกำลังมองหาตัวอย่างของตัวแปรสุ่ม 2 ตัว , Y แบบนั้นXXXYYY |cor(X,Y)|≈0|cor(X,Y)|≈0\newcommand{\cor}{{\rm cor}}|\cor(X,Y)| \approx 0 แต่เมื่อพิจารณาส่วนหางของการแจกแจงพวกมันมีความสัมพันธ์สูง (ฉันพยายามหลีกเลี่ยง 'สหสัมพันธ์' / 'สหสัมพันธ์' ของหางเพราะมันอาจไม่ใช่เชิงเส้น) อาจใช้สิ่งนี้: |cor(X′,Y′)|≫0|cor(X′,Y′)|≫0|\cor(X', Y')| \gg 0 โดยที่มีเงื่อนไขบนX > 90 %ของประชากรของXและY ′ถูกกำหนดในความหมายเดียวกันX′X′X'X>90%X>90%X > 90\%XXXY′Y′Y'

3
ทำไมกลับเผยแพร่ผ่านเวลาใน RNN
ในเครือข่ายประสาทที่เกิดขึ้นอีกคุณมักจะส่งต่อการแพร่กระจายผ่านหลายขั้นตอน "ปลด" เครือข่ายและจากนั้นกลับแพร่กระจายไปตามลำดับของอินพุต ทำไมคุณไม่เพียงแค่อัปเดตน้ำหนักหลังจากแต่ละขั้นตอนตามลำดับ (เทียบเท่ากับการใช้ความยาวของการตัดทอนที่ 1 ดังนั้นจึงไม่มีสิ่งใดที่จะคลี่คลาย) สิ่งนี้ขจัดปัญหาการไล่ระดับสีที่หายไปอย่างสมบูรณ์ลดความซับซ้อนของอัลกอริทึมอย่างมากอาจจะลดโอกาสที่จะติดอยู่ในท้องถิ่น . ฉันฝึกรูปแบบด้วยวิธีนี้เพื่อสร้างข้อความและผลลัพธ์ที่ได้นั้นเทียบได้กับผลลัพธ์ที่ฉันเห็นจากแบบจำลองที่ผ่านการฝึกอบรมของ BPTT ฉันสับสนเพียงแค่นี้เพราะทุกบทช่วยสอนเกี่ยวกับ RNN ฉันเห็นว่าใช้ BPTT เกือบราวกับว่าจำเป็นสำหรับการเรียนรู้ที่เหมาะสมซึ่งไม่ใช่กรณี อัปเดต: ฉันเพิ่มคำตอบ

1
การชนกันของสองโลก: การใช้ ML สำหรับข้อมูลการสำรวจที่ซับซ้อน
ฉันพบปัญหาที่ดูเหมือนง่าย แต่ฉันไม่พบวิธีแก้ไขที่เหมาะสมเป็นเวลาหลายสัปดาห์แล้ว ฉันมีข้อมูลโพล / สำรวจค่อนข้างมาก (ผู้ตอบนับหมื่นพูด 50k ต่อชุดข้อมูล) มาจากสิ่งที่ฉันหวังว่าจะเรียกว่าแบบสำรวจที่ออกแบบมาอย่างซับซ้อนพร้อมกับน้ำหนักการแบ่งชั้นเส้นทางที่เฉพาะเจาะจงและอื่น ๆ สำหรับผู้ตอบแต่ละคนมีตัวแปรหลายร้อยตัวเช่นกลุ่มประชากร (อายุภูมิภาค ... ) และจากนั้นส่วนใหญ่เป็นตัวแปรไบนารี (อย่างมากที่สุดหมวดหมู่) ฉันมาจากพื้นหลังวิทยาศาสตร์คอมพิวเตอร์ / การเรียนรู้ของเครื่องจักรและฉันต้องเรียนรู้มากมายเกี่ยวกับสถิติและวิธีการสำรวจแบบดั้งเดิม ตอนนี้ฉันต้องการใช้การเรียนรู้ของเครื่องคลาสสิกกับข้อมูลเหล่านั้น (เช่นการทำนายค่าที่หายไปบางส่วนสำหรับกลุ่มย่อยของผู้ตอบแบบสอบถาม - โดยทั่วไปเป็นงานการจำแนกประเภท) แต่ถือและดูฉันไม่สามารถหาวิธีที่เหมาะสมทำ ฉันควรรวม stratas น้ำหนักหรือการกำหนดเส้นทางเหล่านั้นอย่างไร (เช่น: หากคำถาม 1 ตอบด้วยตัวเลือก 2 ถามคำถาม 3 หรือข้ามไป) เพียงใช้โมเดลของฉัน (ต้นไม้การถดถอยโลจิสติก SVM, XGBoost ... ) ดูเหมือนว่าอันตราย (และพวกเขาล้มเหลวในกรณีส่วนใหญ่) เนื่องจากพวกเขามักจะถือว่าข้อมูลมาจากตัวอย่างแบบง่ายหรือ iid อย่างน้อยหลายวิธีมีน้ำหนัก แต่ก็ไม่ได้ช่วยอะไรมาก นอกจากนี้ยังไม่มีความชัดเจนว่าฉันควรรวมคลาสที่ไม่สมดุลและน้ำหนักที่กำหนดโดยคำจำกัดความของการสำรวจเข้าด้วยกันอย่างไรโดยไม่พูดถึงเรื่องการแบ่งชั้น นอกจากนี้แบบจำลองผลลัพธ์ควรได้รับการสอบเทียบอย่างดี - …

3
CDF ปกติใดของการแจกแจงแบบแปรผันตามตัวแปรสุ่มเบต้า
สมมติว่าคุณกำหนด: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) ที่Φ−1Φ−1\Phi^{-1}เป็นสิ่งที่ตรงกันข้ามของCDF ของการกระจายแบบปกติมาตรฐาน คำถามของฉันคือมีการกระจายง่ายที่YYYต่อไปนี้หรือที่สามารถใกล้เคียงกับYYY ? ฉันถามเพราะฉันสงสัยอย่างมากจากผลการจำลอง (แสดงด้านล่าง) ที่YYYเปลี่ยนเป็นการแจกแจงแบบปกติเมื่อαα\alphaและββ\betaสูง แต่ฉันไม่รู้ว่าทำไมมันถึงเป็นคณิตศาสตร์ (แน่นอนว่าเมื่อα=1;β=1α=1;β=1\alpha=1;\beta=1 , XXXจะเหมือนกันและYYYจะเป็นมาตรฐานปกติ แต่ทำไมมันจะเป็นจริงสำหรับค่าที่สูงขึ้น?) หากไม่มาบรรจบกันเพื่อปกติสิ่งที่จะพารามิเตอร์ของการที่เป็นปกติในแง่ของαα\alphaและββ\beta ? (ฉันคาดหวังว่าค่าเฉลี่ยจะเป็นΦ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})เนื่องจากเป็นการเปลี่ยนแปลงของโหมด แต่ฉันไม่รู้ค่าเบี่ยงเบนมาตรฐาน) (วางวิธีอื่นนี้อาจจะถามว่า "ไม่Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))บรรจบกับการกระจายเบต้าสำหรับทิศทางของบางμμ\muและσσ\sigma " ผมไม่แน่ใจว่าไม่ว่าจะเป็นเรื่องง่ายที่จะตอบ) ผลการจำลอง ที่นี่ฉันแสดงเหตุผลที่ฉันสงสัยว่าผลที่ได้เป็นเรื่องปกติ (เนื่องจากฉันไม่สามารถสำรองด้วยคณิตศาสตร์) การจำลองการสามารถทำได้ใน R กับและ ตัวอย่างเช่นการเลือกพารามิเตอร์สูงα = 3000และβ = 7000 :YYYqnormrnormα=3000α=3000\alpha=3000β=7000β=7000\beta=7000 hist(qnorm(rbeta(5000, 3000, 7000))) สิ่งนี้ดูปกติqqnormและการทดสอบ Shapiro-Wilk (ซึ่งปกติคือสมมุติฐานว่าง) แนะนำเช่น: qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) …

2
กรณีการเลือกปฏิบัติในเอเชียของ Palantir: ความน่าจะเป็นคำนวณได้อย่างไร
ฉันอ่านบทความนี้เกี่ยวกับกรณีของ Palantir ที่ฝ่ายแรงงานกล่าวหาว่าพวกเขาเลือกปฏิบัติต่อชาวเอเชีย ไม่มีใครรู้ว่าพวกเขาได้รับการประเมินความน่าจะเป็นเหล่านี้จากที่ไหน ฉันไม่ได้รับ 1/741 ในรายการ (ก) (a) สำหรับตำแหน่ง QA Engineer จากกลุ่มผู้สมัครที่มีคุณสมบัติมากกว่า 730 คนซึ่งประมาณ 77% เป็นชาวเอเชีย - Palantir จ้างผู้สมัครที่ไม่ใช่ชาวเอเชียหกคนและผู้สมัครเอเชียเพียงคนเดียว ผลกระทบที่คำนวณโดย OFCCP มีค่าเกินกว่าสามส่วนเบี่ยงเบนมาตรฐาน โอกาสที่ผลลัพธ์นี้จะเกิดขึ้นตามโอกาสนั้นอยู่ที่ประมาณหนึ่งใน 741 (b) สำหรับตำแหน่งวิศวกรซอฟต์แวร์จากกลุ่มผู้สมัครที่มีคุณสมบัติมากกว่า 1,160 คนหรือประมาณ 85% เป็นชาวเอเชีย - Palantir จ้างผู้สมัครที่ไม่ใช่ชาวเอเชีย 14 คนและผู้สมัครชาวเอเชียเพียง 11 คน ผลกระทบที่คำนวณโดย OFCCP เกินกว่า 5 ส่วนเบี่ยงเบนมาตรฐาน โอกาสที่ผลลัพธ์นี้เกิดขึ้นตามโอกาสนั้นอยู่ที่ประมาณหนึ่งใน 3.4 ล้าน (c) สำหรับตำแหน่ง QA Engineer …

2
เมื่อพิจารณาจากโมเดลการถดถอยเชิงเส้นสองแบบ
ฉันเรียนหลักสูตรการเรียนรู้ด้วยเครื่องที่วิทยาลัยของฉัน หนึ่งในคำถามหนึ่งคำถามนี้ถูกถาม รุ่น 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon รุ่น 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon รุ่นใดที่เหมาะกับข้อมูลที่ดีกว่า (สมมติว่าข้อมูลสามารถสร้างแบบจำลองโดยใช้การถดถอยเชิงเส้น) คำตอบที่ถูกต้อง (ตามอาจารย์) ก็คือทั้งสองรุ่นจะทำงานได้ดีเท่ากัน อย่างไรก็ตามฉันเชื่อว่ารุ่นแรกจะเหมาะกว่า นี่คือเหตุผลที่อยู่เบื้องหลังคำตอบของฉัน รุ่นที่สองซึ่งสามารถเขียนใหม่เป็น , α = θ + θ 2จะไม่เหมือนกับรุ่นแรก อันที่จริงแล้วαเป็นพาราโบลาและดังนั้นจึงมีค่าต่ำสุด ( - 0.25ในกรณีนี้) ด้วยเหตุนี้ช่วงของθในรุ่นแรกจึงมากกว่าช่วงของαในรุ่นที่สอง ดังนั้นหากข้อมูลเป็นเช่นนั้นแบบที่ดีที่สุดมีความชันน้อยกว่า- 0.25โมเดลที่สองจะทำงานได้ไม่ดีมากเมื่อเทียบกับรุ่นแรก อย่างไรก็ตามในกรณีที่ความลาดเอียงของแบบที่ดีที่สุดมากกว่าαx+ϵαx+ϵ \alpha x + \epsilon …

4
คำศัพท์“ -iles” สำหรับครึ่งบนเปอร์เซ็นต์
ด้านบน 25% เป็นควอไทล์ชั้นนำ 10% แรกสุดคือช่วงชั้นสูงสุด 1% แรกคือเปอร์เซ็นต์ไทล์อันดับสูงสุด มีค่าเทียบเท่า 0.5% อันดับต้น ๆ เช่น 1-in-200 หรือไม่

3
ขั้นตอนวิธีการเรียนรู้วงดนตรีขั้นสุดยอดในงานการจดจำรูปแบบ?
โครงสร้างของคำถามนี้มีดังต่อไปนี้:ในตอนแรกฉันให้แนวคิดของการเรียนรู้ทั้งมวลฉันยังจัดทำรายการของการจดจำรูปแบบจากนั้นฉันก็ยกตัวอย่างของอัลกอริทึมการเรียนรู้ทั้งมวลและในที่สุดก็แนะนำคำถามของฉัน ผู้ที่ไม่ต้องการข้อมูลเสริมทั้งหมดอาจแค่ดูหัวข้อข่าวและตรงไปที่คำถามของฉัน การเรียนรู้ทั้งมวลคืออะไร ตามบทความ Wikipedia : ในสถิติและการเรียนรู้ของเครื่องจักรวิธีการทั้งมวลใช้อัลกอริทึมการเรียนรู้หลายอย่างเพื่อให้ได้ประสิทธิภาพการทำนายที่ดีกว่าที่จะได้รับจากอัลกอริทึมการเรียนรู้ที่เป็นส่วนประกอบใด ๆ เพียงอย่างเดียว ซึ่งแตกต่างจากชุดสถิติในกลศาสตร์เชิงสถิติซึ่งโดยทั่วไปแล้วจะไม่มีที่สิ้นสุดชุดการเรียนรู้ของเครื่องหมายถึงชุดรูปแบบทางเลือกที่ จำกัด ของคอนกรีตเท่านั้น แต่โดยทั่วไปแล้วจะช่วยให้โครงสร้างมีความยืดหยุ่นมากขึ้น ตัวอย่างของงานการจดจำรูปแบบ: การรู้จำอักขระด้วยแสง การจดจำบาร์โค้ด การจดจำป้ายทะเบียนรถ การตรวจจับใบหน้า การรู้จำเสียง การจดจำรูปภาพ การจำแนกเอกสาร ตัวอย่างของอัลกอริทึมการเรียนรู้ทั้งมวล: ต่อไปนี้ขั้นตอนวิธีการเรียนรู้ชุดใช้สำหรับงานพีอาร์ (ตามวิกิพีเดีย) Ensemble learning algorithm (การควบคุม meta-algorithms สำหรับการรวมอัลกอริทึมการเรียนรู้หลายตัวเข้าด้วยกัน): Boosting (การเรียนรู้ของเครื่องโดยใช้เมตาดาต้าอัลกอริธึมสำหรับการลดอคติและความแปรปรวนในการเรียนรู้แบบมีผู้ควบคุมและอัลกอริทึมการเรียนรู้ของเครื่องซึ่งเปลี่ยนผู้เรียนที่อ่อนแอไปเป็นคนที่แข็งแกร่ง) การรวม Bootstrap ("การห่อ ") (เครื่องเรียนรู้ชุดเมตาอัลกอริทึมที่ออกแบบมาเพื่อปรับปรุงเสถียรภาพและความแม่นยำของอัลกอริทึมการเรียนรู้ของเครื่องที่ใช้ในการจำแนกทางสถิติและการถดถอย) ค่าเฉลี่ยของ Ensemble (กระบวนการสร้างหลายรุ่นและรวมเข้าด้วยกันเพื่อสร้างเอาต์พุตที่ต้องการซึ่งต่างจากการสร้างเพียงหนึ่งโมเดลบ่อยครั้งที่ชุดของโมเดลทำงานได้ดีกว่าโมเดลใด ๆ ก็ตามเนื่องจากข้อผิดพลาดต่างๆของโมเดล "เฉลี่ยหมด" ) ส่วนผสมของผู้เชี่ยวชาญการผสมผสานของผู้เชี่ยวชาญ การใช้งานที่แตกต่างกัน ตระการตาของโครงข่ายประสาทเทียม (ชุดของโมเดลโครงข่ายประสาทเทียมที่ใช้ตัดสินใจโดยเฉลี่ยผลลัพธ์ของแบบจำลองแต่ละตัว) ป่าสุ่ม (วิธีการเรียนรู้ทั้งมวลสำหรับการจำแนกการถดถอยและงานอื่น …

1
ตัวอย่างการฝึกอบรมมีน้อยเกินไปเมื่อฝึกอบรมโครงข่ายประสาทเทียม
ฉันเป็นผู้เริ่มต้นที่พยายามรวบรวมโครงการแรกของฉัน ฉันมีโครงการจัดหมวดหมู่เพลงอยู่ในใจ แต่เนื่องจากฉันจะติดป้ายกำกับด้วยตนเองฉันจึงสามารถรวบรวมเพลงได้ประมาณ 1,000 เพลงหรือเพลง 60 ชั่วโมง ฉันจะแบ่งชั้นเรียนหลายชั้นดังนั้นจึงเป็นไปได้ที่ชั้นเรียนหนึ่งจะมีเพลง 50-100 เพลงในชุดฝึกอบรมน้อยมาก - ดูเหมือนว่าจะน้อยเกินไป! มีกฎทั่วไปหรือไม่สำหรับปริมาณข้อมูลที่ต้องใช้ในการฝึกอบรมโครงข่ายประสาทเทียมเพื่อให้สามารถใช้งานได้จริงหรือไม่? แก้ไข: ฉันคิดว่าจะใช้วานิลลา LSTM คุณสมบัติอินพุตจะมีมิติข้อมูล 39 ขนาดเอาต์พุต 6 ความพยายามครั้งแรกของฉันสำหรับขนาดเลเยอร์ที่ซ่อนจะเป็น 100

1
สัมประสิทธิ์สหสัมพันธ์ตัวอย่างเป็นตัวประมาณค่าที่ไม่เอนเอียงของสัมประสิทธิ์สหสัมพันธ์ของประชากรหรือไม่?
มันเป็นความจริงที่เป็นประมาณการที่เป็นกลางสำหรับ ? นั่นคือ ρ X , Y E [ R X , Y ] = ρ X , Y ?RX,YRX,YR_{X,Y}ρX,YρX,Y\rho_{X,Y}E[RX,Y]=ρX,Y?E[RX,Y]=ρX,Y?\mathbf{E}\left[R_{X,Y}\right]=\rho_{X,Y}? ถ้าไม่ใช่ตัวประมาณที่เป็นกลางสำหรับคืออะไร? (บางทีอาจมีตัวประมาณค่าแบบไม่เอนเอียงมาตรฐานที่ใช้หรือไม่นอกจากนี้มันเหมือนกับความแปรปรวนตัวอย่างแบบไม่เอนเอียงซึ่งเราทำการปรับเปลี่ยนความง่ายของการคูณความแปรปรวนตัวอย่างแบบเอนเอียงโดยหรือไม่)nρX,YρX,Y\rho_{X,Y}nn−1nn−1\frac{n}{n-1} ค่าสัมประสิทธิ์สหสัมพันธ์ของประชากรถูกกำหนดเป็นในขณะที่ค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่างถูกกำหนดเป็นRX,Y=∑ n ฉัน= 1 (Xi- ˉ X )(ρX,Y=E[(X−μX)(Y−μY)]E[(X−μX)2]−−−−−−−−−−−−√E[(Y−μY)2]−−−−−−−−−−−−√,ρX,Y=E[(X−μX)(Y−μY)]E[(X−μX)2]E[(Y−μY)2],\rho_{X,Y}=\frac{\mathbf{E}\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right]}{\sqrt{\mathbf{E}\left[\left(X-\mu_{X}\right)^{2}\right]}\sqrt{\mathbf{E}\left[\left(Y-\mu_{Y}\right)^{2}\right]}},RX,Y=∑ni=1(Xi−X¯)(Yi−Y¯)∑ni=1(Xi−X¯)2−−−−−−−−−−−−−√∑ni=1(Yi−Y¯)2−−−−−−−−−−−−√.RX,Y=∑i=1n(Xi−X¯)(Yi−Y¯)∑i=1n(Xi−X¯)2∑i=1n(Yi−Y¯)2.R_{X,Y}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)\left(Y_{i}-\bar{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)^{2}}}.

1
สิ่งนั้นเป็นความสัมพันธ์ถ่วงน้ำหนัก?
ฉันมีข้อมูลที่น่าสนใจเกี่ยวกับศิลปินทางดนตรีที่ได้รับความนิยมมากที่สุดที่ถูกสตรีมแบ่งออกเป็นส่วน ๆ ตามที่ตั้งไว้ในเขตรัฐสภาประมาณ 200 แห่ง ฉันต้องการดูว่าเป็นไปได้หรือไม่ที่จะสำรวจความคิดเห็นของบุคคลตามความชอบทางดนตรีของเขาหรือเธอและพิจารณาว่าเขาหรือเธอ "ฟังเหมือนประชาธิปไตย" หรือ "ฟังเหมือนรีพับลิกัน" (โดยธรรมชาตินี่คือใจที่อ่อน แต่มีเอนโทรปีที่แท้จริงในข้อมูล!) ฉันมีข้อมูลเกี่ยวกับศิลปินประมาณ 100 คนบวกกับคะแนนโหวตเฉลี่ยสำหรับพรรครีพับลิกันและเดโมแครตในแต่ละเขตในรอบการเลือกตั้งสามรอบที่ผ่านมา ดังนั้นฉันจึงมีความสัมพันธ์กับศิลปินแต่ละคนเพื่อดูว่าศิลปินคนไหนที่ฟังอย่างไม่เป็นสัดส่วนมากที่สุดเพื่อเป็นฟังก์ชั่นการแบ่งปันการโหวตให้กับพรรคเดโมแครต ความสัมพันธ์เหล่านั้นเริ่มต้นที่ประมาณ -0.3 ถึง 0.3 สำหรับศิลปินที่กำหนดมีจำนวนมากตรงกลางที่มีพลังในการทำนายน้อยหรือไม่มีเลย ฉันมีสองคำถาม: อันดับแรกจำนวนสตรีมโดยรวมต่ออำเภอแตกต่างกันอย่างกว้างขวาง ตอนนี้ฉันมีความสัมพันธ์ร้อยละของสตรีมทั้งหมดต่อเขตที่เป็นของพูดบียอนเซ่กับเปอร์เซ็นต์ของคะแนนโหวตสำหรับพรรคเดโมแครต แต่สตรีมทั้งหมดในหนึ่งอำเภออาจเป็นล้านในขณะที่อีกสตรีนอยู่ในระดับต่ำ 100,000 ฉันจำเป็นต้องคำนึงถึงความสัมพันธ์กับสิ่งนี้หรือไม่? ประการที่สองฉันสงสัยว่าจะรวมความสัมพันธ์เหล่านี้เข้ากับการคาดเดาแบบรวมกับการเมืองของผู้ใช้ได้อย่างไร สมมติว่าฉันใช้ศิลปินทั้ง 20 คนที่มีค่าสหสัมพันธ์สูงสุด (บวกและลบ) สิบคนในแต่ละทิศทางและสำรวจผู้ใช้ว่าเขาหรือเธอชอบศิลปินแต่ละคนมากแค่ไหน ดังนั้นฉันจึงได้คะแนนโหวตขึ้นหรือลงของศิลปินแต่ละคนบวกกับความสัมพันธ์กับการเมืองสำหรับค่านิยมทั้ง 20 นี้ มีวิธีมาตรฐานในการรวมสหสัมพันธ์เหล่านี้เป็นค่าประมาณเดียวหรือไม่? (ฉันกำลังคิดบางอย่างเช่นแบบทดสอบภาษาถิ่นที่มีชื่อเสียงของ NYTimes ซึ่งรวมความน่าจะเป็นระดับภูมิภาคเข้ากับคำถาม 25 ข้อในแผนที่ความร้อน แต่ในกรณีนี้ฉันแค่ต้องการค่าเดียวกับรสนิยมทางดนตรีของพรรครีพับลิกันหรือพรรครีพับลิกัน ขอขอบคุณ!

2
คุณช่วยอธิบายความขัดแย้งของ Simpson ด้วยสมการแทนที่จะเป็นตารางฉุกเฉินได้ไหม
ฉันอาจไม่ได้มีความเข้าใจที่ชัดเจนของความขัดแย้งซิมป์สัน ฉันรู้ว่าค่าเฉลี่ยของการตอบสนอง Y1 ซึ่งจัดกลุ่มตามระดับของปัจจัย A ที่เป็นไปได้ทั้งหมดอาจสูงกว่าค่าเฉลี่ยของการตอบสนอง Y2 ในทุกระดับของ A แม้ว่าค่าเฉลี่ยของ Y1 สำหรับแต่ละระดับของ A (แต่ละกลุ่ม) คือ น้อยกว่าค่าเฉลี่ยของ Y2 ที่สอดคล้องกันเสมอ ฉันได้อ่านตัวอย่าง แต่ฉันก็ยังประหลาดใจในแต่ละครั้งที่ฉันเห็นอาจเป็นเพราะฉันไม่ได้เรียนรู้อย่างดีจากตัวอย่างที่เฉพาะเจาะจง: ฉันมีปัญหาในการพูดคุยทั่วไป ฉันเรียนรู้ได้ดีที่สุดและอยากจะเห็นคำอธิบายในสูตร คุณช่วยอธิบายความขัดแย้งที่อาศัยสมการแทนที่จะเป็นตารางนับได้ไหม นอกจากนี้ฉันคิดว่าเหตุผลที่ทำให้ฉันประหลาดใจก็คือฉันอาจตั้งสมมติฐานบางอย่างเกี่ยวกับค่าเฉลี่ยที่เกี่ยวข้องในความขัดแย้งซึ่งอาจไม่เป็นความจริงโดยทั่วไปโดยไม่รู้ตัว บางทีฉันอาจลืมน้ำหนักด้วยจำนวนตัวอย่างในแต่ละกลุ่ม? แต่จากนั้นฉันอยากเห็นสมการที่แสดงให้ฉันเห็นว่าการประเมินค่าเฉลี่ยโดยรวมมีความแม่นยำมากขึ้นถ้าฉันให้น้ำหนักแต่ละกลุ่มเฉลี่ยตามจำนวนตัวอย่างในแต่ละกลุ่มเพราะ (ถ้าเป็นจริง) จะไม่ชัดเจน ถึงฉันโดยทั่วไป อย่างไร้เดียงสาฉันคิดว่าการประมาณค่าของE [ Y1]E[Y1]\mathbf{E}[Y_1]มีข้อผิดพลาดมาตรฐานที่ต่ำกว่าเมื่อฉันมีตัวอย่างมากขึ้นโดยไม่คำนึงถึงน้ำหนัก

2
Hamiltonte monte carlo
ใครสามารถอธิบายแนวคิดหลักที่อยู่เบื้องหลังวิธีการของ Hamiltonian Monte Carlo และในกรณีใดที่พวกเขาจะให้ผลลัพธ์ที่ดีกว่าวิธีของ Markov Chain Monte Carlo
14 bayesian  mcmc  hmc 

1
Jeffreys ก่อนหน้าสำหรับพารามิเตอร์หลายตัว
ในบางกรณี Jeffreys ก่อนหน้าสำหรับโมเดลหลายมิติเต็มรูปแบบจะถูกพิจารณาว่าไม่เพียงพอนี่เป็นตัวอย่างกรณีใน: (โดยที่ ε ∼ N ( 0 , σ 2 ) , โดยมี μและ σไม่ทราบ) โดยที่ก่อนหน้านี้ต้องการ (สำหรับ Jeffreys เต็มก่อนหน้า π ( μ , σ ) ∝ σ - 2 ): p ( μ , σ ) = π ( μ ) ⋅ π ( σ ) อัลฟ่าσ - …

2
มาตรฐานประสิทธิภาพสำหรับ MCMC
เคยมีการศึกษาขนาดใหญ่ของวิธีการ MCMC ที่เปรียบเทียบประสิทธิภาพของอัลกอริทึมที่แตกต่างกันหลายชุดในชุดทดสอบความหนาแน่นหรือไม่? ฉันกำลังคิดถึงบางสิ่งที่เทียบเท่ากับกระดาษของ Rios และ Sahinidis (2013) ซึ่งเป็นการเปรียบเทียบอย่างละเอียดเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพกล่องดำแบบไร้อนุพันธ์จำนวนมากในฟังก์ชั่นการทดสอบหลายชั้น สำหรับ MCMC สามารถประเมินประสิทธิภาพได้เช่นจำนวนตัวอย่างที่มีประสิทธิภาพ (ESS) ต่อการประเมินความหนาแน่นหรือตัวชี้วัดอื่น ๆ ที่เหมาะสม ความคิดเห็นไม่กี่: ฉันขอขอบคุณที่ประสิทธิภาพจะขึ้นอยู่กับรายละเอียดของเป้าหมาย PDF แต่ข้อโต้แย้งที่คล้ายกัน (อาจไม่เหมือนกัน) สำหรับการเพิ่มประสิทธิภาพและยังมีฟังก์ชั่นมาตรฐานห้องสวีทการแข่งขันเอกสารและอื่น ๆ ที่เกี่ยวข้องกับการเพิ่มประสิทธิภาพการเปรียบเทียบ อัลกอริทึม นอกจากนี้มันเป็นความจริงที่ MCMC แตกต่างจากการปรับให้เหมาะสมเมื่อเปรียบเทียบกับการดูแลและปรับแต่งที่จำเป็นจากผู้ใช้ อย่างไรก็ตามขณะนี้มีวิธีการ MCMC หลายวิธีที่ต้องการการปรับแต่งเพียงเล็กน้อยหรือไม่มีเลย: วิธีการปรับตัวในเฟสเบิร์นอิน, ในระหว่างการสุ่มตัวอย่าง, หรือหลายรัฐ (หรือเรียกว่าensemble ) วิธีการ (เช่นEmcee ) ข้อมูลจากโซ่อื่น ๆ เพื่อเป็นแนวทางในการสุ่มตัวอย่าง ฉันสนใจเป็นพิเศษในการเปรียบเทียบระหว่างวิธีมาตรฐานและหลายรัฐ (aka ensemble) สำหรับคำจำกัดความของหลายรัฐโปรดดูมาตรา 30.6 ของหนังสือของ MacKay : …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.