สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

4
การแจกแจงของข้อผิดพลาดมีผลต่อการกระจายของการตอบสนองอย่างไร
ดังนั้นเมื่อฉันคิดว่าปกติแล้วข้อผิดพลาดจะถูกกระจายในการถดถอยเชิงเส้นมันหมายความว่าอะไรสำหรับตัวแปรตอบสนอง ?yyy

5
ซอฟต์แวร์ (หรือ webapps) สำหรับการสอนสถิติเด็กหรือความน่าจะเป็น?
ฉันต้องการ (ในอนาคตอันไกล) เพื่อสอนสถิติแก่เด็ก ๆ สำหรับเรื่องนั้นฉันยินดีที่จะรู้เกี่ยวกับซอฟต์แวร์ (เห็นได้ชัดว่าฉันกำลังพุ่งเข้าหา FOSS) หรือ webapps ซึ่งมีประโยชน์ในการอธิบายความคิดทางสถิติ / ความน่าจะเป็นสำหรับเด็ก ๆ (หรือผู้ใหญ่สำหรับเรื่องนั้น) สิ่งนี้สามารถใช้ได้ทั้งโดยผู้สอนเด็ก ๆ หรือทั้งสองอย่าง รูปแบบที่แนะนำของคำตอบ: ชื่อซอฟต์แวร์สิ่งที่ช่วยสอนใครควรใช้ลิงค์

2
คำอธิบายที่ใช้งานง่ายของ stationarity
ฉันกำลังต่อสู้กับความนิ่งในหัวอยู่พักหนึ่ง ... นี่เป็นวิธีที่คุณคิดเกี่ยวกับมันหรือไม่? ความคิดเห็นใด ๆ หรือความคิดเพิ่มเติมจะได้รับการชื่นชม กระบวนการที่อยู่กับที่เป็นกระบวนการที่สร้างค่าอนุกรมเวลาเช่นค่าเฉลี่ยการกระจายและความแปรปรวนถูกเก็บไว้อย่างคงที่ การพูดอย่างเคร่งครัดนี้เป็นที่รู้จักกันในรูปแบบที่อ่อนแอของความคงอยู่หรือความแปรปรวนร่วม / หมายถึงความนิ่ง รูปแบบที่อ่อนแอของ stationarity คือเมื่ออนุกรมเวลามีค่าคงที่และความแปรปรวนตลอดเวลา มาพูดง่ายๆว่าผู้ปฏิบัติงานบอกว่าอนุกรมเวลาที่อยู่กับที่เป็นแบบที่ไม่มีแนวโน้ม - มีความผันผวนรอบค่าเฉลี่ยคงที่ ความแปรปรวนระหว่างความล่าช้าที่แตกต่างกันเป็นค่าคงที่มันไม่ได้ขึ้นอยู่กับตำแหน่งที่แน่นอนในอนุกรมเวลา ตัวอย่างเช่นความแปรปรวนร่วมระหว่าง t และ t-1 (ความล่าช้าในการสั่งซื้อครั้งแรก) ควรจะเหมือนกันเสมอ (สำหรับช่วงเวลาระหว่าง 1960-1970 เช่นเดียวกับช่วงเวลาตั้งแต่ 1965-1975 หรือช่วงเวลาอื่น ๆ ) ในกระบวนการที่ไม่หยุดนิ่งไม่มีค่าเฉลี่ยในระยะยาวซึ่งชุดข้อมูลจะเปลี่ยนกลับ ดังนั้นเราจึงกล่าวว่าอนุกรมเวลาที่ไม่หยุดนิ่งไม่ได้หมายถึงการย้อนกลับ ในกรณีนั้นความแปรปรวนขึ้นอยู่กับตำแหน่งสัมบูรณ์ในอนุกรมเวลาและความแปรปรวนไปที่อินฟินิตี้เมื่อเวลาผ่านไป เทคนิคการพูดความสัมพันธ์อัตโนมัติจะไม่สลายไปตามกาลเวลา แต่ในตัวอย่างเล็ก ๆ พวกเขาหายไป - แม้ว่าจะช้า ในกระบวนการคงที่แรงกระแทกเป็นแบบชั่วคราวและกระจาย (สูญเสียพลังงาน) เมื่อเวลาผ่านไป พวกเขาไม่ได้มีส่วนร่วมกับค่าอนุกรมเวลาใหม่ ตัวอย่างเช่นบางสิ่งที่เคยเกิดขึ้นมาแล้วเมื่อนานมาแล้ว (นานพอ) เช่นสงครามโลกครั้งที่สองมีผลกระทบ แต่มันเป็นซีรีย์เวลาวันนี้เหมือนกับสงครามโลกครั้งที่สองไม่เคยเกิดขึ้นเราจะบอกว่าการสูญเสียพลังงาน หรือกระจายไป ความคงที่มีความสำคัญอย่างยิ่งเนื่องจากทฤษฎีเศรษฐมิติแบบคลาสสิกหลาย ๆ …

3
มันทำให้รู้สึกถึงความสัมพันธ์บางส่วนที่จะมีขนาดใหญ่กว่าความสัมพันธ์เป็นศูนย์เพื่อ?
นี่อาจแสดงให้เห็นถึงการขาดความเข้าใจพื้นฐานเกี่ยวกับการทำงานของความสัมพันธ์บางส่วน ฉันมี 3 ตัวแปร x, y, z เมื่อฉันควบคุมสำหรับ z ความสัมพันธ์ระหว่าง x และ y เพิ่มขึ้นเหนือความสัมพันธ์ระหว่าง x และ y เมื่อไม่ได้ควบคุม z มันสมเหตุสมผลหรือไม่ ฉันมักจะคิดว่าเมื่อตัวควบคุมหนึ่งสำหรับผลกระทบของตัวแปรที่ 3 ความสัมพันธ์ควรลดลง ขอขอบคุณสำหรับความช่วยเหลือของคุณ!

1
เมื่อใดที่จะต้องการใช้ AdaBoost
ดังที่ฉันเคยได้ยินเกี่ยวกับตัวจําแนก AdaBoost ที่กล่าวถึงในที่ทำงานหลายครั้งฉันต้องการให้ความรู้สึกที่ดีขึ้นเกี่ยวกับวิธีการใช้งานและเมื่อใครต้องการใช้งาน ฉันได้ไปข้างหน้าและอ่านเอกสารและแบบฝึกหัดเกี่ยวกับสิ่งที่ฉันพบใน Google แต่มีลักษณะของตัวจําแนกซึ่งฉันยังคงมีปัญหาในการทำความเข้าใจ: บทเรียนส่วนใหญ่ที่ฉันเคยเห็นพูดถึง AdaBoost เป็นการหาชุดค่าผสมถ่วงน้ำหนักที่ดีที่สุดของตัวแยกประเภทจำนวนมาก เรื่องนี้ทำให้รู้สึกถึงฉัน สิ่งที่ไม่สมเหตุสมผลคือการนำไปใช้งาน (เช่น MALLET) ซึ่ง AdaBoost ดูเหมือนจะยอมรับผู้เรียนที่อ่อนแอเพียงคนเดียว สิ่งนี้มีเหตุผลอะไรบ้าง? หากมีตัวจําแนกเดียวที่มอบให้กับ AdaBoost มันจะไม่ส่งคืนลักษณนามเดียวกันนั้นด้วยน้ำหนัก 1 หรือไม่ มันสร้างลักษณนามใหม่จากลักษณนามแรกได้อย่างไร เมื่อไหร่ที่จะต้องการใช้ AdaBoost ฉันได้อ่านว่ามันควรจะเป็นหนึ่งในตัวแยกประเภทที่ดีที่สุดนอกกรอบ แต่เมื่อฉันพยายามเพิ่มตัวแยกประเภท MaxEnt ฉันได้รับคะแนน f- 70% ด้วย AdaBoost ทำการฆาตกรรมและทำให้ฉัน f- คะแนนของบางอย่างเช่น 15% พร้อมการเรียกคืนสูงมากและความแม่นยำต่ำมากแทน ดังนั้นตอนนี้ฉันสับสน เมื่อใดที่ฉันจะต้องการใช้ AdaBoost ฉันกำลังมองหาคำตอบที่เข้าใจง่ายมากกว่าที่จะเป็นคำตอบทางสถิติอย่างเคร่งครัดถ้าเป็นไปได้


7
อนุกรมเวลาสั้น ๆ มีค่าสำหรับการสร้างแบบจำลองหรือไม่?
นี่คือบริบทบางอย่าง ฉันสนใจที่จะพิจารณาว่าตัวแปรสภาพแวดล้อมสองตัว (อุณหภูมิระดับสารอาหาร) ส่งผลต่อค่าเฉลี่ยของตัวแปรตอบสนองในช่วง 11 ปีอย่างไร ภายในแต่ละปีมีข้อมูลจากที่ตั้งมากกว่า 100k แห่ง เป้าหมายคือเพื่อตรวจสอบว่าในช่วง 11 ปีที่ผ่านมาค่าเฉลี่ยของตัวแปรตอบสนองตอบสนองต่อการเปลี่ยนแปลงของตัวแปรสภาพแวดล้อม (เช่นอุณหภูมิที่อบอุ่น + สารอาหารมากกว่าจะ = การตอบสนองมากขึ้น) น่าเสียดายเนื่องจากการตอบสนองคือค่าเฉลี่ย (โดยไม่ได้ดูค่าเฉลี่ยการเปลี่ยนแปลงระหว่างปีปกติจะล้นสัญญาณ) การถดถอยจะเป็น 11 จุดข้อมูล (1 ค่าเฉลี่ยต่อปี) โดยมีตัวแปรอธิบาย 2 ตัว สำหรับฉันแม้แต่การถดถอยเชิงบวกเชิงเส้นก็ยากที่จะพิจารณาว่ามีความหมายเนื่องจากชุดข้อมูลนั้นมีขนาดเล็กมาก (ไม่ตรงกับคะแนน / ตัวแปร 40 คะแนนเว้นแต่ว่าความสัมพันธ์นั้นแข็งแกร่งมาก) ฉันถูกต้องที่จะทำให้สมมติฐานนี้หรือไม่? ใครช่วยเสนอความคิด / มุมมองอื่น ๆ ที่ฉันอาจหายไป? PS: บางประการ: ไม่มีวิธีรับข้อมูลเพิ่มเติมโดยไม่ต้องรอปีเพิ่มเติม ดังนั้นข้อมูลที่มีอยู่คือสิ่งที่เราต้องทำงานด้วย

1
การต่อสู้และความสัมพันธ์ในลำดับความคลาดเคลื่อนต่ำ (Halton / Sobol)
ขณะนี้ฉันกำลังทำงานในโครงการที่ฉันสร้างค่าสุ่มโดยใช้ชุดจุดที่มีความคลาดเคลื่อน / กึ่งสุ่มต่ำเช่นชุดจุด Halton และ Sobol เหล่านี้เป็นหลักdddมิติเวกเตอร์ที่เลียนแบบdddมิติเครื่องแบบ (0,1) ตัวแปร แต่มีการแพร่กระจายที่ดีขึ้น ในทางทฤษฎีพวกเขาควรจะช่วยลดความแปรปรวนของการประมาณของฉันในส่วนอื่นของโครงการ แต่น่าเสียดายที่ฉันพบเจอปัญหาการทำงานกับพวกเขาและงานเขียนของพวกเขาส่วนใหญ่นั้นหนาแน่น ดังนั้นฉันจึงหวังที่จะได้รับข้อมูลเชิงลึกจากคนที่มีประสบการณ์กับพวกเขาหรืออย่างน้อยก็หาวิธีที่จะประเมินสิ่งที่เกิดขึ้นโดยประจักษ์ หากคุณทำงานกับพวกเขา: การต่อสู้คืออะไร? และผลกระทบอะไรที่มีต่อกระแสคะแนนที่สร้างขึ้น โดยเฉพาะมีผลเมื่อขนาดของคะแนนที่สร้างเพิ่มขึ้นหรือไม่ ทำไมถ้าฉันสร้างกระแส Sobol สองจุดด้วย MatousekAffineOwen scrambling ฉันได้รับกระแสสองจุดที่แตกต่างกัน เหตุใดจึงไม่เป็นเช่นนี้เมื่อฉันใช้ scrambling แบบย้อนกลับด้วยคะแนนฮาลตัน? มีวิธีการแย่งชิงอื่น ๆ ที่มีอยู่สำหรับชุดจุดเหล่านี้ - และถ้าเป็นเช่นนั้นมีการใช้ MATLAB หรือไม่? หากคุณไม่ได้ทำงานกับพวกเขา: ว่าฉันมีลำดับS 1 , S 2 , … , S nของตัวเลขสุ่มที่คาดคะเนสถิติประเภทใดที่ฉันควรใช้เพื่อแสดงว่าพวกเขาไม่ได้มีความสัมพันธ์กัน? และสิ่งที่จำนวนnฉันจะต้องพิสูจน์ให้เห็นว่าผลของฉันคือนัยสำคัญทางสถิติ? นอกจากนี้ฉันจะทำสิ่งเดียวกันได้อย่างไรถ้าฉันมีnซีเควนซ์S 1 , S 2 …

4
การเปรียบเทียบค่าสัมประสิทธิ์โลจิสติกส์ในแบบจำลองที่มีตัวแปรตามต่างกันหรือไม่
นี่คือติดตามคำถามจากคนที่ผมถามสองสามวันที่ผ่านมา ฉันรู้สึกว่ามันทำให้เกิดความเอียงที่แตกต่างในเรื่องนี้ดังนั้นจึงมีรายการคำถามใหม่ คำถามคือ: ฉันสามารถเปรียบเทียบขนาดของสัมประสิทธิ์ในแบบจำลองที่มีตัวแปรตามที่แตกต่างกันได้หรือไม่? ตัวอย่างเช่นในตัวอย่างเดียวบอกว่าฉันต้องการที่จะรู้ว่าเศรษฐกิจเป็นตัวทำนายผลโหวตที่แข็งแกร่งในสภาผู้แทนราษฎรหรือประธานาธิบดี ในกรณีนี้ตัวแปรตามสองตัวของฉันคือคะแนนในสภา (รหัส 1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และลงคะแนนให้ประธานาธิบดี (1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และตัวแปรอิสระของฉันคือเศรษฐกิจ ฉันคาดว่าจะได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติในสำนักงานทั้งสองแห่ง แต่ฉันจะประเมินได้อย่างไรว่าจะมีผลกระทบ 'ที่ใหญ่กว่า' ในอีกที่หนึ่งมากกว่าที่อื่น นี่อาจไม่ใช่ตัวอย่างที่น่าสนใจโดยเฉพาะ แต่ฉันอยากรู้ว่ามีวิธีเปรียบเทียบหรือไม่ ฉันรู้ว่าไม่มีใครสามารถดูขนาดของสัมประสิทธิ์ได้ ดังนั้น, การเปรียบเทียบสัมประสิทธิ์ของแบบจำลองที่มีตัวแปรตามต่างกันนั้นเป็นไปได้หรือไม่? และถ้าเป็นเช่นนั้นจะทำอย่างไร? หากสิ่งนี้ไม่สมเหตุสมผลโปรดแจ้งให้เราทราบ คำแนะนำและความคิดเห็นทั้งหมดได้รับการชื่นชม

3
วิธีที่ดีที่สุดในการใส่ฮิสโตแกรมสองตัวในระดับเดียวกัน?
สมมติว่าฉันมีการแจกแจงสองแบบที่ฉันต้องการเปรียบเทียบในรายละเอียดนั่นคือในวิธีที่ทำให้รูปร่างขนาดและการเปลี่ยนแปลงมองเห็นได้ง่าย วิธีหนึ่งที่ดีในการทำเช่นนี้คือการพล็อตฮิสโตแกรมสำหรับการแจกแจงแต่ละครั้งวางไว้ในระดับ X ที่เหมือนกัน เมื่อทำเช่นนี้จะต้องทำอย่างไรให้เกิดความผิดพลาด? ฮิสโทแกรมทั้งสองควรใช้ขอบเขตของช่องเก็บเดียวกันแม้ว่าการกระจายครั้งเดียวจะกระจายมากกว่าที่อื่น ๆ อย่างเช่นในภาพที่ 1 ด้านล่าง? ควรทำการแยกกันอย่างอิสระสำหรับฮิสโตแกรมแต่ละชิ้นก่อนซูมเช่นเดียวกับในภาพที่ 2 ด้านล่าง? เรื่องนี้มีกฎง่ายๆหรือไม่?

2
วิธีการสำหรับการรวม / ลดหมวดหมู่ในข้อมูลลำดับหรือข้อมูลระบุ?
ฉันกำลังดิ้นรนเพื่อหาวิธีลดจำนวนหมวดหมู่ในข้อมูลที่ระบุหรือลำดับ ตัวอย่างเช่นสมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยบนชุดข้อมูลที่มีปัจจัยจำนวนเล็กน้อยและปัจจัยอันดับหนึ่ง แม้ว่าฉันจะไม่มีปัญหากับขั้นตอนนี้ แต่บ่อยครั้งที่ฉันพบเจอกับสถานการณ์ที่คุณสมบัติเล็กน้อยโดยไม่มีการสังเกตในชุดการฝึกอบรม แต่ต่อมามีอยู่ในชุดข้อมูลการตรวจสอบความถูกต้อง สิ่งนี้นำไปสู่และเกิดข้อผิดพลาดตามธรรมชาติเมื่อแบบจำลองถูกนำเสนอด้วยคดีที่มองไม่เห็น อีกสถานการณ์ที่ฉันต้องการรวมหมวดหมู่เป็นเพียงเมื่อมีหมวดหมู่มากเกินไปโดยมีข้อสังเกตเล็กน้อย ดังนั้นคำถามของฉันคือ: ในขณะที่ฉันรู้ว่ามันอาจจะดีที่สุดที่จะรวมชื่อหลายคน (และลำดับ) ประเภทขึ้นอยู่กับข้อมูลพื้นฐานที่แท้จริงของโลกก่อนที่พวกเขาเป็นตัวแทนที่มีระบบวิธีการ ( Rแพคเกจดีกว่า) ใช้ได้? คุณจะทำแนวทางและคำแนะนำเกี่ยวกับเกณฑ์การตัดและอื่น ๆ คำตอบที่ได้รับความนิยมมากที่สุดในวรรณกรรมคืออะไร มีกลยุทธ์อื่นนอกเหนือจากการรวมหมวดหมู่เล็กน้อยขนาดเล็กเข้ากับหมวดหมู่ "OTHERS" ใหม่หรือไม่? หากคุณมีข้อเสนอแนะอื่น ๆ

6
วิธีที่รวดเร็วใน R เพื่อให้แถวแรกของเฟรมข้อมูลจัดกลุ่มตามตัวระบุ [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา บางครั้งฉันต้องรับเฉพาะแถวแรกของชุดข้อมูลที่จัดกลุ่มตามตัวระบุเช่นเดียวกับเมื่อดึงข้อมูลอายุและเพศเมื่อมีการสังเกตหลายครั้งต่อบุคคล อะไรคือวิธีที่รวดเร็ว (หรือเร็วที่สุด) ในการทำเช่นนี้ใน R? ฉันใช้การรวม () ด้านล่างและสงสัยว่ามีวิธีที่ดีกว่า ก่อนโพสต์คำถามนี้ฉันค้นหาบิตบน google พบและลองใช้ ddply และรู้สึกประหลาดใจที่มันช้ามากและทำให้ฉันมีข้อผิดพลาดของหน่วยความจำในชุดข้อมูลของฉัน (400,000 แถว x 16 cols, 7,000 ID ที่ไม่ซ้ำ) ในขณะที่รุ่นรวม เร็วพอสมควร (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # …
14 r  dataset  aggregation  plyr 

3
การเรียนรู้น้ำหนักในเครื่อง Boltzmann
ฉันพยายามเข้าใจวิธีการทำงานของเครื่องจักร Boltzmann แต่ฉันไม่แน่ใจว่าจะเรียนรู้น้ำหนักได้อย่างไรและไม่สามารถหาคำอธิบายที่ชัดเจนได้ ถูกต้องหรือไม่? (เช่นกันตัวชี้ไปที่คำอธิบายเครื่อง Boltzmann ที่ดีก็จะดีเช่นกัน) เรามีชุดของหน่วยที่มองเห็นได้ (เช่นตรงกับพิกเซลดำ / ขาวในรูปภาพ) และชุดของหน่วยที่ซ่อนอยู่ น้ำหนักถูกเริ่มต้นอย่างใด (เช่นสม่ำเสมอจาก [-0.5, 0.5]) จากนั้นเราสลับกันระหว่างสองเฟสต่อไปนี้จนกว่าจะถึงกฎการหยุดบางอย่าง: Clamped phase - ในระยะนี้ค่าทั้งหมดของหน่วยที่มองเห็นได้จะได้รับการแก้ไขดังนั้นเราจะอัปเดตสถานะของหน่วยที่ซ่อนอยู่เท่านั้น (ตามกฎการเปิดใช้งานสุ่มของ Boltzmann) เราอัปเดตจนกว่าเครือข่ายจะมาถึงจุดสมดุล เมื่อเราไปถึงจุดสมดุลเราจะทำการปรับปรุงครั้งต่อไป (สำหรับบางN ที่กำหนดไว้ล่วงหน้า) ติดตามค่าเฉลี่ยของx i x j (โดยที่x i , x jเป็นสถานะของโหนดiและj ) หลังจากการอัพเดทสมดุลของNเหล่านั้นแล้วเราจะอัปเดตw ฉัน j = w ฉัน j +ยังไม่มีข้อความยังไม่มีข้อความNยังไม่มีข้อความยังไม่มีข้อความNxผมxJxผมxJx_i x_jxผม, xJxผม,xJx_i, x_jผมผมiJJjยังไม่มีข้อความยังไม่มีข้อความNโดยที่Cคืออัตราการเรียนรู้ (หรือแทนที่จะทำการอัปเดตเป็นชุดในตอนท้ายเราจะอัปเดตหลังจากเราดำเนินการตามขั้นตอนสมดุล)Wผมj = …

4
ฉันสามารถเปลี่ยนการกระจายข้อเสนอเป็น MH MCMC แบบเดินโดยไม่ส่งผลกระทบต่อ Markovianity ได้หรือไม่
เดินสุ่มเมือง - Hasitings พร้อมข้อเสนอสมมาตร Q( x | y) = g( | y- x | )Q(x|Y)=ก.(|Y-x|)q(x|y)= g(|y-x|) มีคุณสมบัติที่ความน่าจะเป็นที่ยอมรับได้ P( a c c e p t y ) = min { 1 , f( y) / f( x ) }P(aคคอีพีเสื้อ Y)=นาที{1,ฉ(Y)/ฉ(x)}P(accept\ y) = \min\{1, f(y)/f(x)\} ไม่ได้ขึ้นอยู่กับข้อเสนอก.( ⋅ )ก.(⋅)g(\cdot)cdot) นั่นหมายความว่าฉันสามารถเปลี่ยนก.( ⋅ )ก.(⋅)g(\cdot)เป็นฟังก์ชั่นของการทำงานก่อนหน้าของเชนได้โดยไม่ส่งผลกระทบต่อ markovianity …

1
ค่าที่คาดหวังของการกระจาย Dirichlet ที่แก้ไขคืออะไร (ปัญหาการรวม)
มันง่ายในการสร้างตัวแปรสุ่มที่มีการแจกแจงไดริชเลตโดยใช้ตัวแปรแกมม่าที่มีพารามิเตอร์สเกลเดียวกัน ถ้า: Xi∼Gamma(αi,β)Xi∼Gamma(αi,β) X_i \sim \text{Gamma}(\alpha_i, \beta) แล้ว: (X1∑jXj,…,Xn∑jXj)∼Dirichlet(α1,…,αn)(X1∑jXj,…,Xn∑jXj)∼Dirichlet(α1,…,αn) \left(\frac{X_1}{\sum_j X_j},\; \ldots\; , \frac{X_n}{\sum_j X_j}\right) \sim \text{Dirichlet}(\alpha_1,\;\ldots\;,\alpha_n) ปัญหา จะเกิดอะไรขึ้นถ้าพารามิเตอร์ของสเกลไม่เท่ากัน Xi∼Gamma(αi,βi)Xi∼Gamma(αi,βi) X_i \sim \text{Gamma}(\alpha_i, \beta_i) แล้วการกระจายตัวของตัวแปรนี้คืออะไร? (X1∑jXj,…,Xn∑jXj)∼?(X1∑jXj,…,Xn∑jXj)∼? \left(\frac{X_1}{\sum_j X_j},\; \ldots\; , \frac{X_n}{\sum_j X_j}\right) \sim \; ? สำหรับฉันมันคงเพียงพอที่จะรู้คุณค่าที่คาดหวังของการกระจายตัวนี้ ฉันต้องการสูตรพีชคณิตแบบปิดโดยประมาณที่สามารถประเมินได้อย่างรวดเร็วโดยคอมพิวเตอร์ สมมุติว่าการประมาณด้วยความเที่ยงตรง 0.01 นั้นเพียงพอแล้ว คุณสามารถสันนิษฐานได้ว่า: αi,βi∈Nαi,βi∈N \alpha_i, \beta_i \in \mathbb{N} หมายเหตุในระยะสั้นงานคือการหาการประมาณของอินทิกรัลนี้: f(α⃗ ,β⃗ )=∫Rn+x1∑jxj⋅∏jβαjjΓ(αj)xαj−1je−βjxjdx1…dxnf(α→,β→)=∫R+nx1∑jxj⋅∏jβjαjΓ(αj)xjαj−1e−βjxjdx1…dxn …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.