สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
วิธีใช้ DLM พร้อมตัวกรอง Kalman สำหรับการคาดการณ์
มีคนแนะนำฉันผ่านตัวอย่างเกี่ยวกับวิธีใช้ตัวกรอง DLM Kalman ใน R ในอนุกรมเวลา บอกว่าฉันมีค่าเหล่านี้ (ค่ารายไตรมาสที่มีฤดูกาลประจำปี); คุณจะใช้ DLM เพื่อทำนายค่าต่อไปอย่างไร และ BTW ฉันมีข้อมูลในอดีตเพียงพอหรือไม่ 89 2009Q1 82 2009Q2 89 2009Q3 131 2009Q4 97 2010Q1 94 2010Q2 101 2010Q3 151 2010Q4 100 2011Q1 ? 2011Q2 ฉันกำลังมองหาคำตอบแบบทีละขั้นตอนสำหรับวิธีทำทีละขั้นตอน ความแม่นยำในการทำนายไม่ใช่เป้าหมายหลักของฉันฉันแค่ต้องการเรียนรู้ลำดับของรหัสที่ให้ตัวเลขสำหรับไตรมาสที่ 2 ปี 2011 ถึงแม้ว่าฉันจะมีข้อมูลไม่เพียงพอ

1
อัลกอริธึม / เทคนิค MCMC ใดที่ใช้สำหรับพารามิเตอร์ที่ไม่ต่อเนื่อง
ฉันรู้ว่ามีจำนวนพอสมควรเกี่ยวกับพารามิเตอร์ต่อเนื่องที่เหมาะสมโดยเฉพาะอย่างยิ่งวิธีการไล่ระดับสี แต่ไม่มากเกี่ยวกับพารามิเตอร์ที่ไม่ต่อเนื่องที่เหมาะสม สิ่งที่ใช้กันทั่วไปคืออัลกอริธึม / เทคนิค MCMC สำหรับพารามิเตอร์ที่ไม่ต่อเนื่องที่เหมาะสม? มีอัลกอริทึมที่มีทั้งแบบทั่วไปและมีประสิทธิภาพหรือไม่ มีอัลกอริธึมที่จัดการกับคำสาปของขนาดหรือไม่? ตัวอย่างเช่นฉันจะบอกว่ามิลโตเนียน MCMC เป็นคนทั่วไปมีพลังและมีขนาดที่ดี การสุ่มตัวอย่างจากการกระจายแบบไม่ต่อเนื่องตามอำเภอใจดูเหมือนยากกว่าการสุ่มตัวอย่างจากการกระจายอย่างต่อเนื่อง แต่ฉันอยากรู้ว่าสถานะของศิลปะคืออะไร แก้ไข : JMS ขอให้ฉันทำอย่างละเอียด ฉันไม่มีแอพพลิเคชั่นที่เฉพาะเจาะจง แต่นี่เป็นแบบจำลองบางอย่างที่ฉันจินตนาการ: การเลือกแบบจำลองระหว่างแบบจำลองการถดถอยต่อเนื่องหลายชนิด คุณมีพารามิเตอร์ 'model' แยกกัน แบบจำลองอย่างต่อเนื่องที่การสังเกตแต่ละครั้งมีความเป็นไปได้ที่จะเป็น 'ค่าผิดปกติ' และดึงมาจากการกระจายที่กระจายมากขึ้น ฉันคิดว่านี่เป็นรูปแบบผสม ฉันคาดหวังว่าหลายรุ่นจะรวมทั้งพารามิเตอร์ต่อเนื่องและไม่ต่อเนื่อง
19 bayesian  mcmc 

4
โมเดลเชิงเส้นเรียบง่ายพร้อมข้อผิดพลาดที่เกี่ยวข้องอัตโนมัติใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน8 เดือนที่ผ่านมา ฉันจะพอดีกับโมเดลเชิงเส้นที่มีข้อผิดพลาดอัตโนมัติที่สัมพันธ์กันใน R ได้อย่างไร ใน stata ฉันจะใช้praisคำสั่ง แต่ฉันไม่พบ R เทียบเท่า ...


3
สถิติแบบเบย์อย่างแท้จริงเป็นการปรับปรุงทางสถิติแบบดั้งเดิม (บ่อยครั้ง) สำหรับการวิจัยเชิงพฤติกรรมหรือไม่?
ในขณะที่เข้าร่วมการประชุมมีการผลักดันเล็กน้อยจากผู้สนับสนุนของสถิติแบบเบย์สำหรับการประเมินผลการทดลอง มันได้รับการโอ้อวดว่ามีทั้งความละเอียดอ่อนที่เหมาะสมและเลือกที่มีต่อการค้นพบของแท้ (บวกเท็จน้อยกว่า) กว่าสถิติบ่อยครั้ง ฉันสำรวจหัวข้อบ้างแล้วและฉันก็ยังไม่มั่นใจในประโยชน์ที่ได้รับจากการใช้สถิติแบบเบย์ การวิเคราะห์แบบเบย์ถูกใช้เพื่อหักล้างการวิจัยของดาริลเบมที่สนับสนุนการคิดล่วงหน้าอย่างไรก็ตามฉันยังคงสงสัยอย่างรอบคอบเกี่ยวกับวิธีการวิเคราะห์แบบเบย์อาจมีประโยชน์แม้กระทั่งงานวิจัยของฉันเอง ดังนั้นฉันอยากรู้เกี่ยวกับสิ่งต่อไปนี้: พลังในการวิเคราะห์แบบเบย์กับการวิเคราะห์ที่ใช้บ่อย ข้อผิดพลาดความไวต่อการพิมพ์ 1 ในการวิเคราะห์แต่ละประเภท การแลกเปลี่ยนในความซับซ้อนของการวิเคราะห์ (Bayesian ดูซับซ้อนกว่า) กับผลประโยชน์ที่ได้รับ การวิเคราะห์ทางสถิติแบบดั้งเดิมนั้นตรงไปตรงมาพร้อมแนวทางที่เป็นที่ยอมรับสำหรับข้อสรุปการวาด ความเรียบง่ายอาจถูกมองว่าเป็นประโยชน์ คุ้มค่าไหมที่จะยอมแพ้? ขอบคุณสำหรับความเข้าใจใด ๆ !


2
เมื่อใดที่“ เพื่อนบ้านใกล้ที่สุด” มีความหมายวันนี้?
ในปี 1999 เบเยอร์และคณะ ถาม เมื่อ "เพื่อนบ้านที่ใกล้ที่สุด" มีความหมาย? มีวิธีที่ดีกว่าในการวิเคราะห์และแสดงผลของความเรียบของระยะทางในการค้นหา NN ตั้งแต่ปี 1999 หรือไม่ ชุดข้อมูล [ที่ระบุ] ให้คำตอบที่มีความหมายต่อปัญหา 1-NN หรือไม่ ปัญหา 10-NN? ปัญหา 100-NN? วันนี้คุณจะผู้เชี่ยวชาญตอบคำถามนี้อย่างไร การแก้ไขวันจันทร์ 24 มกราคม: วิธี "ระยะทางสีขาว" เป็นชื่อที่สั้นกว่าสำหรับ "ความเรียบระยะทางกับมิติที่เพิ่มขึ้น"? วิธีง่าย ๆ ในการดู "ระยะทางไวต์ไวท์" คือการเรียกใช้ 2-NN และวางแผนระยะทางไปยังเพื่อนบ้านที่ใกล้ที่สุดและเพื่อนบ้านที่ใกล้ที่สุดที่สอง เนื้อเรื่องด้านล่างแสดง dist 1และ dist 2 สำหรับช่วงของ nclusters และมิติโดย Monte Carlo ตัวอย่างนี้แสดงความแตกต่างของระยะทางที่ค่อนข้างดีสำหรับส่วนต่างสัมบูรณ์ | dist 2 …

3
ฉันจะคำนวณความน่าจะเป็นแบบมีเงื่อนไขของหลายเหตุการณ์ได้อย่างไร
คุณช่วยบอกฉันทีว่าฉันจะคำนวณความน่าจะเป็นแบบมีเงื่อนไขของหลาย ๆ กิจกรรมได้อย่างไร ตัวอย่างเช่น: P (A | B, C, D) -? ฉันรู้แล้ว: P (A | B) = P (A B) / P (B)∩∩\cap แต่น่าเสียดายที่ฉันไม่สามารถหาสูตรใด ๆ ได้ถ้าเหตุการณ์ A ขึ้นอยู่กับตัวแปรหลายตัว ขอบคุณล่วงหน้า.

7
มาตรการของความซับซ้อนของแบบจำลอง
เราจะเปรียบเทียบความซับซ้อนของทั้งสองรุ่นด้วยจำนวนพารามิเตอร์เท่ากันได้อย่างไร แก้ไข 09/19 : เพื่อชี้แจงความซับซ้อนของแบบจำลองเป็นการวัดความยากในการเรียนรู้จากข้อมูลที่ จำกัด เมื่อทั้งสองรุ่นเหมาะสมกับข้อมูลที่มีอยู่อย่างเท่าเทียมกันโมเดลที่มีความซับซ้อนต่ำกว่าจะทำให้เกิดข้อผิดพลาดน้อยลงสำหรับข้อมูลในอนาคต เมื่อมีการใช้การประมาณค่านี้อาจไม่จริงเสมอไปทางเทคนิค แต่ก็ไม่เป็นไรถ้ามันมีแนวโน้มที่จะเป็นจริงในทางปฏิบัติ การประมาณค่าต่าง ๆ ให้มาตรการความซับซ้อนที่แตกต่างกัน

1
การตีความแปลงการวิเคราะห์ความสอดคล้อง 2D
ฉันค้นหาอินเทอร์เน็ตไปทั่ว ... ฉันยังไม่พบภาพรวมที่ดีจริง ๆ ของวิธีการตีความแผนการวิเคราะห์การโต้ตอบสองมิติ มีใครให้คำแนะนำในการตีความระยะทางระหว่างคะแนนหรือไม่ บางทีตัวอย่างอาจช่วยได้นี่คือพล็อตที่พบในเว็บไซต์หลายแห่งที่ฉันเคยเห็นว่าวิเคราะห์การโต้ตอบจดหมาย สามเหลี่ยมสีแดงแสดงสีตาและจุดสีดำแสดงสีผม ดูกราฟข้างต้นคุณช่วยทำงบสองสามข้อเกี่ยวกับสิ่งที่คุณเห็นในข้อมูลเหล่านี้ จุดที่น่าสนใจเกี่ยวกับมิติและความสัมพันธ์ที่แตกต่างกันระหว่างสามเหลี่ยมและจุด? คำอธิบายจุดแถวของข้อคอลัมน์และการใช้คำว่า "โปรไฟล์" ที่มีความสำคัญเป็นพิเศษในตัวอย่างจะเป็นเครื่องมือ

10
ทรัพยากรสำหรับการเรียนรู้เพื่อสร้างภาพข้อมูล?
ฉันสนใจที่จะเรียนรู้วิธีสร้างประเภทของการสร้างภาพข้อมูลที่คุณเห็นที่http://flowingdata.comและ informationisbeautiful แก้ไข: ความหมายการสร้างภาพข้อมูลที่น่าสนใจของตัวเอง - ค่อนข้างเหมือนกับกราฟิก NY Times เมื่อเทียบกับรายงานฉบับย่อ เครื่องมือชนิดใดที่ใช้ในการสร้างสิ่งเหล่านี้ - ส่วนใหญ่เป็น Adobe Illustrator / Photoshop หรือไม่? แหล่งข้อมูลที่ดีคืออะไร (หนังสือเว็บไซต์ ฯลฯ ) เพื่อเรียนรู้วิธีใช้เครื่องมือเหล่านี้ในการสร้างภาพข้อมูลโดยเฉพาะ? ฉันรู้ว่าฉันต้องการให้การสร้างภาพข้อมูลเป็นอย่างไร (และฉันคุ้นเคยกับหลักการออกแบบเช่นจากหนังสือของ Tufte) แต่ฉันไม่รู้ว่าจะสร้างมันอย่างไร

6
การทำ data data กับการวิเคราะห์ทางสถิติต่างกันอย่างไร?
การทำ data data กับการวิเคราะห์ทางสถิติต่างกันอย่างไร? สำหรับภูมิหลังบางอย่างการศึกษาทางสถิติของฉันนั้นฉันคิดว่าเป็นแบบดั้งเดิม คำถามที่เจาะจงจะถูกวางไว้การวิจัยได้รับการออกแบบและมีการรวบรวมและวิเคราะห์ข้อมูลเพื่อนำเสนอข้อมูลเชิงลึกเกี่ยวกับคำถามนั้น ด้วยเหตุนี้ฉันจึงสงสัยในสิ่งที่ฉันคิดว่า "data dredging" อยู่เสมอนั่นคือมองหารูปแบบในชุดข้อมูลขนาดใหญ่และใช้รูปแบบเหล่านี้เพื่อสรุปผล ฉันมักจะเชื่อมโยงอย่างหลังกับ data-mining และมักจะถือว่าสิ่งนี้ค่อนข้างไร้หลักการ (พร้อมกับสิ่งต่าง ๆ เช่นรูทีนการเลือกตัวแปรอัลกอริทึม) อย่างไรก็ตามมีงานเขียนขนาดใหญ่และกำลังเติบโตเกี่ยวกับการขุดข้อมูล บ่อยครั้งที่ฉันเห็นฉลากนี้อ้างถึงเทคนิคเฉพาะเช่นการจัดกลุ่มการจำแนกตามต้นไม้เป็นต้น แต่อย่างน้อยจากมุมมองของฉันเทคนิคเหล่านี้สามารถ "ตั้งค่าหลวม ๆ " ในชุดข้อมูลหรือใช้ในรูปแบบที่มีโครงสร้างเพื่อจัดการกับ คำถาม. ฉันจะเรียกการทำเหมืองข้อมูลในอดีตและการวิเคราะห์ทางสถิติหลัง ฉันทำงานด้านการบริหารงานวิชาการและถูกขอให้ทำ "data mining" เพื่อระบุปัญหาและโอกาส สอดคล้องกับภูมิหลังของฉันคำถามแรกของฉันคือ: คุณต้องการเรียนรู้อะไรและอะไรคือสิ่งที่คุณคิดว่ามีส่วนร่วมในการแก้ไขปัญหา? จากการตอบกลับของพวกเขามันชัดเจนว่าฉันและคนที่ถามคำถามนั้นมีแนวคิดที่แตกต่างกันเกี่ยวกับลักษณะและคุณค่าของการทำเหมืองข้อมูล

6
แนวคิด 'พื้นฐาน' ของการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คืออะไร
ความคิด 'พื้นฐาน' สถิติสำหรับประมาณค่าพารามิเตอร์เป็นโอกาสสูงสุด ฉันสงสัยว่าอะไรคือความคิดที่สอดคล้องกันในการเรียนรู้ของเครื่อง Qn 1. เป็นธรรมหรือไม่ที่จะบอกว่าแนวคิด 'พื้นฐาน' ในการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คือ: 'ฟังก์ชั่นการสูญเสีย' [หมายเหตุ: มันเป็นความประทับใจของฉันที่อัลกอริทึมการเรียนรู้ของเครื่องมักจะปรับฟังก์ชั่นการสูญเสียให้เหมาะสมดังนั้นคำถามข้างต้น] Qn 2: มีวรรณกรรมใดบ้างที่พยายามลดช่องว่างระหว่างสถิติและการเรียนรู้ของเครื่อง? [หมายเหตุ: บางทีโดยฟังก์ชั่นการสูญเสียที่เกี่ยวข้องกับโอกาสสูงสุด (เช่น OLS เทียบเท่ากับโอกาสสูงสุดสำหรับข้อผิดพลาดที่กระจายตามปกติ ฯลฯ )]

4
ปัญหาต้นไม้เงินวิเศษ
ฉันคิดว่าปัญหานี้ในห้องอาบน้ำมันเป็นแรงบันดาลใจจากกลยุทธ์การลงทุน สมมติว่ามีต้นไม้เงินวิเศษ ทุกวันคุณสามารถเสนอเงินจำนวนหนึ่งให้กับต้นไม้เงินและมันจะเพิ่มขึ้นเป็นสามเท่าหรือทำลายมันด้วยความน่าจะเป็น 50/50 คุณสังเกตเห็นทันทีว่าโดยเฉลี่ยคุณจะได้รับเงินจากการทำเช่นนี้และกระตือรือร้นที่จะใช้ประโยชน์จากต้นไม้เงิน อย่างไรก็ตามหากคุณเสนอเงินทั้งหมดในครั้งเดียวคุณจะได้ 50% ของการสูญเสียเงินทั้งหมด ยอมรับไม่ได้! คุณเป็นคนที่ไม่ชอบความเสี่ยงดังนั้นคุณตัดสินใจที่จะคิดกลยุทธ์ คุณต้องการลดอัตราต่อรองของการสูญเสียทุกสิ่งทุกอย่าง แต่คุณต้องการทำเงินให้ได้มากที่สุด! คุณคิดสิ่งต่อไปนี้ทุกวันคุณเสนอ 20% ของเงินทุนปัจจุบันให้กับต้นไม้เงิน สมมติว่าราคาต่ำสุดที่คุณสามารถเสนอได้คือ 1 เซ็นต์, มันจะใช้เวลาขาดทุน 31 ครั้งในการสูญเสียเงินทั้งหมดของคุณถ้าคุณเริ่มต้นด้วย 10 ดอลลาร์ มีอะไรอีก, ยิ่งคุณมีรายได้มากเท่าไหร่การสูญเสียทุกอย่างก็จะยิ่งมากขึ้นเท่านั้น คุณเริ่มต้นรับเงินสดจำนวนมากอย่างรวดเร็ว แต่ความคิดปรากฏขึ้นในหัวของคุณ: คุณสามารถเสนอ 30% ในแต่ละวันและหารายได้เพิ่ม! แต่เดี๋ยวก่อนทำไมไม่เสนอ 35% 50%? อยู่มาวันหนึ่งด้วยสัญลักษณ์ดอลลาร์ขนาดใหญ่ในดวงตาของคุณคุณวิ่งไปที่ต้นไม้เงินกับเงินล้านของคุณและเสนอเงินสด 100% ซึ่งต้นไม้เงินจะเผาไหม้ทันที วันรุ่งขึ้นคุณจะได้งานที่ McDonalds ซึ่งต้นไม้เงินเผาไหม้ทันที วันรุ่งขึ้นคุณจะได้งานที่ McDonalds ซึ่งต้นไม้เงินเผาไหม้ทันที วันรุ่งขึ้นคุณจะได้งานที่ McDonalds มีเปอร์เซ็นต์ที่เหมาะสมของเงินสดที่คุณสามารถเสนอได้โดยไม่สูญเสียทั้งหมดหรือไม่? (ย่อย) คำถาม: หากมีอัตราร้อยละที่เหมาะสมที่คุณควรเสนอให้คงที่นี้ (เช่น 20% …

2
เหตุผลของฟังก์ชันความแปรปรวนMatérnคืออะไร?
ฟังก์ชันความแปรปรวนร่วมMatérnมักใช้เป็นฟังก์ชันเคอร์เนลในกระบวนการแบบเกาส์เซียน มันถูกกำหนดเช่นนี้ Cν(d)=σ221−νΓ(ν)(2ν−−√dρ)νKν(2ν−−√dρ)Cν(d)=σ221−νΓ(ν)(2νdρ)νKν(2νdρ) {\displaystyle C_{\nu }(d)=\sigma ^{2}{\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}^{\nu }K_{\nu }{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}} โดยที่dddคือฟังก์ชันระยะทาง (เช่น Euclidean distance), ΓΓ\Gammaคือฟังก์ชันแกมม่า, KνKνK_\nuคือฟังก์ชัน Bessel ที่แก้ไขของชนิดที่สอง, ρρ\rhoและνν\nuเป็นพารามิเตอร์เชิงบวก νν\nuใช้เวลานานมากในการเลือกเป็น3232\frac{3}{2}หรือ5252\frac{5}{2}ในทางปฏิบัติ หลายครั้งที่เคอร์เนลนี้ทำงานได้ดีกว่าเคอร์เนล Gaussian มาตรฐานเนื่องจาก 'ราบรื่นน้อย' แต่ยกเว้นว่ามีเหตุผลอื่นอีกไหมทำไมจึงเลือกใช้เคอร์เนลนี้ สัญชาตญาณทางเรขาคณิตบางอย่างเกี่ยวกับวิธีการทำงานหรือคำอธิบายของสูตรลับที่ดูเหมือนจะได้รับการชื่นชมอย่างมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.