สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
จะรู้ได้อย่างไรว่าข้อมูลตามการกระจายของปัวซองใน R หรือไม่
ฉันเป็นนักศึกษาระดับปริญญาตรีและมีโครงการสำหรับชั้นเรียนความเป็นไปได้ของฉัน โดยพื้นฐานแล้วฉันมีชุดข้อมูลเกี่ยวกับพายุเฮอริเคนที่ส่งผลกระทบต่อประเทศของฉันเป็นเวลาหลายปี ในหนังสือน่าจะเป็นของฉัน (ความน่าจะเป็นและสถิติที่มี R) มีตัวอย่าง (ไม่สมบูรณ์) ของวิธีการตรวจสอบว่าข้อมูลเป็นไปตามการแจกแจงแบบปัวซงพวกเขาเริ่มพยายามพิสูจน์ว่าเกณฑ์ 3 ข้อเหล่านี้: (จากหนังสือของฉันหน้า ตัวอย่าง 120 (เกณฑ์) หน้า 122-123) 1- จำนวนผลลัพธ์ในช่วงเวลาที่ไม่ทับซ้อนกันนั้นเป็นอิสระ กล่าวอีกนัยหนึ่งจำนวนผลลัพธ์ในช่วงเวลา (0, t] เป็นอิสระจากจำนวนผลลัพธ์ในช่วงเวลา (t, t + h], h> 0 2- ความน่าจะเป็นของผลลัพธ์สองรายการขึ้นไปในช่วงเวลาสั้น ๆ ที่เพียงพอเป็นศูนย์ กล่าวอีกนัยหนึ่งหาก h มีขนาดเล็กเพียงพอความน่าจะเป็นที่จะได้รับผลลัพธ์สองช่วงขึ้นไปในช่วงเวลานั้น (t, t + h] นั้นเล็กน้อยเมื่อเทียบกับความน่าจะเป็นที่จะได้ผลลัพธ์หนึ่งหรือศูนย์ในช่วงเวลาเดียวกัน 3- ความน่าจะเป็นของผลลัพธ์หนึ่งรายการในช่วงเวลาสั้น ๆ อย่างเพียงพอหรือพื้นที่ขนาดเล็กเป็นสัดส่วนกับความยาวของช่วงเวลาหรือภูมิภาค กล่าวอีกนัยหนึ่งความน่าจะเป็นที่จะเกิดผลลัพธ์หนึ่งครั้งในช่วงความยาว h คือ lambda * h …

1
ค่าที่ยอมรับได้ของเกณฑ์ Calinski & Harabasz (CH) คืออะไร
ฉันทำการวิเคราะห์ข้อมูลพยายามจัดกลุ่มข้อมูลตามยาวโดยใช้ R และแพ็คเกจkml ข้อมูลของฉันมีวิถีโคจรประมาณ 400 คน (ตามที่เรียกในกระดาษ) คุณสามารถเห็นผลลัพธ์ของฉันในภาพต่อไปนี้: หลังจากอ่านบทที่ 2.2 "การเลือกจำนวนกลุ่มที่เหมาะสม" ในเอกสารที่เกี่ยวข้องฉันไม่ได้รับคำตอบใด ๆ ฉันต้องการมี 3 กลุ่ม แต่ผลลัพธ์จะยังคงตกลงกับ CH ของ 80 ที่จริงฉันยังไม่รู้ว่าค่า CH หมายถึงอะไร ดังนั้นคำถามของฉันค่าเกณฑ์ที่ยอมรับได้ของเกณฑ์ Calinski & Harabasz (CH) คืออะไร

3
รหัส R ใช้ได้กับการผลิต (ปรับใช้) หรือไม่
ฉันได้อ่านบทความจำนวนหนึ่งที่พูดคุยเกี่ยวกับ บริษัท เช่น Google, Facebook และอื่น ๆ อีกมากมายที่ใช้ R เพื่อการวิจัย สถานการณ์อื่น ๆ ที่ฉันได้อ่านคือ บริษัท ที่ใช้ R เพื่อสร้างต้นแบบโซลูชันการวิเคราะห์จากนั้นนำไปใช้ใหม่ในภาษาอื่น ฉันกำลังพยายามค้นหาวรรณกรรมเกี่ยวกับ บริษัท ที่ใช้ R สำหรับรหัสการวิเคราะห์การผลิตจริง กรณีการใช้งานอาจเป็นระบบผู้แนะนำที่ผู้ใช้โต้ตอบผ่านหน้าเว็บที่ได้รับการตอบสนองจากสคริปต์ R ที่ดำเนินการบนเซิร์ฟเวอร์ระยะไกล ความจริงที่ว่าฉันมีปัญหาในการค้นหารายงานดังกล่าวทำให้ฉันสงสัยว่ามันไม่สามารถมองเห็นได้ ถ้าเป็นเช่นนั้นทำไม
25 r  references 

3
ช่วงความเชื่อมั่นสำหรับความแปรปรวนที่กำหนดหนึ่งการสังเกต
นี่เป็นปัญหาจาก "7th Kolmogorov Student Olympiad in The Probability Theory Theory": เมื่อทำการสังเกตจาก aโดยไม่ทราบพารามิเตอร์ทั้งสองให้ช่วงความมั่นใจสำหรับด้วยระดับความมั่นใจอย่างน้อย 99%XXXNormal(μ,σ2)Normal⁡(μ,σ2)\operatorname{Normal}(\mu,\sigma^2)σ2σ2\sigma^2 สำหรับฉันแล้วมันน่าจะเป็นไปไม่ได้ ฉันมีวิธีแก้ปัญหา แต่ยังไม่ได้อ่าน ความคิดใด ๆ ฉันจะโพสต์โซลูชันในอีกสองสามวัน [การแก้ไขการติดตาม: การแก้ปัญหาอย่างเป็นทางการที่โพสต์ด้านล่าง วิธีแก้ปัญหาของ Cardinal นั้นยาวกว่า แต่ให้ช่วงความมั่นใจที่ดีกว่า ขอบคุณ Max และ Glen_b สำหรับอินพุตของพวกเขา]

5
การอ่านเบื้องต้นเกี่ยวกับ Copulas
ตอนนี้ฉันกำลังมองหาการอ่านเบื้องต้นเกี่ยวกับ Copulas สำหรับการสัมมนาของฉัน ฉันกำลังค้นหาเนื้อหามากมายที่พูดถึงแง่มุมทางทฤษฎีซึ่งเป็นเรื่องที่ดี แต่ก่อนที่ฉันจะพูดถึงสิ่งเหล่านั้นฉันกำลังมองหาเพื่อสร้างความเข้าใจที่เข้าใจง่ายในหัวข้อนี้ ใครช่วยแนะนำเอกสารที่ดีที่ให้รากฐานที่ดีให้กับผู้เริ่มต้น (ฉันมี 1-2 หลักสูตรในสถิติและเข้าใจ marginals การกระจายหลายตัวแปรการแปลงผกผัน ฯลฯ ในระดับที่เหมาะสม)?

2
Joel Spolsky ของ“ Hunting of the Snark” โพสต์การวิเคราะห์เนื้อหาทางสถิติที่ถูกต้องหรือไม่?
หากคุณได้อ่านแถลงการณ์ของชุมชนเมื่อเร็ว ๆ นี้คุณน่าจะได้เห็นThe Hunting of the Snarkโพสต์บนบล็อก StackExchange อย่างเป็นทางการโดย Joel Spolsky ซีอีโอของเครือข่าย StackExchange เขากล่าวถึงการวิเคราะห์ทางสถิติที่ดำเนินการบนตัวอย่างของความคิดเห็น SE เพื่อประเมิน "ความเป็นมิตร" ของพวกเขาจากมุมมองของผู้ใช้ภายนอก ความคิดเห็นถูกสุ่มตัวอย่างจาก StackOverflow และนักวิเคราะห์เนื้อหาเป็นสมาชิกของชุมชน Mechanical Turk ของ Amazon ซึ่งเป็นตลาดสำหรับการทำงานที่เชื่อมโยง บริษัท กับคนงานที่ทำงานเล็ก ๆ น้อย ๆ และมีค่าธรรมเนียมสั้น ๆ เมื่อไม่นานที่ผ่านมาผมเป็นนักศึกษาระดับบัณฑิตศึกษาในสาขาวิทยาศาสตร์ทางการเมืองและเป็นหนึ่งในชั้นเรียนที่ผมเอาถูกวิเคราะห์เนื้อหาทางสถิติ โครงการสุดท้ายของชั้นเรียนโดยมีวัตถุประสงค์คือเพื่อทำการวิเคราะห์รายละเอียดเกี่ยวกับการรายงานสงครามของ New York Timesเพื่อทดสอบว่ามีสมมติฐานมากมายหรือไม่ที่ชาวอเมริกันทำเกี่ยวกับการรายงานข่าวในช่วงสงครามอย่างถูกต้อง ไม่). โครงการมีขนาดใหญ่และค่อนข้างสนุก แต่ส่วนที่เจ็บปวดที่สุดคือ 'การฝึกอบรมและการทดสอบความน่าเชื่อถือ' ซึ่งเกิดขึ้นก่อนที่เราจะทำการวิเคราะห์อย่างเต็มรูปแบบ มันมีวัตถุประสงค์สองประการ (ดูหน้า 9 ของกระดาษที่เชื่อมโยงเพื่อดูคำอธิบายโดยละเอียดรวมถึงการอ้างอิงถึงมาตรฐานความน่าเชื่อถือของตัวแปลงรหัสในเอกสารการวิเคราะห์เนื้อหาทางสถิติ): ยืนยันผู้เขียนโค้ดทั้งหมดเช่นผู้อ่านเนื้อหาได้รับการฝึกอบรมตามข้อกำหนดเชิงคุณภาพเดียวกัน ในการวิเคราะห์ของโจเอลสิ่งนี้หมายความว่าทุกคนจะรู้ได้อย่างชัดเจนว่าโครงการกำหนด "เป็นมิตร" …

3
วิธีการวัดความเรียบของอนุกรมเวลาใน R?
มีวิธีที่ดีในการวัดความเรียบของอนุกรมเวลาใน R หรือไม่? ตัวอย่างเช่น, -1, -0.8, -0.6, -0.4, -0.2, 0, 0.2, 0.4, 0.6, 0.8, 1.0 ราบรื่นกว่า -1, 0.8, -0.6, 0.4, -0.2, 0, 0.2, -0.4, 0.6, -0.8, 1.0 แม้ว่าจะมีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเดียวกัน มันจะเจ๋งถ้ามีฟังก์ชั่นที่จะให้คะแนนที่ราบรื่นกับฉันในช่วงเวลา
25 r  time-series 

6
มี "สวัสดีโลก" สำหรับกราฟิกสถิติหรือไม่
ในการเขียนโปรแกรมคอมพิวเตอร์มีโปรแกรมแรกสุดคลาสสิคสำหรับการเรียนรู้ / สอนภาษาหรือระบบใหม่ที่เรียกว่า "สวัสดีโลก" http://en.wikipedia.org/wiki/Hello_world_program มีการสร้างภาพข้อมูลแบบคลาสสิกเป็นครั้งแรกสำหรับการใช้แพ็คเกจกราฟ ถ้าเป็นเช่นนั้นมันคืออะไร? และถ้าไม่ใช่ผู้สมัครที่ดีจะเป็นอย่างไร

6
โครงข่ายใยประสาทรับรู้ภาพได้อย่างไร
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 7 ปีที่ผ่านมา ฉันพยายามที่จะเรียนรู้ว่า Neural Network ทำงานอย่างไรกับการจดจำภาพ ฉันได้เห็นตัวอย่างและสับสนมากขึ้น ในตัวอย่างของการจดจำตัวอักษรของภาพขนาด 20x20 ค่าของแต่ละพิกเซลจะกลายเป็นเลเยอร์อินพุต ดังนั้น 400 เซลล์ประสาท จากนั้นเป็นชั้นที่ซ่อนอยู่ของเซลล์ประสาทและเซลล์ประสาทเอาท์พุท 26 จากนั้นฝึกเครือข่ายและใช้งานได้ไม่สมบูรณ์แบบ สิ่งที่ทำให้ฉันสับสนเกี่ยวกับ Neural Network คือมันเรียนรู้เกี่ยวกับสิ่งที่อยู่ในภาพได้อย่างไร คุณไม่จำเป็นต้องทำการกำหนดใหม่หรือการแบ่งส่วนหรือการวัดใด ๆ เครือข่ายเรียนรู้ที่จะเปรียบเทียบภาพและรับรู้ ตอนนี้มันเป็นเวทย์มนตร์สำหรับฉันแล้ว ที่จะเริ่มเรียนรู้เครือข่ายประสาท

2
บ้านการพนันกำหนดอัตราต่อรองการเดิมพันกีฬาได้อย่างไร
ยกตัวอย่างเช่นฟุตบอล (ฟุตบอล) มี 3 ผลลัพธ์ที่เป็นไปได้, เจ้าบ้านชนะ, เสมอ, ชนะและชนะ ฉันใช้เกมสุ่มจาก bet365 Turkey vs Ukraine hwin, draw, awin 2.20 3.40 3.20 ดังนั้นสำหรับการลงทุน 100 $ผลให้คุณอาจหลวม 100 $หรือชนะ: 220 $ 340 $ 320 $ การประเมินความน่าจะเป็นของพวกเขาไม่ได้เพิ่มขึ้น 100% พวกเขาใช้เวลาเพิ่ม 5% -12% แต่พวกเขามาถึงตัวเลขเหล่านี้ได้อย่างไร (2.20, 3.40, 3.20) มันเป็นรูปแบบการเดิมพันของคนที่เดิมพันเช่นถ้า 90% ของคนใส่เงินในตุรกีhwinสัมประสิทธิ์จะลดลงหรือเป็นการคำนวณบางอย่าง? ปัญหาเกี่ยวกับการคำนวณคือตัวอย่างไม่ดีทีมชาติเล่นเกมน้อยมากในระยะเวลานานระหว่างช่วงของทีมที่มีความแข็งแกร่งต่างกันพารามิเตอร์ภายนอกจำนวนมากมีส่วนร่วมเช่นการบาดเจ็บรูปแบบปัจจุบันและแรงจูงใจของผู้เล่นแต่ละคนเป็นต้น . กลยุทธ์ของพวกเขาสำหรับการแข่งขันชิงแชมป์แห่งชาติมีความแตกต่างกันอย่างไรคุณสามารถค้นหาระเบียบได้มากขึ้นเนื่องจากเกมมีการเล่นบ่อยครั้งมากขึ้นแม้ว่าเกมลีกระดับชาติ 4 รายการต่อเดือนนั้นไม่มากนัก (และยังเล่นที่บ้าน / ออกไปด้วย …


3
วิธีการจำลองการกระจายตัวที่มีรูปร่างแปลก ๆ นี้ (เกือบจะเป็น reverse-J)
ตัวแปรตามของฉันที่แสดงด้านล่างไม่ตรงกับการกระจายหุ้นใด ๆ ที่ฉันรู้ การถดถอยเชิงเส้นทำให้เกิดการตกค้างที่ไม่ปกติและเอียงไปทางขวาซึ่งสัมพันธ์กับการทำนาย Y ในวิธีที่แปลก (พล็อตที่ 2) คำแนะนำสำหรับการเปลี่ยนแปลงหรือวิธีอื่น ๆ เพื่อให้ได้ผลลัพธ์ที่ถูกต้องที่สุดและแม่นยำที่สุดในการคาดการณ์? หากเป็นไปได้ฉันต้องการหลีกเลี่ยงการจัดหมวดหมู่ที่เงอะงะพูดว่า 5 ค่า (เช่น 0, lo%, med%, hi%, 1)

1
มีแผนการวินิจฉัยอะไรบ้างสำหรับการถดถอยแบบควอไทล์
ตามคำถามของฉันสำหรับ OLSฉันสงสัยว่ามีแผนการวินิจฉัยอะไรบ้างสำหรับการถดถอยแบบควอไทล์ (และมีการนำไปปฏิบัติของพวกเขาหรือไม่?) การค้นหา google อย่างรวดเร็วได้เกิดขึ้นกับตัวหนอน (ซึ่งฉันไม่เคยได้ยินมาก่อน) และฉันยินดีที่จะรู้วิธีการเพิ่มเติมที่คุณอาจรู้ (เป็นหนึ่งในนั้นจาก OLS พอร์ตสำหรับ quantile-regression?)

6
หนังสืออ้างอิงสำหรับสถิติที่มี R - มีอยู่และควรมีอะไรบ้าง
พื้นหลัง มีการถกเถียงกันมากมายเกี่ยวกับเรื่องนี้ดังนั้นฉันคิดว่าฉันสามารถหาคำตอบของฉันจากการสำรวจก่อนหน้านี้ใน StackExchange และโดย googling กราดเกรี้ยว หลังจากใช้เวลาครึ่งวันพยายามค้นหาหนังสืออ้างอิงเพียงเล่มเดียวสำหรับสถิติ (ชีวภาพ) กับ R ฉันสับสนอย่างที่สุดและต้องยอมแพ้ บางทีเนื้อหาฟรีที่รวมกันอาจดีกว่าหนังสือใด ๆ ที่คุณสามารถซื้อได้ในขณะนี้ ลองดูสิ อินเทอร์เน็ตเต็มไปด้วยวรรณกรรมฟรีที่ดีสำหรับภาษา Rดังนั้นจึงไม่มีประเด็นที่จะต้องจ่ายเงินสำหรับหนังสือธรรมดา ๆ ซึ่งจบลงด้วยการใช้เป็นของตกแต่งสำนักงานเกือบตลอดเวลา เว็บไซต์ R home แสดงรายการหนังสือที่เกี่ยวข้องกับ Rและมีหนังสือจำนวนมาก เพื่อให้ตรงตามจริงมากขึ้น: 115 โฆษณาเพียงรายการเดียวที่มีคำว่า " หนังสืออ้างอิงสถิติแบบสแตนด์อโลน " ตอนนี้มีอายุ 8 ปีและอาจล้าสมัย ฉบับที่สี่ของสถิติประยุกต์สมัยใหม่กับ Sนั้นเก่ากว่า หนังสือ Rนั้นมักจะถูกบดเคี้ยวเป็นพื้นฐานเกินไปและไม่แนะนำเนื่องจากขาดการอ้างอิงรหัสที่มีการจัดรูปแบบไม่ดีและเสร็จสิ้นการเลอะเทอะ อย่างไรก็ตามฉันกำลังมองหาหนังสือเล่มหนึ่งซึ่งฉันสามารถใช้เป็นข้อมูลอ้างอิงแบบสแตนด์อโลนกับสถิติที่ใช้งานจริง (แรกและสำคัญที่สุด) กับ R (รอง) หนังสือควรอยู่บนโต๊ะทำงานของฉันเพื่อเก็บคำอธิบายประกอบคราบกาแฟและลายนิ้วมือเลี่ยนแทนที่จะเป็นฝุ่นบนชั้นวางหนังสือ มันควรแทนที่คอลเลกชันของ pdf ฟรีที่ฉันใช้มาจนถึงตอนนี้อย่าลืมว่า R มาพร้อมกับห้องสมุดอ้างอิงที่ยอดเยี่ยม “ แนวทางที่ถูกต้องคืออะไร? …
25 r  references 

6
เทคนิคการสร้างภาพข้อมูลที่ดีในการเปรียบเทียบการกระจายคืออะไร
ฉันกำลังเขียนวิทยานิพนธ์ระดับปริญญาเอกของฉันและฉันก็รู้ว่าฉันอาศัยอยู่มากเกินไปในกล่องแปลงเพื่อเปรียบเทียบการแจกแจง คุณมีทางเลือกอื่นใดในการทำภารกิจนี้ให้สำเร็จ ฉันต้องการถามว่าคุณรู้จักแหล่งข้อมูลอื่น ๆ ในฐานะแกลเลอรี R หรือไม่ซึ่งฉันสามารถสร้างแรงบันดาลใจให้ตัวเองด้วยแนวคิดที่แตกต่างกันในการสร้างภาพข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.