สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
การประมาณการแจกแจงโดยพิจารณาจากเปอร์เซนต์ไทล์
ฉันสามารถใช้วิธีการใดในการอนุมานการกระจายหากฉันรู้ว่ามีเปอร์เซนต์สามเปอร์เซ็นต์เท่านั้น ตัวอย่างเช่นฉันรู้ว่าในชุดข้อมูลหนึ่งเปอร์เซนต์ไทล์ที่ห้าคือ 8,135 เปอร์เซ็นไทล์ที่ 50 คือ 11,259 และเปอร์เซ็นไทล์ 95 ที่ 23,611 ฉันต้องการที่จะไปจากจำนวนอื่นใดที่จะเป็นเปอร์เซ็นต์ของมัน ไม่ใช่ข้อมูลของฉันและเป็นสถิติทั้งหมดที่ฉันมี เป็นที่ชัดเจนว่าการกระจายไม่ปกติ ข้อมูลอื่นที่ฉันมีเพียงอย่างเดียวคือข้อมูลนี้แสดงถึงเงินทุนรัฐบาลต่อหัวสำหรับเขตการศึกษาต่างๆ ฉันรู้เพียงพอเกี่ยวกับสถิติที่จะรู้ว่าปัญหานี้ไม่มีวิธีการแก้ปัญหาที่ชัดเจน แต่ไม่เพียงพอที่จะรู้ว่าจะค้นหาการคาดเดาที่ดีได้อย่างไร การแจกแจงแบบบันทึกปกติจะเหมาะสมหรือไม่? เครื่องมือใดที่ฉันสามารถใช้เพื่อทำการถดถอย (หรือฉันต้องทำเอง)


2
ทำไมแลมบ์ดา“ ภายในข้อผิดพลาดมาตรฐานเดียวจากค่าต่ำสุด” จึงเป็นค่าที่แนะนำสำหรับแลมบ์ดาในการถดถอยแบบตาข่ายแบบยืดหยุ่น?
ฉันเข้าใจว่าแลมบ์ดามีบทบาทอย่างไรในการถดถอยแบบยืดหยุ่น และฉันสามารถเข้าใจได้ว่าเหตุใดจึงเลือก lambda.min ค่าของ lambda ที่ลดข้อผิดพลาดที่ตรวจสอบข้ามได้ คำถามของฉันอยู่ที่ไหนในวรรณคดีสถิติมันแนะนำให้ใช้ lambda.1se นั่นคือค่าของแลมบ์ดาที่ผิดพลาดลดขนาด CV บวกข้อผิดพลาดมาตรฐานหนึ่ง ? ฉันดูเหมือนจะไม่พบการอ้างอิงที่เป็นทางการหรือแม้แต่เหตุผลว่าทำไมสิ่งนี้จึงมักมีคุณค่าอย่างมาก ฉันเข้าใจว่ามันเป็นกฎเกณฑ์ที่เข้มงวดยิ่งขึ้นและจะทำให้พารามิเตอร์หดตัวลงสู่ศูนย์ แต่ฉันไม่แน่ใจว่าเงื่อนไขใดที่ lambda.1se เป็นตัวเลือกที่ดีกว่า lambda.min มีคนช่วยอธิบายได้ไหม

4
การประมาณค่าพารามิเตอร์ของการแจกแจงแบบ t
ตัวประมาณโอกาสสูงสุดสำหรับพารามิเตอร์ของการแจกแจงแบบ t คืออะไร พวกมันมีอยู่ในรูปแบบปิดหรือไม่? การค้นหาโดย Google อย่างรวดเร็วไม่ได้ให้ผลลัพธ์ใด ๆ แก่ฉัน วันนี้ฉันสนใจกรณี univariate แต่บางทีฉันอาจจะต้องขยายโมเดลเป็นหลายมิติ แก้ไข: ฉันจริง ๆ แล้วส่วนใหญ่สนใจในพารามิเตอร์ที่ตั้งและขนาด สำหรับตอนนี้ฉันสามารถสรุปได้ว่าค่าพารามิเตอร์องศาอิสระได้รับการแก้ไขและอาจใช้รูปแบบตัวเลขเพื่อหาค่าที่ดีที่สุดในภายหลัง

6
การจัดการกับ regressors สัมพันธ์
ในการถดถอยเชิงเส้นแบบหลายครั้งพร้อมตัวถดถอยความสัมพันธ์สูงกลยุทธ์ที่ดีที่สุดที่จะใช้คืออะไร มันเป็นวิธีการที่ถูกต้องตามกฎหมายในการเพิ่มผลิตภัณฑ์ของ regressors สัมพันธ์ทั้งหมดหรือไม่

1
มันมีความหมายอะไรกับ
บ่อยครั้งที่ในการศึกษาสถิติของฉันฉันพบคำศัพท์ " σσ\sigma -algebra ที่สร้างโดยตัวแปรสุ่ม" ฉันไม่เข้าใจคำจำกัดความของวิกิพีเดียแต่สิ่งสำคัญที่สุดคือฉันไม่เข้าใจสัญชาตญาณ ทำไม / เมื่อไหร่ที่เราต้องการσ−σ−\sigma-จีบราส์ที่สร้างขึ้นโดยตัวแปรสุ่ม? ความหมายของพวกเขาคืออะไร? ฉันรู้ดังต่อไปนี้: σσ\sigmaพีชคณิตในชุดΩΩ\Omegaคือชุดของว่างย่อยของΩΩ\Omegaซึ่งมีΩΩ\Omega , ปิดให้บริการภายใต้การเติมเต็มและอยู่ภายใต้สหภาพนับ เราแนะนำσσ\sigma -algebras ไปที่ช่องว่างสร้างความน่าจะเป็นตัวอย่างในช่องว่างที่ไม่มีที่สิ้นสุด โดยเฉพาะอย่างยิ่งถ้าΩΩ\Omegaไม่มีที่สิ้นสุดนับไม่ถ้วนเรารู้ว่ามีเซตย่อยที่ไม่สามารถวัดค่าได้ (ชุดที่เราไม่สามารถกำหนดความน่าจะเป็น) ดังนั้นเราไม่สามารถใช้ชุดพลังของΩΩ\Omega P(Ω)P(Ω)\mathcal{P}(\Omega)เป็นชุดเหตุการณ์FF\mathcal{F}เรา เราต้องการชุดที่มีขนาดเล็กกว่าซึ่งยังใหญ่พอที่จะกำหนดความน่าจะเป็นของเหตุการณ์ที่น่าสนใจและเราสามารถพูดคุยเกี่ยวกับการลู่เข้าของลำดับของตัวแปรสุ่ม ในระยะสั้นฉันคิดว่าฉันมีความเข้าใจอย่างเป็นธรรมชาติเกี่ยวกับσ-σ−\sigma- algebras ฉันต้องการที่จะมีความเข้าใจคล้ายกันสำหรับσ-σ−\sigma- algebras ที่สร้างขึ้นโดยตัวแปรสุ่ม: นิยามว่าทำไมเราต้องใช้พวกเขาปรีชาตัวอย่าง ...

3
สถิติที่เพียงพอสำหรับคนธรรมดา
ใครช่วยอธิบายสถิติที่เพียงพอในศัพท์พื้นฐานได้ไหม? ฉันมาจากภูมิหลังทางวิศวกรรมและฉันได้ผ่านสิ่งต่างๆมากมาย แต่ไม่สามารถหาคำอธิบายที่เข้าใจง่าย

4
ความแตกต่างระหว่างข้อผิดพลาดและส่วนที่เหลือคืออะไร?
ในขณะที่คำที่แพร่หลายทั้งสองนี้มักจะใช้คำพ้องความหมายเหมือนกัน แต่บางครั้งก็ดูเหมือนจะมีความแตกต่าง มีความแตกต่างอย่างแน่นอนหรือว่าพวกเขามีความหมายเหมือนกัน?

4
ทุกคนสามารถอธิบายคำพ้องกันในรูปแบบที่ง่ายที่สุดได้ไหม?
ฉันพยายามทำความเข้าใจความคิดของนักบวชในสถิติ Bayesian มาระยะหนึ่งแล้ว แต่ฉันก็ไม่เข้าใจ ทุกคนสามารถอธิบายแนวคิดดังกล่าวด้วยคำศัพท์ที่ง่ายที่สุดที่เป็นไปได้หรืออาจใช้ตัวอย่าง "เสียนมาก่อน" เป็นตัวอย่าง?

3
จุดประสงค์ของการค้นหาอัตโนมัติคืออะไร
ทำไมความสัมพันธ์อัตโนมัติมีความสำคัญมาก ฉันเข้าใจหลักการของมัน (ฉันเดา .. ) แต่เนื่องจากมีตัวอย่างที่ไม่มีการบันทึกความสัมพันธ์อัตโนมัติเกิดขึ้นฉันสงสัยว่า: ทุกสิ่งในธรรมชาติไม่ได้มีความสัมพันธ์โดยอัตโนมัติหรือไม่? ประเด็นสุดท้ายคือการมีความเข้าใจทั่วไปเกี่ยวกับความสัมพันธ์แบบตัวเองมากขึ้นเพราะอย่างที่ฉันได้กล่าวไปแล้วไม่ใช่ว่าทุกรัฐในเอกภพขึ้นอยู่กับสิ่งก่อนหน้าหรือไม่?

1
ฉันต้องตายหลายครั้งเพื่อประเมินความเป็นธรรมของมันอย่างมั่นใจหรือไม่?
(ขออภัยล่วงหน้าสำหรับการใช้ภาษาฆราวาสมากกว่าภาษาทางสถิติ) ถ้าฉันต้องการวัดอัตราต่อรองของการกลิ้งแต่ละด้านของแม่พิมพ์หกด้านทางกายภาพที่เฉพาะเจาะจงให้อยู่ภายใน +/- 2% ด้วยความมั่นใจอย่างสมเหตุสมผลมั่นใจว่าจะต้องมีตัวอย่างม้วนจำนวนเท่าใด นั่นคือฉันจะต้องหมุนกี่ครั้งนับผลแต่ละครั้งเพื่อให้แน่ใจ 98% ว่าโอกาสที่จะหมุนแต่ละด้านอยู่ในช่วง 14.6% - 18.7% (หรือบางเกณฑ์ที่คล้ายกันซึ่งจะมีประมาณ 98% แน่ใจว่าผู้ตายมีความยุติธรรมภายใน 2%) (นี่เป็นเรื่องจริงในโลกแห่งเกมการจำลองโดยใช้ลูกเต๋าและต้องการให้แน่ใจว่าการออกแบบของลูกเต๋านั้นยอมรับได้ใกล้กับโอกาสที่จะหมุนแต่ละหมายเลขได้ 1/6 ซึ่งมีการอ้างว่าการออกแบบของลูกเต๋าทั่วไปหลายตัวนั้น กลิ้งลูกเต๋าดังกล่าวหลายครั้งละ 1,000 ครั้ง)

4
ทำไมค่าเฉลี่ยมีแนวโน้มที่จะมีความเสถียรในตัวอย่างที่แตกต่างจากค่ามัธยฐาน?
ส่วน 1.7.2 ของการค้นพบสถิติการใช้ Rโดย Andy Fields และอื่น ๆ ในขณะที่แสดงรายการคุณธรรมของค่าเฉลี่ย vs มัธยฐาน: ... ค่าเฉลี่ยมีแนวโน้มที่จะคงที่ในกลุ่มตัวอย่างที่แตกต่างกัน สิ่งนี้หลังจากอธิบายถึงคุณงามความดีของคนมัธยฐานเช่น ... ค่ามัธยฐานค่อนข้างไม่ได้รับผลกระทบจากคะแนนสูงสุดที่ปลายด้านหนึ่งของการกระจาย ... เนื่องจากค่ามัธยฐานค่อนข้างไม่ได้รับผลกระทบจากคะแนนสูงสุดฉันจึงคิดว่ามันจะมีเสถียรภาพมากขึ้นในกลุ่มตัวอย่าง ดังนั้นฉันจึงงงงวยโดยการยืนยันของผู้เขียน เพื่อยืนยันว่าฉันใช้การจำลอง - ฉันสร้างตัวเลขสุ่ม 1M และสุ่มตัวอย่าง 100 ตัวเลข 1,000 ครั้งและคำนวณค่าเฉลี่ยและค่ามัธยฐานของแต่ละตัวอย่างแล้วคำนวณ SD ของค่าเฉลี่ยตัวอย่างและค่ามัธยฐาน nums = rnorm(n = 10**6, mean = 0, sd = 1) hist(nums) length(nums) means=vector(mode = "numeric") medians=vector(mode = "numeric") for …
22 mean  median 

1
backpropagation ไล่ระดับสีผ่านการเชื่อมต่อ ResNet
ฉันสงสัยเกี่ยวกับวิธีการไล่ระดับสีแบบกระจายกลับผ่านเครือข่ายประสาทโดยใช้โมดูล ResNet / การเชื่อมต่อข้าม ฉันเคยเห็นคำถามสองสามข้อเกี่ยวกับ ResNet (เช่นโครงข่ายประสาทเทียมที่มีการเชื่อมต่อแบบข้ามชั้น ) แต่คำถามนี้ถามเกี่ยวกับการแพร่กระจายของการไล่ระดับสีกลับระหว่างการฝึกอบรมโดยเฉพาะ สถาปัตยกรรมพื้นฐานอยู่ที่นี่: ฉันอ่านบทความนี้การศึกษาเครือข่ายที่เหลือเพื่อการจดจำรูปภาพและในส่วนที่ 2 พวกเขาพูดถึงว่าหนึ่งในเป้าหมายของ ResNet คือการอนุญาตเส้นทางที่สั้นลง / ชัดเจนขึ้นสำหรับการไล่ระดับสีเพื่อแพร่กระจายกลับไปยังชั้นฐาน ทุกคนสามารถอธิบายได้ว่าการไล่ระดับสีไหลผ่านเครือข่ายประเภทนี้อย่างไร ฉันไม่เข้าใจวิธีการดำเนินการเพิ่มและการขาดเลเยอร์ที่มีพารามิเตอร์หลังจากนั้นช่วยให้การแพร่กระจายของการไล่ระดับสีดีขึ้น มันมีบางอย่างเกี่ยวกับวิธีที่การไล่ระดับสีไม่เปลี่ยนแปลงเมื่อไหลผ่านโอเปอเรเตอร์ Add และมีการแจกจ่ายซ้ำโดยไม่มีการคูณ? นอกจากนี้ฉันสามารถเข้าใจได้ว่าปัญหาการไล่ระดับสีที่หายไปนั้นบรรเทาลงได้อย่างไรหากการไล่ระดับสีไม่จำเป็นต้องไหลผ่านชั้นน้ำหนัก แต่ถ้าไม่มีการไล่ระดับสีแบบไหลผ่านน้ำหนักแล้วพวกเขาจะได้รับการอัปเดตอย่างไร

7
ความแตกต่างระหว่างตัวเลขที่กระจายอย่างสม่ำเสมอมีการแจกแจงแบบเดียวกันหรือไม่?
เรากลิ้งดายแบบ 6 ด้านเป็นจำนวนมาก การคำนวณความแตกต่าง (ค่าสัมบูรณ์) ระหว่างม้วนและม้วนก่อนหน้านั้นคาดว่าจะมีการกระจายความแตกต่างอย่างสม่ำเสมอหรือไม่ เพื่ออธิบายด้วย 10 ม้วน: roll num result diff 1 1 0 2 2 1 3 1 1 4 3 2 5 3 0 6 5 2 7 1 4 8 6 5 9 4 2 10 4 0 จะdiffค่าจะกระจายเหมือนกัน?

2
มีสิ่งใดบ้างที่เป็นการปรับ
เมื่อรวมโมเดลการถดถอยเชิงปริมาณในกระดาษผู้วิจารณ์ต้องการให้ฉันรวมปรับปรุงแล้วลงในกระดาษ ฉันได้คำนวณหลอก - s (จากKoenker และกระดาษ JASA ของปี 1999 ของ Machado ) สำหรับสามปริมาณที่น่าสนใจสำหรับการศึกษาของฉันR2R2R^2R2R2R^2 อย่างไรก็ตามฉันไม่เคยได้ยินการปรับสำหรับการถดถอยแบบควอไทล์และไม่รู้จะคำนวณได้อย่างไร ฉันขอให้คุณทำอย่างใดอย่างหนึ่งต่อไปนี้:R2R2R^2 เด่นกว่า: สูตรหรือวิธีการเกี่ยวกับวิธีการคำนวณปรับปรุงแล้วสำหรับการถดถอยเชิงปริมาณR2R2R^2 อีกทางเลือกหนึ่ง: ข้อโต้แย้งที่น่าเชื่อเพื่อให้ผู้ตรวจสอบทราบว่าทำไมไม่มีสิ่งนั้นในฐานะปรับแล้วในการถดถอยเชิงปริมาณR2R2R^2

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.