คำถามติดแท็ก history

คำถามเกี่ยวกับประวัติของสถิติ


9
เกี่ยวกับค่า p ทำไม 1% และ 5% ทำไมไม่ 6% หรือ 10%
เกี่ยวกับp-value s ผมสงสัยว่าทำไม % และ % ดูเหมือนจะเป็นมาตรฐานทองคำสำหรับ ทำไมค่าอื่น ๆ เช่น % หรือ %111555"statistical significance"666101010 มีเหตุผลทางคณิตศาสตร์พื้นฐานสำหรับเรื่องนี้หรือนี่เป็นเพียงการประชุมที่จัดขึ้นอย่างกว้างขวาง?

7
สถิติ 'ปัญหาใหญ่' ในสถิติคืออะไร?
คณิตศาสตร์มีปัญหาในสหัสวรรษที่มีชื่อเสียง(และในอดีตคือฮิลแบร์ตที่ 23 ) คำถามที่ช่วยกำหนดทิศทางของสนาม ฉันมีความคิดเล็กน้อยว่าสถิติของ Riemann Hypotheses และ P vs. NP เป็นอย่างไร ดังนั้นคำถามเปิดที่ครอบคลุมอยู่ในสถิติคืออะไร แก้ไขเพื่อเพิ่ม: เป็นตัวอย่างของคำตอบทั่วไป (ถ้าไม่เจาะจง) ที่ฉันกำลังมองหาฉันพบการบรรยาย "Hilbert's 23" - บรรยายโดย David Donoho ในการประชุม "ความท้าทายทางคณิตศาสตร์ของศตวรรษที่ 21": การวิเคราะห์ข้อมูลมิติสูง: คำสาปและพรของมิติ ดังนั้นคำตอบที่อาจเกิดขึ้นสามารถพูดคุยเกี่ยวกับข้อมูลขนาดใหญ่ได้และทำไมจึงเป็นสิ่งสำคัญประเภทของความท้าทายทางสถิติของข้อมูลมิติสูงโพสท่าและวิธีการที่จำเป็นต้องพัฒนาหรือคำถามที่ต้องตอบคำถามเพื่อช่วยแก้ปัญหา
77 history 

2
เหตุใดการถดถอยของสันจึงเรียกว่า“ สันเขา” ทำไมมันถึงต้องการและอะไรจะเกิดขึ้นเมื่อไปไม่มีที่สิ้นสุด?
การประมาณค่าสัมประสิทธิ์การถดถอยริดจ์เป็นค่าที่ลดค่าβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. คำถามของฉันคือ: หากเราจะเห็นว่านิพจน์ด้านบนลดลงเป็น RSS ปกติ เกิดอะไรขึ้นถ้า ? ฉันไม่เข้าใจคำอธิบายในตำราของพฤติกรรมของสัมประสิทธิ์λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty เพื่อช่วยในการทำความเข้าใจแนวคิดเบื้องหลังคำเฉพาะทำไมคำที่เรียกว่าการถดถอย RIDGE? (ทำไมต้องริดจ์?) และมีอะไรผิดปกติกับการถดถอยปกติ / ทั่วไปที่มีความต้องการที่จะแนะนำแนวคิดใหม่ที่เรียกว่าการถดถอยของสันเขา? ข้อมูลเชิงลึกของคุณจะดีมาก

5
นักสถิติตกลงกันว่าจะใช้ (n-1) เป็นตัวประมาณค่าที่เป็นกลางสำหรับความแปรปรวนของประชากรโดยไม่มีการจำลองอย่างไร
สูตรสำหรับการคำนวณความแปรปรวนมีในตัวส่วน:(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} ฉันสงสัยอยู่เสมอว่าทำไม อย่างไรก็ตามการอ่านและดูวิดีโอดีๆสองสามเรื่องเกี่ยวกับ "ทำไม" ดูเหมือนว่าเป็นตัวประมาณค่าความแปรปรวนของประชากรที่ไม่เอนเอียง ในขณะที่ประเมินต่ำเกินไปและประเมินค่าความแปรปรวนของประชากรมากเกินไป(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) สิ่งที่ฉันอยากรู้ก็คือว่าในยุคที่ไม่มีคอมพิวเตอร์ตัวเลือกนี้เกิดขึ้นได้อย่างไร มีหลักฐานทางคณิตศาสตร์จริง ๆ ที่พิสูจน์สิ่งนี้หรือว่าเป็นเชิงประจักษ์และนักสถิติได้ทำการคำนวณจำนวนมากด้วยมือเพื่อมากับ "คำอธิบายที่ดีที่สุด" ในเวลานั้น? นักสถิติใช้สูตรนี้อย่างไรในต้นศตวรรษที่ 19 ด้วยความช่วยเหลือของคอมพิวเตอร์ ด้วยตนเองหรือมีมากเกินกว่าที่เห็นได้หรือไม่

3
ใครเป็นผู้สร้างตารางปกติมาตรฐานแรก
ฉันกำลังจะแนะนำตารางมาตรฐานมาตรฐานในชั้นเรียนสถิติเบื้องต้นของฉันและนั่นทำให้ฉันสงสัยว่า: ใครเป็นผู้สร้างตารางมาตรฐานมาตรฐานแรก พวกเขาทำมันอย่างไรก่อนที่คอมพิวเตอร์จะเข้ามา? ฉันตัวสั่นที่คิดว่าใครบางคนกำลังบังคับให้คำนวณผลรวมของ Riemann หนึ่งพันด้วยมือ

6
การโต้วาทีแบบ Bayesian เกิดขึ้นที่ไหน
โลกของสถิติถูกแบ่งระหว่างผู้ใช้บ่อยและเบย์ วันนี้ดูเหมือนว่าทุกคนทำทั้งสองอย่าง สิ่งนี้จะเป็นอย่างไร หากวิธีการที่แตกต่างกันเหมาะสำหรับปัญหาที่แตกต่างกันเหตุใดบรรพบุรุษของผู้ก่อตั้งสถิติจึงไม่เห็นสิ่งนี้ อีกทางเลือกหนึ่งการถกเถียงกันได้รับรางวัลจากการถกเถียงกันบ่อยครั้งและ Bayesians ส่วนตัวที่แท้จริงย้ายไปอยู่กับทฤษฎีการตัดสินใจ?

6
“ ลูกผสม” ระหว่างฟิชเชอร์และเนย์แมน - เพียร์สันใกล้ถึงวิธีการทดสอบทางสถิติจริงๆแล้วเป็น
มีโรงเรียนแห่งความคิดบางแห่งตามที่วิธีการทดสอบทางสถิติที่แพร่หลายที่สุดคือ "ลูกผสม" ระหว่างสองวิธี: ฟิชเชอร์และเนย์แมน - เพียร์สัน; ทั้งสองวิธีการเรียกร้องไปเป็น "เข้ากันไม่ได้" และด้วยเหตุนี้ "ลูกผสม" ที่เกิดขึ้นจึงเป็น "ยำ mashmash" ฉันจะให้บรรณานุกรมและคำพูดบางส่วนด้านล่าง แต่ตอนนี้พอจะพูดได้ว่ามีจำนวนมากที่เขียนเกี่ยวกับว่าในบทความวิกิพีเดียในการทดสอบสมมติฐานทางสถิติ ที่นี่บน CV จุดนี้ทำซ้ำโดย @Michael Lew (ดูที่นี่และที่นี่ ) คำถามของฉันคือ: ทำไม F และ NP ถึงวิธีอ้างว่าไม่เข้ากันและทำไมไฮบริดที่อ้างว่าไม่สอดคล้องกัน? โปรดทราบว่าฉันอ่านเอกสารต่อต้านไฮบริดอย่างน้อยหกฉบับ (ดูด้านล่าง) แต่ก็ยังไม่เข้าใจปัญหาหรือข้อโต้แย้ง สังเกตว่าฉันไม่แนะนำให้อภิปรายว่า F หรือ NP เป็นวิธีที่ดีกว่าหรือไม่ ฉันไม่เสนอที่จะพูดคุยเกี่ยวกับกรอบบ่อยครั้งกับเบย์ แต่คำถามคือการยอมรับว่าทั้ง F และ NP เป็นวิธีที่ถูกต้องและมีความหมายอะไรที่แย่เกี่ยวกับลูกผสมของพวกเขา นี่คือวิธีที่ฉันเข้าใจสถานการณ์ วิธีการของฟิชเชอร์คือการคำนวณค่าและใช้เป็นหลักฐานต่อสมมติฐานว่าง ยิ่งเล็กเท่าไหร่หลักฐานก็ยิ่งน่าเชื่อถือมากเท่านั้น ผู้วิจัยควรรวมหลักฐานนี้กับความรู้พื้นฐานของเขาตัดสินใจว่ามันน่าเชื่อถือเพียงพอและดำเนินการต่อไป (หมายเหตุว่ามุมมองของฟิชเชอร์การเปลี่ยนแปลงในช่วงปีที่ผ่านมา แต่นี่คือสิ่งที่เขาดูเหมือนว่าจะมีการแปรสภาพในที่สุดก็ไป.) ในทางตรงกันข้ามวิธี Neyman …

13
อะไรคือความก้าวหน้าของสถิติในช่วง 15 ปีที่ผ่านมา?
ฉันยังจำเอกสารพงศาวดารสถิติเกี่ยวกับการส่งเสริมโดย Friedman-Hastie-Tibshirani และความคิดเห็นในประเด็นเดียวกันโดยผู้เขียนคนอื่น ๆ (รวมถึง Freund และ Schapire) ในเวลานั้นการส่งเสริมอย่างชัดเจนถูกมองว่าเป็นความก้าวหน้าในหลาย ๆ ด้าน: ความเป็นไปได้ในการคำนวณเป็นวิธีการรวมกับประสิทธิภาพที่ยอดเยี่ยมและลึกลับ ในเวลาเดียวกัน SVM มีอายุมากขึ้นซึ่งมีกรอบการทำงานที่สนับสนุนโดยทฤษฎีที่มั่นคงและมีความหลากหลายและการใช้งานมากมาย นั่นคือใน 90s ที่ยิ่งใหญ่ ในช่วง 15 ปีที่ผ่านมาดูเหมือนว่าสำหรับฉันแล้วสถิติจำนวนมากได้รับการทำความสะอาดและการทำรายละเอียด แต่ด้วยมุมมองใหม่ ๆ ดังนั้นฉันจะถามสองคำถาม: ฉันพลาดบทความปฏิวัติ / น้ำเชื้อบ้างไหม? ถ้าไม่มีวิธีการใหม่ที่คุณคิดว่ามีศักยภาพในการเปลี่ยนมุมมองของการอนุมานทางสถิติหรือไม่? กฎ: หนึ่งคำตอบต่อโพสต์; ยินดีต้อนรับการอ้างอิงหรือลิงค์ PS: ฉันมีผู้สมัครสองสามคนสำหรับการพัฒนาที่มีแนวโน้ม ฉันจะโพสต์ไว้ในภายหลัง


3
ความสัมพันธ์เชิงประจักษ์ระหว่างค่าเฉลี่ยมัธยฐานและโหมด
สำหรับการกระจายแบบ unimodal ที่มีความเบ้ปานกลางเรามีความสัมพันธ์เชิงประจักษ์ระหว่างค่าเฉลี่ยมัธยฐานและโหมด: ความสัมพันธ์นี้เป็นอย่างไร มา?(ค่าเฉลี่ย - โหมด) ∼ 3(ค่าเฉลี่ย - ค่ามัธยฐาน)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} คาร์ลเพียร์สันได้พล็อตความสัมพันธ์เหล่านี้หลายพันรายการก่อนก่อให้เกิดข้อสรุปนี้หรือมีเหตุผลที่สมเหตุสมผลในความสัมพันธ์นี้หรือไม่?

2
ใครเป็นผู้คิดค้นการไล่ระดับสีแบบสุ่มสุ่ม?
ฉันพยายามที่จะเข้าใจประวัติศาสตร์ของการไล่โทนสีเชื้อสายและStochastic การไล่ระดับสีโคตร เชื้อสายไล่โทนสีถูกคิดค้นในCauchyใน 1,847 Méthode Generale pour la ความละเอียด des systèmes d'สมsimultanées ได้ pp. 536-538 สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ดูที่นี่ ตั้งแต่นั้นมาวิธีการลาดลงของการไล่ระดับสีก็ยังคงพัฒนาอยู่และฉันไม่คุ้นเคยกับประวัติของพวกเขา โดยเฉพาะอย่างยิ่งฉันสนใจในการประดิษฐ์เชื้อสายการไล่ระดับสีสุ่ม การอ้างอิงที่สามารถใช้ในงานวิชาการได้มากกว่าที่ได้รับการต้อนรับ

6
นักวิทยาศาสตร์ได้คำนวณรูปร่างของฟังก์ชันความหนาแน่นของความน่าจะเป็นกระจายแบบปกติได้อย่างไร
นี่อาจเป็นคำถามสมัครเล่น แต่ฉันสนใจว่านักวิทยาศาสตร์เกิดขึ้นได้อย่างไรกับรูปร่างของฟังก์ชันความหนาแน่นของความน่าจะเป็นการแจกแจงแบบปกติ โดยทั่วไปสิ่งที่ฉันเป็นคนนั้นอาจจะง่ายกว่าที่ฟังก์ชันความน่าจะเป็นของข้อมูลที่แจกแจงแบบปกติมีรูปร่างของรูปสามเหลี่ยมหน้าจั่วแทนที่จะเป็นรูปโค้งและคุณจะพิสูจน์ให้คนฟังก์ชั่นว่าความหนาแน่นของความน่าจะเป็นของ ข้อมูลที่กระจายตามปกติทั้งหมดมีรูปทรงระฆังหรือไม่ โดยการทดลอง? หรือโดยการคำนวณทางคณิตศาสตร์ ท้ายที่สุดแล้วเราจะพิจารณาข้อมูลที่กระจายไปตามปกติอย่างไร? ข้อมูลที่ตามหลังรูปแบบความน่าจะเป็นของการแจกแจงแบบปกติหรืออย่างอื่น? โดยทั่วไปคำถามของฉันคือทำไมฟังก์ชั่นความหนาแน่นของความน่าจะเป็นการแจกแจงปกติมีรูปร่างเป็นรูปทรงระฆัง และนักวิทยาศาสตร์ได้จำแนกสถานการณ์จริงที่สามารถใช้การแจกแจงแบบปกติโดยการทดลองหรือการศึกษาธรรมชาติของข้อมูลต่าง ๆ ได้อย่างไร ดังนั้นฉันจึงพบว่าลิงก์นี้มีประโยชน์จริง ๆ ในการอธิบายการได้มาของรูปแบบการทำงานของเส้นโค้งการแจกแจงแบบปกติและจึงตอบคำถามว่า อย่างน้อยก็มีเหตุผลสำหรับฉัน

5
เหตุใดปัญหาการถดถอยจึงเรียกว่าปัญหา“ การถดถอย”
ฉันแค่สงสัยว่าทำไมปัญหาการถดถอยจึงถูกเรียกว่า "ปัญหาการถดถอย" เรื่องราวเบื้องหลังชื่อคืออะไร? คำนิยามเดียวสำหรับการถดถอย: "กำเริบไปสู่สถานะที่ไม่สมบูรณ์หรือพัฒนาแล้ว"

4
ต้นกำเนิดของเกณฑ์“ 5
รายงานข่าวกล่าวว่าเซิร์นจะมีการประกาศในวันพรุ่งนี้ว่าฮิกส์โบซอนได้รับการตรวจทดลอง 5 หลักฐาน อ้างอิงจากบทความ:σσ\sigma 5 เท่ากับโอกาส 99.99994% ที่ข้อมูลที่เครื่องตรวจจับ CMS และ ATLAS กำลังเห็นไม่ใช่แค่เสียงสุ่ม - และมีโอกาส 0.00006% ที่พวกเขาได้รับการกระพริบ 5 σเป็นความมั่นใจที่จำเป็นสำหรับบางสิ่งบางอย่างที่จะระบุว่าเป็น“ การค้นพบทางวิทยาศาสตร์” อย่างเป็นทางการσσ\sigmaσσ\sigma สิ่งนี้ไม่ได้เข้มงวดมากนัก แต่ดูเหมือนว่านักฟิสิกส์ใช้วิธีการทางสถิติแบบ "การทดสอบสมมติฐาน" มาตรฐานโดยตั้งค่าเป็น0.0000006ซึ่งสอดคล้องกับz = 5 (แบบสองด้าน)? หรือมีความหมายอื่น ๆ บ้าง?αα\alpha0.00000060.00000060.0000006z=5z=5z=5 แน่นอนว่าในทางวิทยาศาสตร์ส่วนใหญ่การตั้งค่าอัลฟ่าเป็น 0.05 จะทำเป็นประจำ นี่จะเทียบเท่ากับหลักฐาน"two- " ถึงแม้ว่าฉันไม่เคยได้ยินชื่อนี้มาก่อน มีสาขาอื่น ๆ (นอกเหนือจากฟิสิกส์ของอนุภาค) ที่คำจำกัดความที่เข้มงวดกว่าของอัลฟ่าเป็นมาตรฐานหรือไม่? ใครทราบข้อมูลอ้างอิงสำหรับวิธีการที่ห้าσกฎได้รับการยอมรับจากฟิสิกส์ของอนุภาค?σσ\sigmaσσ\sigma ปรับปรุง:ฉันถามคำถามนี้ด้วยเหตุผลง่ายๆ หนังสือของฉันชีวสถิติที่ใช้งานง่าย (เช่นหนังสือสถิติส่วนใหญ่) มีส่วนที่อธิบายว่ากฎ "P <0.05" ตามปกติคืออะไร ฉันต้องการเพิ่มตัวอย่างของเขตข้อมูลทางวิทยาศาสตร์ที่จำเป็นต้องใช้ค่าที่น้อยกว่า (มาก!) …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.