สถิติและข้อมูลขนาดใหญ่ references

4

การตรวจสอบความถูกต้องไขว้ภายนอกและการเลือกรุ่น

ความเข้าใจของฉันคือว่าด้วยการตรวจสอบข้ามและการเลือกรูปแบบเราพยายามที่จะอยู่สองสิ่ง: P1 ประเมินการสูญเสียที่คาดหวังของประชากรเมื่อฝึกอบรมกับตัวอย่างของเรา P2 . วัดและรายงานความไม่แน่นอนของการประมาณนี้ของเรา (ความแปรปรวนช่วงความเชื่อมั่นอคติ ฯลฯ ) การปฏิบัติมาตรฐานดูเหมือนว่าจะทำการตรวจสอบข้ามซ้ำเนื่องจากจะช่วยลดความแปรปรวนของเครื่องมือประมาณค่าของเรา อย่างไรก็ตามเมื่อพูดถึงการรายงานและการวิเคราะห์ความเข้าใจของฉันคือการตรวจสอบภายในดีกว่าการตรวจสอบภายนอกเพราะ: เป็นการดีกว่าที่จะรายงาน: สถิติของเครื่องมือประมาณค่าของเราเช่นช่วงความเชื่อมั่น, ความแปรปรวน, ค่าเฉลี่ย ฯลฯ ของตัวอย่างเต็มรูปแบบ (ในกรณีนี้คือตัวอย่าง CV) กว่าการรายงาน: การสูญเสียตัวประมาณของเราในชุดย่อยที่ระงับไว้ของตัวอย่างดั้งเดิมเนื่องจาก: (i) นี่จะเป็นการวัดเดียว ( แม้ว่าเราเลือกตัวประมาณค่าของเรากับ CV ) (ii) เครื่องมือประมาณค่าของเราสำหรับการวัดเดี่ยวนี้จะได้รับการฝึกอบรมในชุด (เช่นชุด CV) ที่มีขนาดเล็กกว่าตัวอย่างเริ่มต้นของเราเนื่องจากเราต้องทำให้มีที่ว่างสำหรับชุดที่ค้างไว้ ผลนี้ในลำเอียงมากขึ้น (ในแง่ร้าย) การประมาณค่าในP1 ถูกต้องหรือไม่ ถ้าไม่ใช่เพราะอะไร พื้นหลัง: มันง่ายที่จะหาหนังสือที่แนะนำให้แบ่งตัวอย่างของคุณออกเป็นสองชุด: CVชุดซึ่งเป็นที่ต่อมาซ้ำแล้วซ้ำอีกแบ่งออกเป็นรถไฟและการตรวจสอบชุด ชุดhold-out (test) ใช้เฉพาะเมื่อสิ้นสุดเพื่อรายงานประสิทธิภาพของตัวประมาณ คำถามของฉันคือความพยายามในการทำความเข้าใจข้อดีและข้อได้เปรียบของวิธีตำราเรียนนี้โดยพิจารณาว่าเป้าหมายของเราคือการจัดการปัญหาP1และP2ในตอนต้นของโพสต์นี้ สำหรับฉันแล้วการรายงานเกี่ยวกับชุดทดสอบการระงับถือเป็นการปฏิบัติที่ไม่ดีเนื่องจากการวิเคราะห์ตัวอย่าง CV นั้นให้ข้อมูลมากกว่า K-fold ซ้อนกันซ้ำ K-fold: …

26 estimation cross-validation references

1

ตารางสถิติในหนังสือเก่าผิดวัตถุประสงค์หรือไม่

ฉันจำได้ว่าเคยอ่านมานานแล้วว่าในหนังสือเก่า (ก่อนยุคคอมพิวเตอร์) ตัวเลขสุดท้ายของปริมาณทางทฤษฎีที่แสดงในภาคผนวกนั้นไม่ถูกต้องเพื่อที่จะกีดกันการลอกเลียนแบบ (ความคิดจะเป็นเช่นนั้น ภาคผนวกที่ตัวเลขสุดท้ายเหมือนกันกับที่พบในของคุณจากนั้นผู้เขียนคนนั้นจะต้องลอกเลียนตารางของคุณ) ฉันพยายามค้นหาแหล่งที่มาของเรื่องนี้หรือลิงค์ไปยังที่กล่าวถึง แต่หลังจากการค้นหาหลายชั่วโมงฉันไม่สามารถทำได้

25 references history tables

1

การเรียนรู้ที่ล้ำสมัย

ฉันทำงานกับชุดข้อมูลขนาดใหญ่เมื่อเร็ว ๆ นี้และพบว่ามีเอกสารจำนวนมากเกี่ยวกับวิธีการสตรีม หากต้องการตั้งชื่อไม่กี่: Follow-the-Regularized-Leader และ Mirror Descent: Equalence Theorems และ L1 Normalization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) สตรีมการเรียนรู้: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) เพกาซัส: ซอฟท์แวร์ย่อย GrAdient โดยประมาณครั้งแรกสำหรับ SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf หรือที่นี่: SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างได้หรือไม่ สตรีมมิ่งป่าสุ่ม ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf ) อย่างไรก็ตามฉันไม่สามารถค้นหาเอกสารใด ๆ เกี่ยวกับวิธีเปรียบเทียบกับเอกสารอื่น ๆ ทุกบทความที่ฉันอ่านดูเหมือนจะทำการทดลองกับชุดข้อมูลที่แตกต่างกัน ฉันรู้เกี่ยวกับ sofia-ml, vowpal wabbit แต่ดูเหมือนว่าจะใช้วิธีการน้อยมากเมื่อเทียบกับวิธีการที่มีอยู่จำนวนมาก! อัลกอริธึมที่ใช้กันทั่วไปน้อยกว่านั้นมีประสิทธิภาพไม่เพียงพอหรือไม่? มีกระดาษพยายามทบทวนวิธีการให้มากที่สุดหรือไม่?

25 machine-learning references large-data online

4

ArXiv ได้รับความนิยมในชุมชนสถิติหรือไม่?

ฉันรู้ว่าชุมชนฟิสิกส์และคณิตศาสตร์นั้นเข้ามาใน ArXiv มาก แต่ชุมชนสถิติจะเป็นอย่างไร? เป็นเรื่องปกติไหมที่จะโพสต์ที่นั่นก่อนส่ง

25 references academia

1

การเปรียบเทียบระดับของปัจจัยหลังจาก GLM ใน R

นี่เป็นพื้นหลังเล็กน้อยเกี่ยวกับสถานการณ์ของฉัน: ข้อมูลของฉันอ้างถึงจำนวนเหยื่อที่กินโดยนักล่า เนื่องจากจำนวนเหยื่อมี จำกัด (มีให้ 25) ในการทดลองแต่ละครั้งฉันจึงมีคอลัมน์ "ตัวอย่าง" แสดงจำนวนเหยื่อที่มี (เช่น 25 ในการทดลองแต่ละครั้ง) และอีกชื่อเรียกว่า "นับ" ซึ่งเป็นจำนวนของความสำเร็จ ( จำนวนเหยื่อที่ถูกกิน) ฉันใช้การวิเคราะห์ตามตัวอย่างจากหนังสือ R เกี่ยวกับข้อมูลสัดส่วน (หน้า 578) ตัวแปรอธิบายคืออุณหภูมิ (4 ระดับซึ่งฉันถือว่าเป็นปัจจัย) และเพศของนักล่า (เห็นได้ชัดว่าเป็นเพศชายหรือเพศหญิง) ดังนั้นฉันจะลงเอยกับโมเดลนี้: model <- glm(y ~ Temperature+Sex+Temperature*Sex data=predator, family=quasibinomial) หลังจากได้รับตารางการวิเคราะห์ของ Deviance ปรากฎว่าอุณหภูมิและเพศ (แต่ไม่ใช่การมีปฏิสัมพันธ์) มีผลอย่างมากต่อการบริโภคเหยื่อ ตอนนี้ปัญหาของฉัน: ฉันต้องรู้ว่าอุณหภูมิแตกต่างกันคือฉันต้องเปรียบเทียบ 4 อุณหภูมิกับแต่ละอื่น ๆ ถ้าฉันมีโมเดลเชิงเส้นฉันจะใช้ฟังก์ชัน TukeyHSD แต่เมื่อฉันใช้ GLM ฉันไม่สามารถทำได้ …

25 r generalized-linear-model references multiple-comparisons tukey-hsd

3

รหัส R ใช้ได้กับการผลิต (ปรับใช้) หรือไม่

ฉันได้อ่านบทความจำนวนหนึ่งที่พูดคุยเกี่ยวกับ บริษัท เช่น Google, Facebook และอื่น ๆ อีกมากมายที่ใช้ R เพื่อการวิจัย สถานการณ์อื่น ๆ ที่ฉันได้อ่านคือ บริษัท ที่ใช้ R เพื่อสร้างต้นแบบโซลูชันการวิเคราะห์จากนั้นนำไปใช้ใหม่ในภาษาอื่น ฉันกำลังพยายามค้นหาวรรณกรรมเกี่ยวกับ บริษัท ที่ใช้ R สำหรับรหัสการวิเคราะห์การผลิตจริง กรณีการใช้งานอาจเป็นระบบผู้แนะนำที่ผู้ใช้โต้ตอบผ่านหน้าเว็บที่ได้รับการตอบสนองจากสคริปต์ R ที่ดำเนินการบนเซิร์ฟเวอร์ระยะไกล ความจริงที่ว่าฉันมีปัญหาในการค้นหารายงานดังกล่าวทำให้ฉันสงสัยว่ามันไม่สามารถมองเห็นได้ ถ้าเป็นเช่นนั้นทำไม

25 r references

5

การอ่านเบื้องต้นเกี่ยวกับ Copulas

ตอนนี้ฉันกำลังมองหาการอ่านเบื้องต้นเกี่ยวกับ Copulas สำหรับการสัมมนาของฉัน ฉันกำลังค้นหาเนื้อหามากมายที่พูดถึงแง่มุมทางทฤษฎีซึ่งเป็นเรื่องที่ดี แต่ก่อนที่ฉันจะพูดถึงสิ่งเหล่านั้นฉันกำลังมองหาเพื่อสร้างความเข้าใจที่เข้าใจง่ายในหัวข้อนี้ ใครช่วยแนะนำเอกสารที่ดีที่ให้รากฐานที่ดีให้กับผู้เริ่มต้น (ฉันมี 1-2 หลักสูตรในสถิติและเข้าใจ marginals การกระจายหลายตัวแปรการแปลงผกผัน ฯลฯ ในระดับที่เหมาะสม)?

25 correlation references marginal copula

6

หนังสืออ้างอิงสำหรับสถิติที่มี R - มีอยู่และควรมีอะไรบ้าง

พื้นหลัง มีการถกเถียงกันมากมายเกี่ยวกับเรื่องนี้ดังนั้นฉันคิดว่าฉันสามารถหาคำตอบของฉันจากการสำรวจก่อนหน้านี้ใน StackExchange และโดย googling กราดเกรี้ยว หลังจากใช้เวลาครึ่งวันพยายามค้นหาหนังสืออ้างอิงเพียงเล่มเดียวสำหรับสถิติ (ชีวภาพ) กับ R ฉันสับสนอย่างที่สุดและต้องยอมแพ้ บางทีเนื้อหาฟรีที่รวมกันอาจดีกว่าหนังสือใด ๆ ที่คุณสามารถซื้อได้ในขณะนี้ ลองดูสิ อินเทอร์เน็ตเต็มไปด้วยวรรณกรรมฟรีที่ดีสำหรับภาษา Rดังนั้นจึงไม่มีประเด็นที่จะต้องจ่ายเงินสำหรับหนังสือธรรมดา ๆ ซึ่งจบลงด้วยการใช้เป็นของตกแต่งสำนักงานเกือบตลอดเวลา เว็บไซต์ R home แสดงรายการหนังสือที่เกี่ยวข้องกับ Rและมีหนังสือจำนวนมาก เพื่อให้ตรงตามจริงมากขึ้น: 115 โฆษณาเพียงรายการเดียวที่มีคำว่า " หนังสืออ้างอิงสถิติแบบสแตนด์อโลน " ตอนนี้มีอายุ 8 ปีและอาจล้าสมัย ฉบับที่สี่ของสถิติประยุกต์สมัยใหม่กับ Sนั้นเก่ากว่า หนังสือ Rนั้นมักจะถูกบดเคี้ยวเป็นพื้นฐานเกินไปและไม่แนะนำเนื่องจากขาดการอ้างอิงรหัสที่มีการจัดรูปแบบไม่ดีและเสร็จสิ้นการเลอะเทอะ อย่างไรก็ตามฉันกำลังมองหาหนังสือเล่มหนึ่งซึ่งฉันสามารถใช้เป็นข้อมูลอ้างอิงแบบสแตนด์อโลนกับสถิติที่ใช้งานจริง (แรกและสำคัญที่สุด) กับ R (รอง) หนังสือควรอยู่บนโต๊ะทำงานของฉันเพื่อเก็บคำอธิบายประกอบคราบกาแฟและลายนิ้วมือเลี่ยนแทนที่จะเป็นฝุ่นบนชั้นวางหนังสือ มันควรแทนที่คอลเลกชันของ pdf ฟรีที่ฉันใช้มาจนถึงตอนนี้อย่าลืมว่า R มาพร้อมกับห้องสมุดอ้างอิงที่ยอดเยี่ยม “ แนวทางที่ถูกต้องคืออะไร? …

25 r references

5

การวิเคราะห์เชิงสาเหตุเบื้องต้น

หนังสือดีอะไรที่แนะนำการวิเคราะห์เชิงสาเหตุ ฉันคิดถึงการแนะนำที่ทั้งสองอธิบายหลักการของการวิเคราะห์เชิงสาเหตุและแสดงให้เห็นว่าวิธีการทางสถิติที่แตกต่างกันสามารถนำมาใช้ในการประยุกต์ใช้หลักการเหล่านี้ได้อย่างไร

25 references causality

3

ประวัติความเป็นมาของทฤษฎีก่อนหน้านี้ที่ไม่เป็นทางการ

ฉันกำลังเขียนเรียงความเชิงทฤษฎีสั้น ๆ สำหรับหลักสูตรสถิติแบบเบย์ (ในสาขาเศรษฐศาสตร์) กับนักบวชที่ไม่รู้เรื่องและฉันพยายามเข้าใจซึ่งเป็นขั้นตอนในการพัฒนาทฤษฎีนี้ ในตอนนี้ไทม์ไลน์ของฉันมีสามขั้นตอนหลัก: หลักการความเฉยเมยของ Laplace (1812), นักบวชที่ไม่แปรเปลี่ยน (Jeffreys (1946)), อ้างอิงจากเบอร์นาร์โดก่อน (1979) จากการทบทวนวรรณกรรมของฉันฉันได้เข้าใจว่าหลักการไม่แยแส (Laplace) เป็นเครื่องมือแรกที่ใช้แทนการขาดข้อมูลก่อนหน้านี้ แต่ความไม่แน่นอนของความไม่แปรเปลี่ยนได้นำไปสู่การละทิ้งจนกระทั่งยุค 40 เมื่อ Jeffreys แนะนำวิธีการของเขา คุณสมบัติที่ต้องการของค่าคงที่ การเกิดขึ้นของความขัดแย้งของคนชายขอบเนื่องจากการใช้ความไม่ระมัดระวังอย่างไม่เหมาะสมก่อนหน้าในยุค 70 ผลักให้เบอร์นาร์โดอธิบายรายละเอียดของทฤษฎีก่อนหน้านี้อย่างละเอียดเพื่อจัดการกับปัญหานี้ การอ่านวรรณกรรมผู้แต่งทุกคนต่างอ้างถึงการมีส่วนร่วม: เอนโทรปีสูงสุดของเจย์เนส, กล่องและความเป็นไปได้ในการแปลข้อมูล, Zellner, ... ในความเห็นของคุณอะไรคือขั้นตอนสำคัญที่ฉันขาดหายไป แก้ไข : ฉันเพิ่มการอ้างอิง (หลัก) ของฉันหากมีคนต้องการ: 1) การเลือกก่อนโดยกฎอย่างเป็นทางการ, Kass, Wasserman 2) แคตตาล็อกของนักบวชที่ไม่มีข้อมูล Yang, Berger 3) การตีความแบบไม่เป็นทางการของ Bayesians Priors และปัญหาเกี่ยวกับการก่อสร้างและการใช้งาน

24 bayesian references prior history

7

คำแนะนำสำหรับบทความที่ไม่ใช่ด้านเทคนิค แต่เป็นเนื้อหาเชิงลึก

แรงบันดาลใจสำหรับคำถามนี้มาจากบทความเลื่องชื่อของ Leo-Breiman ที่มีชื่อเสียงแบบจำลองทางสถิติ: The Two Cultures (เข้าถึงได้แบบเปิด) ผู้เขียนเปรียบเทียบสิ่งที่เขาเห็นว่าเป็นวิธีการที่แตกต่างกันสองวิธีในการวิเคราะห์ข้อมูลสัมผัสกับแนวคิดหลักในสถิติแบบดั้งเดิมและการเรียนรู้ของเครื่อง อย่างไรก็ตามบทความนี้เป็นที่เข้าใจได้สำหรับผู้ชมที่กว้างขวาง - เนื้อหาสำหรับทุกคนที่ทำงานกับข้อมูลโดยไม่คำนึงว่าพวกเขาได้ติดตามสถิติในระดับปริญญาเอกหรือมีหลักสูตรเบื้องต้นเท่านั้น นอกจากนี้ยังมีบทความที่กระตุ้น นั่นคือมันสร้างการสนทนาได้อย่างง่ายดาย (ดังที่เห็นได้จากชุดของข้อคิดเห็นที่มีชีวิตชีวาที่ตีพิมพ์ในฉบับเดียวกัน) ฉันอยากรู้ว่าจะค้นหาบทความเพิ่มเติมด้วยคุณสมบัติเหล่านี้ นั่นคือบทความที่: แตะที่แนวคิดพื้นฐานในการวิเคราะห์สถิติ / ข้อมูล สามารถเข้าใจได้โดยผู้ชมในแง่ของการเปลี่ยนแปลงในการมุ่งเน้นการวิจัยและการฝึกอบรมทางสถิติอย่างเป็นทางการ กระตุ้นให้เกิดการอภิปรายไม่ว่าจะผ่านความเข้าใจหรือการทะเลาะ

24 references

1

ใครเป็นผู้คิดค้นการตรวจสอบข้ามแบบ K-fold?

ฉันกำลังมองหาเอกสารอ้างอิงที่แนะนำการตรวจสอบความถูกต้องไขว้ของ k-fold (ไม่ใช่แค่การอ้างอิงทางวิชาการที่ดีสำหรับวิชา) บางทีมันอาจจะย้อนกลับไปในช่วงเวลาที่ไกลเกินกว่าที่จะระบุกระดาษแผ่นแรกได้อย่างไม่น่าสงสัยดังนั้นกระดาษแรก ๆ ที่ใช้แนวคิดนี้จะเป็นที่สนใจ เร็วที่สุดที่ฉันรู้คือ PA Lachenbruch และ MR Mickey "การประมาณอัตราความผิดพลาดในการวิเคราะห์จำแนก" Technometrics, vol. หมายเลข 10 1, pp. 1–12, กุมภาพันธ์ 1968 และ A. Luntz และ V. Brailovsky“ ในการประมาณค่าตัวอักษรที่ได้รับในกระบวนการทางสถิติของการรับรู้ (ในรัสเซีย),” Techicheskaya Kibernetica, vol. 3, 1969 แต่เท่าที่ฉันสามารถบอกได้ว่าพวกเขาครอบคลุมการตรวจสอบความถูกต้องแบบข้ามครั้งเดียว (ภาษารัสเซียด้านเทคนิคของฉันไม่ใช่ทั้งหมดที่จะเป็นได้; o)

24 cross-validation references

13

ตำราเศรษฐมิติ?

คุณอยากจะแนะนำตำราเศรษฐศาสตร์แบบไหนที่ดี? แก้ไข: มีหนังสือไม่กี่เล่มที่นั่นพร้อมด้วยระดับความซับซ้อนทางคณิตศาสตร์ที่แตกต่างกัน มันเป็นการดีที่จะได้แนวคิดว่าหนังสือที่คุณแนะนำทางเทคนิคนั้นเป็นอย่างไร

24 econometrics references

6

การสร้างแบบจำลองสมการโครงสร้างเบื้องต้น

ฉันถูกเพื่อนร่วมงานขอความช่วยเหลือในเรื่องนี้ซึ่งฉันไม่รู้จริงๆ พวกเขาตั้งสมมติฐานเกี่ยวกับบทบาทของตัวแปรแฝงในการศึกษาหนึ่งครั้งและผู้ตัดสินขอให้พวกเขาทำเป็นระเบียบใน SEM เนื่องจากสิ่งที่พวกเขาต้องการดูเหมือนไม่ยากเกินไปฉันคิดว่าฉันจะให้ช็อตเด็ด ... สำหรับตอนนี้ฉันแค่มองหาการแนะนำที่ดีเกี่ยวกับเรื่องนี้! Google ไม่ใช่เพื่อนของฉันในเรื่องนี้ ขอบคุณมากล่วงหน้า ... PS: ฉันอ่านการสร้างแบบจำลองสมการโครงสร้างด้วยแพคเกจ sem ใน Rโดย John Fox และข้อความนี้โดยผู้เขียนคนเดียวกัน ฉันคิดว่านี่น่าจะเพียงพอสำหรับวัตถุประสงค์ของฉัน

24 references modeling sem psychometrics

4

ตำราเรียนเกี่ยวกับทฤษฎี * ของอัลกอริทึมโครงข่ายประสาท / ML?

หนังสือทุกเล่มที่ฉันได้เห็นแล้วอธิบายเกี่ยวกับอัลกอริธึม ML และวิธีการนำไปใช้ มีตำราเรียนที่สร้างทฤษฎีและบทพิสูจน์สำหรับพฤติกรรมของอัลกอริทึมเหล่านั้นหรือไม่? เช่นระบุว่าภายใต้เงื่อนไข , การไล่ระดับสีจะนำไปสู่A , B , C ?x , y, zx,Y,Zx,y,zA , B , CA,B,CA,B,C

23 machine-learning mathematical-statistics references algorithms

คำถามติดแท็ก references