สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
ความเอนเอียงและความแปรปรวนในการตรวจสอบแบบ cross-one-out เทียบกับการตรวจสอบความถูกต้องข้าม K-fold
วิธีการตรวจสอบข้ามที่แตกต่างกันอย่างไรเปรียบเทียบในแง่ของความแปรปรวนของโมเดลและอคติ คำถามของฉันได้รับแรงบันดาลใจบางส่วนจากหัวข้อนี้: จำนวนการพับที่เหมาะสมที่สุดในการตรวจสอบความถูกต้องข้าม -fold: CV แบบปล่อยครั้งเดียวเป็นตัวเลือกที่ดีที่สุดเสมอหรือไม่ KKKเค. คำตอบนั้นแสดงให้เห็นว่าแบบจำลองที่เรียนรู้ด้วยการตรวจสอบข้ามแบบลาหนึ่ง - ออกนั้นมีความแปรปรวนสูงกว่าแบบเรียนรู้ด้วยการตรวจสอบความถูกต้องแบบเท่าปกติKKK อย่างไรก็ตามสัญชาตญาณของฉันบอกฉันว่าใน CV แบบปล่อยครั้งเดียวควรเห็นความแปรปรวนค่อนข้างต่ำระหว่างแบบจำลองกว่าใน -fold CV เนื่องจากเราเปลี่ยนจุดข้อมูลเพียงจุดเดียวในส่วนการพับและดังนั้นชุดการฝึกอบรมKKK หรือไปในอีกทางหนึ่งถ้าต่ำใน -fold CV ชุดการฝึกอบรมจะแตกต่างกันมากในโฟลด์และโมเดลที่ได้จะมีความแตกต่างกันมากขึ้น (ดังนั้นความแปรปรวนที่สูงขึ้น)เคKKKKKK หากอาร์กิวเมนต์ข้างต้นถูกต้องทำไมรูปแบบการเรียนรู้ที่มีประวัติย่อแบบลาออกมีความแปรปรวนสูงกว่า


14
ทำไมสถิติที่ไม่ทนทาน (และทนทาน) จึงถูกแทนที่ด้วยเทคนิคแบบดั้งเดิม?
เมื่อแก้ปัญหาทางธุรกิจโดยใช้ข้อมูลเป็นเรื่องธรรมดาที่มีสมมติฐานอย่างน้อยหนึ่งข้อที่ว่าสถิติแบบดั้งเดิมไม่ถูกต้อง ส่วนใหญ่ไม่มีใครมารบกวนการตรวจสอบสมมติฐานเหล่านั้นเพื่อให้คุณไม่เคยรู้จริง ตัวอย่างเช่นเมตริกเว็บทั่วไปจำนวนมากจึงเป็น "แบบหางยาว" (สัมพันธ์กับการแจกแจงแบบปกติ) คือตอนนี้มีการบันทึกไว้เป็นอย่างดีเพื่อให้เราได้รับอนุญาต อีกตัวอย่างหนึ่งชุมชนออนไลน์ - แม้ในชุมชนที่มีสมาชิกนับพันก็มีเอกสารครบถ้วนว่าส่วนแบ่งที่ใหญ่ที่สุดของการมีส่วนร่วมในการมีส่วนร่วมในชุมชนเหล่านี้ส่วนใหญ่เป็นของกลุ่มผู้มีอิทธิพลน้อย (เช่นไม่กี่เดือนที่ผ่านมาหลังจากที่ SO API ให้บริการในรุ่นเบต้าสมาชิกStackOverflowเผยแพร่การวิเคราะห์สั้น ๆ จากข้อมูลที่เขาเก็บรวบรวมผ่านทาง API ข้อสรุปของเขา - น้อยกว่าร้อยละหนึ่งของบัญชีสมาชิก SO ส่วนใหญ่ กิจกรรมบน SO (สมมุติว่าถามคำถามและตอบคำถาม) อีก 1-2% คิดเป็นสัดส่วนที่เหลือและสมาชิกส่วนใหญ่ที่ไม่ทำอะไรเลย) การแจกแจงของการเรียงลำดับนั้น - บ่อยครั้งมากกว่ากฎแทนที่จะเป็นข้อยกเว้น - มักถูกสร้างแบบจำลองที่ดีที่สุดด้วยฟังก์ชันความหนาแน่นของกฎกำลังไฟฟ้า สำหรับการแจกแจงแบบนี้แม้แต่ทฤษฎีบทขีด จำกัด กลางก็เป็นปัญหาที่จะนำมาใช้ ดังนั้นเมื่อมีประชากรจำนวนมากเช่นนี้เป็นที่สนใจของนักวิเคราะห์และเนื่องจากรูปแบบคลาสสิกนั้นมีประสิทธิภาพในการแสดงข้อมูลเหล่านี้ได้ไม่ดีนักและเนื่องจากวิธีการที่แข็งแกร่งและทนทานได้เกิดขึ้นมาระยะหนึ่งแล้ว (อย่างน้อย 20 ปี) พวกเขาไม่ได้ใช้บ่อยขึ้นหรือไม่ (ฉันยังสงสัยว่าทำไมฉันไม่ใช้บ่อยขึ้น แต่นั่นไม่ใช่คำถามสำหรับCrossValidated ) ใช่ฉันรู้ว่ามีบทตำราที่อุทิศให้กับสถิติที่มีประสิทธิภาพและฉันรู้ว่ามี (ไม่กี่) R แพ็คเกจ ( robustbaseเป็นสิ่งที่ฉันคุ้นเคยและใช้) เป็นต้น …

8
เส้นที่พอดีที่สุดดูไม่เหมือนแบบพอดี ทำไม?
ดูกราฟ Excel นี้: แนวความรู้สึกที่ดีที่สุด 'สามัญสำนึก' จะปรากฏเป็นเส้นแนวตั้งเกือบตรงผ่านจุดศูนย์กลางของจุด (แก้ไขด้วยมือด้วยสีแดง) อย่างไรก็ตามเส้นแนวโน้มเชิงเส้นตามที่ Excel ตัดสินใจเป็นเส้นสีดำในแนวทแยงแสดง เหตุใด Excel จึงสร้างบางสิ่งที่ (ต่อสายตามนุษย์) ดูเหมือนว่าผิด ฉันจะสร้างเส้นที่พอดีที่สุดที่ดูเป็นธรรมชาติได้ง่ายขึ้น (เช่นบางอย่างเช่นเส้นสีแดง) ได้อย่างไร ปรับปรุง 1.สเปรดชีต Excel ที่มีข้อมูลและกราฟสามารถใช้ได้ที่นี่: ข้อมูลตัวอย่าง , CSV ใน Pastebin เทคนิคการถดถอยของ type1 และ type2 มีอยู่ในฟังก์ชั่น excel หรือไม่ อัปเดต 2.ข้อมูลแสดงถึงพาราไกลเดอร์ปีนเขาในความร้อนในขณะที่ล่องลอยไปกับสายลม วัตถุประสงค์สุดท้ายคือการตรวจสอบความแรงของลมและทิศทางแตกต่างกันไปตามความสูง ฉันเป็นวิศวกรไม่ใช่นักคณิตศาสตร์หรือนักสถิติดังนั้นข้อมูลในคำตอบเหล่านี้ทำให้ฉันมีพื้นที่มากขึ้นสำหรับการวิจัย

2
ฟังก์ชันเปิดใช้งาน tanh เทียบกับฟังก์ชันเปิดใช้งาน sigmoid
ฟังก์ชั่นเปิดใช้งาน tanh คือ: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 ที่ไหน , ฟังก์ชั่น sigmoid ที่ถูกกำหนดให้เป็น:x}σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} คำถาม: มันมีความสำคัญระหว่างการใช้ฟังก์ชั่นการเปิดใช้งานทั้งสอง (tanh vs. sigma) หรือไม่? ฟังก์ชั่นไหนดีกว่ากัน

5
“ โซลูชั่นแบบปิด” หมายความว่าอย่างไร
ฉันเจอคำว่า "วิธีแก้ปัญหาแบบปิด" ค่อนข้างบ่อย โซลูชันแบบปิดหมายความว่าอย่างไร วิธีการหนึ่งที่กำหนดว่ามีวิธีการแก้ปัญหาแบบปิดสำหรับปัญหาที่กำหนด? การค้นหาออนไลน์ฉันพบข้อมูลบางอย่าง แต่ไม่มีสิ่งใดในบริบทของการพัฒนาตัวแบบ / วิธีแก้ปัญหาเชิงสถิติหรือความน่าจะเป็น ฉันเข้าใจความถดถอยเป็นอย่างดีดังนั้นหากมีใครสามารถอธิบายแนวคิดโดยอ้างอิงจากการถดถอยหรือการปรับตัวแบบมันจะง่ายต่อการบริโภค :)

2
ทฤษฎีบท Bayes ที่ปรับปรุงแล้วของ XKCD: จริง ๆ แล้วมีเหตุผลไหม?
ฉันรู้ว่านี่มาจากการ์ตูนที่มีชื่อเสียงสำหรับการใช้ประโยชน์จากแนวโน้มการวิเคราะห์บางอย่างแต่จริงๆแล้วมันดูมีเหตุผลหลังจากผ่านการจ้องมองไม่กี่นาที ใครสามารถบอกฉันว่า "การปรับเปลี่ยน Bayes theorem " นี้ทำอะไรได้บ้าง

4
อะไรคือความแตกต่างระหว่างรุ่นที่มีค่าศูนย์สูงเกินจริงและสิ่งกีดขวาง
ฉันสงสัยว่ามีความแตกต่างที่ชัดเจนระหว่างการแจกแจงแบบ zero-inflated (โมเดล) และการแจกแจงแบบกีดขวางที่ศูนย์ (รุ่น) หรือไม่? คำศัพท์เกิดขึ้นบ่อยครั้งในวรรณกรรมและฉันสงสัยว่ามันไม่เหมือนกัน แต่คุณช่วยอธิบายความแตกต่างในแง่ง่าย ๆ หน่อยได้ไหม?


3
ตัวอย่างที่ไม่สมดุลย์มีความสำคัญหรือไม่เมื่อทำการถดถอยโลจิสติก
โอเคดังนั้นฉันคิดว่าฉันมีตัวอย่างที่ดีพอโดยคำนึงถึงกฎ 20: 1 นิ้วหัวแม่มือ: ตัวอย่างที่ค่อนข้างใหญ่ (N = 374) สำหรับตัวแปรตัวทำนายผู้สมัครทั้งหมด 7 คน ปัญหาของฉันคือสิ่งต่อไปนี้: ไม่ว่าชุดตัวแปรพยากรณ์ใดที่ฉันใช้การจำแนกไม่เคยดีไปกว่าความจำเพาะ 100% และความไว 0% อย่างไรก็ตามไม่น่าพอใจจริง ๆ แล้วนี่อาจเป็นผลลัพธ์ที่ดีที่สุดที่เป็นไปได้เนื่องจากชุดของตัวแปรตัวทำนายผู้สมัคร (ซึ่งฉันไม่สามารถเบี่ยงเบน) แต่ฉันไม่สามารถช่วยได้ แต่คิดว่าฉันทำได้ดีกว่านี้ฉันจึงสังเกตเห็นว่าหมวดหมู่ของตัวแปรตามนั้นค่อนข้างสมดุลไม่สมดุลเกือบ 4: 1 ตัวอย่างย่อยที่สมดุลสามารถปรับปรุงการจำแนกประเภทได้หรือไม่

10
การทำความเข้าใจ“ ความแปรปรวน” อย่างสังหรณ์ใจ
อะไรคือวิธีที่สะอาดและง่ายที่สุดในการอธิบายแนวคิดเรื่องความแปรปรวนของใครบางคน? มันหมายถึงอะไรอย่างสังหรณ์ใจ? ถ้ามีใครอธิบายเรื่องนี้ให้ลูกฟัง มันเป็นแนวคิดที่ฉันมีปัญหาในการสื่อสาร - โดยเฉพาะอย่างยิ่งเมื่อเกี่ยวข้องกับความแปรปรวนกับความเสี่ยง ฉันเข้าใจในเชิงคณิตศาสตร์และสามารถอธิบายได้เช่นกัน แต่เมื่ออธิบายปรากฏการณ์ในโลกแห่งความเป็นจริงคุณจะทำให้คนหนึ่งเข้าใจถึงความแปรปรวนและการบังคับใช้ใน 'โลกแห่งความจริง' ได้อย่างไร สมมติว่าเรากำลังจำลองการลงทุนในหุ้นโดยใช้ตัวเลขสุ่ม (กลิ้งแม่พิมพ์หรือใช้แผ่นงาน Excel ไม่สำคัญ) เราได้รับผลตอบแทนจากการลงทุนโดยเชื่อมโยงแต่ละตัวแปรสุ่มกับ 'การเปลี่ยนแปลงบางอย่าง' ในผลตอบแทน เช่น.: การกลิ้ง 1 หมายถึงการเปลี่ยนแปลง 0.8 ต่อ$ 1 ในการลงทุน 5 การเปลี่ยนแปลง 1.1 ต่อ$ 1 และอื่น ๆ ตอนนี้หากการจำลองนี้ดำเนินการประมาณ 50 ครั้ง (หรือ 20 หรือ 100) เราจะได้รับค่าบางอย่างและมูลค่าสุดท้ายของการลงทุน ดังนั้น 'ความแปรปรวน' จริง ๆ แล้วบอกอะไรเราถ้าเราจะคำนวณจากชุดข้อมูลด้านบน สิ่งใดที่ "เห็น" - หากความแปรปรวนปรากฎเป็น 1.7654 …

6
มีตัวอย่างใดบ้างที่ช่วงเวลาที่น่าเชื่อถือของเบย์นั้นต่ำกว่าช่วงความเชื่อมั่นที่ใช้บ่อย
คำถามล่าสุดเกี่ยวกับความแตกต่างระหว่างความมั่นใจและช่วงเวลาที่น่าเชื่อถือทำให้ฉันเริ่มอ่านบทความของ Edwin Jaynes อีกครั้งในหัวข้อนั้น: Jaynes, ET, 1976 `ช่วงเวลาความเชื่อมั่นกับช่วงเวลาแบบเบย์, 'ในรากฐานของทฤษฎีความน่าจะเป็น, การอนุมานเชิงสถิติและทฤษฎีทางสถิติเชิงวิทยาศาสตร์, WL Harper และ CA Hooker (บรรณาธิการ), D. Reidel, Dordrecht, p. 175; ( pdf ) ในนามธรรม Jaynes เขียน: ... เราแสดงวิธีแก้ปัญหาแบบเบย์และออร์โธด็อกซ์ถึงหกปัญหาทางสถิติทั่วไปที่เกี่ยวข้องกับช่วงความเชื่อมั่น (รวมถึงการทดสอบที่สำคัญตามเหตุผลเดียวกัน) ในทุกกรณีเราพบว่าสถานการณ์นั้นตรงกันข้ามกันเช่นวิธีการแบบเบย์นั้นง่ายต่อการใช้และให้ผลลัพธ์ที่เหมือนกันหรือดีกว่า อันที่จริงผลลัพธ์ออร์โธดอกซ์เป็นที่น่าพอใจก็ต่อเมื่อพวกเขาเห็นด้วยอย่างใกล้ชิดกับผลลัพธ์ของเบย์ ยังไม่มีตัวอย่างที่ตรงกันข้าม (เน้นที่เหมือง) กระดาษถูกตีพิมพ์ในปี 1976 ดังนั้นสิ่งที่อาจจะย้ายไป คำถามของฉันคือมีตัวอย่างที่ช่วงความเชื่อมั่นบ่อยกว่าช่วงที่เชื่อถือได้แบบเบย์อย่างชัดเจน (ตามความท้าทายโดยนัยโดย Jaynes) ตัวอย่างที่ใช้สมมติฐานที่ไม่ถูกต้องก่อนหน้านั้นไม่สามารถยอมรับได้เนื่องจากพวกเขาไม่ได้พูดอะไรเกี่ยวกับความสอดคล้องภายในของวิธีการต่าง ๆ

6
ความแตกต่างระหว่างช่วงความมั่นใจและช่วงการทำนาย
สำหรับช่วงเวลาการคาดการณ์ในการถดถอยเชิงเส้นคุณยังคงใช้เพื่อสร้างช่วงเวลา นอกจากนี้คุณยังใช้วิธีนี้ในการสร้างความเชื่อมั่นของx_0] ความแตกต่างระหว่างสองคืออะไรE[Y| x0]E^[ Y| x]= β0^+ β^1xE^[Y|x]=β0^+β^1x\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}xE[ Y| x0]E[Y|x0]E[Y|x_0]

9
เกี่ยวกับค่า p ทำไม 1% และ 5% ทำไมไม่ 6% หรือ 10%
เกี่ยวกับp-value s ผมสงสัยว่าทำไม % และ % ดูเหมือนจะเป็นมาตรฐานทองคำสำหรับ ทำไมค่าอื่น ๆ เช่น % หรือ %111555"statistical significance"666101010 มีเหตุผลทางคณิตศาสตร์พื้นฐานสำหรับเรื่องนี้หรือนี่เป็นเพียงการประชุมที่จัดขึ้นอย่างกว้างขวาง?

8
ฟังก์ชั่นวัตถุประสงค์ฟังก์ชั่นค่าใช้จ่ายฟังก์ชั่นการสูญเสีย: พวกเขาเหมือนกันหรือไม่?
ในการเรียนรู้ของเครื่องจักรผู้คนพูดถึงฟังก์ชั่นวัตถุประสงค์ฟังก์ชั่นค่าใช้จ่ายฟังก์ชั่นการสูญเสีย พวกเขาต่างชื่อกันในสิ่งเดียวกันหรือไม่? ควรใช้เมื่อใด หากพวกเขาไม่ได้อ้างถึงสิ่งเดียวกันเสมอไปความแตกต่างคืออะไร?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.