สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

8
คุณสามารถรับคำ 2 ตัวอักษรได้กี่คำจาก aabcccddef
(aa จะเป็นหนึ่งในหลาย ๆ bb จะไม่) ฉันคิดว่ามันจะเป็น 10! / 8! แต่เห็นได้ชัดว่าฉันกำลังทำอะไรผิด ทุกคนสามารถช่วยฉันออกเพราะฉันนิ่งงัน

5
การถดถอยเชิงเส้นมีความหมายทางสถิติอย่างไร แต่มีค่า r กำลังสองต่ำมาก
ฉันเข้าใจว่าหมายความว่าแบบจำลองนั้นไม่ดีในการทำนายจุดข้อมูลแต่ละจุด แต่ได้สร้างแนวโน้มที่มั่นคง (เช่น y ขึ้นไปเมื่อ x เพิ่มขึ้น)

4
มันจะถูกขังอยู่ในจุดอานได้อย่างไร?
ตอนนี้ฉันรู้สึกสับสนนิดหน่อยจากการที่การไล่ระดับสีมินิแบทช์สามารถติดอยู่ในจุดอานม้าได้ วิธีแก้ปัญหาอาจเล็กน้อยเกินไปที่ฉันไม่เข้าใจ คุณได้รับตัวอย่างใหม่ทุกยุคและคำนวณข้อผิดพลาดใหม่ตามแบทช์ใหม่ดังนั้นฟังก์ชั่นค่าใช้จ่ายจะคงที่เฉพาะสำหรับแต่ละชุดซึ่งหมายความว่าการไล่ระดับสีควรเปลี่ยนสำหรับมินิแต่ละชุด .. แต่ตามนี้ควร การใช้วานิลลามีปัญหากับคะแนน saddle หรือไม่? ความท้าทายที่สำคัญอีกประการหนึ่งของการลดฟังก์ชั่นข้อผิดพลาดแบบไม่นูนสูงที่พบได้ทั่วไปสำหรับเครือข่ายประสาทคือการหลีกเลี่ยงการติดกับดักใน minima ท้องถิ่นที่น้อยที่สุด Dauphin และคณะ [19] ยืนยันว่าความยากลำบากเกิดขึ้นจริง ๆ แล้วไม่ใช่จากท้องถิ่นน้อยที่สุด แต่มาจากจุดอานคือจุดที่มิติหนึ่งลาดขึ้นและลาดลงอีก จุดอานเหล่านี้มักจะล้อมรอบด้วยที่ราบสูงของข้อผิดพลาดเดียวกันซึ่งทำให้ยากที่จะหนีออกจากสิงคโปร์ได้เนื่องจากการไล่ระดับสีนั้นใกล้เคียงกับศูนย์ในทุกมิติ ฉันหมายความว่าโดยเฉพาะอย่างยิ่ง SGD จะมีข้อได้เปรียบที่ชัดเจนกับจุดอานม้าเนื่องจากมันแปรปรวนไปตามจุดบรรจบ ... ความผันผวนและการสุ่มตัวอย่างและฟังก์ชั่นค่าใช้จ่ายที่แตกต่างกันสำหรับยุคแต่ละครั้งควรมีเหตุผลเพียงพอ สำหรับการไล่ระดับแบตช์ที่เหมาะสมจะทำให้รู้สึกว่าสามารถติดอยู่ในจุดอานม้าได้เนื่องจากฟังก์ชันข้อผิดพลาดคงที่ ฉันสับสนเล็กน้อยในสองส่วนอื่น ๆ

5
ขนาดของเอฟเฟกต์ดีกว่าค่า p จริง ๆ หรือไม่
การเน้นจำนวนมากนั้นขึ้นอยู่กับการพึ่งพาและการรายงานขนาดผลกระทบมากกว่าค่า pในการวิจัยประยุกต์ แต่ไม่ใช่ในกรณีที่ขนาดของเอฟเฟกต์เหมือนกับค่าpเป็นตัวแปรสุ่มและเช่นนั้นอาจแตกต่างกันไปตามตัวอย่างเมื่อทำการทดลองเดียวกันซ้ำ ฉันกำลังถามว่าคุณลักษณะทางสถิติใด (เช่นขนาดของเอฟเฟกต์เป็นตัวแปรน้อยกว่าจากตัวอย่างไปยังตัวอย่างกว่าค่า p) ทำให้ขนาดของเอฟเฟกต์ดีกว่าดัชนีการวัดที่เป็นหลักฐานได้ดีกว่าค่า p อย่างไรก็ตามฉันควรพูดถึงข้อเท็จจริงสำคัญที่แยก p-value ออกจากขนาดเอฟเฟกต์ นั่นคือขนาดของเอฟเฟกต์เป็นสิ่งที่ต้องประมาณเนื่องจากมีพารามิเตอร์ประชากร แต่ค่าp จะไม่มีค่าใด ๆ ที่จะถูกประเมินเนื่องจากมันไม่มีพารามิเตอร์ประชากร สำหรับฉันขนาดของเอฟเฟกต์เป็นเพียงตัวชี้วัดที่ในบางพื้นที่ของการวิจัย (เช่นการวิจัยของมนุษย์) ช่วยเปลี่ยนการค้นพบเชิงประจักษ์ที่มาจากเครื่องมือการวัดที่นักวิจัยพัฒนาขึ้นมาเป็นเครื่องมือวัดทั่วไป ชมรมวิจัยเชิงปริมาณ. บางทีถ้าเราใช้สัดส่วนที่เรียบง่ายเป็นขนาดเอฟเฟกต์สิ่งต่อไปนี้ (ใน R) คืออะไรที่แสดงให้เห็นถึงขนาดที่ใหญ่ที่สุดของเอฟเฟกต์มากกว่าค่า p (การเปลี่ยนแปลงค่า p แต่ขนาดผลไม่ได้) binom.test(55, 100, .5) ## p-value = 0.3682 ## proportion of success 55% binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of …

1
ที่เล็กที่สุดคืออะไร
กำหนดประมาณการ lassoที่i ^ {th}แถวx_i \ in \ mathbb {R} ^ pของเมทริกซ์การออกแบบX \ in \ mathbb {R} ^ {n \ times p}เป็นเวกเตอร์ ของ covariates สำหรับการอธิบายการตอบสนองแบบสุ่มy_i (สำหรับi = 1, \ dot n )β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots …

6
เราเคยใช้การประมาณโอกาสสูงสุดหรือไม่
ฉันสงสัยว่าการประเมินความน่าจะเป็นสูงสุดที่เคยใช้ในสถิติหรือไม่ เราเรียนรู้แนวคิดของมัน แต่ฉันสงสัยว่ามันถูกใช้จริงเมื่อใด หากเราถือว่าการกระจายของข้อมูลเราพบสองพารามิเตอร์หนึ่งสำหรับค่าเฉลี่ยและอีกหนึ่งสำหรับความแปรปรวน แต่คุณใช้จริงในสถานการณ์จริง? ใครสามารถบอกกรณีง่าย ๆ ที่ใช้สำหรับฉันได้

2
มีเหตุผลทางคณิตศาสตร์สำหรับการโน้มน้าวใจในเครือข่ายประสาทเกินความได้เปรียบ?
ในโครงข่ายประสาทเทียม (CNN) เมทริกซ์ของตุ้มน้ำหนักในแต่ละขั้นตอนจะทำให้แถวและคอลัมน์พลิกเพื่อรับเมทริกซ์เคอร์เนลก่อนที่จะดำเนินการต่อไป นี่คือคำอธิบายในชุดวิดีโอของ Hugo Larochelle ที่นี่ : คอมพิวเตอร์แผนที่ที่ซ่อนอยู่จะสอดคล้องกับการทำบิดต่อเนื่องกับช่องจากชั้นก่อนหน้านี้โดยใช้เมทริกซ์เคอร์เนล [ ... ] และเคอร์เนลที่คำนวณจากน้ำหนักเมทริกซ์ซ่อนWijWijW_{ij}ที่เราพลิกแถวและ คอลัมน์ ถ้าเราจะเปรียบเทียบขั้นตอนการลดลงของการบิดคูณเมทริกซ์ปกติเช่นเดียวกับในประเภทอื่น ๆ NN, ความได้เปรียบจะเป็นคำอธิบายที่ชัดเจน อย่างไรก็ตามนี่อาจไม่ใช่การเปรียบเทียบที่ตรงประเด็นที่สุด ... ในการถ่ายภาพดิจิตอลการประมวลผลแอพลิเคชันของบิดของตัวกรองเพื่อภาพ ( นี้เป็นวิดีโอ youtube ที่ดีสำหรับการปฏิบัติปรีชา ) ดูเหมือนว่าเกี่ยวข้องกับ: ความจริงที่ว่าการโน้มน้าวนั้นเชื่อมโยงกันในขณะที่ความสัมพันธ์(ข้าม -)ไม่ใช่ ความเป็นไปได้ที่จะใช้ตัวกรองในโดเมนความถี่ของภาพเป็นการคูณเนื่องจากการสนทนาในโดเมนเวลาเทียบเท่ากับการคูณในโดเมนความถี่ ( ทฤษฎีบทการสนทนา ) ในสภาพแวดล้อมทางเทคนิคนี้โดยเฉพาะของ DSP correlationถูกกำหนดเป็น: F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F\circ I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x+i, y+j) ซึ่งเป็นผลรวมของเซลล์ทั้งหมดในผลิตภัณฑ์ Hadamard: F∘I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[−N,−N]I[x−N,y−N]⋮F[0,−N]I[x,y−N]⋮F[N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[−N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[N,0]I[x+N,y]⋯⋱⋯⋱⋯F[−N,N]I[x−N,y+N]⋮F[0,N]I[x,y+N]⋮F[N,N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∘I(x,y)=[F[−N,−N]I[x−N,y−N]⋯F[−N,0]I[x−N,y−N]⋯F[−N,N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,−N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,N]I[x,y+N]⋮⋱⋮⋱⋮F[N,−N]I[x+N,y−N]⋯F[N,0]I[x+N,y]⋯F[N,N]I[x+N,y+N]]\small F\circ I(x,y)=\Tiny\begin{bmatrix}F[-N,-N]\,I[x-N,y-N]&\cdots&F[-N,0]\,I[x-N,y-N]&\cdots& F[-N,N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,-N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ …

2
เหตุใดการถดถอยเชิงเส้นจึงมีข้อสันนิษฐานเกี่ยวกับส่วนที่เหลือ แต่แบบจำลองเชิงเส้นทั่วไปมีสมมติฐานในการตอบสนอง
ทำไมการถดถอยเชิงเส้นและโมเดลทั่วไปจึงมีสมมติฐานที่ไม่สอดคล้องกัน? ในการถดถอยเชิงเส้นเราถือว่าส่วนที่เหลือมาจาก Gaussian ในการถดถอยอื่น ๆ (การถดถอยโลจิสติกส์การถดถอยพิษ) เราคิดว่าการตอบสนองนั้นมาจากการแจกแจงบางส่วน (ทวินามการเป็นพิษ ฯลฯ ) เหตุใดบางครั้งจึงถือว่าเวลาที่เหลืออยู่และเวลาอื่น ๆ เป็นเพราะเราต้องการได้มาซึ่งคุณสมบัติที่แตกต่างกันหรือไม่? แก้ไข: ฉันคิดว่าเครื่องหมาย 999 แสดงสองรูปแบบที่เท่ากัน อย่างไรก็ตามฉันมีข้อสงสัยเพิ่มเติมอีกหนึ่งข้อเกี่ยวกับ iid: คำถามอื่น ๆ ของฉัน มีข้อสมมติฐานในเรื่องการถดถอยโลจิสติกหรือไม่? แสดงโมเดลเชิงเส้นทั่วไปไม่มีสมมติฐาน iid (อิสระ แต่ไม่เหมือนกัน) นั่นคือความจริงที่ว่าสำหรับการถดถอยเชิงเส้นหากเราตั้งสมมติฐานว่ามีส่วนที่เหลือเราจะมี iid แต่ถ้าเราตั้งสมมติฐานในการตอบสนองเราจะมีตัวอย่างที่เป็นอิสระ แต่ไม่เหมือนกัน (Gaussian แตกต่างกัน )μμ\mu

3
“ เครื่องจักร” ใน“ สนับสนุนเครื่องเวกเตอร์” และ“ เครื่อง จำกัด Boltzmann” หมายความว่าอะไร
ทำไมพวกเขาถึงเรียกว่า "เครื่องจักร" มีที่มาของคำว่า "เครื่องจักร" ที่ใช้ในบริบทนี้หรือไม่? (เช่นชื่อ "การเขียนโปรแกรมเชิงเส้น" อาจสร้างความสับสน แต่เรารู้ว่าทำไมเรียกว่า "การเขียนโปรแกรม")

3
เหตุใดจึงถูกต้องเพื่อทำให้เสียเวลาอนุกรมด้วยการถดถอย
มันอาจเป็นคำถามแปลก ๆ เลย แต่ในฐานะที่เป็นสามเณรในเรื่องที่ฉันสงสัยว่าทำไมเราถึงใช้การถดถอยเพื่อทำให้เป็นอนุกรมเวลาถ้าหนึ่งในสมมติฐานของการถดถอยคือข้อมูลที่ควรใช้ในขณะที่ข้อมูลที่ใช้ในการถดถอยนั้น ไม่ใช่ id

7
เข้าใจโดยสัญชาตญาณว่าเหตุใดการแจกแจงปัวซงเป็นกรณี จำกัด ของการแจกแจงทวินาม
ใน "การวิเคราะห์ข้อมูล" โดย DS Sivia มีการสืบทอดของการแจกแจงปัวซงจากการแจกแจงทวินาม พวกเขาอ้างว่าการแจกแจงปัวซงเป็นกรณี จำกัด ของการแจกแจงทวินามเมื่อM→∞M→∞M\rightarrow\inftyโดยที่MMMคือจำนวนการทดลอง คำถามที่ 1: การโต้แย้งนั้นจะเข้าใจได้อย่างไรอย่างสังหรณ์ใจ? คำถามที่ 2: ทำไมขีด จำกัดขนาดใหญ่MMMถึงเท่ากับM NM!N!(M−N)!M!N!(M−N)!\frac{M!}{N!(M-N)!}ที่Nคือจำนวนความสำเร็จในการทดลองM? (ขั้นตอนนี้ใช้ในการสืบทอด)MNN!MNN!\frac{M^{N}}{N!}NNNMMM

3
ความแปรปรวนร่วมเท่ากับศูนย์แสดงถึงความเป็นอิสระของตัวแปรสุ่มไบนารีหรือไม่?
ถ้าXXXและYYYเป็นตัวแปรสุ่มสองตัวที่สามารถรับสถานะที่เป็นไปได้สองสถานะเท่านั้นฉันจะแสดงว่าC o v ( X , Y ) = 0Cov(X,Y)=0Cov(X,Y) = 0แสดงถึงความเป็นอิสระได้อย่างไร สิ่งนี้ขัดแย้งกับสิ่งที่ฉันเรียนรู้ในวันที่C o v ( X , Y ) = 0Cov(X,Y)=0Cov(X,Y) = 0ไม่ได้หมายความถึงความเป็นอิสระ ... คำใบ้บอกว่าจะเริ่มต้นด้วย111และ000เป็นสถานะที่เป็นไปได้และสรุปจากที่นั่น และฉันสามารถทำสิ่งนั้นและแสดงE ( X Y ) = E ( X ) E ( Y )E(XY)=E(X)E(Y)E(XY) = E(X)E(Y)แต่สิ่งนี้ไม่ได้บ่งบอกถึงความเป็นอิสระ ??? งงว่าจะทำคณิตศาสตร์อย่างไรฉันเดา

2
ความโน้มเอียงของ MLE ลดลงเร็วกว่าความแปรปรวนอย่างไร
ให้เป็นค่าประมาณโอกาสสูงสุดของพารามิเตอร์จริงของบางรุ่น ขณะที่จำนวนของจุดข้อมูลเพิ่มขึ้นข้อผิดพลาดมักจะลดลงเป็นO (1 / \ sqrt n) การใช้ความไม่เท่าเทียมกันของสามเหลี่ยมและคุณสมบัติของการคาดหวังเป็นไปได้ที่จะแสดงให้เห็นว่าอัตราความผิดพลาดนี้หมายความว่าทั้ง "อคติ" \ lVert \ mathbb E \ hat \ theta - \ theta ^ * \ rVertและ "เบี่ยงเบน" \ lVert \ mathbb E \ hat \ theta - \ hat \ theta \ rVertลดลงที่Oเดียวกัน(1 / \ sqrt {n})θ^θ^\hat\theta ‖ θ - θ …

3
ทำไมความสัมพันธ์จึงไม่เป็นประโยชน์เมื่อตัวแปรตัวใดตัวหนึ่งจัดอยู่ในหมวดหมู่?
นี่เป็นการตรวจสอบลำไส้เล็กน้อยโปรดช่วยฉันดูว่าฉันเข้าใจผิดแนวคิดนี้หรือไม่และในทางใด ฉันมีความเข้าใจหน้าที่การใช้งานของความสัมพันธ์ แต่ฉันรู้สึกจับใจเล็กน้อยเพื่ออธิบายหลักการที่อยู่เบื้องหลังความเข้าใจการทำงานนั้นอย่างมั่นใจ เมื่อฉันเข้าใจแล้วความสัมพันธ์เชิงสถิติ (เมื่อเทียบกับการใช้คำทั่วไปมากขึ้น) เป็นวิธีที่จะเข้าใจตัวแปรสองตัวต่อเนื่องและวิธีการที่พวกเขาทำหรือไม่มีแนวโน้มที่จะขึ้นหรือลงในลักษณะที่คล้ายกัน เหตุผลที่คุณไม่สามารถเรียกใช้สหสัมพันธ์บนกล่าวคือหนึ่งตัวแปรต่อเนื่องและตัวแปรเด็ดขาดหนึ่งอันเนื่องจากคุณไม่สามารถคำนวณ ค่าความแปรปรวนร่วมระหว่างตัวแปรทั้งสองได้เนื่องจากตัวแปรหมวดหมู่ตามคำนิยามไม่สามารถให้ค่าเฉลี่ยได้ดังนั้นจึงไม่สามารถป้อนค่าแรกได้ ขั้นตอนของการวิเคราะห์ทางสถิติ นั่นถูกต้องใช่ไหม?

1
เอฟเฟกต์แบบสุ่มด้วยการสังเกตเพียง 1 ครั้งจะส่งผลอย่างไรต่อโมเดลเชิงเส้นผสมทั่วไป
ฉันมีชุดข้อมูลที่ตัวแปรที่ฉันต้องการใช้เป็นเอฟเฟกต์แบบสุ่มมีการสังเกตเพียงครั้งเดียวสำหรับบางระดับ จากคำตอบของคำถามก่อนหน้านี้ฉันได้รวบรวมว่าโดยหลักการแล้วสิ่งนี้สามารถทำได้ ฉันสามารถใส่โมเดลผสมกับวัตถุที่มีเพียง 1 การสังเกตได้หรือไม่ โมเดลดักจับแบบสุ่ม - หนึ่งการวัดต่อหนึ่งเรื่อง อย่างไรก็ตามในลิงค์ที่สองคำตอบแรกจะระบุว่า: "... สมมติว่าคุณไม่ได้ใช้GLMMรุ่นผสมเชิงเส้นทั่วไปที่ในกรณีนั้นปัญหาของการกระจายตัวเกินเข้ามาเล่น" ฉันกำลังพิจารณาใช้ GLMM แต่ฉันไม่เข้าใจจริงๆว่าระดับเอฟเฟกต์แบบสุ่มด้วยการสังเกตเพียงครั้งเดียวจะส่งผลกระทบต่อโมเดลได้อย่างไร นี่คือตัวอย่างหนึ่งในโมเดลที่ฉันพยายามทำ ฉันกำลังศึกษานกและฉันต้องการจำลองผลกระทบของประชากรและฤดูกาลตามจำนวนการหยุดระหว่างการย้ายถิ่น ฉันต้องการใช้เอฟเฟกต์แบบสุ่มเพราะสำหรับบางคนฉันมีข้อมูลมากถึง 5 ปี library(dplyr) library(lme4) pop <- as.character(c("BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "MA", "MA", "MA", "MA", "MA", "MA", …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.