สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

5
การเปรียบเทียบความแปรปรวนของการสังเกตแบบจับคู่
ฉันมีการสังเกตแบบจับคู่NNN ( XiXiX_i , YiYiY_i ) มาจากการแจกแจงที่ไม่รู้จักทั่วไปซึ่งมีช่วงเวลาที่หนึ่งและสองที่แน่นอนและมีความสมมาตรรอบค่าเฉลี่ย ขอσXσX\sigma_Xค่าเบี่ยงเบนมาตรฐานของXXX (ไม่มีเงื่อนไขบนYYY ), และσYσY\sigma_Yเหมือนกันสำหรับ Y. ฉันอยากทดสอบสมมติฐาน H0H0H_0 :σX=σYσX=σY\sigma_X = \sigma_Y H1H1H_1 :σX≠σYσX≠σY\sigma_X \neq \sigma_Y ไม่มีใครรู้ว่าการทดสอบดังกล่าวหรือไม่ ฉันสามารถสันนิษฐานได้ในการวิเคราะห์ก่อนว่าการแจกแจงเป็นเรื่องปกติแม้ว่ากรณีทั่วไปน่าสนใจกว่า ฉันกำลังมองหาวิธีแก้ปัญหาแบบปิด Bootstrap เป็นทางเลือกสุดท้ายเสมอ

4
ภาพรวมของฟังก์ชั่นการสูญเสียที่ครอบคลุม?
ฉันกำลังพยายามมองโลกในมุมมองที่สำคัญบางอย่างเกี่ยวกับการเรียนรู้ของเครื่องและฉันก็สงสัยว่าถ้ามีการรักษาที่ครอบคลุมเกี่ยวกับความสูญเสียที่แตกต่างกัน (ยกกำลังสอง, บันทึก, บานพับ, พร็อกซี่ ฯลฯ ) ผมคิดว่าสิ่งที่ตามสายของที่ครอบคลุมมากขึ้นนำเสนออย่างเป็นทางการของโพสต์ที่ยอดเยี่ยมจอห์นแลงในความหมายฟังก์ชั่นการสูญเสีย

2
วิธีใดที่สามารถใช้เพื่อกำหนดลำดับการรวมของอนุกรมเวลา
econometricians มักจะพูดคุยเกี่ยวกับซีรีส์ครั้งที่ถูกบูรณาการกับการสั่งซื้อ k ผม (k) kเป็นจำนวนต่ำสุดของความแตกต่างที่จำเป็นเพื่อให้ได้อนุกรมเวลาที่อยู่กับที่ วิธีการหรือการทดสอบทางสถิติใดที่สามารถใช้เพื่อกำหนดระดับความเชื่อมั่นลำดับของการรวมกลุ่มของเวลา

2
ทำไมเราถึงสร้างความยุ่งยากให้กับการใช้คะแนนชาวประมงเมื่อเราใส่ GLM ให้พอดี
ฉันอยากรู้ว่าทำไมเราจัดการ GLMS ที่เหมาะสมราวกับว่าพวกเขามีปัญหาการเพิ่มประสิทธิภาพพิเศษ ที่พวกเขา? สำหรับฉันดูเหมือนว่าพวกเขาเป็นเพียงโอกาสสูงสุดและเราจะเขียนโอกาสแล้ว ... เราเพิ่มมันให้มากที่สุด! เหตุใดเราจึงใช้การให้คะแนนแบบฟิชเชอร์แทนแบบแผนการเพิ่มประสิทธิภาพที่ได้รับการพัฒนาในวรรณคดีคณิตศาสตร์ประยุกต์

7
ปัญหาซองจดหมายสองฉบับกลับมาอีกครั้ง
ฉันกำลังคิดถึงปัญหานี้อยู่ http://en.wikipedia.org/wiki/Two_envelopes_problem ฉันเชื่อวิธีแก้ปัญหาและฉันคิดว่าฉันเข้าใจ แต่ถ้าฉันใช้แนวทางต่อไปนี้ฉันสับสนอย่างสมบูรณ์ ปัญหาที่ 1: ฉันจะเสนอเกมต่อไปนี้ให้คุณ คุณจ่ายให้ฉัน$ 10 และฉันจะพลิกเหรียญที่ยุติธรรม หัวฉันให้คุณ$ 5 และก้อยฉันให้คุณ$ 20 ความคาดหวังคือ$ 12.5 ดังนั้นคุณจะเล่นเกมเสมอ ปัญหาที่ 2: ฉันจะให้ซองจดหมายกับคุณ$ 10 ซองจดหมายนั้นเปิดอยู่และคุณสามารถตรวจสอบได้ จากนั้นผมก็แสดงให้คุณเห็นซองจดหมายอีกปิดเวลานี้และบอกคุณ: ซองจดหมายนี้อย่างใดอย่างหนึ่งมี$ 5 หรือ $ 20 ในนั้นมีโอกาสที่เท่าเทียมกัน คุณต้องการสลับหรือไม่ ฉันรู้สึกว่านี่เป็นปัญหาเดียวกับปัญหา 1 คุณเสียเงิน $ 10 สำหรับ$ 5 หรือ$ 20 ดังนั้นคุณจะเปลี่ยนอีกครั้ง ปัญหาที่ 3: ฉันทำเช่นเดียวกับข้างบน แต่ปิดซองจดหมาย ดังนั้นคุณไม่ทราบว่ามี $ 10 แต่มีจำนวน X ฉันบอกคุณอีกซองหนึ่งมีสองหรือครึ่ง …

5
การตีความผลลัพธ์ที่ไม่สำคัญว่าเป็น“ แนวโน้ม”
เมื่อเร็ว ๆ นี้เพื่อนร่วมงานสองคนต่างใช้ข้อโต้แย้งเกี่ยวกับความแตกต่างระหว่างเงื่อนไขที่ดูเหมือนว่าไม่ถูกต้องสำหรับฉัน เพื่อนร่วมงานทั้งสองคนนี้ใช้สถิติ แต่พวกเขาไม่ใช่นักสถิติ ฉันเป็นสามเณรในสถิติ ในทั้งสองกรณีฉันเป็นที่ถกเถียงกันอยู่ว่าเนื่องจากไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างสองเงื่อนไขในการทดลองมันไม่ถูกต้องที่จะเรียกร้องทั่วไปเกี่ยวกับกลุ่มเหล่านี้เกี่ยวกับการจัดการ โปรดทราบว่า "การอ้างสิทธิ์ทั่วไป" หมายถึงบางสิ่งบางอย่างเช่นการเขียน: "กลุ่ม A ที่ใช้ X บ่อยกว่ากลุ่ม B" เพื่อนร่วมงานของฉันตอบโต้ด้วย: "แม้ว่าจะไม่มีความแตกต่างอย่างมีนัยสำคัญ แต่แนวโน้มยังคงมีอยู่" และ "แม้ว่าจะไม่มีความแตกต่างอย่างมีนัยสำคัญ แต่ก็ยังคงมีความแตกต่าง" สำหรับฉันเสียงทั้งสองนี้เหมือนกับการพูดกำกวมคือพวกเขาเปลี่ยนความหมายของ "ความแตกต่าง" จาก: "ความแตกต่างที่น่าจะเป็นผลมาจากสิ่งอื่นที่ไม่ใช่โอกาส" (เช่นนัยสำคัญทางสถิติ) เป็น "สิ่งใด ๆ ที่ไม่ใช่ - ศูนย์แตกต่างในการวัดระหว่างกลุ่ม " คำตอบของเพื่อนร่วมงานของฉันถูกต้องหรือไม่? ฉันไม่ได้ใช้มันกับพวกเขาเพราะพวกเขาอยู่เหนือกว่าฉัน

1
การถดถอยแบบมิติสูง: ทำไมพิเศษ?
ฉันพยายามอ่านงานวิจัยในเรื่องการถดถอยแบบมิติสูง เมื่อมีขนาดใหญ่กว่า , ที่อยู่,n ดูเหมือนว่าคำว่ามักปรากฏในรูปของอัตราการลู่เข้าสำหรับตัวประมาณค่าการถดถอยpppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n ตัวอย่างเช่นที่นี่สมการ (17) บอกว่ารูปทรงพอดีเชือกสอดคล้องกับ β^β^\hat{\beta}1n∥Xβ^−Xβ∥22=OP(σlogpn−−−−−√∥β∥1).1n‖Xβ^−Xβ‖22=OP(σlog⁡pn‖β‖1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,. ปกตินี้ยังแสดงให้เห็นว่าlogplog⁡p\log pควรจะมีขนาดเล็กกว่าnnnn มีสัญชาตญาณว่าทำไมอัตราส่วนของlogp/nlog⁡p/n\log p/nจึงโดดเด่นเช่นนี้? นอกจากนี้ก็ดูเหมือนว่าจากวรรณกรรมปัญหาการถดถอยมิติสูงได้รับซับซ้อนเมื่อlogp≥nlog⁡p≥n\log p \geq nn ทำไมถึงเป็นเช่นนั้น? มีการอ้างอิงที่ดีที่กล่าวถึงปัญหาที่ว่าpppและnnnจะโตเร็วแค่ไหนเมื่อเปรียบเทียบกัน?

3
Perceptron หลายชั้นเทียบกับโครงข่ายประสาทเทียมแบบลึก
นี่เป็นคำถามของคำศัพท์ บางครั้งฉันเห็นคนพูดถึงเครือข่ายประสาทลึกว่า "perceptrons หลายชั้น" ทำไมถึงเป็นเช่นนี้ ฉันได้รับการสอน perceptron เป็นตัวแยกประเภทเลเยอร์เดี่ยว (หรือ regressor) ที่มีเอาต์พุต threshold แบบไบนารีโดยใช้วิธีเฉพาะในการฝึกน้ำหนัก (ไม่ใช่ back-prop) หากผลลัพธ์ของ perceptron ไม่ตรงกับผลลัพธ์ที่เป็นเป้าหมายเราจะเพิ่มหรือลบเวกเตอร์อินพุตให้กับน้ำหนัก (ขึ้นอยู่กับว่า Perceptron ให้ผลบวกปลอมหรือลบเป็นลบ) มันเป็นอัลกอริทึมการเรียนรู้เครื่องดั้งเดิมค่อนข้าง ขั้นตอนการฝึกอบรมไม่ปรากฏว่าจะพูดถึงกรณีทั่วไปหลายชั้น (อย่างน้อยก็ไม่ใช่โดยไม่มีการดัดแปลง) โครงข่ายประสาทเทียมแบบลึกผ่านการฝึกอบรมผ่าน backprop ซึ่งใช้กฎลูกโซ่เพื่อเผยแพร่การไล่ระดับสีของฟังก์ชันต้นทุนย้อนกลับไปจนถึงน้ำหนักทั้งหมดของเครือข่าย ดังนั้นคำถามคือ "perceptron หลายชั้น" เป็นสิ่งเดียวกับ "เครือข่ายประสาทลึก" หรือไม่? ถ้าใช่ทำไมคำศัพท์นี้ใช้? ดูเหมือนจะสับสนโดยไม่จำเป็น นอกจากนี้สมมติว่าคำศัพท์นั้นใช้แทนกันได้ฉันเห็นเพียงคำศัพท์ "multi-layer perceptron" เมื่อกล่าวถึงเครือข่าย feed-forward ซึ่งประกอบด้วยเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ (ไม่มีชั้น convolutional หรือการเชื่อมต่อซ้ำ) คำศัพท์นี้กว้างแค่ไหน? หนึ่งจะใช้คำว่า "หลายชั้น perceptron" เมื่อกล่าวถึงเช่น Inception …

3
ความสัมพันธ์ระหว่างการแจกแจงเบต้าและรูปแบบการถดถอยโลจิสติกคืออะไร?
คำถามของฉันคืออะไรความสัมพันธ์ทางคณิตศาสตร์ระหว่างการแจกแจงเบต้าและสัมประสิทธิ์ของตัวแบบการถดถอยโลจิสติกคืออะไร? เพื่อแสดงให้เห็นถึง:ฟังก์ชันลอจิสติก (sigmoid) ได้รับจาก f(x)=11+exp(−x)f(x)=11+exp⁡(−x)f(x) = \frac{1}{1+\exp(-x)} และมันถูกใช้เพื่อสร้างโมเดลความน่าจะเป็นในโมเดลการถดถอยโลจิสติก ให้AAAเป็น dichotomous (0,1)(0,1)(0,1)ทำคะแนนผลลัพธ์และXXX a matrix ออกแบบ แบบจำลองการถดถอยโลจิสติกจะได้รับจาก P(A=1|X)=f(Xβ).P(A=1|X)=f(Xβ).P(A=1|X) = f(X \beta). หมายเหตุXXXมีคอลัมน์แรกของค่าคงที่111 (สกัดกั้น) และββ\betaเป็นคอลัมน์เวกเตอร์ของสัมประสิทธิ์การถดถอย ตัวอย่างเช่นเมื่อเรามีหนึ่ง regressor (ปกติมาตรฐาน) xxxและเลือกβ0=1β0=1\beta_0=1 (สกัดกั้น) และβ1=1β1=1\beta_1=1เราสามารถจำลองผลลัพธ์ 'การแจกแจงความน่าจะเป็น' พล็อตนี้จะแจ้งเตือนของการกระจายเบต้า (เช่นการทำแปลงสำหรับทางเลือกอื่น ๆ ของββ\beta ) ที่มีความหนาแน่นจะได้รับจาก g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p−1)(1−y)(q−1).g(y;p,q)=Γ(p)Γ(q)Γ(p+q)y(p−1)(1−y)(q−1).g(y;p,q) = \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} y^{(p-1)} (1-y)^{(q-1)}. ใช้โอกาสสูงสุดหรือวิธีการในช่วงเวลาที่มันเป็นไปได้ที่จะประเมินและQจากการกระจายของP ( = 1 | X ) ดังนั้นคำถามของฉันลงมาที่: ความสัมพันธ์ระหว่างตัวเลือกของβและpและqคืออะไร? สิ่งนี้เพื่อเริ่มต้นด้วยที่อยู่กรณี …

2
วิธีการกรอกข้อมูลที่ขาดหายไปในอนุกรมเวลา?
ฉันมีชุดข้อมูลมลพิษจำนวนมากที่ถูกบันทึกทุก ๆ 10 นาทีตลอดระยะเวลา 2 ปี แต่มีข้อมูลจำนวนมากในช่องว่าง ข้อมูลดูเหมือนจะเป็นไปตามฤดูกาลและมีความแปรปรวนขนาดใหญ่ในระหว่างวันเมื่อเปรียบเทียบกับคืนที่ค่าไม่เปลี่ยนแปลงมากนักและจุดข้อมูลลดลง ฉันได้พิจารณาแบบจำลองที่เหมาะกับชุดวันและเวลากลางคืนแยกต่างหาก (เนื่องจากมีความแตกต่างที่ชัดเจนระหว่างพวกเขา) และจากนั้นทำนายค่าของข้อมูลที่หายไปและเติมจุดเหล่านี้ ฉันสงสัยว่านี่เป็นวิธีที่เหมาะสมในการเข้าถึงปัญหานี้หรือไม่และหากมีความจำเป็นที่จะต้องเพิ่มการเปลี่ยนแปลงในท้องถิ่นลงในจุดที่คาดการณ์ไว้

2
ความแตกต่างระหว่างเชนมาร์คอฟและกระบวนการมาร์คอฟคืออะไร?
ความแตกต่างระหว่างเชนมาร์คอฟและกระบวนการมาร์คอฟคืออะไร? ฉันกำลังอ่านข้อมูลที่ขัดแย้งกัน: บางครั้งคำจำกัดความขึ้นอยู่กับว่าพื้นที่ของรัฐนั้นไม่ต่อเนื่องหรือต่อเนื่องและบางครั้งก็ขึ้นอยู่กับว่าเวลานั้นไม่ต่อเนื่องหรือไม่ สไลด์ 20 ของเอกสารนี้ : กระบวนการมาร์คอฟเรียกว่าห่วงโซ่มาร์คอฟหากพื้นที่รัฐไม่ต่อเนื่องนั่นคือพื้นที่ จำกัด หรือนับไม่ได้คือไม่ต่อเนื่องกล่าวคือ จำกัด หรือนับได้ http://www.win.tue.nl/~iadan/que/h3.pdf : กระบวนการมาร์คอฟเป็นห่วงโซ่มาร์คอฟรุ่นต่อเนื่อง หรือสามารถใช้กระบวนการลูกโซ่มาร์คอฟและมาร์คอฟแบบพ้องกันโดยกำหนดว่าพารามิเตอร์เวลานั้นต่อเนื่องหรือไม่ต่อเนื่องรวมทั้งพื้นที่รัฐนั้นต่อเนื่องหรือไม่ต่อเนื่อง ปรับปรุง 2017-03-04: คำถามเดียวกันถูกถามในhttps://www.quora.com/Can-I-use-the-words-Markov-process-and-Markov-chain-interchangeably

1
การได้มาของการเปลี่ยนแปลงตัวแปรของฟังก์ชันความหนาแน่นของความน่าจะเป็น
ในการจดจำรูปแบบหนังสือและการเรียนรู้ของเครื่อง (สูตร 1.27) มันให้ พีY( y) = px( x ) ∣||dxdY|||= px( กรัม( y) ) | ก.'( y) |พีY(Y)=พีx(x)|dxdY|=พีx(ก.(Y))|ก.'(Y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | โดยที่ ,เป็น PDF ที่สอดคล้องกับตามการเปลี่ยนแปลงของตัวแปรp x ( x ) p y ( y )x = g( y)x=ก.(Y)x=g(y)พีx( x )พีx(x)p_x(x)พีY( y)พีY(Y)p_y(y) หนังสือบอกว่ามันเป็นเพราะสังเกตว่าตกอยู่ในช่วงจะค่าเล็ก ๆ …

2
ความแม่นยำเทียบกับพื้นที่ใต้เส้นโค้ง ROC
ฉันสร้างเส้นโค้ง ROC สำหรับระบบวินิจฉัย พื้นที่ใต้เส้นโค้งนั้นไม่ได้ประมาณค่าพารามิเตอร์เท่ากับ AUC = 0.89 เมื่อฉันพยายามคำนวณความถูกต้องที่การตั้งค่าขีด จำกัด ที่เหมาะสม (จุดที่ใกล้เคียงที่สุดกับจุด (0, 1)) ฉันได้รับความแม่นยำของระบบการวินิจฉัยที่ 0.8 ซึ่งน้อยกว่า AUC! เมื่อฉันตรวจสอบความถูกต้องที่การตั้งค่าขีด จำกัด อื่นซึ่งอยู่ไกลจากขีด จำกัด ที่เหมาะสมฉันได้ความแม่นยำเท่ากับ 0.92 เป็นไปได้หรือไม่ที่จะได้รับความถูกต้องของระบบการวินิจฉัยที่การตั้งค่าขีด จำกัด ที่ดีที่สุดที่ต่ำกว่าความแม่นยำที่ขีด จำกัด อื่นและต่ำกว่าพื้นที่ใต้เส้นโค้ง โปรดดูภาพที่แนบมา

1
การเชื่อมต่อระหว่างกำลังสองน้อยที่สุดบางส่วนการถดถอยอันดับลดลงและการถดถอยองค์ประกอบหลักคืออะไร
การถดถอยอันดับที่ลดลงและการถดถอยส่วนประกอบหลักเป็นเพียงกรณีพิเศษที่มีกำลังสองน้อยที่สุดหรือไม่? บทช่วยสอนนี้ (หน้า 6, "การเปรียบเทียบวัตถุประสงค์") ระบุว่าเมื่อเราทำบางส่วนกำลังสองน้อยที่สุดโดยไม่ต้องฉาย X หรือ Y (เช่น "ไม่ใช่บางส่วน") มันจะกลายเป็นการลดอันดับการถดถอยหรือการถดถอยองค์ประกอบหลักตามลำดับ ข้อความที่คล้ายกันนี้จัดทำขึ้นในหน้าเอกสารของ SAS นี้หัวข้อ "การลดอันดับการถดถอย" และ "ความสัมพันธ์ระหว่างวิธีการ" คำถามติดตามพื้นฐานที่สำคัญกว่าคือมีแบบจำลองความน่าจะเป็นพื้นฐานที่คล้ายคลึงกันหรือไม่


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.