สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

7
การทดสอบการพึ่งพาเชิงเส้นระหว่างคอลัมน์ของเมทริกซ์
ฉันมีเมทริกซ์สหสัมพันธ์ของการรักษาความปลอดภัยที่ส่งกลับซึ่งปัจจัยเป็นศูนย์ (นี่เป็นเรื่องที่น่าแปลกใจเล็กน้อยเนื่องจากเมทริกซ์สหสัมพันธ์ตัวอย่างและเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกันในทางทฤษฎีควรเป็นบวกแน่นอน) สมมติฐานของฉันคือความปลอดภัยอย่างน้อยหนึ่งรายการขึ้นอยู่กับหลักทรัพย์อื่น ๆ มีฟังก์ชั่นใน R ที่ทดสอบเมทริกซ์เชิงเส้นสำหรับการพึ่งพาเชิงเส้นแต่ละคอลัมน์หรือไม่? ตัวอย่างเช่นวิธีหนึ่งคือการสร้างเมทริกซ์ความสัมพันธ์หนึ่งการรักษาความปลอดภัยในแต่ละครั้งและคำนวณปัจจัยในแต่ละขั้นตอน เมื่อดีเทอร์มิแนนต์ = 0 แล้วหยุดตามที่คุณระบุความปลอดภัยซึ่งเป็นการรวมกันเชิงเส้นของหลักทรัพย์อื่น ๆ เทคนิคอื่นใดที่สามารถระบุการพึ่งพาเชิงเส้นในเมทริกซ์นั้นได้รับการชื่นชม

2
Neural Network: สำหรับการจำแนกประเภท Binary ให้ใช้ 1 หรือ 2 เซลล์ประสาทเอาท์พุท?
สมมติว่าฉันต้องการจำแนกไบนารี (บางสิ่งเป็นของคลาส A หรือคลาส B) มีความเป็นไปได้ที่จะทำสิ่งนี้ในเลเยอร์การส่งออกของโครงข่ายประสาทเทียม: ใช้ 1 โหนดเอาต์พุต เอาต์พุต 0 (<0.5) ถือเป็นคลาส A และ 1 (> = 0.5) ถือเป็นคลาส B (ในกรณีที่ sigmoid) ใช้ 2 โหนดเอาต์พุต อินพุตเป็นของคลาสของโหนดที่มีค่า / ความน่าจะเป็นสูงสุด (argmax) มีเอกสารใดบ้างที่เขียนเกี่ยวกับเรื่องนี้หรือไม่? คำหลักที่เฉพาะเจาะจงในการค้นหาคืออะไร คำถามนี้ถูกถามมาก่อนในเว็บไซต์นี้เช่นดูลิงค์นี้โดยไม่มีคำตอบจริง ฉันต้องเลือก (วิทยานิพนธ์ระดับปริญญาโท) ดังนั้นฉันต้องการได้รับข้อมูลเชิงลึกเกี่ยวกับข้อดีข้อเสียของแต่ละวิธี

5
วิธีการ "ไปหาข้อมูลเพิ่มเติม" ของฟิชเชอร์เมื่อใด
การอ้างอิงคำตอบที่ยอดเยี่ยมของ gung นักวิจัยเข้าหา Fisher ด้วยผลลัพธ์ที่“ ไม่สำคัญ” เมื่อถามถึงสิ่งที่เขาควรทำและฟิชเชอร์กล่าวว่า 'ไปหาข้อมูลเพิ่มเติม' จากมุมมองของเพียร์สัน Neyman นี้เป็นที่เห็นได้ชัด -hacking แต่มีกรณีการใช้งานที่ฟิชเชอร์ไปได้รับเพิ่มเติมข้อมูลวิธีการทำให้รู้สึก?ppp

1
การสูญเสียการฝึกอบรมลดลงเรื่อย ๆ เกิดอะไรขึ้น?
การสูญเสียการฝึกอบรมของฉันลดลงจากนั้นขึ้นอีกครั้ง มันแปลกมาก การสูญเสียการตรวจสอบข้ามติดตามการสูญเสียการฝึกอบรม เกิดอะไรขึ้น? ฉันมี LSTMS สองกองซ้อนกันดังต่อไปนี้ (บน Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') ฉันฝึกฝนมาเป็น 100 Epochs: model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) อบรมเกี่ยวกับตัวอย่าง 127803 ตรวจสอบตัวอย่าง 31951 และนั่นคือลักษณะของการสูญเสีย:

3
การหาค่า p-pearson ในสหสัมพันธ์ p
เป็นไปได้หรือไม่ที่จะหาค่า p-pearson correlation ใน R? เพื่อค้นหาความสัมพันธ์ลูกแพร์สันฉันมักจะทำเช่นนี้ col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 แต่ฉันจะหาค่า p ของสิ่งนี้ได้อย่างไร

3
นักปราชญ์ชาวเบย์กลายเป็นคนไม่เกี่ยวข้องกับกลุ่มตัวอย่างขนาดใหญ่หรือไม่?
เมื่อดำเนินการอนุมานแบบเบย์เราดำเนินการโดยเพิ่มฟังก์ชั่นโอกาสของเราให้มากที่สุดเมื่อใช้ร่วมกับนักบวชที่เรามีเกี่ยวกับพารามิเตอร์ เนื่องจากความเป็นไปได้ในการบันทึกมีความสะดวกมากขึ้นเราจึงเพิ่มโดยใช้ MCMC หรือสร้างการกระจายหลัง ความน่าจะเป็นของจุดแต่ละจุดก่อนหน้าและจุดข้อมูลแต่ละจุด)Σ ln( ก่อนหน้า) + ∑ ln( โอกาส)ΣLN⁡(ก่อน)+ΣLN⁡(ความเป็นไปได้)\sum \ln (\text{prior}) + \sum \ln (\text{likelihood}) หากเรามีข้อมูลจำนวนมากความน่าจะเป็นที่จะครอบงำข้อมูลใด ๆ ที่มีให้ก่อนหน้านี้โดยคณิตศาสตร์อย่างง่าย ในที่สุดสิ่งนี้เป็นสิ่งที่ดีและจากการออกแบบ เรารู้ว่าคนหลังจะมาบรรจบกันเพื่อโอกาสที่จะมีข้อมูลมากขึ้นเพราะมันควรจะเป็น สำหรับปัญหาที่กำหนดโดยนักบวชคอนจูเกตสิ่งนี้สามารถพิสูจน์ได้อย่างแน่นอน มีวิธีในการตัดสินใจว่านักบวชไม่สำคัญสำหรับฟังก์ชั่นความน่าจะเป็นและขนาดตัวอย่างหรือไม่?
26 bayesian  prior 

5
การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร
ในการถดถอยเชิงเส้นแต่ละค่าที่ทำนายไว้จะถูกเลือกจากการแจกแจงปกติของค่าที่เป็นไปได้ ดูด้านล่าง แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?

7
การรวมความน่าจะเป็น / ข้อมูลจากแหล่งต่าง ๆ
ให้บอกว่าฉันมีสามแหล่งที่มาที่เป็นอิสระและแต่ละคนก็ทำนายสภาพอากาศในวันพรุ่งนี้ อันแรกบอกว่าความน่าจะเป็นของฝนในวันพรุ่งนี้คือ 0 จากนั้นอันที่สองบอกว่าความน่าจะเป็นที่ 1 และสุดท้ายอันสุดท้ายบอกว่าความน่าจะเป็นคือ 50% ฉันต้องการทราบความน่าจะเป็นทั้งหมดที่ได้รับจากข้อมูลนั้น ถ้าใช้ทฤษฎีบทการคูณสำหรับเหตุการณ์อิสระฉันได้ 0 ซึ่งดูไม่ถูกต้อง เหตุใดจึงเป็นไปไม่ได้ที่จะคูณทั้งสามถ้าแหล่งทั้งหมดเป็นอิสระ? มีวิธีการแบบเบย์ในการอัปเดตก่อนหน้านี้เมื่อฉันรับข้อมูลใหม่หรือไม่ หมายเหตุ: นี่ไม่ใช่การบ้านเป็นสิ่งที่ฉันคิด

5
ความเป็นไปได้ของ Wikipedia
ฉันมีคำถามง่ายๆเกี่ยวกับ "ความน่าจะเป็นตามเงื่อนไข" และ "โอกาส" (ฉันได้สำรวจคำถามนี้ที่นี่แล้วแต่ไม่มีประโยชน์) มันเริ่มต้นจากหน้า Wikipedia ตามความเป็นไปได้ พวกเขาพูดแบบนี้: ความน่าจะเป็นของชุดของค่าพารามิเตอร์, θθ\theta , ให้ผลลัพธ์xxx , เท่ากับความน่าจะเป็นของผลลัพธ์ที่สังเกตได้จากค่าพารามิเตอร์เหล่านั้น, นั่นคือ L(θ∣x)=P(x∣θ)L(θ∣x)=P(x∣θ)\mathcal{L}(\theta \mid x) = P(x \mid \theta) ที่ดี! ดังนั้นในภาษาอังกฤษฉันอ่านสิ่งนี้ว่า: "ความน่าจะเป็นของพารามิเตอร์ที่เท่ากับทีต้า, รับข้อมูล X = x, (ทางซ้ายมือ), เท่ากับความน่าจะเป็นของข้อมูล X ที่เท่ากับ x, เนื่องจากพารามิเตอร์นั้น เท่ากับทีต้า " ( ตัวหนาเป็นของฉันสำหรับการเน้น ) อย่างไรก็ตามไม่น้อยกว่า 3 บรรทัดในหน้าเดียวกันรายการ Wikipedia ก็จะกล่าวต่อไปว่า: ให้XXXเป็นตัวแปรสุ่มที่มีต่อเนื่องกระจาย pppขึ้นอยู่กับพารามิเตอร์θθθ\thetaจากนั้นฟังก์ชั่น L(θ∣x)=pθ(x)=Pθ(X=x),L(θ∣x)=pθ(x)=Pθ(X=x),\mathcal{L}(\theta \mid …

4
ทำไมทุกคนจะใช้ KNN เพื่อการถดถอย?
จากสิ่งที่ฉันเข้าใจเราสามารถสร้างฟังก์ชันการถดถอยที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น ตัวอย่างเช่น (จำเป็นต้องมีหนึ่งในพาเนลเท่านั้น): ฉันจะทำนายอนาคตได้อย่างไรด้วยการใช้ KNR regressor อีกครั้งดูเหมือนว่าจะประมาณฟังก์ชั่นที่อยู่ภายในช่วงเวลาของข้อมูลการฝึกอบรมเท่านั้น คำถามของฉัน: อะไรคือข้อดีของการใช้ KNN regressor? ฉันเข้าใจว่ามันเป็นเครื่องมือที่ทรงพลังมากสำหรับการจัดหมวดหมู่ แต่ดูเหมือนว่ามันจะทำงานได้ไม่ดีในสถานการณ์การถดถอย

4
สัญชาตญาณที่อยู่เบื้องหลังส่วนเบี่ยงเบนมาตรฐาน
ฉันพยายามที่จะเข้าใจความเบี่ยงเบนมาตรฐานได้ง่ายขึ้น จากสิ่งที่ฉันเข้าใจมันเป็นตัวแทนของค่าเฉลี่ยของความแตกต่างของชุดการสังเกตในชุดข้อมูลจากค่าเฉลี่ยของชุดข้อมูลนั้น อย่างไรก็ตามมันไม่เท่ากับค่าเฉลี่ยของความแตกต่างเนื่องจากมันให้น้ำหนักมากกว่าการสังเกตเพิ่มเติมจากค่าเฉลี่ย ว่าฉันมีประชากรของค่าต่อไปนี้ -{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\} ค่าเฉลี่ยคือ5555 ถ้าฉันวัดการแพร่กระจายตามค่าสัมบูรณ์ที่ฉันได้รับ ∑5i=1|xi−μ|5=2.4∑i=15|xi−μ|5=2.4\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4 ถ้าฉันวัดการแพร่กระจายโดยใช้ค่าเบี่ยงเบนมาตรฐานฉันจะได้รับ ∑5i=1(xi−μ)25−−−−−−−−−−−−√=2.83∑i=15(xi−μ)25=2.83\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83 ผลลัพธ์ที่ใช้ค่าเบี่ยงเบนมาตรฐานมีขนาดใหญ่ขึ้นอย่างที่คาดไว้เนื่องจากน้ำหนักที่เพิ่มขึ้นจะให้ค่าเพิ่มเติมจากค่าเฉลี่ย แต่ถ้าฉันเพิ่งบอกว่าฉันจัดการกับประชากรที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานที่ฉันจะอนุมานได้อย่างไรว่าประชากรประกอบด้วยค่าบางอย่างเช่น ? ดูเหมือนว่าร่างของนั้นไม่มีกฎเกณฑ์มาก ... ฉันไม่เห็นว่าคุณควรตีความมันอย่างไร ไม่หมายถึงค่าที่มีการแพร่กระจายกว้างมากหรือว่าพวกเขาทั้งหมดคลัสเตอร์แน่นรอบหมายถึง ...5552.832.832.83{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\}2.832.832.832.832.832.83 เมื่อคุณนำเสนอด้วยคำแถลงว่าคุณกำลังเผชิญกับประชากรที่มีค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานนั่นบอกอะไรคุณเกี่ยวกับประชากร5552.832.832.83

7
ตัวอย่างง่าย ๆ ของ uncorrelated แต่ไม่ใช่อิสระและ
นักเรียนที่ทำงานหนัก ๆ ทุกคนเป็นตัวอย่างของ "นักเรียนทุกคนขี้เกียจ" อะไรคือตัวอย่างของตัวอย่างง่ายๆที่ว่า "ถ้าตัวแปรสุ่มและไม่ได้มีความสัมพันธ์กันแล้วพวกมันมีความเป็นอิสระ"?YXXXYYY

3
เหตุใดจึงใช้การประมาณแบบ Lasso ในการประมาณ OLS กับชุดย่อยของตัวแปรแบบ Lasso
k βลิตรs s o = ( β ลิตรs s o 1 , β ลิตรs s o 2 , . . . , β ลิตรL(β)=(Xβ−y)′(Xβ−y)+λ∥β∥1,L(β)=(Xβ−y)′(Xβ−y)+λ‖β‖1,L(\beta)=(X\beta-y)'(X\beta-y)+\lambda\|\beta\|_1,kkkβ^lasso=(β^lasso1,β^lasso2,...,β^lassok,0,...0)β^lasso=(β^1lasso,β^2lasso,...,β^klasso,0,...0)\hat{\beta}^{lasso}=\left(\hat{\beta}_1^{lasso},\hat{\beta}_2^{lasso},...,\hat{\beta}_k^{lasso},0,...0\right) เรารู้ว่าเป็น การประเมินแบบเอนเอียงดังนั้นทำไมเรายังคงใช้เป็นทางออกสุดท้ายแทนที่จะเป็น 'สมเหตุสมผล' มากขึ้น\ hat {\ beta} ^ {new} = \ left (\ hat {\ beta} _ {1: k} ^ {ใหม่}, 0, ... , 0 \ …

4
ความแตกต่างระหว่างทวินามลบทวินามและการถดถอยปัวซอง
ฉันกำลังมองหาข้อมูลบางอย่างเกี่ยวกับความแตกต่างระหว่างทวินามลบทวินามและปัวซองการถดถอยและสถานการณ์ที่เหมาะสมที่สุดสำหรับการถดถอยเหล่านี้ มีการทดสอบใดบ้างที่ฉันสามารถทำได้ใน SPSS ที่สามารถบอกได้ว่าการถดถอยแบบใดที่ดีที่สุดสำหรับสถานการณ์ของฉัน นอกจากนี้ฉันจะเรียกใช้ปัวซองหรือทวินามลบใน SPSS ได้อย่างไรเนื่องจากไม่มีตัวเลือกเช่นที่ฉันเห็นในส่วนการถดถอย หากคุณมีลิงค์ที่มีประโยชน์ฉันจะขอบคุณมันมาก

2
ฉันระบุโมเดลของฉันอย่างถูกต้องหรือไม่?
ฉันได้กำจัดเว็บไซต์ช่วยเหลือจำนวนมากและยังคงสับสนเกี่ยวกับวิธีระบุคำซ้อนที่ซับซ้อนมากขึ้นในรูปแบบผสมเช่นกัน นอกจากนี้ผมยังสับสนกับการใช้งานของ:และ/และ|ในการระบุการมีปฏิสัมพันธ์และทำรังที่มีปัจจัยสุ่มใช้lmer()ในแพคเกจในlme4R สำหรับจุดประสงค์ของคำถามนี้สมมติว่าฉันได้แสดงข้อมูลของฉันอย่างถูกต้องด้วยโมเดลสถิติมาตรฐานนี้: ได้รับการแก้ไขและเป็นแบบสุ่ม เป็น (โดยปริยาย) ซ้อนกันภายในYฉันj k= u + สถานีผม+ พ่วงj ( i )+ วันk+ ( สถานี× วัน)ฉันk+ ( พ่วง× วัน)j ( i ) kYผมJk=ยู+สถานีผม+พ่วงJ(ผม)+วันk+(สถานี×วัน)ผมk+(พ่วง×วัน)J(ผม)k Y_{ijk} = u + \text{station}_i + \text{tow}_{j(i)} + \text{day}_k + (\text{station}\times \text{day})_{ik} + (\text{tow}\times\text{day})_{j(i)k} stationtowdayTowstation ฉันหวังว่าแบบจำลองของฉันจะรวม Station (i, fixed), Tow (j, random, ซ้อนกันโดยนัยภายใน Station), …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.