สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
อะไรคือความหมายตามสัญชาตญาณของตัวแปรสุ่มที่ถูกนิยามว่าเป็น“ ขัดแตะ”?
ในทฤษฎีความน่าจะเป็นค่าลบตัวแปรสุ่มเรียกว่าตาข่ายถ้ามีดังกล่าวว่า1XXXd≥0d≥0d \geq 0∑∞n=0P(X=nd)=1∑n=0∞P(X=nd)=1\sum_{n=0}^{\infty}P(X=nd) = 1 มีการตีความทางเรขาคณิตสำหรับสาเหตุที่คำนิยามนี้เรียกว่าขัดแตะ?

1
จะเป็นอย่างไรถ้าความแม่นยำในการตรวจสอบความถูกต้องสูง แต่ความแม่นยำในการทดสอบต่ำในการวิจัย
ฉันมีคำถามเฉพาะเกี่ยวกับการตรวจสอบความถูกต้องในการวิจัยการเรียนรู้ของเครื่อง ดังที่เราทราบระบอบการเรียนรู้ของเครื่องขอให้นักวิจัยฝึกแบบจำลองของพวกเขาในข้อมูลการฝึกอบรมเลือกจากแบบจำลองผู้สมัครตามชุดการตรวจสอบและรายงานความแม่นยำในชุดการทดสอบ ในการศึกษาที่เข้มงวดมากชุดทดสอบสามารถใช้ได้เพียงครั้งเดียว อย่างไรก็ตามมันไม่สามารถเป็นสถานการณ์การวิจัยได้เพราะเราต้องปรับปรุงประสิทธิภาพของเราจนกว่าความแม่นยำในการทดสอบจะดีกว่าผลการทดสอบที่ทันสมัยก่อนที่เราจะสามารถเผยแพร่ (หรือแม้แต่ส่ง) กระดาษ ตอนนี้ปัญหามา สมมติว่า 50% เป็นผลลัพธ์ที่ทันสมัยที่สุดและรุ่นของฉันสามารถบรรลุความแม่นยำ 50--51 ซึ่งดีกว่าโดยเฉลี่ย อย่างไรก็ตามความแม่นยำในการตรวจสอบที่ดีที่สุดของฉัน (52%) ให้ความแม่นยำในการทดสอบต่ำมากเช่น 49% จากนั้นฉันต้องรายงาน 49% ว่าเป็นประสิทธิภาพโดยรวมของฉันถ้าฉันไม่สามารถปรับปรุงมาตรฐานการตรวจสอบความถูกต้องซึ่งฉันคิดว่าไม่มีความหวัง สิ่งนี้ช่วยป้องกันฉันจากการศึกษาปัญหา แต่ไม่สำคัญกับเพื่อนของฉันเพราะพวกเขาไม่เห็น ACC 52% ซึ่งฉันคิดว่าเป็นเรื่องผิดปกติ ดังนั้นคนมักจะทำในการวิจัยของพวกเขาได้อย่างไร การตรวจสอบ ps k-fold ไม่ได้ช่วยอะไรเพราะสถานการณ์เดียวกันอาจยังคงเกิดขึ้นได้

2
Jackknife vs. LOOCV
มีความแตกต่างระหว่างแจ็คไนฟ์และการตรวจสอบไขว้แบบครั้งเดียวหรือไม่? ขั้นตอนดูเหมือนกันว่าฉันทำบางสิ่งหายไปหรือไม่

3
เส้นโค้งเทียบกับการถดถอยของกระบวนการแบบเกาส์เซียน
ฉันรู้ว่า Gaussian Process Regression (GPR) เป็นอีกทางเลือกหนึ่งในการใช้ splines สำหรับโมเดลที่ไม่ใช่เชิงเส้นที่มีความยืดหยุ่น ฉันอยากจะรู้ว่าสถานการณ์ใดจะเหมาะสมกว่าสถานการณ์อื่นโดยเฉพาะอย่างยิ่งในกรอบการถดถอยแบบเบย์ ฉันได้ดูไปแล้วข้อดี / ข้อเสียของการใช้ Splines, Spline ที่ราบรื่น, และตัวเลียนแบบกระบวนการ Gaussian คืออะไร? แต่ดูเหมือนจะไม่มีอะไรใน GPR ในโพสต์นี้

1
PCA มีจำนวนความแปรปรวนที่ต้องจับเพื่อทำการวิเคราะห์ในภายหลังหรือไม่?
ฉันมีชุดข้อมูลที่มี 11 ตัวแปรและ PCA (orthogonal) ทำเพื่อลดข้อมูล การตัดสินใจเกี่ยวกับจำนวนส่วนประกอบเพื่อให้เห็นได้ชัดจากความรู้ของฉันเกี่ยวกับเรื่องและพล็อตหินกรวด (ดูด้านล่าง) ว่าสององค์ประกอบหลัก (พีซี) เพียงพอที่จะอธิบายข้อมูลและส่วนประกอบที่เหลือมีเพียงข้อมูลน้อย พล็อตหินกรวดที่มีการวิเคราะห์แบบขนาน: ค่าลักษณะเฉพาะ (สีเขียว) และค่าลักษณะเฉพาะที่จำลองตามการจำลอง 100 แบบ (สีแดง) พล็อต Scree แนะนำพีซี 3 เครื่องในขณะที่การทดสอบแบบขนานจะแนะนำพีซีสองเครื่องแรกเท่านั้น อย่างที่คุณเห็นเพียง48%ของความแปรปรวนที่สามารถจับได้โดยพีซีสองเครื่องแรก การพล็อตการสำรวจบนระนาบแรกที่ทำโดยพีซี 2 เครื่องแรกเปิดเผยกลุ่มที่แตกต่างกันสามกลุ่มโดยใช้การจัดกลุ่มแบบลำดับชั้น agglomerative (HAC) และการจัดกลุ่ม K-mean ทั้ง 3 กลุ่มนี้มีความเกี่ยวข้องกับปัญหาที่เกิดขึ้นและสอดคล้องกับข้อค้นพบอื่น ๆ เช่นกัน ดังนั้นยกเว้นความจริงที่ว่ามีเพียง 48% ของความแปรปรวนที่ถูกจับได้ทุกอย่างอื่นก็ดีมาก ผู้ตรวจสอบคนหนึ่งในสองคนของฉันพูดว่า: ไม่สามารถเชื่อถือได้มากจากการค้นพบนี้เนื่องจากสามารถอธิบายความแปรปรวนเพียง 48% และน้อยกว่าที่ต้องการ คำถาม มีค่าที่ต้องใช้ในการคำนวณความแปรปรวนของ PCA ที่จะใช้งานได้หรือไม่ มันไม่ได้ขึ้นอยู่กับความรู้และวิธีการใช้งานโดเมนหรือไม่? ใครสามารถตัดสินข้อดีของการวิเคราะห์ทั้งหมดเพียงแค่ขึ้นอยู่กับมูลค่าของความแปรปรวนที่อธิบายไว้เท่านั้น หมายเหตุ …
15 variance  pca 

4
คุณต้องการข้อมูลเท่าไหร่สำหรับเครือข่ายประสาทเทียม?
หากฉันมีโครงข่ายประสาทเทียม (CNN) ซึ่งมีพารามิเตอร์ประมาณ 1,000,000 พารามิเตอร์จำเป็นต้องใช้ข้อมูลการฝึกอบรมจำนวนเท่าใด (สมมติว่าฉันกำลังทำโคตรลาดแบบสุ่ม) มีกฎง่ายๆไหม? หมายเหตุเพิ่มเติม: เมื่อฉันทำ stochastic gradient descent (เช่น 64 patch สำหรับ 1 การวนซ้ำ) หลังจาก ~ 10,000 iterations ความแม่นยำของตัวจําแนกสามารถเข้าถึงค่าคงที่หยาบ) นี่หมายถึงไม่จำเป็นต้องใช้ข้อมูลจำนวนมาก? เช่นเดียวกับข้อมูล 100k-1,000k

1
CNN หลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร
ฉันอ่านมากเกี่ยวกับเครือข่ายประสาทการสนทนาและสงสัยว่าพวกเขาจะหลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร ฉันรู้ว่าเครือข่ายที่มีความเชื่อลึกนั้นมีกองเข้ารหัสอัตโนมัติระดับเดียวหรือเครือข่ายตื้น ๆ ที่ผ่านการฝึกอบรมล่วงหน้าและสามารถหลีกเลี่ยงปัญหานี้ได้ แต่ฉันไม่รู้ว่ามันจะหลีกเลี่ยงได้อย่างไรใน CNNs ตามที่Wikipedia : แม้จะมีปัญหาการไล่ระดับสีที่หายไป แต่พลังการประมวลผลที่เหนือกว่าของ GPU ทำให้การเผยแพร่กลับเป็นไปได้อย่างง่ายดายสำหรับเครือข่ายประสาทที่มีการป้อนลึกแบบหลายชั้น ฉันไม่เข้าใจว่าทำไมการประมวลผล GPU จะลบปัญหานี้หรือไม่

3
การเลือก K ที่เหมาะสมที่สุดสำหรับ KNN
ฉันทำ CV 5 เท่าเพื่อเลือก K ที่ดีที่สุดสำหรับ KNN และดูเหมือนว่ายิ่งใหญ่กว่า K จะได้รับความผิดพลาดน้อยลง ... ขออภัยฉันไม่มีตำนาน แต่สีที่ต่างกันแสดงถึงการทดลองที่แตกต่างกัน มีทั้งหมด 5 รายการและดูเหมือนว่าจะมีการเปลี่ยนแปลงเล็กน้อยระหว่างพวกเขา ดูเหมือนว่าข้อผิดพลาดจะลดลงเมื่อ K ใหญ่ขึ้น ดังนั้นฉันจะเลือก K ที่ดีที่สุดได้อย่างไร K = 3 จะเป็นตัวเลือกที่ดีที่นี่หรือไม่เนื่องจากกราฟแสดงระดับปิดหลังจาก K = 3

2
คำอธิบายสำหรับองศาอิสระที่ไม่ใช่จำนวนเต็มในการทดสอบ t กับผลต่างที่ไม่เท่ากัน
ขั้นตอนการทดสอบ SPSS รายงานการวิเคราะห์ 2 เมื่อเปรียบเทียบวิธีอิสระ 2 วิธีการวิเคราะห์หนึ่งที่มีความแปรปรวนเท่ากันและหนึ่งที่มีผลต่างไม่เท่ากัน องศาอิสระ (df) เมื่อถือว่าผลต่างเท่ากันนั้นถือเป็นค่าจำนวนเต็มเสมอ (และเท่ากับ n-2) df เมื่อความแปรปรวนที่เท่ากันจะไม่ถือว่าไม่ใช่จำนวนเต็ม (เช่น 11.467) และไม่มีที่ไหนใกล้ n-2 ฉันกำลังหาคำอธิบายเกี่ยวกับตรรกะและวิธีการที่ใช้ในการคำนวณ df ที่ไม่ใช่จำนวนเต็มเหล่านี้

4
ความหมายของคุณสมบัติแฝง?
ฉันกำลังพยายามที่จะเข้าใจรูปแบบเมทริกซ์การแยกตัวประกอบสำหรับระบบผู้แนะนำและฉันมักจะอ่าน 'คุณสมบัติที่แฝงอยู่' แต่นั่นหมายความว่าอย่างไร ฉันรู้ว่าคุณลักษณะใดมีความหมายต่อชุดข้อมูลการฝึกอบรม แต่ฉันไม่สามารถเข้าใจแนวคิดเกี่ยวกับคุณลักษณะแฝง บทความในหัวข้อที่ฉันพบทุกฉบับนั้นตื้นเกินไป แก้ไข: ถ้าอย่างน้อยคุณก็สามารถชี้ให้ฉันดูเอกสารที่อธิบายความคิดนั้นได้

3
คำนวณ Kullback-Leibler Divergence ในทางปฏิบัติหรือไม่?
ฉันใช้ KL Divergence เป็นตัวชี้วัดความแตกต่างกันระหว่าง 2และQp.m.f.p.m.f.p.m.f. PPPQQQ DKL(P||Q)=∑i=1Nln(PiQi)PiDKL(P||Q)=∑i=1Nln⁡(PiQi)PiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i =−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=−∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))=-\sum P(X_i)ln\left(Q(X_i)\right) + \sum P(X_i)ln\left(P(X_i)\right) ถ้าP(Xi)=0P(Xi)=0P(X_i)=0 เราสามารถคำนวณ P ( X i ) l n ( P ( X i ) ) = 0P(Xi)ln(Q(Xi))=0P(Xi)ln(Q(Xi))=0P(X_i)ln\left(Q(X_i)\right)=0 P(Xi)ln(P(Xi))=0P(Xi)ln(P(Xi))=0P(X_i)ln\left(P(X_i)\right)=0 แต่ถ้าP(Xi)≠0P(Xi)≠0P(X_i)\ne0และQ(Xi)=0Q(Xi)=0Q(X_i)=0 วิธีการคำนวณP(Xi)ln(Q(Xi))P(Xi)ln(Q(Xi))P(X_i)ln\left(Q(X_i)\right)

1
วิธีการคำนวณความบริสุทธิ์
ในการวิเคราะห์กลุ่มเราจะคำนวณความบริสุทธิ์ได้อย่างไร สมการคืออะไร? ฉันไม่ได้มองหารหัสที่จะทำเพื่อฉัน ให้เป็นคลัสเตอร์ k และคเจเป็นชั้น Jωkωk\omega_kcjcjc_j ดังนั้นความบริสุทธิ์ถูกต้องจริงหรือไม่ ดูเหมือนว่าจะรวมจำนวนคลาสที่จำแนกอย่างแท้จริงต่อคลัสเตอร์มากกว่าขนาดตัวอย่าง แหล่งที่มาของสมการ คำถามคือความสัมพันธ์ระหว่างผลลัพธ์และอินพุตคืออะไร หากมีการบวกอย่างแท้จริง (TP), ลบอย่างแท้จริง (TN), บวกเท็จ (FP), ลบเท็จ (FN) มัน ?Purity=TPK(TP+TN+FP+FN)Purity=TPK(TP+TN+FP+FN)Purity = \frac{TP_K}{(TP+TN+FP+FN)}
15 clustering 

4
วิธีเก็บรักษาตัวแปรที่คงที่ของเวลาในรูปแบบเอฟเฟกต์คงที่
ฉันมีข้อมูลเกี่ยวกับพนักงานของ บริษัท ขนาดใหญ่ของอิตาลีในช่วงสิบปีที่ผ่านมาและฉันต้องการดูว่าช่องว่างทางเพศในรายได้ของเพศชายและเพศหญิงมีการเปลี่ยนแปลงตลอดเวลาอย่างไร เพื่อจุดประสงค์นี้ฉันใช้ pooled OLS: โดยที่คือรายได้จากการบันทึกต่อปีรวม covariates ที่แตกต่างกันไปตามแต่ละบุคคลและเวลาคือ dummies ปีและ{\ rm male} _iเท่ากับหนึ่งถ้าคนงานเป็นผู้ชายและไม่มีศูนย์yit=X′itβ+δmalei+∑t=110γtdt+εityit=Xit′β+δmalei+∑t=110γtdt+εit y_{it} = X'_{it}\beta + \delta {\rm male}_i + \sum^{10}_{t=1}\gamma_t d_t + \varepsilon_{it} yyyXitXitX_{it}dtdtd_tmaleimalei{\rm male}_i ตอนนี้ฉันมีความกังวลว่าเพื่อนร่วมพันธุ์บางคนอาจมีความสัมพันธ์กับเอฟเฟกต์คงที่ที่ไม่ได้สังเกต แต่เมื่อฉันใช้เอฟเฟ็กต์คงที่ (ภายใน) ตัวประมาณหรือความแตกต่างครั้งแรกฉันเสียโมเดลเพศเพราะตัวแปรนี้ไม่เปลี่ยนแปลงตลอดเวลา ฉันไม่ต้องการใช้ตัวประมาณเอฟเฟกต์แบบสุ่มเพราะฉันมักจะได้ยินคนพูดว่ามันทำให้สมมติฐานที่ไม่สมจริงมากและไม่น่าจะถือได้ มีวิธีใดบ้างที่จะรักษาความหลอกทางเพศและควบคุมเอฟเฟกต์คงที่ในเวลาเดียวกันได้หรือไม่? หากมีวิธีฉันต้องจัดกลุ่มหรือดูแลปัญหาอื่น ๆ ด้วยข้อผิดพลาดสำหรับการทดสอบสมมติฐานเกี่ยวกับตัวแปรเพศหรือไม่?

2
การผสมข้อมูลอย่างต่อเนื่องและไบนารีกับ Linear SVM หรือไม่
ดังนั้นฉันจึงได้เล่นรอบกับ SVM และฉันสงสัยว่านี่เป็นสิ่งที่ดีที่จะทำ: ฉันมีชุดคุณสมบัติแบบต่อเนื่อง (0 ถึง 1) และชุดคุณสมบัติแบบหมวดหมู่ที่ฉันแปลงเป็นตัวแปรจำลอง ในกรณีพิเศษนี้ฉันเข้ารหัสวันที่ของการวัดในตัวแปรจำลอง: มี 3 ช่วงเวลาที่ฉันมีข้อมูลจากและฉันจองหมายเลขฟีเจอร์ 3 หมายเลขสำหรับพวกเขา: 20: 21: 22: ดังนั้นขึ้นอยู่กับช่วงเวลาที่ข้อมูลมาคุณสมบัติที่แตกต่างจะได้รับ 1 กำหนด; คนอื่นจะได้รับ 0 SVM จะทำงานอย่างถูกต้องกับสิ่งนี้หรือสิ่งนี้เป็นสิ่งที่ไม่ดีที่ต้องทำหรือไม่? ฉันใช้ SVMLight และเคอร์เนลเชิงเส้น

1
อนุกรมเวลาหลายตัวแปรชีวภาพ: VAR และฤดูกาล
ฉันมีชุดข้อมูลอนุกรมเวลาหลายตัวแปรรวมถึงตัวแปรชีวภาพและสิ่งแวดล้อมที่มีปฏิสัมพันธ์ (รวมถึงตัวแปรภายนอกบางอย่าง) นอกจากฤดูกาลแล้วไม่มีข้อมูลในระยะยาวที่ชัดเจน จุดประสงค์ของฉันคือการดูว่าตัวแปรใดบ้างที่เกี่ยวข้องกัน การคาดการณ์นั้นไม่ได้ถูกมองหา เป็นเรื่องใหม่สำหรับการวิเคราะห์อนุกรมเวลาฉันอ่านการอ้างอิงหลายอย่าง เท่าที่ฉันเข้าใจโมเดล Vector Autoregressive (VAR) จะเหมาะสม แต่ฉันรู้สึกไม่สะดวกกับฤดูกาลและตัวอย่างส่วนใหญ่ที่ฉันพบในสาขาเศรษฐศาสตร์ที่เกี่ยวข้อง (บ่อยครั้งกับการวิเคราะห์อนุกรมเวลา ... ) โดยไม่มีฤดูกาล ฉันควรทำอย่างไรกับข้อมูลตามฤดูกาลของฉัน ฉันถือว่าพวกเขา deseasonalizing - ตัวอย่างเช่นใน R ฉันจะใช้decomposeแล้วใช้$trend + $randค่าเพื่อรับสัญญาณที่ปรากฏนิ่งสวย (ตามการตัดสินต่อacf) ผลลัพธ์ของแบบจำลอง VAR ทำให้ฉันสับสน (แบบจำลองแบบ 1-lag ถูกเลือกในขณะที่ฉันคาดหวังอย่างสังหรณ์ใจมากขึ้นและมีค่าสัมประสิทธิ์สำหรับการตอบโต้อัตโนมัติเท่านั้น ฉันกำลังทำอะไรผิดหรือฉันควรสรุปว่าตัวแปรของฉันไม่เกี่ยวข้อง (เป็นเส้นตรง) / โมเดลของฉันไม่ใช่คำถามที่ดี (คำถามย่อย: มี VAR ที่ไม่ใช่เชิงเส้นเทียบเท่าหรือไม่) [อีกวิธีหนึ่งฉันอ่านฉันอาจใช้ตัวแปรตามฤดูกาลได้แม้ว่าฉันจะไม่สามารถทราบได้ว่าจะนำไปใช้อย่างไร] คำแนะนำทีละขั้นตอนจะได้รับการชื่นชมอย่างมากเนื่องจากรายละเอียดสำหรับผู้ใช้ที่มีประสบการณ์อาจให้ข้อมูลกับฉัน (และตัวอย่างโค้ด R หรือลิงก์ไปยังตัวอย่างที่เป็นรูปธรรมยินดีต้อนรับแน่นอน)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.