สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ทำไมการถดถอยของสันเขาถึงไม่ลดทอนสัมประสิทธิ์ให้เป็นศูนย์อย่างเช่นบ่วงบาศ?
เมื่ออธิบายการถดถอยของ LASSO ไดอะแกรมของเพชรและวงกลมมักถูกนำมาใช้ ได้มีการกล่าวกันว่าเนื่องจากรูปร่างของข้อ จำกัด ใน LASSO เป็นเพชรวิธีแก้ปัญหาที่น้อยที่สุดที่ได้รับอาจแตะที่มุมของเพชรเพื่อให้เกิดการหดตัวของตัวแปรบางตัว อย่างไรก็ตามในการถดถอยของสันเขาเนื่องจากมันเป็นวงกลมมันมักจะไม่ได้สัมผัสกับแกน ฉันไม่เข้าใจว่าทำไมมันไม่สามารถแตะแกนหรืออาจมีความน่าจะเป็นต่ำกว่า LASSO เพื่อลดขนาดพารามิเตอร์บางอย่าง ทำไม LASSO และสันถึงมีความแปรปรวนต่ำกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุด? ข้างต้นคือความเข้าใจของฉันเกี่ยวกับสันและ LASSO และฉันอาจผิด ใครสามารถช่วยฉันเข้าใจว่าทำไมวิธีการถดถอยทั้งสองนี้จึงมีความแปรปรวนต่ำกว่า

3
แบบจำลองสองขั้นตอน: ความแตกต่างระหว่างแบบจำลอง Heckman (เพื่อจัดการกับการเลือกตัวอย่าง) และตัวแปรเครื่องมือ (เพื่อจัดการกับ endogenity)
ฉันกำลังพยายามทำให้เข้าใจถึงความแตกต่างระหว่างการเลือกตัวอย่างและ endogeneity และในทางกลับกันว่าแบบจำลองของ Heckman (เพื่อจัดการกับการเลือกตัวอย่าง) แตกต่างจากการถดถอยตัวแปรเครื่องมือ (เพื่อจัดการกับ endogeneity) อย่างไร มันถูกต้องหรือไม่ที่จะบอกว่าการเลือกตัวอย่างเป็นรูปแบบเฉพาะของ endogeneity ซึ่งตัวแปรภายนอกนั้นมีโอกาสที่จะได้รับการรักษา? นอกจากนี้ฉันคิดว่าทั้ง Heckman model และ IV regression เป็น 2-stage model ซึ่งในระยะแรกคาดการณ์ความน่าจะเป็นที่ได้รับการรักษา - ฉันคิดว่าพวกเขาจะต้องแตกต่างกันในแง่ของสิ่งที่พวกเขากำลังประจักษ์วัตถุประสงค์และสมมติฐานของพวกเขา แต่อย่างไร

1
ในการถดถอยเชิงเส้นแบบหลายจุดเหตุใดพล็อตของจุดที่คาดการณ์ไม่ได้อยู่ในแนวเส้นตรง
ฉันใช้การถดถอยเชิงเส้นหลายเส้นเพื่ออธิบายความสัมพันธ์ระหว่าง Y และ X1, X2 จากทฤษฎีฉันเข้าใจว่าการถดถอยหลายครั้งถือว่าความสัมพันธ์เชิงเส้นระหว่าง Y กับแต่ละ X (Y และ X1, Y และ X2) ฉันไม่ได้ใช้การแปลง X ใด ๆ ดังนั้นฉันได้โมเดลที่มี R = 0.45 และ X สำคัญทั้งหมด (P <0.05) จากนั้นฉันวางแผน Y กับ X1 ฉันไม่เข้าใจว่าเพราะเหตุใดวงกลมสีแดงที่เป็นตัวทำนายของแบบจำลองจึงไม่ก่อตัวเป็นเส้น อย่างที่ฉันพูดไปก่อนหน้านี้ฉันคาดว่าแต่ละคู่ของ Y และ X จะถูกต่อด้วยเส้น พล็อตถูกสร้างในไพ ธ อนด้วยวิธีนี้: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], …

5
คุณติดตามการวิจัยล่าสุดได้อย่างไร
หลังจากอ่านคำถามเกี่ยวกับ arXivและค้นหาลิงก์ไปยังGitXivที่ฉันไม่เคยรู้มาก่อนฉันสงสัยว่าคน / เว็บไซต์ใดที่ใช้ทรัพยากรเพื่อติดตามการวิจัยล่าสุดในพื้นที่ของตน
16 academia 

1
เพียร์สัน VS Deviance ตกค้างในการถดถอยโลจิสติก
ฉันรู้ว่าเพียร์สันที่เหลือมาตรฐานได้รับในความน่าจะเป็นแบบดั้งเดิม: ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} และ Deviance Residuals ได้มาจากวิธีการทางสถิติที่มากขึ้น (การสนับสนุนของแต่ละจุดสู่โอกาส): di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} โดยที่sisis_i = 1 ถ้าyiyiy_i = 1 และsisis_i = -1 ถ้าyiyiy_i = 0 คุณสามารถอธิบายให้ฉันอย่างสังหรณ์ใจได้อย่างไรวิธีการตีความสูตรการเบี่ยงเบนที่เหลืออยู่? ยิ่งไปกว่านั้นถ้าฉันต้องการเลือกอันไหนอันไหนที่เหมาะกว่าและทำไม? BTW การอ้างอิงบางอย่างอ้างว่าเราได้รับค่าเบี่ยงเบนเหลืออยู่จากคำว่า −12ri2−12ri2-\frac{1}{2}{r_i}^2 ที่ถูกกล่าวถึงข้างต้นririr_i

2
วิธีการพยากรณ์กับการตรวจจับค่าผิดปกติใน R - ขั้นตอนและวิธีการวิเคราะห์อนุกรมเวลา
ฉันมีข้อมูลอนุกรมเวลารายเดือนและต้องการคาดการณ์ด้วยการตรวจจับค่าผิดปกติ นี่คือตัวอย่างของชุดข้อมูลของฉัน: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 7.82 7.91 7.91 8.00 7.82 7.90 7.93 7.99 7.93 2008 8.46 8.48 9.03 9.43 11.58 12.19 12.23 11.98 12.26 …

2
เหตุใดจึงต้องแปลงข้อมูลก่อนที่จะทำการวิเคราะห์ส่วนประกอบหลัก
ฉันกำลังติดตามการสอนที่นี่: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/เพื่อให้เข้าใจ PCA ได้ดียิ่งขึ้น บทช่วยสอนใช้ชุดข้อมูล Iris และใช้การแปลงบันทึกก่อน PCA: โปรดสังเกตว่าในรหัสต่อไปนี้เราใช้การแปลงบันทึกกับตัวแปรต่อเนื่องตามที่แนะนำโดย [1] และตั้งค่าcenterและscaleเท่ากับTRUEในการเรียกเพื่อprcompสร้างมาตรฐานของตัวแปรก่อนการประยุกต์ใช้ PCA มีใครบางคนสามารถอธิบายให้ฉันเป็นภาษาอังกฤษแบบธรรมดาทำไมคุณถึงใช้ฟังก์ชั่นบันทึกในสี่คอลัมน์แรกของชุดข้อมูล Iris ฉันเข้าใจว่ามันมีส่วนเกี่ยวข้องกับการทำข้อมูลให้สัมพันธ์ แต่ฉันสับสนว่าอะไรคือหน้าที่ของ log, center และ scale การอ้างอิง [1] ด้านบนคือVenables and Ripley, สถิติประยุกต์สมัยใหม่กับ S-PLUS , หัวข้อ 11.1 ที่กล่าวสั้น ๆ ว่า: ข้อมูลคือการวัดทางกายภาพดังนั้นกลยุทธ์การเริ่มต้นที่ดีคือการทำงานกับขนาดของบันทึก สิ่งนี้ได้ทำมาตลอด

4
เข้าใจผิดเกี่ยวกับค่า P หรือไม่
ดังนั้นฉันจึงอ่านมากเกี่ยวกับวิธีตีความค่า P อย่างถูกต้องและจากสิ่งที่ฉันอ่านค่า p บอกว่าไม่มีความน่าจะเป็นที่สมมติฐานว่างเป็นจริงหรือเท็จ อย่างไรก็ตามเมื่ออ่านคำสั่งต่อไปนี้: p - value แสดงถึงความน่าจะเป็นที่ทำให้เกิดข้อผิดพลาดประเภทที่ 1 หรือปฏิเสธสมมติฐานว่างเมื่อเป็นจริง ยิ่งค่า p น้อยลงเท่าใดความน่าจะเป็นที่คุณจะปฏิเสธสมมติฐานที่ผิดพลาดนั้นจะผิดไป แก้ไข: แล้ว 5 นาทีต่อมาฉันอ่าน: การตีความค่า P ไม่ถูกต้องเป็นเรื่องธรรมดามาก ข้อผิดพลาดที่พบบ่อยที่สุดคือการตีความค่า P เนื่องจากความน่าจะเป็นในการทำผิดพลาดโดยการปฏิเสธสมมติฐานว่างเปล่าที่แท้จริง (ข้อผิดพลาด Type I) สิ่งนี้ทำให้ฉันสับสน อันไหนที่ถูก? และทุกคนสามารถอธิบายวิธีการแปลค่า p อย่างถูกต้องและมันเกี่ยวข้องกับความน่าจะเป็นในการทำข้อผิดพลาดประเภทที่ 1 ได้อย่างไร

2
ทำไมเพียร์สันρเป็นเพียงตัวชี้วัดของความสัมพันธ์ที่ละเอียดถี่ถ้วนหากการกระจายข้อต่อเป็นหลายตัวแปรปกติ?
การยืนยันนี้เกิดขึ้นจากการตอบคำถามสูงสุดของคำถามนี้ ฉันคิดว่าคำถาม 'ทำไม' แตกต่างกันพอสมควรที่จะรับประกันเธรดใหม่ Googling "การวัดความสัมพันธ์ครบถ้วนสมบูรณ์" ไม่ได้สร้างความนิยมใด ๆ และฉันไม่แน่ใจว่าวลีนั้นหมายถึงอะไร

3
ทำไมเราต้องใช้ Bootstrapping
ขณะนี้ฉันกำลังอ่าน "สถิติทั้งหมด" ของ Larry Wasserman และสับสนกับบางสิ่งที่เขาเขียนในบทเกี่ยวกับการประเมินฟังก์ชันทางสถิติของแบบจำลองที่ไม่ใช่พารามิเตอร์ เขาเขียน "บางครั้งเราสามารถค้นหาข้อผิดพลาดมาตรฐานโดยประมาณของฟังก์ชันทางสถิติโดยทำการคำนวณบางอย่างอย่างไรก็ตามในกรณีอื่น ๆ มันไม่ชัดเจนว่าจะประมาณข้อผิดพลาดมาตรฐานได้อย่างไร" ฉันต้องการจะชี้ให้เห็นว่าในบทถัดไปเขาพูดถึง bootstrap เพื่อแก้ไขปัญหานี้ แต่เนื่องจากฉันไม่เข้าใจคำแถลงนี้จริง ๆ ฉันจึงไม่ได้รับแรงจูงใจเบื้องหลัง Bootstrapping? มีตัวอย่างอะไรบ้างเมื่อไม่ทราบวิธีการประเมินข้อผิดพลาดมาตรฐานอย่างชัดเจน ตัวอย่างทั้งหมดที่ฉันเคยเห็น "ชัดเจน" เช่นดังนั้น^ s E ( P n ) = √X1,...Xn Ber(p)X1,...Xn Ber(p)X_1,...X_n ~Ber(p)se^(p^n)=p^⋅(1−p^)/n−−−−−−−−−−√se^(p^n)=p^⋅(1−p^)/n \hat{se}(\hat{p}_n )=\sqrt{\hat{p}\cdot(1-\hat{p})/n}

1
การรวมตัวของมหานคร - เฮสติ้งส์ - ทำไมกลยุทธ์ของฉันจึงไม่ทำงาน
สมมติว่าฉันมีฟังก์ชั่นที่ฉันต้องการรวม แน่นอนสมมติว่าไปที่ศูนย์ที่จุดสิ้นสุดไม่มีการระเบิดฟังก์ชันที่ดี วิธีหนึ่งที่ฉันได้รับการเล่นซอกับคือการใช้อัลกอริทึม Metropolis-เฮสติ้งส์เพื่อสร้างรายการของตัวอย่างจากการกระจายสัดส่วนการซึ่งจะหายไปอย่างต่อเนื่องการฟื้นฟู ซึ่งฉันจะเรียกแล้วคำนวณสถิติf (x)บนxเหล่านี้: g(x)g(x)g(x)∫∞−∞g(x)dx.∫−∞∞g(x)dx. \int_{-\infty}^\infty g(x) dx.g(x)g(x)g(x)x1,x2,…,xnx1,x2,…,xnx_1, x_2, \dots, x_ng(x)g(x)g(x)N=∫∞−∞g(x)dxN=∫−∞∞g(x)dxN = \int_{-\infty}^{\infty} g(x)dx p(x)p(x)p(x)f(x)f(x)f(x)xxx1n∑i=0nf(xi)≈∫∞−∞f(x)p(x)dx.1n∑i=0nf(xi)≈∫−∞∞f(x)p(x)dx. \frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx. ตั้งแต่p(x)=g(x)/Np(x)=g(x)/Np(x) = g(x)/Nฉันสามารถแทนที่f(x)=U(x)/g(x)f(x)=U(x)/g(x)f(x) = U(x)/g(x)เพื่อยกเลิกgggจากอินทิกรัลส่งผลให้เกิดการแสดงออกของรูปแบบ 1N∫∞−∞U(x)g(x)g(x)dx=1N∫∞−∞U(x)dx.1N∫−∞∞U(x)g(x)g(x)dx=1N∫−∞∞U(x)dx. \frac{1}{N}\int_{-\infty}^{\infty}\frac{U(x)}{g(x)} g(x) dx = \frac{1}{N}\int_{-\infty}^\infty U(x) dx. ดังนั้นหากU(x)U(x)U(x)รวมกับ111ตามภูมิภาคนั้นฉันควรได้ผลลัพธ์1/N1/N1/Nซึ่งฉันสามารถเอาส่วนกลับซึ่งกันและกันเพื่อได้คำตอบที่ฉันต้องการ ดังนั้นฉันสามารถใช้ช่วงของตัวอย่างของฉัน (เพื่อใช้คะแนนอย่างมีประสิทธิภาพมากที่สุด) r=xmax−xminr=xmax−xminr = x_\max - x_\min และให้U(x)=1/rU(x)=1/rU(x) = 1/rสำหรับแต่ละตัวอย่างที่ฉันวาด ด้วยวิธีนี้U(x)U(x)U(x)หาค่าเป็นศูนย์นอกขอบเขตที่ตัวอย่างของฉันไม่ได้ แต่รวมกับ111ในพื้นที่นั้น ดังนั้นถ้าฉันเอาค่าที่คาดหวังมาฉันควรได้รับ: …

3
ฟังก์ชัน ETS () จะหลีกเลี่ยงการคาดการณ์ที่ไม่สอดคล้องกับข้อมูลในอดีตได้อย่างไร
ฉันกำลังทำงานกับ alogorithm ใน R เพื่อทำการคำนวณการพยากรณ์รายเดือนโดยอัตโนมัติ ฉันกำลังใช้ฟังก์ชั่น ets () จากแพ็คเกจการคาดการณ์เพื่อคำนวณการคาดการณ์ มันทำงานได้ดีมาก น่าเสียดายที่ในบางช่วงเวลาผลลัพธ์ที่ฉันได้รับนั้นแปลก กรุณาค้นหาด้านล่างรหัสฉันใช้: train_ts<- ts(values, frequency=12) fit2<-ets(train_ts, model="ZZZ", damped=TRUE, alpha=NULL, beta=NULL, gamma=NULL, phi=NULL, additive.only=FALSE, lambda=TRUE, lower=c(0.0001,0.0001,0.0001,0.8),upper=c(0.9999,0.9999,0.9999,0.98), opt.crit=c("lik","amse","mse","sigma","mae"), nmse=3, bounds=c("both","usual","admissible"), ic=c("aicc","aic","bic"), restrict=TRUE) ets <- forecast(fit2,h=forecasthorizon,method ='ets') โปรดคุณจะพบชุดข้อมูลประวัติที่เกี่ยวข้องด้านล่าง: values <- c(27, 27, 7, 24, 39, 40, 24, 45, 36, 37, 31, 47, 16, …

3
tanh vs. sigmoid ในโครงข่ายประสาท
ฉันต้องขออภัยล่วงหน้าสำหรับความจริงที่ว่าฉันยังคงเร่งความเร็วในเรื่องนี้ ฉันพยายามเข้าใจข้อดีข้อเสียของการใช้ tanh (แผนที่ -1 ถึง 1) กับ sigmoid (แผนที่ 0 ถึง 1) สำหรับฟังก์ชั่นการเปิดใช้งานเซลล์ประสาทของฉัน จากการอ่านของฉันมันฟังดูเป็นเรื่องเล็กน้อยที่มีความแตกต่างเล็กน้อย ในทางปฏิบัติสำหรับปัญหาของฉันฉันพบว่า sigmoid ง่ายต่อการฝึกอบรมและแปลก sigmoid ปรากฏขึ้นเพื่อค้นหาวิธีแก้ปัญหาทั่วไปที่ดีกว่า จากนี้ฉันหมายถึงว่าเมื่อรุ่น sigmoid เสร็จสิ้นการฝึกอบรมก็ทำได้ดีในชุดข้อมูลอ้างอิง (ไม่ผ่านการฝึกอบรม) ซึ่งรุ่น tanh ดูเหมือนว่าจะได้รับคำตอบที่ถูกต้องเกี่ยวกับข้อมูลการฝึกอบรมในขณะที่ทำการอ้างอิงไม่ดี นี่เป็นสถาปัตยกรรมเครือข่ายเดียวกัน สัญชาตญาณหนึ่งที่ฉันมีคือด้วย sigmoid มันง่ายกว่าสำหรับเซลล์ประสาทที่จะปิดเกือบทั้งหมดดังนั้นจึงไม่มีการป้อนข้อมูลไปยังเลเยอร์ถัดไป tanh มีเวลายากขึ้นที่นี่เนื่องจากต้องการยกเลิกอินพุตที่สมบูรณ์แบบไม่เช่นนั้นจะให้ค่ากับเลเยอร์ถัดไปเสมอ บางทีสัญชาตญาณนี้ผิด โพสต์ยาว บรรทัดล่างคืออะไรค้าขายและควรสร้างความแตกต่างใหญ่

1
ส่วนประกอบ PCA ของข้อมูลแบบหลายตัวแปร Gaussian เป็นอิสระทางสถิติหรือไม่?
ส่วนประกอบ PCA (ในการวิเคราะห์องค์ประกอบหลัก) มีความเป็นอิสระทางสถิติหรือไม่หากข้อมูลของเรามีการกระจายหลายตัวแปรตามปกติ ถ้าเป็นเช่นนั้นสิ่งนี้สามารถแสดง / พิสูจน์ได้อย่างไร? ฉันถามเพราะฉันเห็นโพสต์นี้ซึ่งคำตอบยอดนิยมระบุไว้: PCA ไม่ได้ทำการตั้งสมมติฐาน Gaussianity ที่ชัดเจน พบว่าค่าไอเกนที่ผู้ใช้อธิบายความแปรปรวนสูงสุดในข้อมูล orthogonality ขององค์ประกอบหลักหมายความว่าจะพบส่วนประกอบที่ไม่เกี่ยวข้องมากที่สุดเพื่ออธิบายความแปรปรวนของข้อมูลให้มากที่สุด สำหรับการแจกแจงแบบเกาส์หลายตัวแปรความสัมพันธ์แบบไม่มีศูนย์ระหว่างส่วนประกอบหมายถึงความเป็นอิสระซึ่งไม่เป็นความจริงสำหรับการแจกแจงส่วนใหญ่ คำตอบจะถูกระบุโดยไม่มีการพิสูจน์และดูเหมือนจะบอกเป็นนัยว่า PCA ผลิตชิ้นส่วนที่เป็นอิสระหากข้อมูลเป็นตัวแปรปกติ โดยเฉพาะกล่าวว่าข้อมูลของเราเป็นตัวอย่างจาก: x∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma}) เราใส่nnnตัวอย่างxx\mathbf{x}เป็นแถวของเมทริกซ์ของตัวอย่างของเราXX\mathbf{X}เพื่อให้XX\mathbf{X}เป็นn×mn×mn \times mเมตร การคำนวณ SVD ของXX\mathbf{X} (หลังจากศูนย์กลาง) ให้ผลตอบแทน X=USVTX=USVT\mathbf{X} = \mathbf{USV}^{T} เราบอกได้ไหมว่าคอลัมน์ของUU\mathbf{U}นั้นมีความเป็นอิสระทางสถิติแล้วก็แถวของVTVT\mathbf{V}^Tโดยทั่วไปแล้วนี่เป็นเพียงแค่สำหรับx∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})หรือไม่เป็นความจริงเลย?
16 pca  independence  svd 

2
"บางส่วน" ในวิธีกำลังสองน้อยที่สุดคืออะไร?
ในการถดถอยสมการกำลังสองน้อยที่สุด (PLSR) หรือการสร้างแบบจำลองสมการเชิงโครงสร้างบางส่วน (PLS-SEM) คำว่า "บางส่วน" หมายถึงอะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.