สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

2
ฉันจะตีความพล็อตส่วนที่เหลือเทียบกับส่วนที่เหลือนี้ได้อย่างไร
ฉันไม่เข้าใจความแตกต่างอย่างแท้จริง ฉันต้องการทราบว่าโมเดลของฉันเหมาะสมหรือไม่ตามพล็อตนี้

3
ทำไมเราต้องการระบบเข้ารหัสอัตโนมัติ?
เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้การเข้ารหัสอัตโนมัติ ถ้าฉันเข้าใจอย่างถูกต้อง autoencoder เป็นเครือข่ายประสาทที่เลเยอร์อินพุตเหมือนกับเลเยอร์เอาท์พุท ดังนั้นโครงข่ายประสาทเทียมจึงพยายามทำนายผลลัพธ์โดยใช้อินพุตเป็นมาตรฐานทองคำ ประโยชน์ของรุ่นนี้คืออะไร? อะไรคือประโยชน์ของการพยายามสร้างองค์ประกอบเอาท์พุทใหม่ทำให้มีความเท่าเทียมกับองค์ประกอบอินพุตมากที่สุด เหตุใดจึงควรใช้เครื่องจักรทั้งหมดนี้เพื่อไปยังจุดเริ่มต้นเดียวกัน

2
เป็นไปได้อย่างไรที่ Poisson GLM ยอมรับหมายเลขที่ไม่ใช่จำนวนเต็ม?
ฉันตกตะลึงกับความจริงที่ว่า Poisson GLM ยอมรับตัวเลขที่ไม่ใช่จำนวนเต็ม! ดู: ข้อมูล (เนื้อหาของdata.txt): 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 สคริปต์ R: t <- read.table("data.txt") names(t) <- c('site', 'year', 'count', 'weight') tm <- glm(count ~ 0 + as.factor(site) + …

4
ความสัมพันธ์ระหว่าง
ฉันสงสัยว่ามีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่ โดยปกติR2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}และจะวัดความแข็งแรงของความสัมพันธ์เชิงเส้นในการถดถอย การทดสอบ F-Test เป็นการพิสูจน์สมมติฐาน มีความสัมพันธ์ระหว่างR2R2R^2กับการทดสอบ F หรือไม่?

1
ฉันควรจัดการกับความขัดแย้งของ Borel ทางจิตใจได้อย่างไร?
ฉันรู้สึกไม่สบายใจเล็กน้อยกับวิธีที่ฉันจัดการกับความขัดแย้งทางจิตใจของ Borel และ "ความขัดแย้ง" อื่น ๆ ที่เกี่ยวข้องที่เกี่ยวข้องกับความน่าจะเป็นแบบมีเงื่อนไข สำหรับผู้ที่กำลังอ่านสิ่งนี้ซึ่งไม่คุ้นเคยให้ดูที่ลิงก์นี้ การตอบสนองทางจิตใจของฉันจนถึงจุดนี้ส่วนใหญ่มักจะเพิกเฉยเพราะไม่มีใครดูเหมือนจะพูดถึงมัน แต่ฉันรู้สึกว่าฉันควรจะแก้ไขสิ่งนี้ เรารู้ว่าความขัดแย้งนี้มีอยู่แล้วและยังดูเหมือนว่าในทางปฏิบัติ (ตามตัวอย่างมากในการวิเคราะห์แบบเบย์) เรามีความสมบูรณ์ดีด้วยเครื่องเกี่ยวกับเหตุการณ์ของการวัด ; ถ้าคือข้อมูลของฉันเรามีเงื่อนไขในตลอดเวลาแม้ว่านี่จะเป็นเหตุการณ์ของการวัดเมื่อนั้นต่อเนื่อง และแน่นอนว่าเราไม่ได้พยายามสร้างลำดับเหตุการณ์ที่รวมเข้ากับเหตุการณ์ที่เราสังเกตเห็นเพื่อแก้ไขความขัดแย้งอย่างน้อยก็ไม่ชัดเจนX X = x 0 X000XXXX=xX=xX = x000XXX ผมคิดว่านี่เป็นไม่เป็นไรเพราะเราได้รับการแก้ไขเป็นหลักตัวแปรสุ่ม (ในหลักการ) ก่อนการทดลองและเพื่อให้เรามีเครื่องใน(X) นั่นคือคือ -algebra ตามธรรมชาติเนื่องจากข้อมูลกำลังจะถูกใช้ผ่าน - ถ้ามันมาหาเราในแบบอื่นเราก็จะมีเงื่อนไขที่แตกต่างกัน -พีชคณิต. ความขัดแย้งของ Borel เกิดขึ้นเพราะ (ฉันเดา) มันไม่ได้เป็นสิ่งที่เห็นได้ชัดที่เหมาะสมพีชคณิตเงื่อนไขใน แต่คชกรรมได้ระบุ(X) เพราะเรากำลังระบุข้อมูลเบื้องต้นไว้ว่าσ ( X ) σ ( X ) σ X = x …

3
การวางแผนข้อมูลคลัสเตอร์หลายมิติด้วยสายตา
ฉันมีชุดข้อมูลที่มี 16 ตัวแปรและหลังจากการจัดกลุ่มโดย kmeans ฉันต้องการลงจุดทั้งสองกลุ่ม คุณแนะนำให้แปลงอะไรเป็นภาพสองกลุ่ม?

3
ความสัมพันธ์ระหว่าง R-squared และ p-value ในการถดถอยคืออะไร?
tl; dr - สำหรับการถดถอยของ OLS ค่า R-squared ที่สูงขึ้นนั้นแสดงถึงค่า P ที่สูงขึ้นด้วยหรือไม่ โดยเฉพาะสำหรับตัวแปรอธิบายเดี่ยว (Y = a + bX + e) ​​แต่ก็สนใจที่จะทราบสำหรับตัวแปรอธิบายหลายตัวแปร (Y = a + b1X + ... bnX + e) บริบท - ฉันกำลังดำเนินการถดถอย OLS ในช่วงของตัวแปรและกำลังพยายามพัฒนารูปแบบการอธิบายที่ดีที่สุดโดยสร้างตารางที่มีค่า R-squared ระหว่างเส้นตรงลอการิทึม ฯลฯ การแปลงของตัวแปรอธิบาย (อิสระ) แต่ละตัว และตัวแปรตอบกลับ (ขึ้นอยู่กับ) ดูเหมือนว่า: ชื่อตัวแปร - รูปแบบเชิงเส้น - --ln (ตัวแปร) --exp …

5
เหตุใด k- หมายถึงไม่ให้ขั้นต่ำทั่วโลก
ฉันอ่านว่าอัลกอริทึม k-mean จะแปลงเป็นค่าต่ำสุดในท้องถิ่นเท่านั้นและไม่ใช่ระดับต่ำสุดทั่วโลก ทำไมนี้ ฉันสามารถคิดอย่างมีเหตุผลว่าการกำหนดค่าเริ่มต้นอาจส่งผลกระทบต่อการจัดกลุ่มสุดท้ายและมีความเป็นไปได้ของการจัดกลุ่มย่อยที่เหมาะสม แต่ฉันไม่พบสิ่งใดที่จะพิสูจน์ได้ในเชิงคณิตศาสตร์ นอกจากนี้เหตุใด k-หมายถึงกระบวนการวนซ้ำ เราไม่สามารถแยกความแตกต่างของฟังก์ชั่นวัตถุประสงค์เพียงเล็กน้อยกับเซนทรอยด์, แบ่งมันให้เป็นศูนย์เพื่อค้นหาเซนทรอยด์ที่ลดฟังก์ชั่นนี้ได้หรือไม่? เหตุใดเราต้องใช้การไล่ระดับสีเพื่อเข้าถึงขั้นตอนทีละน้อย?

3
การแจกแจง t ที่เหมาะสมใน R: พารามิเตอร์การปรับ
ฉันจะพอดีกับพารามิเตอร์ของการแจกแจงแบบทีคือพารามิเตอร์ที่สอดคล้องกับ 'เฉลี่ย' และ 'ส่วนเบี่ยงเบนมาตรฐาน' ของการแจกแจงแบบปกติ ฉันคิดว่าพวกมันถูกเรียกว่า 'mean' และ 'scaling / degrees of freedom' สำหรับการแจกแจงแบบ t? รหัสต่อไปนี้มักส่งผลให้เกิดข้อผิดพลาด 'การเพิ่มประสิทธิภาพล้มเหลว' library(MASS) fitdistr(x, "t") ฉันต้องปรับขนาด x ก่อนหรือแปลงเป็นความน่าจะเป็นหรือไม่? วิธีที่ดีที่สุดที่จะทำเช่นนั้น?

1
วิธีการตีความผลลัพธ์ของการทำนาย.coxph?
หลังจากติดตั้ง coxmodel เป็นไปได้ที่จะคาดการณ์และดึงความเสี่ยงสัมพัทธ์ของข้อมูลใหม่ สิ่งที่ฉันไม่เข้าใจคือวิธีคำนวณความเสี่ยงสัมพัทธ์สำหรับบุคคลและสิ่งที่สัมพันธ์กับ (เช่นค่าเฉลี่ยของประชากร) คำแนะนำใด ๆ สำหรับทรัพยากรที่จะช่วยให้เข้าใจ (ฉันไม่ได้ก้าวหน้ามากในการวิเคราะห์การเอาชีวิตรอด

5
ทำไมค่า R-squared ต่ำมากเมื่อสถิติ t ของฉันใหญ่มาก
ฉันทำการถดถอยด้วยตัวแปร 4 ตัวและทั้งหมดมีความสำคัญทางสถิติโดยมีค่า Tและ31 (ฉันพูดว่า≈เพราะดูเหมือนว่าไม่เกี่ยวข้องกับการรวมทศนิยม) ซึ่งสูงมากและมีความสำคัญอย่างชัดเจน แต่R 2นั้นเป็นเพียง. 2284 ฉันตีความตีความค่า t ที่นี่เพื่อหมายถึงบางสิ่งที่ไม่ได้ใช่หรือไม่ ปฏิกิริยาแรกของฉันเมื่อเห็นค่า t คือว่าR 2จะค่อนข้างสูง แต่อาจจะสูงR 2หรือไม่?≈7,9,26≈7,9,26\approx 7,9,26313131≈≈\approxR2R2R^2R2R2R^2R2R2R^2

1
เชื่อมโยงระหว่างฟังก์ชั่นสร้างช่วงเวลาและฟังก์ชั่นพิเศษ
ฉันพยายามเข้าใจการเชื่อมโยงระหว่างฟังก์ชั่นสร้างช่วงเวลากับฟังก์ชั่นพิเศษ ฟังก์ชั่นสร้างช่วงเวลาถูกกำหนดเป็น: MX(t)=E(exp(tX))=1+tE(X)1+t2E(X2)2!+⋯+tnE(Xn)n!MX(t)=E(exp⁡(tX))=1+tE(X)1+t2E(X2)2!+⋯+tnE(Xn)n! M_X(t) = E(\exp(tX)) = 1 + \frac{t E(X)}{1} + \frac{t^2 E(X^2)}{2!} + \dots + \frac{t^n E(X^n)}{n!} การใช้การขยายอนุกรมของฉันสามารถหาช่วงเวลาทั้งหมดของการแจกแจงสำหรับตัวแปรสุ่ม Xexp(tX)=∑∞0(t)n⋅Xnn!exp⁡(tX)=∑0∞(t)n⋅Xnn!\exp(tX) = \sum_0^{\infty} \frac{(t)^n \cdot X^n}{n!} ฟังก์ชั่นคุณสมบัติถูกกำหนดเป็น: φX(t)=E(exp(itX))=1+itE(X)1−t2E(X2)2!+…+(it)nE(Xn)n!φX(t)=E(exp⁡(itX))=1+itE(X)1−t2E(X2)2!+…+(it)nE(Xn)n! \varphi_X(t) = E(\exp(itX)) = 1 + \frac{it E(X)}{1} - \frac{t^2 E(X^2)}{2!} + \ldots + \frac{(it)^n E(X^n)}{n!} iiii2=−1i2=−1i^2 = -1+++

1
ค่าสัมประสิทธิ์เชิงลบในการถดถอยโลจิสติกสั่ง
สมมติว่าเรามีการตอบสนองลำดับy:{Bad, Neutral, Good}→{1,2,3}y:{Bad, Neutral, Good}→{1,2,3}y:\{\text{Bad, Neutral, Good}\} \rightarrow \{1,2,3\}และชุดของตัวแปรX:=[x1,x2,x3]X:=[x1,x2,x3]X:=[x_1,x_2,x_3]ที่เราคิดว่าจะอธิบายYจากนั้นเราจะทำการถดถอยโลจิสติกสั่งของ (เมทริกซ์การออกแบบ) ใน (การตอบสนอง)yyyXXXyyy สมมติว่าค่าสัมประสิทธิ์ประมาณx1x1x_1เรียกว่าเบต้า 1ในสั่งการถดถอยโลจิสติกคือ- 0.5 ฉันจะตีความอัตราเดิมพัน (OR) ของe - 0.5 = 0.607 ได้อย่างไรβ^1β^1\hat{\beta}_1−0.5−0.5-0.5e−0.5=0.607e−0.5=0.607e^{-0.5} = 0.607 ฉันพูดว่า "สำหรับการเพิ่มขึ้น 1 หน่วยในx1x1x_1 , ceteris paribus ต่อรองในการสังเกตGoodGood\text{Good}เป็นครั้งต่อรองในการสังเกตและเปลี่ยนแปลงเดียวกันในที่ โอกาสของการสังเกต\ text {เป็นกลาง} \ cup \ text {ดี}คือ0.607เท่าของการสังเกต\ text {Bad} "0.6070.6070.607Bad∪NeutralBad∪Neutral\text{Bad}\cup \text{Neutral}x1x1x_1Neutral∪GoodNeutral∪Good\text{Neutral} \cup \text{Good}0.6070.6070.607BadBad\text{Bad} ฉันไม่พบตัวอย่างของการตีความสัมประสิทธิ์เชิงลบในหนังสือเรียนหรือ Google

8
การแก้ไขเกี่ยวข้องกับแนวคิดของการถดถอยอย่างไร
อธิบายสั้น ๆ การแก้ไขหมายถึงอะไรมันเกี่ยวข้องกับแนวคิดของการถดถอยอย่างไร? การแก้ไขคือศิลปะของการอ่านระหว่างบรรทัดของตารางและในคณิตศาสตร์ระดับประถมศึกษาคำศัพท์มักจะหมายถึงกระบวนการคำนวณค่ากลางของฟังก์ชันจากชุดของค่าที่กำหนดหรือตารางของฟังก์ชันนั้น ฉันไม่สามารถตอบคำถามที่สองได้ กรุณาช่วย

3
ข้อผิดพลาดมาตรฐานทำงานอย่างไร
เมื่อไม่นานมานี้ฉันได้ตรวจสอบการทำงานภายในของข้อผิดพลาดมาตรฐานและฉันพบว่าตัวเองไม่สามารถเข้าใจได้ว่ามันทำงานอย่างไร ความเข้าใจของฉันเกี่ยวกับความคลาดเคลื่อนมาตรฐานคือความเบี่ยงเบนมาตรฐานของการกระจายตัวของค่าเฉลี่ยตัวอย่าง คำถามของฉันคือ: •เราจะรู้ได้อย่างไรว่าข้อผิดพลาดมาตรฐานคือค่าเบี่ยงเบนมาตรฐานของตัวอย่างหมายถึงเมื่อเรามักจะใช้เพียงตัวอย่างเดียว? •ทำไมไม่สมการในการคำนวณข้อผิดพลาดมาตรฐานสะท้อนให้เห็นถึงสมการเบี่ยงเบนมาตรฐานสำหรับตัวอย่างเดียว?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.