สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
การสร้างตัวอย่างแบบสุ่มจากการแจกแจงที่กำหนดเอง
ฉันกำลังพยายามสร้างตัวอย่างแบบสุ่มจาก pdf ที่กำหนดเองโดยใช้ R. ไฟล์ของฉันคือ: fX(x)=32(1−x2),0≤x≤1fX(x)=32(1−x2),0≤x≤1f_{X}(x) = \frac{3}{2} (1-x^2), 0 \le x \le 1 ฉันสร้างตัวอย่างที่เหมือนกันแล้วลองแปลงเป็นการแจกแจงแบบกำหนดเองของฉัน ฉันไม่นี้โดยการหา CDF ของการกระจายของฉัน ( FX(x)FX(x)F_{X}(x) ) และการตั้งค่าให้ตัวอย่างเครื่องแบบ ( ยูยูu ) และการแก้สำหรับxxxx FX(x)=Pr[X≤x]=∫x032(1−y2)dy=32(x−x33)FX(x)=Pr[X≤x]=∫0x32(1−y2)dy=32(x−x33) F_{X}(x) = \Pr[X \le x] = \int_{0}^{x} \frac{3}{2} (1-y^2) dy = \frac{3}{2} (x - \frac{x^3}{3}) ในการสร้างตัวอย่างแบบสุ่มที่มีการแจกแจงข้างต้นให้หาตัวอย่างแบบสม่ำเสมอu∈[0,1]u∈[0,1]u \in[0,1]และหาค่าxxxใน32(x−x33)=u32(x−x33)=u\frac{3}{2} (x - \frac{x^3}{3}) = u ฉันใช้งานRและไม่ได้รับการกระจายที่คาดหวัง …
16 r  sampling  uniform 

2
'ข้อมูลพูล' หมายถึงอะไร?
ฉันคิดว่า 'การรวมข้อมูล' หมายถึงเพียงการรวมข้อมูลที่เคยแบ่งออกเป็นหมวดหมู่ ... โดยพื้นฐานแล้วไม่สนใจหมวดหมู่และทำให้ชุดข้อมูล 'สระว่ายน้ำ' ขนาดยักษ์หนึ่งชุด ฉันเดาว่านี่เป็นคำถามเกี่ยวกับคำศัพท์มากกว่าการใช้สถิติ ตัวอย่างเช่นฉันต้องการเปรียบเทียบไซต์ 2 แห่งและในแต่ละไซต์ฉันมีไซต์สองปี (ดีและแย่) หากฉันต้องการเปรียบเทียบ 'โดยรวม' ทั้งสองไซต์ (นั่นคือไม่สนใจประเภทปี) ถูกต้องหรือไม่ที่จะบอกว่าฉันรวมข้อมูลภายในแต่ละไซต์ นอกจากนั้นเนื่องจากข้อมูลหลายปีประกอบด้วยประเภทปีที่ดีและไม่ดีถูกต้องหรือไม่ที่จะบอกว่าฉันรวบรวมข้อมูลระหว่างปีเพื่อให้ได้ชุดข้อมูล 'ปีที่ดี' และ 'ปีที่ไม่ดี' ภายในแต่ละไซต์ ขอบคุณสำหรับความช่วยเหลือของคุณ! Mog

2
เป็นไปได้ไหมที่จะสร้าง“ ชุดขนาน” โดยใช้ R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ขอบคุณคำถาม Tormod (โพสต์ที่นี่ ) ฉันเจอพล็อตชุดแบบขนาน นี่คือตัวอย่างสำหรับลักษณะที่ปรากฏ: (เป็นภาพของชุดข้อมูลไททานิกการแสดงยกตัวอย่างเช่นผู้หญิงส่วนใหญ่ที่ไม่รอดชีวิตอยู่ในชั้นที่สาม ... ) ฉันชอบที่จะสามารถทำซ้ำพล็อตดังกล่าวกับอาร์ได้หรือไม่? ขอบคุณ Tal


2
การประเมินความน่าเชื่อถือของแบบสอบถาม: มิติรายการที่มีปัญหาและควรใช้อัลฟ่าแลมบ์ดา 6 หรือดัชนีอื่น ๆ หรือไม่?
ฉันกำลังวิเคราะห์คะแนนที่ได้รับจากผู้เข้าร่วมการทดลอง ฉันต้องการประเมินความน่าเชื่อถือของแบบสอบถามซึ่งประกอบด้วย 6 รายการที่มีวัตถุประสงค์เพื่อประเมินทัศนคติของผู้เข้าร่วมที่มีต่อผลิตภัณฑ์ ฉันคำนวณอัลฟ่าของครอนบาครักษาสิ่งของทั้งหมดในระดับเดียว (อัลฟาประมาณ 0.6) และลบทีละรายการ (ครั้งอัลฟาสูงสุดมีค่าประมาณ 0.72) ฉันรู้ว่าอัลฟาสามารถประเมินและประเมินค่าสูงไปน้อยได้ขึ้นอยู่กับจำนวนรายการและมิติข้อมูลของโครงสร้างพื้นฐาน ดังนั้นฉันจึงแสดง PCA การวิเคราะห์นี้พบว่ามีองค์ประกอบหลักสามประการที่อธิบายความแปรปรวนได้ประมาณ 80% ดังนั้นคำถามของฉันเกี่ยวกับฉันจะดำเนินการต่อไปได้อย่างไร ฉันต้องทำการคำนวณอัลฟ่าในแต่ละส่วนข้อมูลเหล่านี้หรือไม่ ฉันได้ลบรายการที่มีผลต่อความน่าเชื่อถือหรือไม่ นอกจากนี้การค้นหาบนเว็บฉันพบว่ามีการวัดความน่าเชื่อถืออีกอย่างหนึ่งคือ lambda6 ของ guttman ความแตกต่างที่สำคัญระหว่างการวัดนี้กับอัลฟ่าคืออะไร? แลมบ์ดามีคุณค่าที่ดีอย่างไร

6
ฉันจะลบทั้งหมดยกเว้นหนึ่งระเบียนที่ซ้ำกันเฉพาะในกรอบข้อมูล R ได้อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว ฉันมีกรอบข้อมูลที่มีรหัสที่ซ้ำกันบางส่วน ฉันต้องการลบระเบียนที่มีรหัสที่ซ้ำกันเก็บเฉพาะแถวที่มีค่าสูงสุด ดังนั้นสำหรับโครงสร้างเช่นนี้ (ตัวแปรอื่น ๆ ไม่ได้แสดง): id var_1 1 2 1 4 2 1 2 3 3 5 4 2 ฉันต้องการสร้างสิ่งนี้: id var_1 1 4 2 3 3 5 4 2 ฉันรู้เกี่ยวกับที่ไม่ซ้ำกัน () และทำซ้ำ () แต่ฉันไม่สามารถหาวิธีรวมกฎการเพิ่มประสิทธิภาพสูงสุด ...
16 r 

2
เป็นการดีที่จะสร้างมาตรฐานข้อมูลของคุณในการถดถอยด้วยข้อมูลแบบพาเนล / ยาว
โดยทั่วไปฉันสร้างมาตรฐานตัวแปรอิสระของฉันในการถดถอยเพื่อเปรียบเทียบสัมประสิทธิ์อย่างถูกต้อง (ด้วยวิธีนี้พวกเขามีหน่วยเดียวกัน: ส่วนเบี่ยงเบนมาตรฐาน) อย่างไรก็ตามด้วยข้อมูลแบบพาเนล / ยาวฉันไม่แน่ใจว่าฉันควรทำให้ข้อมูลของฉันเป็นมาตรฐานโดยเฉพาะอย่างยิ่งถ้าฉันประเมินโมเดลแบบลำดับชั้น หากต้องการดูสาเหตุที่อาจเป็นปัญหาที่อาจเกิดขึ้นสมมติว่าคุณมีi=1,…,ni=1,…,ni = 1, \ldots, nบุคคลที่วัดตามช่วงเวลาและคุณวัดตัวแปรตาม,และตัวแปรอิสระหนึ่งตัวt} หากคุณใช้การรวมการถดถอยแบบสมบูรณ์คุณสามารถสร้างมาตรฐานของข้อมูลด้วยวิธีนี้:เนื่องจากจะไม่เปลี่ยน t- สถิติ. ในทางกลับกันถ้าคุณพอดีกับการถดถอยที่ไม่รวมคือการถดถอยหนึ่งครั้งสำหรับแต่ละคนคุณควรสร้างมาตรฐานให้กับข้อมูลของคุณเป็นรายบุคคลเท่านั้นไม่ใช่ชุดข้อมูลทั้งหมด (ในรหัส R):Y ผม, เสื้อ x ฉัน, เสื้อ x z = ( x - หมายถึง( x ) ) / sd ( x )t=1,…,Tt=1,…,Tt=1,\ldots, Tyi,tyi,ty_{i,t}xi,txi,tx_{i,t}x.z=(x−mean(x))/sd(x)x.z=(x−mean(x))/sd(x)x.z = (x- \text{mean}(x))/\text{sd}(x) for (i in 1:n) { for ( t in …

2
เริ่มต้นกับเครือข่ายประสาทเทียมสำหรับการพยากรณ์
ฉันต้องการทรัพยากรบางอย่างเพื่อเริ่มต้นใช้งานโครงข่ายประสาทเทียมสำหรับการพยากรณ์อนุกรมเวลา ฉันระแวดระวังในการนำกระดาษมาใช้แล้วพบว่าพวกเขาได้ระบุถึงศักยภาพของวิธีการอย่างมาก ดังนั้นหากคุณมีประสบการณ์เกี่ยวกับวิธีการที่คุณแนะนำมันจะยอดเยี่ยมยิ่งขึ้น

1
คำอธิบายที่เข้าใจง่ายของการมีส่วนร่วมกับผลรวมของตัวแปรสุ่มแบบกระจายสองตัว
ถ้าฉันมีตัวแปรสุ่มอิสระแบบกระจายสองตัวคือXXXและYYYด้วยค่าเฉลี่ยμXμX\mu_XและμYμY\mu_Yและส่วนเบี่ยงเบนมาตรฐานσXσX\sigma_XและσYσY\sigma_Yและฉันค้นพบว่าX+Y=cX+Y=cX+Y=cดังนั้น (สมมติว่าฉันไม่ได้ทำผิดพลาด) การแจกแจงแบบมีเงื่อนไข ของXXXและYYYได้รับcccจะกระจายตามปกติด้วย μY| c=μY+(c-μX-μY)σ 2 YμX|c=μX+(c−μX−μY)σ2Xσ2X+σ2YμX|c=μX+(c−μX−μY)σX2σX2+σY2\mu_{X|c} = \mu_X + (c - \mu_X - \mu_Y)\frac{ \sigma_X^2}{\sigma_X^2+\sigma_Y^2} และค่าเบี่ยงเบนมาตรฐาน σX| c=σY| c=√μY|c=μY+(c−μX−μY)σ2Yσ2X+σ2YμY|c=μY+(c−μX−μY)σY2σX2+σY2\mu_{Y|c} = \mu_Y + (c - \mu_X - \mu_Y)\frac{ \sigma_Y^2}{\sigma_X^2+\sigma_Y^2}σX|c=σY|c=σ2Xσ2Yσ2X+σ2Y−−−−−−−−√.σX|c=σY|c=σX2σY2σX2+σY2.\sigma_{X|c} = \sigma_{Y|c} = \sqrt{ \frac{\sigma_X^2 \sigma_Y^2}{\sigma_X^2 + \sigma_Y^2}}. ไม่น่าแปลกใจที่การเบี่ยงเบนมาตรฐานตามเงื่อนไขนั้นเหมือนกับกำหนดหากใครขึ้นไปอีกคนหนึ่งจะต้องลงมาด้วยจำนวนเดียวกัน เป็นที่น่าสนใจว่าค่าเบี่ยงเบนมาตรฐานตามเงื่อนไขไม่ได้ขึ้นอยู่กับcccคccc สิ่งที่ฉันไม่สามารถหาได้จากหัวของฉันคือเงื่อนไขแบบมีเงื่อนไขซึ่งพวกเขารับส่วนแบ่งจากส่วนเกินตามสัดส่วนของความแปรปรวนดั้งเดิมไม่ใช่ส่วนเบี่ยงเบนมาตรฐานดั้งเดิม (c−μX−μY)(c−μX−μY)(c - \mu_X - \mu_Y) ตัวอย่างเช่นหากพวกเขามีค่าเฉลี่ยเป็นศูนย์และส่วนเบี่ยงเบนมาตรฐานσ X = 3และσ …

3
เมื่อใดที่เหมาะสมที่จะรายงานความแปรปรวนแทนที่จะเป็นค่าเบี่ยงเบนมาตรฐาน
ฉันได้ทำการวิเคราะห์ที่ฉันสร้างแบบจำลองส่วนประกอบความแปรปรวนที่แตกต่างกัน เมื่อรายงานผลลัพธ์ในตารางจะมีความรัดกุมมากกว่าการรายงานส่วนเบี่ยงเบนมาตรฐานแทนที่จะเป็นความแปรปรวน ดังนั้นสิ่งนี้นำมาสู่คำถาม - มีเหตุผลที่จะรายงานความแปรปรวนแทนที่จะเบี่ยงเบนมาตรฐานหรือไม่? มันเหมาะสมกว่าไหมที่จะรายงานอีกตัวหนึ่ง?

2
คุณคำนวณช่วงความมั่นใจสำหรับโคเฮนได้อย่างไร
ฉันคำนวณโคเฮนสำหรับสัมประสิทธิ์การถดถอย (จากสถิติ t) อัตราส่วนการต่อรองและความแตกต่างโดยหวังว่าจะรวมผลลัพธ์ในการวิเคราะห์เมตาดาต้าและดูว่ามันทำงานอย่างไร อย่างไรก็ตามใน Stata ดูเหมือนว่าคุณจะไม่สามารถรวมผลลัพธ์เหล่านี้โดยไม่มีช่วงความมั่นใจสำหรับ Cohen's d ดังนั้นคำถามของฉันคือฉันจะแก้ไขได้อย่างไร มีวิธีการคำนวณหรือมีวิธีการรวมผลลัพธ์ใน Stata โดยไม่มีข้อมูลนี้หรือไม่? ฉันรู้ว่ามีด้านลบหลายประการในการวิเคราะห์เมตาดาต้าประเภทนี้ แต่ฉันรู้สึกทึ่งที่เห็นว่าวิธีนี้ทำงานอย่างไรเมื่อเปรียบเทียบกับการวิเคราะห์ขนาดเล็กหลายขนาดที่มีผลเฉพาะ
16 cohens-d 

4
ข้อสมมติฐานของการวิเคราะห์กลุ่ม
ขอโทษสำหรับคำถามพื้นฐานฉันยังใหม่กับการวิเคราะห์รูปแบบนี้และมีความเข้าใจที่ จำกัด มากในหลักการ ฉันแค่สงสัยว่าหลายสมมติฐานสำหรับการทดสอบหลายตัวแปร / univariate ใช้สำหรับการวิเคราะห์กลุ่ม? แหล่งข้อมูลจำนวนมากที่ฉันได้อ่านเกี่ยวกับการวิเคราะห์กลุ่มไม่สามารถระบุสมมติฐานได้ ฉันสนใจเป็นพิเศษในการตั้งสมมติฐานของความเป็นอิสระของการสังเกต ความเข้าใจของฉันคือการละเมิดสมมติฐานนี้ (ในตัวอย่าง ANOVA และ MAVOVA) นั้นร้ายแรงเพราะมันมีผลต่อการประมาณการข้อผิดพลาด จากการอ่านของฉันจนถึงขณะนี้ดูเหมือนว่าการวิเคราะห์กลุ่มส่วนใหญ่เป็นเทคนิคที่อธิบาย (ที่เกี่ยวข้องกับการอนุมานทางสถิติในบางกรณีที่ระบุเท่านั้น) ดังนั้นสมมติฐานเช่นความเป็นอิสระและการกระจายข้อมูลตามปกติจำเป็นต้องมี? คำแนะนำใด ๆ ของข้อความที่กล่าวถึงปัญหานี้จะได้รับการชื่นชมอย่างมาก ขอบคุณมาก.

4
ข้อมูลที่เชื่อมโยงในบริบทของสัมประสิทธิ์สหสัมพันธ์อันดับคืออะไร
ฉันไม่ได้อยู่ในฟิลด์สถิติ ฉันเห็นคำว่า "ผูกข้อมูล" ในขณะที่อ่านเกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์อันดับ ข้อมูลที่เชื่อมโยงคืออะไร? ตัวอย่างของข้อมูลที่เชื่อมโยงคืออะไร?

4
กลยุทธ์สำหรับการตัดสินใจรูปแบบที่เหมาะสมสำหรับการนับข้อมูล
กลยุทธ์ที่เหมาะสมในการตัดสินใจเลือกรุ่นใดที่จะใช้กับข้อมูลนับ ฉันมีข้อมูลนับที่ฉันต้องการสร้างแบบจำลองเป็นแบบหลายระดับและแนะนำให้ฉัน (บนเว็บไซต์นี้) ว่าวิธีที่ดีที่สุดในการทำเช่นนี้คือผ่านบั๊กหรือ MCMCglmm อย่างไรก็ตามฉันยังคงพยายามที่จะเรียนรู้เกี่ยวกับสถิติแบบเบย์และฉันคิดว่าฉันควรพยายามใส่ข้อมูลของฉันให้เป็นแบบจำลองเชิงเส้นแบบทั่วไปและไม่สนใจโครงสร้างซ้อนของข้อมูล ข้อมูลประมาณ 70% เป็น 0 และอัตราส่วนของความแปรปรวนต่อค่าเฉลี่ยคือ 33 ดังนั้นข้อมูลจึงกระจายตัวค่อนข้างมาก หลังจากลองใช้ตัวเลือกที่แตกต่างกันจำนวนมาก (รวมทั้งปัวซอง, รูปแบบลบ, แบบกึ่งและกึ่งศูนย์) ฉันเห็นความสอดคล้องกันน้อยมากในผลลัพธ์ (การเปลี่ยนแปลงจากทุกอย่างมีความหมาย ฉันจะตัดสินใจเกี่ยวกับรูปแบบประเภทใดให้เลือกโดยพิจารณาจากอัตราเงินเฟ้อ 0 และการกระจายตัวมากเกินไป ตัวอย่างเช่นฉันจะอนุมานได้ว่า quasi-poisson นั้นเหมาะสมกว่าเชิงลบแบบทวินาม (หรือในทางกลับกัน) และฉันจะรู้ได้อย่างไรว่าการใช้อย่างใดอย่างหนึ่งได้จัดการอย่างเพียงพอ (หรือไม่) ด้วยค่าศูนย์ส่วนเกิน? ในทำนองเดียวกันฉันจะประเมินได้อย่างไรว่าไม่มีการกระจายตัวมากเกินไปหากใช้ตัวแบบที่ไม่มีการขยายเกินศูนย์? หรือฉันควรจะตัดสินใจอย่างไรระหว่างปัวซงที่มีค่าเป็นศูนย์ที่สูงขึ้นและทวินามลบที่สูงเกินจริง

2
ผลรวมจากแบบจำลองเชิงเส้นวิ่ง R
เนื่องจากการสร้างแบบจำลองการถดถอยมักจะเป็น "ศิลปะ" มากกว่าวิทยาศาสตร์ฉันจึงมักจะทดสอบตัวเองซ้ำหลายครั้งเกี่ยวกับโครงสร้างการถดถอย วิธีที่มีประสิทธิภาพในการสรุปข้อมูลจากแบบจำลองเหล่านี้หลายแบบในความพยายามที่จะค้นหาแบบ "ดีที่สุด" คืออะไร? วิธีการหนึ่งที่ฉันใช้คือการวางแบบจำลองทั้งหมดลงในรายการและเรียกใช้summary()ข้ามรายการนั้น แต่ฉันคิดว่ามีวิธีที่มีประสิทธิภาพมากกว่าในการเปรียบเทียบหรือไม่ ตัวอย่างรหัส & รุ่น: ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69) group <- gl(2,10,20, labels=c("Ctl","Trt")) weight <- c(ctl, trt) lm1 <- lm(weight ~ group) lm2 <- lm(weight ~ group - 1) lm3 <- lm(log(weight) ~ group - 1) #Draw comparisions between models 1 - …
16 r  regression 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.