สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

1
ความสัมพันธ์ของตัวแปรสุ่มแบบล็อก - ปกติ
กำหนดตัวแปรสุ่มปกติX1X1X_1และX2X2X_2มีสัมประสิทธิ์สหสัมพันธ์ฉันจะค้นหาความสัมพันธ์ระหว่างตัวแปรสุ่ม lognormalและอย่างไรρρ\rhoY1Y1Y_1Y2Y2Y_2 Y1=a1exp(μ1T+T−−√X1)Y1=a1exp⁡(μ1T+TX1)Y_1 = a_1 \exp(\mu_1 T + \sqrt{T}X_1) Y2=a2exp(μ2T+T−−√X2)Y2=a2exp⁡(μ2T+TX2)Y_2 = a_2 \exp(\mu_2 T + \sqrt{T}X_2) Now, if X1=σ1Z1X1=σ1Z1X_1 = \sigma_1 Z_1 and X2=σ1Z2X2=σ1Z2X_2 = \sigma_1 Z_2, where Z1Z1Z_1 and Z2Z2Z_2 are standard normals, from the linear transformation property, we get: Y1=a1exp(μ1T+T−−√σ1Z1)Y1=a1exp⁡(μ1T+Tσ1Z1)Y_1 = a_1 \exp(\mu_1 T + \sqrt{T}\sigma_1 Z_1) Y2=a2exp(μ2T+T−−√σ2(ρZ1+1−ρ2−−−−−√Z2)Y2=a2exp⁡(μ2T+Tσ2(ρZ1+1−ρ2Z2)Y_2 …

1
การติดตั้งอุปกรณ์ในรุ่น R ที่ค่าสัมประสิทธิ์อยู่ภายใต้ข้อ จำกัด เชิงเส้น
ฉันจะกำหนดสูตรแบบจำลองใน R ได้อย่างไรเมื่อมีข้อ จำกัด เชิงเส้นตรงหนึ่งข้อ (หรือมากกว่า) ที่สัมพันธ์กับสัมประสิทธิ์ ตัวอย่างเช่นสมมติว่าคุณรู้ว่า b1 = 2 * b0 ในรูปแบบการถดถอยเชิงเส้นอย่างง่าย ขอขอบคุณ!
16 r  regression  modeling 

4
ฉันควรรวมอาร์กิวเมนต์เพื่อขอผลบวกของสี่เหลี่ยมจัตุรัส III ใน ezANOVA หรือไม่
ฉันพัฒนาแพ็กเกจ ez สำหรับ R เพื่อช่วยให้ผู้คนเปลี่ยนจากแพคเกจสถิติเช่น SPSS เป็น R นี่คือ (หวังว่า) ทำได้โดยการลดความซับซ้อนของ ANOVA และให้ผลลัพธ์คล้าย SPSS (รวมถึงขนาดเอฟเฟกต์และสมมติฐาน การทดสอบ) ในคุณสมบัติอื่น ๆ ezANOVA()ฟังก์ชั่นส่วนใหญ่ทำหน้าที่เป็นเสื้อคลุมไปcar::Anova()แต่รุ่นปัจจุบันของezANOVA()การดำเนินการเพียงพิมพ์-II ผลรวมของสี่เหลี่ยมในขณะที่car::Anova()สเปคใบอนุญาตทั้งประเภท II หรือ -III ผลรวมของสี่เหลี่ยม อย่างที่ฉันควรจะคาดหวังผู้ใช้หลายคนขอให้ฉันโต้แย้งezANOVA()ที่อนุญาตให้ผู้ใช้ร้องขอ Type-II หรือ Type-III ฉันลังเลที่จะทำเช่นนั้นและสรุปเหตุผลของฉันที่ด้านล่าง แต่ฉันจะขอขอบคุณที่ชุมชนให้ความเห็นเกี่ยวกับเหตุผลของฉันหรือเหตุผลอื่น ๆ ที่เกี่ยวกับเรื่องนี้ สาเหตุที่ไม่รวมอาร์กิวเมนต์ "SS_type" ในezANOVA(): ความแตกต่างระหว่างผลรวมสี่เหลี่ยมจัตุรัสประเภท I, II และ III จะปลูกพืชเฉพาะเมื่อข้อมูลไม่สมดุลเท่านั้นซึ่งในกรณีนี้ฉันจะบอกว่าประโยชน์เพิ่มเติมนั้นมาจากการแก้ไขความไม่สมดุลโดยการรวบรวมข้อมูลเพิ่มเติม ความแตกต่างระหว่าง Type II และ III ใช้กับเอฟเฟกต์ลำดับต่ำที่ผ่านการรับรองโดยเอฟเฟกต์ที่สูงกว่าซึ่งในกรณีนี้ฉันพิจารณาถึงเอฟเฟกต์ลำดับล่างที่ไม่น่าสนใจทางวิทยาศาสตร์ (แต่ดูด้านล่างเพื่อหาข้อโต้แย้งที่อาจเกิดขึ้นได้) สำหรับสถานการณ์ที่หายากเหล่านั้นเมื่อ (1) …

4
เรื่องราวสงครามที่การตัดสินใจผิดพลาดนั้นขึ้นอยู่กับข้อมูลทางสถิติ?
ฉันคิดว่ามันยุติธรรมที่จะบอกว่าสถิติเป็นวิทยาศาสตร์ประยุกต์ดังนั้นเมื่อมีการคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานมันเป็นเพราะมีใครบางคนกำลังมองหาการตัดสินใจบางอย่างขึ้นอยู่กับตัวเลขเหล่านั้น ส่วนหนึ่งของการเป็นนักสถิติที่ดีฉันก็หวังว่าจะสามารถ "รับรู้" ได้เมื่อข้อมูลตัวอย่างสามารถเชื่อถือได้และเมื่อการทดสอบทางสถิติบางอย่างบิดเบือนความจริงในข้อมูลจริงที่เราสนใจเป็นโปรแกรมเมอร์ที่สนใจในการวิเคราะห์ ชุดข้อมูลขนาดใหญ่ฉันกำลังเรียนรู้สถิติและทฤษฎีความน่าจะเป็นบางอย่าง แต่ฉันไม่สามารถสั่นคลอนความรู้สึกที่ดุด่าว่าหนังสือทุกเล่มที่ฉันดูเป็นเหมือนนักการเมืองที่ลุกขึ้นมาบนเวทีและพูดสิ่งต่าง ๆ ทั้งหมดแล้วต่อท้าย ข้อจำกัดความรับผิดชอบต่อไปนี้ในตอนท้ายของคำพูดของพวกเขา: ตอนนี้ฉันไม่ได้พูดว่ามันดีหรือไม่ดี แต่ตัวเลขบอกว่ามันดีดังนั้นคุณควรโหวตให้ฉัน บางทีคุณอาจได้รับสิ่งนั้น แต่บางทีคุณอาจไม่ได้คำถามนี้ ฉันจะไปหาเรื่องราวสงครามโดยนักสถิติที่การตัดสินใจบางอย่างอยู่บนพื้นฐานของข้อมูลทางสถิติที่ภายหลังกลายเป็นผิดอย่างสมบูรณ์?

2
ตีแล้วรัน MCMC
ฉันกำลังพยายามใช้อัลกอริทึม MCMC ที่ได้รับความนิยมและใช้งาน แต่ฉันมีปัญหาเล็กน้อยในการทำความเข้าใจว่าจะทำอย่างไร ความคิดทั่วไปมีดังนี้: ในการสร้างข้อเสนอกระโดดเป็น MH เรา: สร้างทิศทางจากการกระจายบนพื้นผิวของทรงกลมยูนิตOdddOO\mathcal{O} สร้างระยะทางที่ลงนามตามพื้นที่ จำกัดλλ\lambda อย่างไรก็ตามฉันไม่มีความคิดว่าฉันควรนำไปใช้ใน R (หรือภาษาอื่น ๆ ) อย่างไร ไม่มีใครมีตัวอย่างของรหัสที่จะชี้ให้ฉันไปในทิศทางที่ถูกต้องหรือไม่ BTW ฉันไม่สนใจห้องสมุดที่ใช้วิธีนี้ฉันต้องการลองและเขียนโค้ดเอง ขอบคุณมาก.
16 r  bayesian  mcmc 

1
การถดถอยโลจิสติก - ความกังวลหลายฝ่าย / ข้อผิดพลาด
ใน Logistic Regression คุณจำเป็นต้องมีความกังวลเกี่ยวกับ multicollinearity เหมือนกับที่คุณต้องการในการถดถอย OLS หรือไม่ ตัวอย่างเช่นเมื่อมีการถดถอยโลจิสติกที่มีความสัมพันธ์หลายสีอยู่คุณจะต้องระมัดระวัง (เช่นเดียวกับใน OLS ถดถอย) ด้วยการอนุมานจากค่าสัมประสิทธิ์เบต้าหรือไม่ สำหรับ OLS regression หนึ่ง "แก้ไข" เพื่อความหลากสีสูงคือการถดถอยสันมีอะไรแบบนั้นสำหรับการถดถอยโลจิสติก? นอกจากนี้การวางตัวแปรหรือการรวมตัวแปร วิธีใดที่เหมาะสมสำหรับการลดผลกระทบของความหลากสีในการถดถอยโลจิสติก พวกมันเหมือนกับ OLS หรือเปล่า? (หมายเหตุ: นี่ไม่ได้มีวัตถุประสงค์เพื่อการทดสอบที่ออกแบบมา)

4
ใครใช้ R กับแพ็คเกจ multicore, SNOW หรือ CUDA สำหรับการคำนวณที่เข้มข้นของทรัพยากร
ใครของคุณในฟอรัมนี้ใช้ "> R กับmulticore , snow packages หรือCUDAดังนั้นสำหรับการคำนวณขั้นสูงที่ต้องใช้พลังงานมากกว่า CPU แบบเวิร์กสเตชัน? คุณใช้คอมพิวเตอร์เครื่องไหนในการคำนวณสคริปต์เหล่านี้ที่บ้าน / ที่ทำงานหรือคุณมี เข้าถึงศูนย์ข้อมูลได้ที่ไหน? พื้นหลังของคำถามเหล่านี้มีดังต่อไปนี้: ฉันกำลังเขียน วท.ม. วิทยานิพนธ์เกี่ยวกับ R และการคำนวณที่มีประสิทธิภาพสูงและต้องการความรู้อย่างมากเกี่ยวกับผู้ที่ใช้อาร์จริงฉันอ่านว่า R มีผู้ใช้ 1 ล้านคนในปี 2008 แต่นั่นเป็นสถิติผู้ใช้เพียงอย่างเดียวที่ฉันสามารถหาได้ในหัวข้อนี้ คำตอบ! ขอแสดงความนับถือเฮ็น

3
วิธีการใส่ค่าบนแท่งใน barplot ใน R [Closed]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา คำถามนี้เป็นคำถามที่เกี่ยวข้องกับคำถามก่อนหน้านี้ของฉัน ฉันต้องการที่จะใส่ค่ามากกว่าแถบใน barplot ฉันกำลังเริ่มต้นในการวางแผนใน R

3
การตีความคะแนน PCA
มีใครช่วยฉันในการตีความคะแนน PCA หรือไม่ ข้อมูลของฉันมาจากแบบสอบถามเกี่ยวกับทัศนคติที่มีต่อหมี จากการโหลดฉันได้ตีความองค์ประกอบหลักอย่างหนึ่งของฉันว่า "กลัวหมี" คะแนนขององค์ประกอบหลักนั้นจะเกี่ยวข้องกับวิธีการที่ผู้ตอบแต่ละคนประเมินถึงองค์ประกอบหลักนั้นหรือไม่
16 pca 

3
การทดสอบทางสถิติที่ดีที่สุดสำหรับอนุกรมเวลาคืออะไร?
ฉันมีอนุกรมเวลาอย่างง่ายพร้อมจุดข้อมูล 5-10 จุดต่อชุดข้อมูลในช่วงเวลาปกติ ฉันสงสัยว่าอะไรเป็นวิธีที่ดีที่สุดในการพิจารณาว่าชุดข้อมูลสองชุดนั้นแตกต่างกันหรือไม่ ฉันควรลองทดสอบ t บนจุดข้อมูลแต่ละจุดหรือดูบริเวณใต้เส้นโค้งหรือมีตัวแบบหลายตัวแปรหลายตัวที่จะทำงานได้ดีขึ้นหรือไม่

7
คำจำกัดความของ "ดีที่สุด" ที่ใช้ในคำว่า "เหมาะสมที่สุด" และการตรวจสอบข้ามคืออะไร
หากคุณใส่ฟังก์ชั่นที่ไม่เป็นเชิงเส้นเข้ากับชุดของคะแนน (สมมติว่ามีเพียงหนึ่งการจัดอันดับสำหรับแต่ละ abscissa) ผลลัพธ์อาจเป็น: ฟังก์ชั่นที่ซับซ้อนมากพร้อมสิ่งตกค้างน้อย ฟังก์ชั่นที่ง่ายมากที่มีของเหลือใช้ขนาดใหญ่ การตรวจสอบความถูกต้องไขว้มักใช้เพื่อค้นหาการประนีประนอม "สุดยอด" ระหว่างสุดขั้วทั้งสองนี้ แต่ "ดีที่สุด" หมายถึงอะไร มัน "น่าจะ" มากที่สุด? คุณจะเริ่มพิสูจน์ได้อย่างไรว่าทางออกที่เป็นไปได้มากที่สุดคืออะไร? เสียงภายในของฉันบอกฉันว่า CV กำลังค้นหาวิธีแก้ปัญหาพลังงานขั้นต่ำ สิ่งนี้ทำให้ฉันคิดถึงเอนโทรปีซึ่งฉันรู้ว่าเกิดขึ้นทั้งในเชิงสถิติและฟิสิกส์ สำหรับฉันแล้วดูเหมือนว่าพอดี "ดีที่สุด" ถูกสร้างขึ้นโดยลดผลรวมของฟังก์ชั่นของความซับซ้อนและข้อผิดพลาดเช่น minimising m where m = c(Complexity) + e(Error) สิ่งนี้สมเหตุสมผลหรือไม่? ฟังก์ชัน c และ e จะเป็นอะไร? โปรดอธิบายด้วยการใช้ภาษาที่ไม่ใช่คณิตศาสตร์เพราะฉันจะไม่เข้าใจคณิตศาสตร์มาก

5
อัลกอริทึมออนไลน์สำหรับค่าเบี่ยงเบนสัมบูรณ์เฉลี่ยและชุดข้อมูลขนาดใหญ่
ฉันมีปัญหาเล็กน้อยที่ทำให้ฉันประหลาดใจ ฉันต้องเขียนขั้นตอนสำหรับกระบวนการซื้อแบบออนไลน์ของอนุกรมเวลาหลายตัวแปร ในทุกช่วงเวลา (เช่น 1 วินาที) ฉันจะได้รับตัวอย่างใหม่ซึ่งโดยทั่วไปเป็นเวกเตอร์จุดลอยตัวของขนาด N การดำเนินการที่ฉันต้องทำค่อนข้างยุ่งยากเล็กน้อย: สำหรับตัวอย่างใหม่แต่ละอันฉันคำนวณเปอร์เซ็นต์สำหรับตัวอย่างนั้น (โดยการทำให้เวกเตอร์เป็นมาตรฐานเพื่อให้องค์ประกอบรวมเป็น 1) ฉันคำนวณเปอร์เซ็นต์เฉลี่ยของเวคเตอร์ในวิธีเดียวกัน แต่ใช้ค่าที่ผ่านมา สำหรับค่าในแต่ละครั้งที่ผ่านมาฉันคำนวณค่าเบี่ยงเบนสัมบูรณ์ของเปอร์เซ็นต์เวกเตอร์ที่เกี่ยวข้องกับตัวอย่างนั้นกับค่าเฉลี่ยเวกเตอร์เปอร์เซ็นต์ส่วนกลางที่คำนวณได้ในขั้นตอนที่ 2 ด้วยวิธีนี้ค่าเบี่ยงเบนสัมบูรณ์จะเป็นจำนวนเสมอระหว่าง 0 (เมื่อเวกเตอร์เท่ากับค่าเฉลี่ย เวกเตอร์) และ 2 (เมื่อแตกต่างกันโดยสิ้นเชิง) การใช้ค่าเฉลี่ยของการเบี่ยงเบนสำหรับตัวอย่างก่อนหน้านี้ทั้งหมดฉันคำนวณค่าเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยซึ่งเป็นตัวเลขอีกครั้งระหว่าง 0 ถึง 2 ฉันใช้การเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยเพื่อตรวจสอบว่าตัวอย่างใหม่เข้ากันได้กับตัวอย่างอื่น (โดยการเปรียบเทียบการเบี่ยงเบนสัมบูรณ์กับการเบี่ยงเบนสัมบูรณ์แบบเฉลี่ยของทั้งชุดคำนวณในขั้นตอนที่ 4) เนื่องจากทุกครั้งที่มีการเก็บตัวอย่างใหม่จะมีการเปลี่ยนแปลงค่าเฉลี่ยทั่วโลก (และดังนั้นค่าเบี่ยงเบนสัมบูรณ์ที่เปลี่ยนแปลงเช่นกัน) มีวิธีคำนวณค่านี้โดยไม่สแกนข้อมูลทั้งหมดที่ตั้งไว้หลายครั้งหรือไม่ (หนึ่งครั้งสำหรับการคำนวณเปอร์เซ็นต์เฉลี่ยทั่วโลกและหนึ่งครั้งสำหรับการรวบรวมค่าเบี่ยงเบนสัมบูรณ์) ตกลงฉันรู้ว่ามันง่ายมากที่จะคำนวณค่าเฉลี่ยทั่วโลกโดยไม่ต้องสแกนทั้งชุดเนื่องจากฉันต้องใช้เวกเตอร์ชั่วคราวเพื่อเก็บผลรวมของแต่ละมิติ แต่สิ่งที่เกี่ยวกับการเบี่ยงเบนสัมบูรณ์แบบเฉลี่ย การคำนวณมันรวมถึงabs()โอเปอเรเตอร์ดังนั้นฉันจำเป็นต้องเข้าถึงข้อมูลที่ผ่านมาทั้งหมด! ขอบคุณสำหรับความช่วยเหลือของคุณ.

5
การตรวจสอบสมมติฐานของโนวา
ไม่กี่เดือนที่ผ่านมาฉันโพสต์คำถามเกี่ยวกับการทดสอบความเป็นเนื้อเดียวกันใน R บน SO และ Ian Fellows ตอบว่า (ฉันจะถอดความคำตอบของเขาอย่างหลวม ๆ ): การทดสอบความเป็นเนื้อเดียวกันนั้นไม่ใช่เครื่องมือที่ดีเมื่อทำการทดสอบความดีของแบบจำลองของคุณ ด้วยตัวอย่างขนาดเล็กคุณไม่มีพลังมากพอที่จะตรวจจับขาออกจากกระเทยขณะที่กลุ่มตัวอย่างขนาดใหญ่คุณมี "พลังมากมาย" ดังนั้นคุณจึงมีแนวโน้มที่จะคัดกรองแม้กระทั่งการออกเดินทางเล็กน้อยจากความเท่าเทียมกัน คำตอบที่ยอดเยี่ยมของเขามาเป็นตบหน้าฉัน ฉันเคยตรวจสอบความเป็นมาตรฐานและข้อสมมุติฐานเรื่องความเป็นเนื้อเดียวกันทุกครั้งที่ฉันใช้ ANOVA ในความเห็นของคุณคือวิธีปฏิบัติที่ดีที่สุดเมื่อตรวจสอบสมมติฐานของ ANOVA

3
Non-Parametric ทำซ้ำมาตรการ Anova หลายทางใน R หรือไม่?
คำถามต่อไปนี้เป็นหนึ่งใน grails ศักดิ์สิทธิ์สำหรับฉันในขณะนี้ฉันหวังว่าบางคนอาจจะสามารถให้คำแนะนำที่ดี ฉันต้องการที่จะดำเนินการที่ไม่ใช่พารามิเตอร์ซ้ำหลายวิธี anova โดยใช้อาร์ ฉันได้ทำการค้นหาและอ่านทางออนไลน์มาระยะหนึ่งแล้วและจนถึงตอนนี้ก็สามารถหาวิธีแก้ปัญหาสำหรับบางกรณีเท่านั้น: การทดสอบของทอดแมนสำหรับวิธีหนึ่งที่ไม่ใช่พารามิเตอร์วัดซ้ำ anova, การถดถอยเชิงอันดับด้วย {car} ฟังก์ชันโนวาสำหรับหลายพารามิเตอร์ โนวาและอื่น ๆ การแก้ปัญหาบางส่วนไม่ใช่สิ่งที่ฉันกำลังมองหาในกระทู้คำถามนี้ ฉันได้สรุปสิ่งที่ค้นพบของฉันแล้วในโพสต์ที่ฉันเผยแพร่เมื่อไม่นานมานี้ (ชื่อ: มาตรการ ANOVA ซ้ำกับ R (ฟังก์ชั่นและแบบฝึกหัด) ซ้ำแล้วซ้ำอีกในกรณีที่มันจะช่วยทุกคน) หากสิ่งที่ฉันอ่านออนไลน์เป็นจริงงานนี้อาจจะประสบความสำเร็จโดยใช้รูปแบบการถดถอยตามแบบผสม (aka: Proportional Odds Model) ฉันพบสองแพ็คเกจที่ดูเหมือนว่ามีความเกี่ยวข้อง แต่ไม่พบบทความสั้น ๆ ในเรื่อง: http://cran.r-project.org/web/packages/repolr/ http://cran.r-project.org/web/packages/ordinal/ ดังนั้นเมื่อฉันยังใหม่กับเรื่องนี้ฉันหวังว่าจะได้คำแนะนำจากผู้คนที่นี่ มีบทเรียน / ข้อแนะนำในการอ่านเกี่ยวกับเรื่องนี้หรือไม่? ยิ่งไปกว่านั้นบางคนสามารถแนะนำรหัสตัวอย่างง่ายๆสำหรับวิธีการเรียกใช้และวิเคราะห์สิ่งนี้ใน R (เช่น: "ไม่ใช่มาตรการซ้ำหลายพารามิเตอร์แบบหลายทาง anova")

1
EM มีคำอธิบายที่เข้าใจง่ายไหม?
ขั้นตอน EM จะปรากฏขึ้นต่อผู้ที่ไม่ได้ฝึกหัดเป็นเวทย์มนตร์ดำมากหรือน้อย ประมาณการพารามิเตอร์ของ HMM (ตัวอย่าง) โดยใช้ข้อมูลที่มีการตรวจสอบ จากนั้นถอดรหัสข้อมูลที่ไม่ได้ติดแท็กโดยใช้การย้อนกลับไปข้างหน้าเพื่อเหตุการณ์ 'นับ' ราวกับว่าข้อมูลถูกแท็กมากหรือน้อย ทำไมสิ่งนี้ถึงทำให้โมเดลดีขึ้น? ฉันรู้อะไรบางอย่างเกี่ยวกับคณิตศาสตร์ แต่ฉันอยากให้ภาพจิตของมัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.