สถิติและข้อมูลขนาดใหญ่

ถามตอบสำหรับผู้ที่สนใจในสถิติการเรียนรู้ของเครื่องจักรการวิเคราะห์ข้อมูลการขุดข้อมูล

3
สร้างคู่ของตัวเลขสุ่มกระจายอย่างสม่ำเสมอและมีความสัมพันธ์
ฉันต้องการสร้างตัวเลขสุ่มคู่ที่มีความสัมพันธ์บางอย่าง อย่างไรก็ตามวิธีการปกติของการใช้การรวมกันเชิงเส้นของตัวแปรปกติสองตัวนั้นไม่ถูกต้องที่นี่เนื่องจากการรวมกันเชิงเส้นของตัวแปรชุดไม่ได้เป็นตัวแปรการกระจายแบบสม่ำเสมออีกต่อไป ฉันต้องการตัวแปรสองตัวที่เหมือนกัน ความคิดเกี่ยวกับวิธีการสร้างคู่ของตัวแปรเครื่องแบบที่มีความสัมพันธ์ที่กำหนด?

4
ตัวอย่างการปฏิบัติสำหรับ MCMC
ฉันกำลังจะไปบรรยายที่เกี่ยวข้องกับ MCMC อย่างไรก็ตามฉันไม่พบตัวอย่างที่ดีของวิธีการใช้งาน ใครช่วยยกตัวอย่างที่เป็นรูปธรรมให้ฉันได้บ้าง ทั้งหมดที่ฉันเห็นคือพวกเขาใช้โซ่มาร์คอฟและบอกว่าการกระจายแบบคงที่คือการกระจายที่ต้องการ ฉันต้องการตัวอย่างที่ดีที่การแจกแจงที่ต้องการนั้นยากที่จะสุ่มตัวอย่าง ดังนั้นเราจึงสร้างเชนมาร์คอฟ ฉันต้องการทราบวิธีการเลือกเมทริกซ์การเปลี่ยนแปลงเพื่อให้การกระจายแบบคงที่ของเชนมาร์คอฟคือการกระจายเป้าหมายขอบคุณ

2
การเพิ่มประสิทธิภาพ: รากของความชั่วร้ายทั้งหมดในสถิติหรือไม่
ฉันเคยได้ยินนิพจน์ต่อไปนี้มาก่อน: "การเพิ่มประสิทธิภาพเป็นรากฐานของความชั่วร้ายทั้งหมดในสถิติ" ตัวอย่างเช่นคำตอบที่ดีที่สุดในหัวข้อนี้ทำให้คำสั่งนั้นอ้างอิงถึงอันตรายของการปรับให้เหมาะสมเกินไปในระหว่างการเลือกแบบจำลอง คำถามแรกของฉันคือต่อไปนี้: คำพูดนี้เป็นของใครโดยเฉพาะ? (เช่นในเอกสารสถิติ) จากสิ่งที่ฉันเข้าใจข้อความดังกล่าวหมายถึงความเสี่ยงของการมีน้ำหนักเกิน ภูมิปัญญาดั้งเดิมจะบอกว่าการตรวจสอบข้ามที่เหมาะสมได้ต่อสู้กับปัญหานี้อยู่แล้ว แต่ดูเหมือนว่าปัญหานี้จะมีมากกว่านั้น นักสถิติและผู้ปฏิบัติงาน ML ควรระมัดระวังในการเพิ่มประสิทธิภาพโมเดลของพวกเขาแม้ในขณะที่ปฏิบัติตามโปรโตคอลการตรวจสอบข้ามที่เข้มงวด (เช่น 100 ซ้อน CV 10 เท่า) ถ้าเป็นเช่นนั้นเราจะรู้ได้อย่างไรว่าเมื่อไรที่จะหยุดการค้นหานางแบบ "ดีที่สุด"?

1
นี่เป็นวิธีที่ยอมรับได้ในการวิเคราะห์แบบจำลองเอฟเฟกต์แบบผสมด้วย lme4 ใน R หรือไม่?
ฉันมีชุดข้อมูลการวัดซ้ำ ๆ ที่ไม่สมดุลในการวิเคราะห์และฉันได้อ่านว่าแพคเกจทางสถิติส่วนใหญ่จัดการกับ ANOVA (เช่นผลรวมสี่เหลี่ยมจัตุรัสประเภท III) ผิด ดังนั้นฉันต้องการใช้โมเดลเอฟเฟกต์แบบผสมเพื่อวิเคราะห์ข้อมูลเหล่านี้ ฉันได้อ่านเกี่ยวกับโมเดลมิกซ์Rมากมายแล้ว แต่ฉันยังใหม่กับRโมเดลเอฟเฟกต์แบบผสมและไม่ค่อยมั่นใจว่าฉันกำลังทำสิ่งที่ถูกต้อง โปรดทราบว่าฉันยังไม่สามารถหย่าร้างกับวิธีการ "ดั้งเดิม" ทั้งหมดและยังคงต้องใช้ค่าและค่าการทดสอบหลังการทดสอบพีพีp ฉันต้องการทราบว่าวิธีการต่อไปนี้สมเหตุสมผลหรือไม่หรือหากฉันกำลังทำสิ่งผิดปกติอย่างน่ากลัว นี่คือรหัสของฉัน: # load packages library(lme4) library(languageR) library(LMERConvenienceFunctions) library(coda) library(pbkrtest) # import data my.data <- read.csv("data.csv") # create separate data frames for each DV & remove NAs region.data <- na.omit(data.frame(time=my.data$time, subject=my.data$subject, dv=my.data$dv1)) # output summary of data …

4
การอนุมานสำหรับตัวอ่านที่สงสัย (แต่ไม่ใช่เชิงคณิตศาสตร์)
ฉันเพิ่งดูการบรรยายเรื่องการอนุมานเชิงสถิติ ("การเปรียบเทียบสัดส่วนและความหมาย") ซึ่งเป็นส่วนหนึ่งของคำแนะนำเกี่ยวกับสถิติหลักสูตรออนไลน์ วัสดุที่ทำให้ฉันรู้สึกเหมือนมันเป็นเรื่องเล็กน้อยเสมอ (โดยตอนนี้ฉันต้องเห็นสิ่งนี้หลายสิบครั้งกระจายออกไปในช่วงสามทศวรรษที่ผ่านมา) ฉันกำลังมองหาหนังสือเกี่ยวกับ "basic Stats-101" (การประมาณจุด, การประเมินแบบประเมิน, การอนุมานเชิงสถิติ, การทดสอบสมมติฐาน, การออกแบบการศึกษา) ที่จริงจังกับปัญหาในการโน้มน้าวผู้อ่านที่สงสัย ... ด้านล่างฉันให้ตัวอย่างของ ประเภทของคำถามที่ผู้เขียนที่ฉันค้นหาจะใช้เวลาอย่างจริงจังและรู้วิธีการพูดอย่างมั่นใจ แต่ก่อนอื่นให้ฉันใช้เวลาสักครู่เพื่อเน้นว่าในโพสต์นี้ฉันไม่ได้ถามคำถามเหล่านี้ ได้โปรดอย่าตอบพวกเขา! ฉันให้พวกเขาเป็นเพียงตัวอย่างและผ่าน "การทดสอบสารสีน้ำเงิน" (สำหรับประเภทของผู้แต่งที่กำลังค้นหา) หาก "สัดส่วน" เป็นเพียงค่าเฉลี่ยของตัวแปรบูลีน (เช่นหนึ่งที่รับเฉพาะค่า 0 และ 1) ทำไมโพรซีเดอร์ที่แตกต่างกันจึงสอนให้ทำการอนุมานเชิงสถิติด้วย "สัดส่วน" และกับ "หมายถึง"? หากการแจกแจงแบบปกตินั้นแข็งแกร่งมากซึ่งสมมติว่า normality ให้ผลลัพธ์ที่ดีแม้ในกรณีที่ข้อมูลนั้นไม่ได้ถูกกระจายตามปกติและหากการแจกแจงแบบปกตินั้นดูธรรมดามากทำไมเอะอะทั้งหมดเกี่ยวกับการใช้การแจกแจงแบบ t แทน ปกติ? สิ่งที่ว่าคือ "องศาความเป็นอิสระ" และทำไมเราต้องกังวลเกี่ยวกับพวกเขา? การพูดถึงค่า "จริง" ของพารามิเตอร์หมายความว่าอย่างไรเมื่อเราเพิ่งใช้การแจกแจงที่เกิดขึ้นเพื่อให้ดูเหมือนกับข้อมูล "การวิเคราะห์ข้อมูลเชิงสำรวจ" ทำไมเป็นสิ่งที่ดีในขณะที่ "การสอดแนมข้อมูล" เป็นสิ่งที่ชั่วร้าย? ดังที่ฉันได้กล่าวไปแล้วฉันถูกเลื่อนออกไปจากทัศนคติที่บอกเป็นนัยจากการละเลยคำถามดังกล่าว …

2
ความสัมพันธ์ระหว่างการทดสอบของ McNemar กับการถดถอยโลจิสติกตามเงื่อนไข
ฉันสนใจในการสร้างแบบจำลองของข้อมูลการตอบสนองแบบไบนารีในการสังเกตคู่ เราตั้งเป้าหมายที่จะทำการอนุมานเกี่ยวกับประสิทธิผลของการแทรกแซงก่อนการโพสต์ในกลุ่มอาจปรับเปลี่ยนสำหรับ covariates หลายคนและพิจารณาว่ามีการแก้ไขผลกระทบโดยกลุ่มที่ได้รับการฝึกอบรมที่แตกต่างกันโดยเฉพาะอย่างยิ่งเป็นส่วนหนึ่งของการแทรกแซง รับข้อมูลของแบบฟอร์มต่อไปนี้: id phase resp 1 pre 1 1 post 0 2 pre 0 2 post 0 3 pre 1 3 post 0 และตารางฉุกเฉินของข้อมูลที่ตอบสนองต่อการจับคู่:2 × 22×22 \times 2 เสาแก้ไขไม่ถูกต้องPreแก้ไขaคไม่ถูกต้องขdPreแก้ไขไม่ถูกต้องเสาแก้ไขaขไม่ถูกต้องคd\begin{array}{cc|cc} & & \mbox{Pre} & \\ & & \mbox{Correct} & \mbox{Incorrect} \\ \hline \mbox{Post} & \mbox{Correct} & a & …

5
วิธีการสร้างข้อมูลที่ไม่สัมพันธ์กัน
ฉันสนใจที่จะหาวิธีในการสร้างข้อมูลที่มีความสัมพันธ์และไม่ปกติ ดังนั้นการกระจายบางอย่างที่ใช้ในเมทริกซ์ความแปรปรวนร่วม (หรือสหสัมพันธ์) เป็นพารามิเตอร์และสร้างข้อมูลที่ใกล้เคียงกับมัน แต่นี่คือสิ่งที่จับได้: วิธีที่ฉันพยายามค้นหาควรมีความยืดหยุ่นในการควบคุมความเบ้และ / หรือ kurtosis หลายตัวแปรด้วย ฉันคุ้นเคยกับวิธีของเฟลชแมนและวิธีการใช้พลังงานของตัวแปรปกติ แต่ฉันเชื่อว่าส่วนขยายเหล่านั้นส่วนใหญ่อนุญาตให้ผู้ใช้ใช้การรวมกันของความเบ้เล็กน้อยและความโด่งเท่านั้นทำให้เหลือความเบ้ / ความหลายหลาก สิ่งที่ฉันสงสัยคือถ้ามีวิธีที่ช่วยระบุความเบ้หลายตัวแปรและ / หรือ kurtosis พร้อมกับโครงสร้างความสัมพันธ์ / ความแปรปรวนร่วมบางอย่าง ประมาณหนึ่งปีที่ผ่านมาฉันได้สัมมนาเกี่ยวกับการแจกแจงแบบโคคูล่าและฉันจำได้ว่าศาสตราจารย์กล่าวอย่างไม่ตั้งใจว่าผ่านการใช้เถาวัลย์โคโพลีสเราสามารถสร้างข้อมูลซึ่งกล่าวคือสมมาตรในระยะขอบ 1-D แต่ร่วมกันเบ้ -versa หรือยิ่งไปกว่านั้นอัตรากำไรขั้นต้นที่ต่ำกว่าอาจมีความเบ้หรือความโด่งในขณะที่ยังคงมีขนาดสมมาตรสูงสุด (หรือไม่) ฉันประหลาดใจกับความคิดที่ว่ามีความยืดหยุ่นเช่นนี้ฉันพยายามค้นหาบทความหรือเอกสารการประชุมที่อธิบายวิธีการดังกล่าว แต่ฉันไม่ประสบความสำเร็จ :( มันไม่จำเป็นต้องผ่านการใช้ copulas ฉันเปิดรับทุกอย่างที่ใช้ได้ แก้ไข: ฉันได้เพิ่มรหัส R เพื่อพยายามแสดงสิ่งที่ฉันหมายถึง จนถึงตอนนี้ฉันคุ้นเคยกับคำจำกัดความของความเบ้หลายตัวแปรและความโด่งของ Mardia เท่านั้น เมื่อฉันเข้าหาปัญหาของฉันครั้งแรกฉันคิดอย่างไร้เดียงสาว่าถ้าฉันใช้ copula symmetric (Gaussian ในกรณีนี้) กับ marginals ที่เบ้ (เบต้าในตัวอย่างนี้) การทดสอบ …

2
ทำไมความน่าจะเป็นศูนย์สำหรับค่าที่กำหนดจากการแจกแจงแบบปกติคืออะไร?
ฉันสังเกตว่าในการแจกแจงแบบปกติความน่าจะเป็นเท่ากับศูนย์ในขณะที่การแจกแจงปัวซองนั้นจะไม่เท่ากับศูนย์เมื่อเป็นจำนวนเต็มที่ไม่เป็นลบcP( x = c )P(x=c)P(x=c)คcc คำถามของฉันคือความน่าจะเป็นของค่าคงที่ใด ๆ ในการแจกแจงแบบปกติเท่ากับศูนย์หรือไม่เพราะมันหมายถึงพื้นที่ภายใต้โค้งใด ๆ หรือเป็นเพียงกฎที่จะจดจำเท่านั้น?

6
วิธีการแยกชุดข้อมูลเพื่อทำการตรวจสอบความถูกต้องไขว้ 10 เท่า
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ตอนนี้ฉันมีRกรอบข้อมูล (การฝึกอบรม) ทุกคนสามารถบอกฉันได้ว่าจะแยกชุดข้อมูลนี้เป็นการสุ่มตรวจสอบข้าม 10 เท่าได้อย่างไร

3
ข้อผิดพลาดมาตรฐานของค่ามัธยฐาน
สูตรต่อไปนี้ถูกต้องหรือไม่หากฉันต้องการวัดความคลาดเคลื่อนมาตรฐานของค่ามัธยฐานในกรณีตัวอย่างขนาดเล็กที่มีการแจกแจงแบบไม่ปกติ (ฉันใช้ไพ ธ อน) sigma=np.std(data) n=len(data) sigma_median=1.253*sigma/np.sqrt(n)

2
การถดถอยแบบขั้นตอนจัดเตรียมการประมาณแบบเอนเอียงของประชากร r-square หรือไม่?
ในด้านจิตวิทยาและสาขาอื่น ๆ รูปแบบของการถดถอยแบบขั้นตอนมักถูกใช้ซึ่งเกี่ยวข้องกับสิ่งต่อไปนี้: ดูตัวทำนายที่เหลือ (ไม่มีตัวแบบในตอนแรก) และระบุตัวทำนายที่ทำให้เกิดการเปลี่ยนแปลง r-square ที่ใหญ่ที่สุด หากค่า p ของการเปลี่ยนแปลง r-square น้อยกว่าอัลฟา (โดยทั่วไปคือ. 05) ให้รวมตัวทำนายนั้นและกลับไปที่ขั้นตอนที่ 1 มิฉะนั้นหยุด ตัวอย่างเช่นดูขั้นตอนนี้ในโปรแกรม SPSS ขั้นตอนการวิพากษ์วิจารณ์เป็นประจำด้วยเหตุผลที่หลากหลาย (ดูการสนทนานี้ในเว็บไซต์ Stata พร้อมการอ้างอิง ) โดยเฉพาะอย่างยิ่งเว็บไซต์ Stata สรุปความคิดเห็นหลายประการโดย Frank Harrell ฉันสนใจข้อเรียกร้อง: [การถดถอยแบบขั้นตอน] ให้ค่า R-squared ที่มีความเอนเอียงไม่ดีที่จะสูง โดยเฉพาะบางส่วนของการวิจัยในปัจจุบันของฉันมุ่งเน้นไปที่การประมาณการประชากร R-ตาราง จากประชากร r-square ฉันอ้างถึงเปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดยข้อมูลประชากรที่สร้างสมการในประชากร วรรณกรรมที่มีอยู่ส่วนใหญ่ที่ฉันกำลังตรวจสอบได้ใช้ขั้นตอนการถดถอยแบบขั้นตอนและฉันต้องการทราบว่าการประเมินที่ให้นั้นมีความลำเอียงหรือไม่และถ้าเป็นเช่นนั้น โดยเฉพาะอย่างยิ่งการศึกษาทั่วไปจะมีตัวทำนาย 30 ตัว n = 200 อัลฟาของการป้อน. 05 และการประมาณ …

5
แพ็คเกจ KNN imputation R
ฉันกำลังมองหาแพ็คเกจใส่ข้อมูลของ KNN ฉันดูแพคเกจ imputation ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ) แต่ด้วยเหตุผลบางอย่างฟังก์ชั่น KNN impute (แม้เมื่อทำตามตัวอย่างจากคำอธิบาย) ดูเหมือนว่า เพื่อกำหนดค่าศูนย์ (ตามด้านล่าง) ฉันได้รับการมองไปรอบ ๆ แต่ยังไม่สามารถหาอะไรได้และด้วยเหตุนี้จึงสงสัยว่าใครมีคำแนะนำอื่น ๆ สำหรับแพ็คเกจการใส่ KNN ที่ดี? W ในรหัสต่อไปนี้ - ค่า NA จะถูกแทนที่ด้วยศูนย์ - ไม่ใช่ด้วยค่าเฉลี่ย Knn require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

2
คุณเปรียบเทียบกระบวนการแบบเกาส์สองกระบวนการได้อย่างไร
Kullback-Leibler แตกต่างเป็นตัวชี้วัดเพื่อเปรียบเทียบฟังก์ชั่นความหนาแน่นสองน่าจะเป็น แต่สิ่งที่ตัวชี้วัดที่ใช้ในการเปรียบเทียบสองของ GP XXXและ ?YYY

3
เหตุใดเราจึงใช้วิธี k แทนค่าอัลกอริทึมอื่น
ฉันค้นคว้าเกี่ยวกับ k-mean และสิ่งเหล่านี้คือสิ่งที่ฉันได้รับ: k-mean เป็นหนึ่งในอัลกอริธึมที่ง่ายที่สุดที่ใช้วิธีการเรียนรู้แบบไม่ดูแลเพื่อแก้ปัญหาการจัดกลุ่มที่รู้จัก มันทำงานได้ดีกับชุดข้อมูลขนาดใหญ่ อย่างไรก็ตาม K-Means มีข้อเสียคือ: ความไวสูงต่อค่าผิดปกติและเสียงรบกวน ใช้งานไม่ได้กับรูปร่างของคลัสเตอร์ที่ไม่เป็นวงกลม - ต้องระบุจำนวนของคลัสเตอร์และค่าเริ่มต้นของเมล็ดก่อน ความสามารถต่ำในการส่งผ่านที่เหมาะสมที่สุดในท้องถิ่น มีอะไรที่ยอดเยี่ยมเกี่ยวกับ k-mean หรือไม่เพราะดูเหมือนว่าข้อเสียเปรียบอยู่เหนือสิ่งที่ดีเกี่ยวกับ k-mean โปรดสอนฉัน

1
Confounder - คำจำกัดความ
ตามที่เอ็มแคทซ์ในหนังสือของเขาวิเคราะห์หลายตัวแปร (มาตรา 1.2, หน้า 6), " ปัจจัยรบกวนมีความเกี่ยวข้องกับปัจจัยเสี่ยงที่เกี่ยวข้องและเหตุผลเพื่อผล. " ทำไมต้องปัจจัยรบกวนจะเหตุผลที่เกี่ยวข้องกับผล? มันจะเพียงพอหรือไม่ที่ผู้สับสนจะเชื่อมโยงกับผลลัพธ์?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.