สถิติและข้อมูลขนาดใหญ่ r

5

การตีความความแตกต่างระหว่าง R และ SPSS ด้วยการวิเคราะห์ปัจจัยเชิงสำรวจ

ฉันเป็นนักศึกษาระดับบัณฑิตศึกษาสาขาวิทยาศาสตร์คอมพิวเตอร์ ฉันทำการวิเคราะห์ปัจจัยเชิงสำรวจสำหรับโครงการวิจัย เพื่อนร่วมงานของฉัน (ที่เป็นผู้นำโครงการ) ใช้ SPSS ในขณะที่ฉันต้องการใช้ R สิ่งนี้ไม่สำคัญจนกว่าเราจะค้นพบความแตกต่างที่สำคัญระหว่างสองแพ็คเกจทางสถิติ เราใช้แกนแฟคตอริ่งระหว่างการแยก (โปรดทราบว่าฉันตระหนักดีถึงความแตกต่างระหว่าง PCA และการวิเคราะห์ปัจจัยและเราไม่ได้ใช้ PCAอย่างน้อยก็ไม่ได้ตั้งใจ) จากสิ่งที่ฉันได้อ่านสิ่งนี้ควรสอดคล้องกับวิธี "แกนหลัก" ใน R และ "แกนตัวประกอบแฟคตอริ่งหลัก" หรือ "สแควร์สแควร์น้อยที่สุด" ใน SPSSตามเอกสาร R เราจะใช้วิธีการเอียงหมุน (เฉพาะPromax ) เพราะเราคาดว่าปัจจัยที่มีความสัมพันธ์และมีการตีความเมทริกซ์รูปแบบ การรันสองโพรซีเดอร์ใน R และ SPSS มีความแตกต่างที่สำคัญ เมทริกซ์รูปแบบให้การโหลดที่แตกต่างกัน แม้ว่าสิ่งนี้จะให้ปัจจัยเดียวกันกับความสัมพันธ์ของตัวแปรมากขึ้นหรือน้อยลง แต่ก็มีความแตกต่างระหว่างการโหลดที่สอดคล้องกันถึง 0.15 ซึ่งดูเหมือนจะมากกว่าที่คาดไว้โดยการใช้วิธีการสกัดและการหมุนแบบโปรแม็กซ์ที่แตกต่างกัน อย่างไรก็ตามนั่นไม่ใช่ความแตกต่างที่น่าตกใจที่สุด ความแปรปรวนสะสมที่อธิบายโดยปัจจัยอยู่ที่ประมาณ 40% ในผลลัพธ์ SPSS และ 31% ในผลลัพธ์ R นี่เป็นความแตกต่างอย่างมากและทำให้เพื่อนร่วมงานของฉันต้องการใช้ SPSS …

14 r spss factor-analysis

3

ใครช่วยอธิบายการแปรปรวนเวลาแบบไดนามิกเพื่อพิจารณาความคล้ายคลึงของอนุกรมเวลาได้หรือไม่?

ฉันพยายามเข้าใจการวัดเวลาแปรปรวนแบบไดนามิกสำหรับการเปรียบเทียบอนุกรมเวลาเข้าด้วยกัน ฉันมีชุดข้อมูลสามชุดดังนี้: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, 0.000275608635737, 0.000622665006227, 0.00036075036075, 0.00029057097196, 0.000353232073472, 0.000394710874285, 0.000207555002076, 0.000402738622634, 0, 0.000309693403531, 0.000506521463847, 0.000226988991034, 0.000414164423276, 9.6590360282e-05, 0.000476689865573, 0.000377572210685, 0.000378967314069, 9.25240562546e-05, 0.000172309813044, …

14 r time-series clustering

1

ห้องสมุดการเพิ่มประสิทธิภาพของข้อ จำกัด สำหรับข้อ จำกัด ความเท่าเทียมกันและความไม่เท่าเทียมกัน

คำแนะนำใด ๆ สำหรับการเลือกไลบรารีการเพิ่มประสิทธิภาพที่ จำกัด เหมาะสำหรับฟังก์ชั่นการเพิ่มประสิทธิภาพของฉัน ฉันกำลังลดขนาด ai) ฟังก์ชันที่ไม่ใช่เชิงเส้นด้วยข้อ จำกัด เชิงเส้นตรงและความไม่เท่าเทียมกันและ ii) มีการไล่ระดับสีและ hessian ของฟังก์ชัน ถ้ามันจะช่วยให้การทำงานของผมที่ลดเป็นความแตกต่าง Kullback-Liebler constrOptim เกี่ยวข้องเฉพาะกับข้อ จำกัด ที่ไม่เท่าเทียมกัน Quadprogจัดการ quadratics ความน่าเชื่อถือไม่สนับสนุนข้อ จำกัด ดังนั้นความแตกต่างของ KL จึงไม่สอดคล้องกับโซลูชันเหล่านี้ มีวิธีแก้ปัญหาค่อนข้างน้อยในหน้าR Cran Task สำหรับการปรับให้เหมาะสม เอี่ยมสามารถทำการปรับให้เหมาะสมใน MATLAB โดยใช้ฟังก์ชั่นfmincon () ซึ่งดูเหมือนว่าจะใช้การตกแต่งภายในหรือจุดสะท้อนแสงที่น่าเชื่อถือ เป็นการดีที่มีห้องสมุดที่เหมาะสมกับปัญหาที่กำหนดไว้

14 r optimization software

3

จะใช้ฟังก์ชันทดสอบ Levene ใน R ได้อย่างไร?

ฉันเป็นมือใหม่สำหรับสถิติและ R และฉันมีปัญหากับการใช้ฟังก์ชัน Levene (ฉันต้องการตรวจสอบความเท่าเทียมกันของความแปรปรวนของสองตัวอย่าง) เอกสารบอกว่าฉันควรจะทำงาน: levene.test (y, กลุ่ม) แต่ฉันไม่รู้ว่าควรใส่อะไรเป็นกลุ่ม y? ฉันมีสองตัวอย่างที่แตกต่างกันซึ่งฉันต้องการตรวจสอบความเท่าเทียมกันของความแปรปรวน ฉันควรใส่ค่าตัวอย่างหนึ่งค่าเป็น y และค่าที่สองเป็นพารามิเตอร์กลุ่มหรือไม่ คำใบ้ใด ๆ

14 r variance levenes-test

2

ตัวอย่างการทำเหมืองข้อความด้วย R (แพ็คเกจ TM)

ฉันใช้เวลาสามวันกับเพื่อนtmหลังจากอ่านกระดาษร่างโดยเพื่อนที่เขาสำรวจคลังข้อความด้วย UCINET แสดงคลาวด์ข้อความกราฟเครือข่ายสองโหมดและการแยกย่อยค่าแบบเดี่ยว (พร้อมกราฟิกโดยใช้ Stata) ฉันทำงานภายใต้ปัญหาจำนวนมาก: ใน Mac OS X มีปัญหากับ Java ที่อยู่หลังไลบรารีเช่น Snowball (Stemming) หรือ Rgraphviz (กราฟ) สามารถชี้ให้คนที่ออกแพคเกจไม่ได้ - ผมมองที่tm, wordfishและwordscores, และความรู้เกี่ยวกับ NLTK - แต่การวิจัยถ้าเป็นไปได้ด้วยรหัสบนข้อมูลต้นฉบับเดิมที่ประสบความสำเร็จในการใช้tmหรือสิ่งอื่นใดในการวิเคราะห์ข้อมูลเช่นการอภิปรายของรัฐสภาหรือเอกสารนิติบัญญัติ? ฉันไม่สามารถค้นหาปัญหาได้มากนักและแม้แต่รหัสน้อยกว่าเพื่อเรียนรู้จาก โครงการของฉันคือการอภิปรายในรัฐสภาสองเดือนโดยมีตัวแปรเหล่านี้แจ้งไว้ในไฟล์ CSV: เซสชันรัฐสภาลำโพงกลุ่มรัฐสภาข้อความการแทรกแซงด้วยปากเปล่า ฉันกำลังมองหาความแตกต่างระหว่างลำโพงและโดยเฉพาะอย่างยิ่งระหว่างกลุ่มรัฐสภาในการใช้คำที่หายากและหายากน้อยเช่น "การพูดคุยด้านความปลอดภัย" กับ "การพูดคุยเสรีภาพ"

14 r text-mining

1

วิธีปรับแต่งการปรับให้เรียบใน mgcv GAM model

ฉันพยายามหาวิธีควบคุมพารามิเตอร์การปรับให้เรียบใน mgcv: แบบจำลอง gam ฉันมีตัวแปรทวินามฉันกำลังพยายามสร้างแบบจำลองเป็นฟังก์ชันหลักของพิกัด x และ y บนกริดคงที่รวมถึงตัวแปรอื่น ๆ ที่มีอิทธิพลน้อยกว่า ในอดีตฉันได้สร้างรูปแบบการถดถอยในท้องถิ่นที่ดีพอสมควรโดยใช้แพ็คเกจ locfit และค่า (x, y) อย่างไรก็ตามฉันต้องการลองรวมตัวแปรอื่น ๆ เข้ากับโมเดลและดูเหมือนว่าโมเดลเสริมทั่วไป (GAM) มีความเป็นไปได้ที่ดี หลังจากดูแพ็คเกจเกมและ mgcv ซึ่งทั้งสองอย่างมีฟังก์ชั่น GAM ฉันเลือกใช้หลังเนื่องจากมีความคิดเห็นจำนวนมากในเธรดรายการจดหมายดูเหมือนจะแนะนำ ข้อเสียอย่างหนึ่งก็คือดูเหมือนว่ามันจะไม่สนับสนุนการถดถอยในท้องถิ่นอย่างราบรื่นเช่นเหลืองหรือ locfit ในการเริ่มต้นฉันแค่ต้องการลองทำซ้ำประมาณโมเดล locfit โดยใช้เพียงพิกัด (x, y) ฉันลองด้วยการทำให้ผลิตภัณฑ์เรียบเนียนทั้งปกติและเทนเซอร์: my.gam.te <- gam(z ~ te(x, y), family=binomial(logit), data=my.data, scale = -1) my.gam.s <- gam(z ~ s(x, …

14 r smoothing mgcv

2

วิธีการสำหรับการรวม / ลดหมวดหมู่ในข้อมูลลำดับหรือข้อมูลระบุ?

ฉันกำลังดิ้นรนเพื่อหาวิธีลดจำนวนหมวดหมู่ในข้อมูลที่ระบุหรือลำดับ ตัวอย่างเช่นสมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยบนชุดข้อมูลที่มีปัจจัยจำนวนเล็กน้อยและปัจจัยอันดับหนึ่ง แม้ว่าฉันจะไม่มีปัญหากับขั้นตอนนี้ แต่บ่อยครั้งที่ฉันพบเจอกับสถานการณ์ที่คุณสมบัติเล็กน้อยโดยไม่มีการสังเกตในชุดการฝึกอบรม แต่ต่อมามีอยู่ในชุดข้อมูลการตรวจสอบความถูกต้อง สิ่งนี้นำไปสู่และเกิดข้อผิดพลาดตามธรรมชาติเมื่อแบบจำลองถูกนำเสนอด้วยคดีที่มองไม่เห็น อีกสถานการณ์ที่ฉันต้องการรวมหมวดหมู่เป็นเพียงเมื่อมีหมวดหมู่มากเกินไปโดยมีข้อสังเกตเล็กน้อย ดังนั้นคำถามของฉันคือ: ในขณะที่ฉันรู้ว่ามันอาจจะดีที่สุดที่จะรวมชื่อหลายคน (และลำดับ) ประเภทขึ้นอยู่กับข้อมูลพื้นฐานที่แท้จริงของโลกก่อนที่พวกเขาเป็นตัวแทนที่มีระบบวิธีการ ( Rแพคเกจดีกว่า) ใช้ได้? คุณจะทำแนวทางและคำแนะนำเกี่ยวกับเกณฑ์การตัดและอื่น ๆ คำตอบที่ได้รับความนิยมมากที่สุดในวรรณกรรมคืออะไร มีกลยุทธ์อื่นนอกเหนือจากการรวมหมวดหมู่เล็กน้อยขนาดเล็กเข้ากับหมวดหมู่ "OTHERS" ใหม่หรือไม่? หากคุณมีข้อเสนอแนะอื่น ๆ

14 r categorical-data dimensionality-reduction many-categories

6

วิธีที่รวดเร็วใน R เพื่อให้แถวแรกของเฟรมข้อมูลจัดกลุ่มตามตัวระบุ [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา บางครั้งฉันต้องรับเฉพาะแถวแรกของชุดข้อมูลที่จัดกลุ่มตามตัวระบุเช่นเดียวกับเมื่อดึงข้อมูลอายุและเพศเมื่อมีการสังเกตหลายครั้งต่อบุคคล อะไรคือวิธีที่รวดเร็ว (หรือเร็วที่สุด) ในการทำเช่นนี้ใน R? ฉันใช้การรวม () ด้านล่างและสงสัยว่ามีวิธีที่ดีกว่า ก่อนโพสต์คำถามนี้ฉันค้นหาบิตบน google พบและลองใช้ ddply และรู้สึกประหลาดใจที่มันช้ามากและทำให้ฉันมีข้อผิดพลาดของหน่วยความจำในชุดข้อมูลของฉัน (400,000 แถว x 16 cols, 7,000 ID ที่ไม่ซ้ำ) ในขณะที่รุ่นรวม เร็วพอสมควร (dx <- data.frame(ID = factor(c(1,1,2,2,3,3)), AGE = c(30,30,40,40,35,35), FEM = factor(c(1,1,0,0,1,1)))) # ID AGE FEM # 1 30 1 # …

14 r dataset aggregation plyr

2

การคำนวณค่า p จากการแจกแจงโดยพลการ

ฉันหวังว่านี่ไม่ใช่คำถามงี่เง่า สมมติว่าฉันมีการกระจายอย่างต่อเนื่องโดยพลการ ฉันมีสถิติด้วยและฉันต้องการใช้การแจกแจงแบบสุ่มนี้เพื่อรับค่า p สำหรับสถิตินี้ ฉันรู้ว่าใน R มันง่ายที่จะทำสิ่งนี้ตราบใดที่การกระจายของคุณเหมาะกับหนึ่งในตัวเช่นถ้าเป็นเรื่องปกติ แต่มีวิธีง่ายๆในการทำเช่นนี้กับการแจกแจงแบบใดก็ตามโดยไม่ต้องตั้งสมมติฐานอย่างนั้นหรือ

14 r distributions p-value

2

การตีความเอาต์พุต drop1 ใน R

ใน R drop1คำสั่งจะให้ผลลัพธ์ที่เรียบร้อย คำสั่งทั้งสองนี้ควรให้ผลลัพธ์บางอย่างแก่คุณ: example(step)#-> swiss drop1(lm1, test="F") ฉันมีลักษณะเช่นนี้: > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value Pr(F) <none> 2105.0 190.69 Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 * Examination 1 53.03 …

14 r regression self-study stepwise-regression

5

รหัส MCMC กระโดดแบบกลับได้ (Matlab หรือ R)

ไม่มีใครรู้รหัสบางเขียนดี (ใน Matlab หรือ R) สำหรับกระโดด MCMC ย้อนกลับได้? เป็นแอพพลิเคชั่นตัวอย่างที่ใช้ง่ายเพื่อชมเชยเอกสารในหัวข้อที่จะเป็นประโยชน์ในการทำความเข้าใจกระบวนการ

14 r matlab references mcmc

2

การคำนวณสหสัมพันธ์ (และความสำคัญของสหสัมพันธ์ที่กล่าว) ระหว่างคู่อนุกรมเวลา

ฉันมีอนุกรมเวลาสองตัว S และ T พวกเขามีความถี่เท่ากันและมีความยาวเท่ากัน ฉันต้องการคำนวณ (ใช้ R) ความสัมพันธ์ระหว่างคู่นี้ (เช่น S และ T) และสามารถคำนวณความสำคัญของสหสัมพันธ์ได้ด้วยดังนั้นฉันสามารถระบุได้ว่าความสัมพันธ์นั้นเกิดจากโอกาสหรือไม่ ฉันต้องการทำสิ่งนี้ใน R และกำลังมองหาพอยน์เตอร์ / โครงกระดูกโครงร่างเพื่อเริ่มต้นให้ฉัน

14 r time-series correlation

5

Matlab / octave หรือ R เหมาะสำหรับการจำลอง monte carlo หรือไม่?

ฉันเริ่มทำ Monte Carlo ใน R เป็นงานอดิเรก แต่ในที่สุดนักวิเคราะห์ทางการเงินก็แนะนำให้ย้ายไปที่ Matlab ฉันเป็นนักพัฒนาซอฟต์แวร์ที่มีประสบการณ์ แต่ผู้เริ่มต้น Monte Carlo ฉันต้องการสร้างแบบจำลองสแตติกด้วยการวิเคราะห์ความไวและโมเดลไดนามิกในภายหลัง ต้องการไลบรารี่ / อัลกอริทึมที่ดี สำหรับฉันดูเหมือนว่า R มีห้องสมุดที่ยอดเยี่ยมและฉันคิดว่า mathlab เป็นที่ต้องการของโปรแกรมเมอร์ที่ไม่มีประสบการณ์เนื่องจากภาษาปาสคาลที่ง่าย ภาษา R ขึ้นอยู่กับแบบแผนและมันยากสำหรับผู้เริ่มต้น แต่ไม่ใช่สำหรับฉัน ถ้า Matlab / Octave ไม่มีข้อได้เปรียบในด้านตัวเลข / ห้องสมุดฉันจะใช้ R

14 r matlab monte-carlo

1

วิธีที่จะทำให้ปิรามิดอายุเหมือนพล็อตใน R?

ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ Age pyramid มีลักษณะดังนี้: ฉันต้องการทำสิ่งที่คล้ายกันนั่นคือ 2 barplots (ไม่ใช่ histograms) ที่มีหมวดหมู่เดียวกันหมุนในแนวตั้งและขยายไปทั้งสองด้านเหมือนกับในปิรามิด มันเป็นวิธีง่ายๆในการทำเช่นนี้ใน R? มันก็ดีที่จะควบคุมสีของแต่ละแท่ง

14 r data-visualization

4

LOESS ที่ช่วยให้ไม่ต่อเนื่อง

มีเทคนิคการสร้างแบบจำลองเช่นLOESSที่อนุญาตให้มีศูนย์ไม่ต่อเนื่องหนึ่งหรือมากกว่านั้นซึ่งเวลาที่ไม่ต่อเนื่องไม่เป็นที่รู้จัก apriori? หากเทคนิคมีอยู่จะมีการนำไปใช้ใน R หรือไม่?

14 r regression curve-fitting change-point loess

คำถามติดแท็ก r