คำถามติดแท็ก continuous-data

ตัวแปรสุ่มถูกเรียกอย่างต่อเนื่องหากชุดของค่าที่เป็นไปได้นั้นนับไม่ได้และโอกาสที่จะรับค่าใด ๆ เป็นศูนย์ (สำหรับทุกจำนวนจริง ) ตัวแปรสุ่มนั้นต่อเนื่องหากฟังก์ชันการแจกแจงความน่าจะเป็นแบบสะสมเป็นฟังก์ชันต่อเนื่อง XP(X=x)=0x

6
ความสัมพันธ์กับตัวแปรหมวดหมู่ที่ไม่ได้เรียงลำดับ
ฉันมีชื่อไฟล์ที่มีข้อสังเกตและตัวแปรมากมาย บางส่วนมีการจัดหมวดหมู่ (ไม่เรียงลำดับ) และอื่น ๆ เป็นตัวเลข ฉันกำลังมองหาความสัมพันธ์ระหว่างตัวแปรเหล่านี้ ฉันสามารถคำนวณสหสัมพันธ์ของตัวแปรเชิงตัวเลข (Spearman's correlation) ได้ แต่: ฉันไม่ทราบวิธีการวัดความสัมพันธ์ระหว่างตัวแปรเด็ดขาดที่ไม่เรียงลำดับ ฉันไม่รู้วิธีวัดความสัมพันธ์ระหว่างตัวแปรเด็ดขาดที่ไม่เรียงลำดับกับตัวแปรตัวเลข ไม่มีใครรู้ว่าสิ่งนี้สามารถทำได้? ถ้าเป็นเช่นนั้นมีฟังก์ชั่น R ที่ใช้วิธีการเหล่านี้หรือไม่?

7
ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?
ฉันสงสัยว่าสิ่งที่มีค่าในการใช้ตัวแปรทำนายอย่างต่อเนื่องและสลายมัน (เช่นเป็น quintiles) ก่อนที่จะใช้ในแบบจำลอง สำหรับฉันแล้วดูเหมือนว่าการเปลี่ยนแปลงตัวแปรทำให้เราสูญเสียข้อมูล นี่เป็นเพียงเพื่อให้เราสามารถจำลองเอฟเฟกต์ที่ไม่ใช่เชิงเส้นได้หรือไม่ ถ้าเราเก็บตัวแปรอย่างต่อเนื่องและมันไม่ได้เป็นความสัมพันธ์เชิงเส้นตรงที่เราจะต้องเกิดขึ้นกับเส้นโค้งบางชนิดเพื่อให้พอดีกับข้อมูลหรือไม่

1
ความสัมพันธ์ระหว่างตัวแปร (IV) และตัวแปรต่อเนื่อง (DV)
ฉันมีตัวแปรเล็กน้อย (หัวข้อที่แตกต่างกันของการสนทนา, เขียนเป็น topic0 = 0 ฯลฯ ) และจำนวนของตัวแปรสเกล (DV) เช่นความยาวของการสนทนา ฉันจะหาค่าสหสัมพันธ์ระหว่างตัวแปรที่ระบุและสเกลได้อย่างไร

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


8
มันสมเหตุสมผลไหมที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง?
ในการตอบคำถามนี้เกี่ยวกับข้อมูลที่ไม่ต่อเนื่องและต่อเนื่องฉันยืนยันอย่างชัดเจนว่ามันไม่ค่อยมีเหตุผลที่จะจัดการกับข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง บนใบหน้าของมันที่ดูเหมือนชัดเจนในตัวเอง แต่ปรีชามักจะเป็นแนวทางที่ดีสำหรับสถิติหรืออย่างน้อยก็เป็นของฉัน ดังนั้นตอนนี้ฉันสงสัยว่า: จริงหรือ หรือมีการวิเคราะห์ที่สร้างขึ้นสำหรับการแปลงจากข้อมูลที่เป็นหมวดหมู่ไปเป็นบางส่วนที่มีประโยชน์จริง ๆ ? มันจะสร้างความแตกต่างได้ไหมถ้าข้อมูลนั้นเป็นอันดับ?

5
การทำคลัสเตอร์ชุดข้อมูลที่มีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง
ฉันมีชุดข้อมูล X ซึ่งมี 10 มิติซึ่ง 4 ในนั้นเป็นค่าที่ไม่ต่อเนื่อง อันที่จริงแล้วตัวแปรที่แยก 4 ตัวนั้นเป็นเลขลำดับนั่นคือค่าที่สูงกว่าหมายถึงความหมายที่สูงกว่า / ดีกว่า 2 ของตัวแปรที่ไม่ต่อเนื่องเหล่านี้มีการจัดหมวดหมู่ในแง่ที่ว่าสำหรับแต่ละตัวแปรเหล่านี้ระยะทางจาก 11 ถึง 12 จะไม่เหมือนกับระยะทางจาก 5 ถึง 6 ในขณะที่ค่าตัวแปรที่สูงกว่าหมายถึงความเป็นจริงที่สูงขึ้น ไม่จำเป็นต้องเป็นเชิงเส้น (อันที่จริงแล้วมันไม่ได้กำหนดจริงๆ) คำถามของฉันคือ: เป็นความคิดที่ดีหรือไม่ที่จะใช้อัลกอริธึมการจัดกลุ่มร่วมกัน (เช่น K-Means และ Gaussian Mixture (GMM)) กับชุดข้อมูลนี้ซึ่งมีตัวแปรทั้งแบบแยกและแบบต่อเนื่อง? ถ้าไม่: ฉันควรจะลบตัวแปรที่แยกกันและมุ่งเน้นเฉพาะตัวแปรที่ต่อเนื่องหรือไม่? ฉันควรแยกแยะสิ่งที่ต่อเนื่องกันดีกว่าและใช้อัลกอริทึมการจัดกลุ่มสำหรับข้อมูลที่ไม่ต่อเนื่องหรือไม่

4
การทำนายด้วยคุณสมบัติที่ต่อเนื่องและจัดหมวดหมู่
เทคนิคการสร้างแบบจำลองการทำนายบางอย่างได้รับการออกแบบมาเพื่อการจัดการตัวทำนายอย่างต่อเนื่องในขณะที่เทคนิคอื่น ๆ นั้นดีกว่าสำหรับการจัดการกับตัวแปรเด็ดขาด แน่นอนว่ามีเทคนิคในการแปลงประเภทหนึ่งไปเป็นอีกประเภทหนึ่ง (discretization, ตัวแปรจำลอง) อย่างไรก็ตามมีเทคนิคการสร้างแบบจำลองการคาดการณ์ที่ออกแบบมาเพื่อจัดการอินพุตทั้งสองประเภทในเวลาเดียวกันโดยไม่ต้องเปลี่ยนประเภทของคุณสมบัติหรือไม่ ถ้าเป็นเช่นนั้นเทคนิคการสร้างแบบจำลองเหล่านี้มีแนวโน้มที่จะทำงานได้ดีขึ้นกับข้อมูลที่พวกเขาเป็นแบบธรรมชาติมากขึ้น? สิ่งที่ใกล้เคียงที่ฉันรู้จะเป็นที่มักจะต้นไม้ตัดสินใจจัดการกับข้อมูลที่ไม่ต่อเนื่องได้ดีและพวกเขาจัดการข้อมูลอย่างต่อเนื่องโดยไม่ต้องมีขึ้นด้านหน้าไม่ต่อเนื่อง อย่างไรก็ตามนี่ไม่ใช่สิ่งที่ฉันกำลังมองหาเนื่องจากการแยกคุณสมบัติอย่างต่อเนื่องได้อย่างมีประสิทธิภาพเป็นเพียงการแยกส่วนแบบไดนามิก สำหรับการอ้างอิงต่อไปนี้เป็นคำถามที่เกี่ยวข้องและไม่ซ้ำกัน: ต้นไม้การตัดสินใจแยกควรนำมาใช้อย่างไรเมื่อทำนายตัวแปรต่อเนื่อง ฉันสามารถใช้การถดถอยแบบหลายครั้งได้หรือไม่เมื่อฉันมีตัวทำนายที่เป็นหมวดหมู่และแบบต่อเนื่องผสมกัน? มันสมเหตุสมผลไหมที่จะรักษาข้อมูลที่เป็นหมวดหมู่อย่างต่อเนื่อง? การวิเคราะห์ข้อมูลตัวแปรอย่างต่อเนื่องและเป็นหมวดหมู่

2
ลักษณะทั่วไปอย่างต่อเนื่องของการแจกแจงทวินามลบ
การแจกแจงลบทวินาม (NB)ถูกกำหนดในจำนวนเต็มไม่เป็นลบและมีฟังก์ชันมวลความน่าจะเป็นf(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)=(k+r−1k)pk(1−p)r.f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.มันสมเหตุสมผลหรือไม่ที่จะต้องพิจารณาการกระจายอย่างต่อเนื่องบน reals ที่ไม่เป็นลบซึ่งกำหนดโดยสูตรเดียวกัน (แทนที่k∈N0k∈N0k\in \mathbb N_0โดยx∈R≥0x∈R≥0x\in\mathbb R_{\ge 0} )? ค่าสัมประสิทธิ์ทวินามสามารถเขียนเป็นผลิตภัณฑ์ของ(k+1)⋅…⋅(k+r−1)(k+1)⋅…⋅(k+r−1)(k+1)\cdot\ldots\cdot(k+r-1)ซึ่งเป็นที่ที่ดีที่กำหนดจริงใด ๆkkkkดังนั้นเราจะมี PDF f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)∝∏i=1r−1(x+i)⋅px(1−p)r.f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}. โดยทั่วไปเราสามารถแทนที่ค่าสัมประสิทธิ์ทวินามด้วยฟังก์ชันแกมมาทำให้ค่าrไม่ใช่จำนวนเต็มrrr: f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)∝Γ(x+r)Γ(x+1)Γ(r)⋅px(1−p)r.f(x;r,p)\propto\frac{\Gamma(x+r)}{\Gamma(x+1)\Gamma(r)}\cdot p^{x}(1-p)^{r}. เป็นการกระจายที่ถูกต้องหรือไม่ มันมีชื่อหรือไม่? มันมีประโยชน์อะไรบ้าง? มันอาจจะเป็นสารประกอบหรือส่วนผสมบางอย่าง? มีสูตรปิดสำหรับค่าเฉลี่ยและความแปรปรวน (และค่าคงที่สัดส่วนใน PDF) หรือไม่ (ขณะนี้ฉันกำลังศึกษากระดาษที่ใช้แบบผสม NB (ที่มีค่าคงที่r=2r=2r=2 ) และเหมาะกับมันผ่านทาง EM อย่างไรก็ตามข้อมูลเป็นจำนวนเต็มหลังจากการทำให้เป็นมาตรฐานบางอย่างเช่นไม่ใช่จำนวนเต็มอย่างไรก็ตามผู้เขียนใช้สูตร NB มาตรฐานเพื่อคำนวณ ความเป็นไปได้และผลลัพธ์ที่สมเหตุสมผลดังนั้นทุกอย่างดูเหมือนจะใช้ได้ดีฉันพบว่ามันน่างงมากโปรดทราบว่าคำถามนี้ไม่เกี่ยวกับ NB GLM)

2
เมื่อใดที่เราควรแยก / bin ตัวแปร / คุณสมบัติอิสระอย่างต่อเนื่องและเมื่อไม่ควร?
เมื่อใดที่เราควรแยก / bin ตัวแปรอิสระ / คุณสมบัติและเมื่อไม่ควร? ความพยายามของฉันที่จะตอบคำถาม: โดยทั่วไปแล้วเราไม่ควรทิ้งขยะเพราะการทำข้อมูลจะหายไป จริง ๆ แล้วการ Binning เป็นการเพิ่มระดับของอิสระของแบบจำลองดังนั้นจึงเป็นไปได้ที่จะทำให้เกิดการกระชับหลังจากการ binning หากเรามีรูปแบบ "ความลำเอียงสูง" การไม่ถูก binning อาจไม่เลว แต่ถ้าเรามีรูปแบบ "ความแปรปรวนสูง" เราควรหลีกเลี่ยงการ binning ขึ้นอยู่กับรุ่นที่เราใช้ หากเป็นโหมดเชิงเส้นและข้อมูลมีความน่าจะเป็นของ "ค่าผิดปกติ" จำนวนมากจะดีกว่า หากเรามีรูปแบบต้นไม้ดังนั้นค่าผิดปกติและการฝังรากจะสร้างความแตกต่างมากเกินไป ฉันถูกไหม? และอะไรอีก ฉันคิดว่าคำถามนี้ควรถามหลายครั้ง แต่ฉันไม่พบคำถามเหล่านี้ใน CV เฉพาะโพสต์เหล่านี้ เราควรจะเก็บตัวแปรต่อเนื่องหรือไม่? ประโยชน์ของการแยกตัวแปรทำนายอย่างต่อเนื่องคืออะไร?

2
ตัวแปรสุ่มแบบสม่ำเสมอเป็นผลรวมของตัวแปรสุ่มสองตัว
นำมาจากGrimmet และ Stirzaker : แสดงว่าไม่สามารถเป็นกรณีที่U = X + YU=X+YU=X+Yที่มีการกระจายอย่างสม่ำเสมอบน [0,1] และและมีความเป็นอิสระและกระจายตัวเหมือนกัน คุณไม่ควรสรุปว่า X และ Y เป็นตัวแปรต่อเนื่องคุณUUX XXYYY หลักฐานที่เรียบง่ายโดยขัดแย้งพอเพียงสำหรับกรณีที่ ,ถูกสมมติว่าไม่ต่อเนื่องโดยการโต้เถียงว่าเป็นไปได้เสมอที่จะหาและเช่นนั้นในขณะที่')X XXY YYu uuu ′u′u' P ( U ≤ u + u ′ ) ≥ P ( U ≤ u ) P(U≤u+u′)≥P(U≤u)P(U\leq u+u') \geq P(U\leq u)P ( X + Y ≤ u …

1
วิธีการเลือกระหว่าง ANOVA และ ANCOVA ในการทดลองออกแบบ?
ฉันกำลังทำการทดลองซึ่งมีสิ่งต่อไปนี้: DV: ปริมาณการใช้ชิ้น (ต่อเนื่องหรืออาจจัดเป็นหมวดหมู่) IV: ข้อความเพื่อสุขภาพ, ข้อความที่ไม่แข็งแรง, ไม่มีข้อความ (กลุ่มควบคุม) (3 กลุ่มที่ผู้คนได้รับมอบหมายแบบสุ่ม - หมวดหมู่) นี่คือข้อความที่จัดการเกี่ยวกับความสมบูรณ์ของชิ้น ตัวแปร IV ต่อไปนี้ถือได้ว่าเป็นตัวแปรที่แตกต่างของแต่ละบุคคล: Impulsivity (ซึ่งอาจเป็นหมวดหมู่เช่น. สูงเทียบกับต่ำหรือต่อเนื่องและวัดโดยขนาด) การตั้งค่ารสหวาน (นอกจากนี้ยังวัดโดยแบบสอบถามซึ่งมี 3 ตัวเลือกให้เลือกสำหรับแต่ละคำถาม) ค่าดัชนีมวลกาย - ผู้เข้าร่วมจะได้รับการชั่งน้ำหนักวัดตาม (ซึ่งอาจพิจารณาได้ทั้งหมวดหมู่หรือต่อเนื่อง) เนื่องจากกลุ่มจะได้รับการสุ่มให้เป็นหนึ่งใน 3 กลุ่มฉันคิดว่าฉันกำลังทำ ANOVA บางประเภทและอาจใช้ Factorial ANOVA เนื่องจากฉันสนใจว่า IV มีผลต่อ DV มากที่สุด แต่ยังมีปฏิสัมพันธ์ระหว่าง IV ด้วยเช่นกัน มีความสัมพันธ์ระหว่างชุดค่าผสมบางอย่าง แต่ฉันไม่แน่ใจในเรื่องนี้อย่างสมบูรณ์เนื่องจากต้องการทราบว่าเป็นการดีที่สุดหรือไม่ที่จะให้ IV มีหมวดหมู่ทั้งหมดหรือต่อเนื่องหรือผสมกัน หรือ ANCOVA เป็นไปได้หรือแม้กระทั่งการถดถอย …


2
จะไปจากข้อมูลอย่างต่อเนื่องเพื่อจัดหมวดหมู่ผิดเสมอ?
เมื่อฉันอ่านเกี่ยวกับวิธีการตั้งค่าข้อมูลของคุณสิ่งหนึ่งที่ฉันมักจะเจอคือการเปลี่ยนข้อมูลต่อเนื่องเป็นข้อมูลเชิงหมวดหมู่ไม่ใช่ความคิดที่ดีเนื่องจากคุณอาจทำข้อสรุปที่ผิดได้เป็นอย่างดีหากกำหนดเกณฑ์ไม่ดี อย่างไรก็ตามปัจจุบันฉันมีข้อมูลบางอย่าง (ค่า PSA สำหรับผู้ป่วยมะเร็งต่อมลูกหมาก) ซึ่งฉันคิดว่าฉันทามติร่วมกันคือถ้าคุณอายุต่ำกว่า 4 คุณอาจไม่ได้รับมันหากคุณอยู่สูงกว่าคุณมีความเสี่ยง สูงกว่า 10 และ 20 คุณอาจมีมัน อะไรแบบนั้น. ในกรณีนั้นจะยังไม่ถูกต้องหรือไม่ที่จะจัดหมวดหมู่ค่า PSA ต่อเนื่องของฉันเป็นกลุ่มที่สมมติว่า 0-4, 4-10 และ> 10 หรือว่าจริง ๆ แล้วก็โอเคตั้งแต่เกณฑ์ "ตั้งใจดี" เพื่อพูด

1
จะประเมินความสัมพันธ์ระหว่างลำดับและตัวแปรต่อเนื่องได้อย่างถูกต้องอย่างไร
ฉันต้องการประเมินความสัมพันธ์ระหว่าง: ตัวแปรลำดับ: ผู้ถูกทดสอบขอให้คะแนนความชอบสำหรับผลไม้ 6 ชนิดในระดับ 1-5 (ตั้งแต่น่าขยะแขยงไปจนถึงอร่อยมาก) โดยเฉลี่ยแล้วผู้ทดลองใช้เพียง 3 คะแนนเท่านั้น ตัวแปรต่อเนื่อง: อาสาสมัครคนเดียวกันจะต้องระบุผลไม้เหล่านี้อย่างรวดเร็วซึ่งส่งผลให้ความแม่นยำเฉลี่ยของผลไม้ทั้ง 6 ชนิด Spearman rho เป็นวิธีที่ดีที่สุดในการวิเคราะห์ข้อมูลเหล่านี้และ / หรือมีวิธีการอื่นที่ดีที่ฉันสามารถพิจารณาได้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.