คำถามติดแท็ก compositional-data

3
วิธีการดำเนินการแปลงภาพอัตราส่วนภาพสามมิติ
ฉันมีข้อมูลเกี่ยวกับพฤติกรรมการเคลื่อนไหว (เวลาที่ใช้ในการนอนหลับอยู่ประจำที่และทำกิจกรรมทางกาย) ซึ่งมีจำนวนถึง 24 (เช่นในชั่วโมงต่อวัน) ฉันต้องการสร้างตัวแปรที่ใช้เวลาสัมพัทธ์ที่ใช้ในพฤติกรรมเหล่านี้ - ฉันได้รับแจ้งว่าการเปลี่ยนแปลงอัตราส่วนการบันทึกภาพสามมิติจะทำให้สิ่งนี้สำเร็จ ดูเหมือนว่าฉันควรใช้ฟังก์ชั่น ilr ใน R แต่ไม่สามารถหาตัวอย่างที่แท้จริงด้วยรหัสได้ ฉันจะเริ่มที่ไหน ตัวแปรที่ฉันมีคือเวลานอนหลับเวลานั่งนิ่งเฉลี่ยกิจกรรมออกกำลังกายเบา ๆ โดยเฉลี่ยกิจกรรมออกกำลังกายปานกลางปานกลางและออกกำลังกายแข็งแรงโดยเฉลี่ย รายงานการนอนหลับด้วยตนเองในขณะที่คนอื่น ๆ เป็นค่าเฉลี่ยจากวันที่ถูกต้องของข้อมูล accelerometer ดังนั้นสำหรับตัวแปรเหล่านี้เคสจะไม่รวมเท่ากับ 24 ฉันเดาว่าฉันทำงานใน SAS แต่ดูเหมือนว่า R จะใช้งานได้ง่ายกว่าสำหรับส่วนนี้ ดังนั้นการนำเข้าข้อมูลก่อนโดยมีเพียงตัวแปรที่น่าสนใจ จากนั้นใช้ฟังก์ชั่น acomp () จากนั้นฉันไม่สามารถหาไวยากรณ์สำหรับฟังก์ชัน ilr () ได้ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมมาก

1
อะไรคือการกระจายตัวของความน่าจะเป็นซิมเพล็กซ์?
ให้เป็นเริมน่าจะเป็นของมิติK - 1คือx ∈ Δ Kเป็นเช่นนั้นx ฉัน ≥ 0และΣ ฉันx ฉัน = 1ΔKΔK\Delta_{K}K−1K−1K-1x∈ΔKx∈ΔKx \in \Delta_{K}xi≥0xi≥0x_i \ge 0∑ixi=1∑ixi=1\sum_i x_i = 1 อะไรกระจายซึ่งมักจะเป็น (หรือที่รู้จักกันดีหรือที่กำหนดไว้ในอดีตที่ผ่านมา) มากกว่าอยู่?ΔKΔK\Delta_{K} เห็นได้ชัดว่ามีการแจกแจงดีริชเลต์และการแจกแจงแบบ Logit-Normal มีการแจกแจงอื่น ๆ ที่เกิดขึ้นตามธรรมชาติในบริบทนี้หรือไม่?

3
ฉันต้องลดตัวแปรที่มีความสัมพันธ์ / collinear ก่อนเรียกใช้ kmeans หรือไม่
ฉันกำลังเรียกใช้ kmeans เพื่อระบุกลุ่มลูกค้า ฉันมีตัวแปรประมาณ 100 ตัวเพื่อระบุกลุ่ม ตัวแปรแต่ละตัวเหล่านี้แสดงถึง% ของการใช้จ่ายของลูกค้าในหมวดหมู่ ดังนั้นถ้าฉันมี 100 หมวดหมู่ฉันมีตัวแปร 100 ตัวดังกล่าวผลรวมของตัวแปรเหล่านี้คือ 100% สำหรับลูกค้าแต่ละราย ตอนนี้ตัวแปรเหล่านี้มีความสัมพันธ์กันอย่างมาก ฉันต้องลบสิ่งเหล่านี้บางส่วนเพื่อลบ collinearity ก่อนที่จะเรียกใช้ kmeans หรือไม่ นี่คือข้อมูลตัวอย่าง ในความเป็นจริงฉันมี 100 ตัวแปรและ 10 ล้านลูกค้า Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

2
ฉันสามารถใช้ CLR (การแปลงอัตราส่วนบันทึกเป็นศูนย์กลาง) เพื่อเตรียมข้อมูลสำหรับ PCA ได้หรือไม่
ฉันกำลังใช้สคริปต์ มันเป็นบันทึกหลัก ฉันมี dataframe ซึ่งแสดงองค์ประกอบต่าง ๆ ในคอลัมน์ที่มีความลึกที่กำหนด (ในคอลัมน์แรก) ฉันต้องการทำ PCA ด้วยและสับสนเกี่ยวกับวิธีการมาตรฐานที่ฉันต้องเลือก มีคนของคุณใช้clr()ในการเตรียมข้อมูลของคุณสำหรับprcomp()? หรือว่ามันเป็นการปลอมปนวิธีแก้ปัญหาของฉัน ฉันได้พยายามใช้clr()กับข้อมูลก่อนที่จะใช้ฟังก์ชั่นนอกเหนือจากการใช้ขนาดแอตทริบิวต์ในprcomp()prcomp() data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html สเกลอธิบายเพื่อปรับสเกลข้อมูลดังนั้นจึงมีความแปรปรวนของหน่วย เนื่องจากข้อมูลของฉันมีขนาดแตกต่างกันมากนั่นคือสิ่งที่ฉันต้องการฉันจึงคิด ปัญหาคือว่าฉันได้รับการแก้ไขที่แตกต่างกันเมื่อฉันใช้รหัสด้านบนหรือเมื่อฉันข้ามclr()(ซึ่งทำให้ผลลัพธ์ที่ต้องการมากขึ้น) แต่ฉันต้องการที่จะรู้ว่าทำไมการclr()รบกวนในกรณีนี้คืออะไร?

2
การจัดกลุ่มข้อมูลที่เบ้มากนับจำนวน: คำแนะนำใด ๆ ที่จะดำเนินการ (แปลง ฯลฯ )
ปัญหาพื้นฐาน นี่คือปัญหาพื้นฐานของฉัน: ฉันกำลังพยายามจัดกลุ่มชุดข้อมูลที่มีตัวแปรที่เบ้อย่างมากพร้อมจำนวน ตัวแปรประกอบด้วยศูนย์จำนวนมากและดังนั้นจึงไม่ค่อยมีข้อมูลสำหรับขั้นตอนการจัดกลุ่มของฉัน - ซึ่งน่าจะเป็นอัลกอริทึม k-mean คุณพูดได้แค่แปลงตัวแปรโดยใช้สแควร์รูทบ็อกซ์คอกซ์หรือลอการิทึม แต่เนื่องจากตัวแปรของฉันขึ้นอยู่กับตัวแปรเด็ดขาดฉันกลัวว่าฉันอาจแนะนำอคติโดยจัดการกับตัวแปร (ขึ้นอยู่กับค่าหนึ่งของตัวแปรเด็ดขาด) ในขณะที่ปล่อยให้ผู้อื่น (ขึ้นอยู่กับค่าอื่น ๆ ของตัวแปรเด็ดขาด) ในแบบที่พวกเขาเป็น . ลองดูรายละเอียดเพิ่มเติม ชุดข้อมูล ชุดข้อมูลของฉันแสดงถึงการซื้อสินค้า รายการมีหมวดหมู่ต่างกันเช่นสี: น้ำเงินแดงและเขียว การซื้อจะถูกจัดกลุ่มเข้าด้วยกันเช่นจากลูกค้า ลูกค้าเหล่านี้แต่ละคนมีชุดข้อมูลหนึ่งแถวของฉันดังนั้นฉันจึงต้องรวมการซื้อกับลูกค้า วิธีที่ฉันทำคือการนับจำนวนการซื้อโดยที่รายการนั้นมีสีที่แน่นอน ดังนั้นแทนที่จะตัวแปรเดียวcolorผมจบลงด้วยสามตัวแปรcount_red, และcount_bluecount_green นี่คือตัวอย่างสำหรับภาพประกอบ: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | …

4
ทำไมจึงไม่เป็นไรที่จะทำการสหสัมพันธ์แบบเพียร์สันกับข้อมูลสัดส่วน
โมดูลออนไลน์ที่ฉันกำลังศึกษาระบุว่าไม่ควรใช้เพียร์สันสหสัมพันธ์กับข้อมูลสัดส่วน ทำไมจะไม่ล่ะ? หรือถ้าบางครั้งมันก็โอเคหรือเสมอโอเคทำไม?

4
การทดสอบเพื่อเปรียบเทียบองค์ประกอบชุมชนคืออะไร
หวังว่าคำถาม newbie นี้เป็นคำถามที่เหมาะสมสำหรับเว็บไซต์นี้: สมมติว่าฉันต้องการเปรียบเทียบองค์ประกอบของชุมชนนิเวศวิทยาที่สองไซต์ A, B. ฉันรู้ว่าทั้งสามไซต์มีสุนัขแมววัวและนกดังนั้นฉันจึงลองชิมความอุดมสมบูรณ์ของพวกเขาในแต่ละไซต์ (ฉันไม่มี " คาดว่า "ความอุดมสมบูรณ์ของสัตว์แต่ละตัวในแต่ละไซต์) ถ้าฉันนับให้พูดว่าสัตว์แต่ละตัวห้าตัวในแต่ละไซต์ A และ B นั้น "คล้ายกัน" มาก แต่ถ้าฉันเจอสุนัข 100 ตัวแมว 5 ตัววัว 2 ตัวและนก 3 ตัวที่ไซต์ A. สุนัข 5 ตัวแมว 3 ตัววัว 75 ตัวและนก 2 ตัวที่ไซต์ B จากนั้นฉันจะบอกว่าไซต์ A และ B นั้นแตกต่างกัน แม้ว่าจะมีองค์ประกอบสปีชีส์เดียวกันแน่นอน (ฉันอ่านดัชนีโซเรนเซนและเบรย์ - เคอร์ติส แต่ดูเหมือนว่าพวกเขาจะพิจารณาว่ามี / ไม่มีสุนัขแมว …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.