คำถามติดแท็ก data-transformation

การแสดงออกทางคณิตศาสตร์บ่อยครั้งไม่เชิงเส้นของค่าข้อมูล ข้อมูลมักถูกแปลงเพื่อให้เป็นไปตามสมมติฐานของแบบจำลองทางสถิติหรือเพื่อให้ผลลัพธ์ของการวิเคราะห์สามารถตีความได้มากขึ้น

2
แยกจุดข้อมูลจากค่าเฉลี่ยเคลื่อนที่หรือไม่
เป็นไปได้หรือไม่ที่จะดึงจุดข้อมูลออกจากข้อมูลเฉลี่ยเคลื่อนที่? กล่าวอีกนัยหนึ่งถ้าชุดข้อมูลมีค่าเฉลี่ยเคลื่อนที่อย่างง่ายจาก 30 คะแนนก่อนหน้าเป็นไปได้หรือไม่ที่จะแยกจุดข้อมูลดั้งเดิมออก ถ้าเป็นเช่นนั้นได้อย่างไร

2
การวิเคราะห์ความสัมพันธ์ของ Canonical ที่มีสหสัมพันธ์อันดับ
การวิเคราะห์ความสัมพันธ์ของ Canonical (CCA) มีจุดมุ่งหมายเพื่อเพิ่มความสัมพันธ์ของเพียร์สันในช่วงเวลาปกติ (เช่นค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้น) ของการรวมกันเชิงเส้นของชุดข้อมูลทั้งสอง ตอนนี้ให้พิจารณาความจริงที่ว่าสัมประสิทธิ์สหสัมพันธ์นี้วัดได้เพียงการเชื่อมโยงเชิงเส้นเท่านั้น - นี่คือเหตุผลที่เราใช้เช่น Spearman-หรือ Kendall-ρρ\rhoττ\tau (อันดับ) สัมประสิทธิ์สหสัมพันธ์ การเชื่อมต่อระหว่างตัวแปร ดังนั้นฉันคิดต่อไปนี้: ข้อ จำกัด หนึ่งของ CCA คือพยายามจับความสัมพันธ์เชิงเส้นระหว่างชุดค่าผสมเชิงเส้นที่เกิดขึ้นเนื่องจากฟังก์ชันวัตถุประสงค์เท่านั้น เป็นไปได้ไหมที่จะขยาย CCA ในบางแง่มุมโดยการเพิ่มพูด Spearman- แทน Pearson-ρρ\rho ?rrr ขั้นตอนดังกล่าวจะนำไปสู่สิ่งที่ตีความและมีความหมายทางสถิติหรือไม่ (มันสมเหตุสมผลหรือไม่ - ตัวอย่างเช่น - เพื่อดำเนินการ CCA ในอันดับ ... ?) ฉันสงสัยว่ามันจะช่วยได้เมื่อเราจัดการกับข้อมูลที่ไม่ปกติหรือไม่ ...

5
อะไรคือสาเหตุของการใช้การแปลงแบบรูทของข้อมูล
มีเหตุผลอะไรที่ฉันคิดว่าจะแปลงข้อมูลด้วยสแควร์รูท? ฉันหมายถึงสิ่งที่ฉันสังเกตอยู่เสมอคือค่า R ^ 2 เพิ่มขึ้น แต่นี่อาจเป็นเพราะศูนย์กลางข้อมูล! ความคิดใด ๆ ที่ชื่นชม!

3
CDF ยกกำลัง?
ถ้าFZFZF_Zเป็น CDF ดูเหมือนว่าFZ(z)αFZ(z)αF_Z(z)^\alpha ( α>0α>0\alpha \gt 0 ) เป็น CDF เช่นกัน ถาม: นี่เป็นผลลัพธ์มาตรฐานหรือไม่ Q: มีวิธีที่ดีที่จะหาฟังก์ชั่นgggกับX≡g(Z)X≡g(Z)X \equiv g(Z)เซนต์FX(x)=FZ(z)αFX(x)=FZ(z)αF_X(x) = F_Z(z)^\alphaที่x≡g(z)x≡g(z) x \equiv g(z) โดยทั่วไปฉันมี CDF อื่นในมือFZ(z)αFZ(z)αF_Z(z)^\alpha α ในความรู้สึกที่ลดลงบางอย่างฉันต้องการอธิบายลักษณะของตัวแปรสุ่มที่สร้าง CDF นั้น แก้ไข: ฉันจะมีความสุขถ้าฉันจะได้รับผลการวิเคราะห์กรณีพิเศษZ∼N(0,1)Z∼N(0,1)Z \sim N(0,1) ) หรืออย่างน้อยก็รู้ว่าผลลัพธ์ดังกล่าวเป็นเรื่องยาก

1
แปลงข้อมูลเป็นค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน
ฉันกำลังมองหาวิธีในการแปลงชุดข้อมูลของฉันจากค่าเฉลี่ยปัจจุบันและส่วนเบี่ยงเบนมาตรฐานเป็นค่าเฉลี่ยเป้าหมายและส่วนเบี่ยงเบนมาตรฐานเป้าหมาย โดยพื้นฐานแล้วฉันต้องการย่อ / ขยายการกระจายและขยายตัวเลขทั้งหมดให้เท่ากับค่าเฉลี่ย มันไม่ทำงานที่จะทำการแปลงเชิงเส้นแยกกันสองอันอันหนึ่งสำหรับค่าเบี่ยงเบนมาตรฐานแล้วก็อีกอันสำหรับค่าเฉลี่ย ฉันควรใช้วิธีใด วิธีแก้ปัญหาอาจถูกนำไปใช้กับตัวอย่างที่มีจุด 1.02 ในชุดข้อมูลที่มี SD .4 และค่าเฉลี่ย 0.88 ถูกเปลี่ยนเมื่อฉันปรับค่าเฉลี่ยของชุดข้อมูลเป็น 0.5 และ SD เป็น 0.1667 หรือไม่ คุณค่าใหม่ของประเด็นคืออะไร?

2
การแปลงข้อมูล: ตัวแปรทั้งหมดหรือเฉพาะที่ไม่ใช่แบบปกติ?
ในการค้นพบสถิติของ Andy Field การใช้ SPSS เขาระบุว่าตัวแปรทั้งหมดจะต้องถูกแปลง อย่างไรก็ตามในสิ่งพิมพ์: "การตรวจสอบความสัมพันธ์เชิงพื้นที่ที่แตกต่างกันระหว่างการใช้ที่ดินและคุณภาพน้ำโดยใช้การถดถอยเชิงน้ำหนัก I: การออกแบบรูปแบบและการประเมินผล" พวกเขาระบุว่าเฉพาะตัวแปรที่ไม่ปกติเท่านั้นที่ถูกเปลี่ยน การวิเคราะห์นี้เฉพาะเจาะจงหรือไม่ ตัวอย่างเช่นในการเปรียบเทียบวิธีการเปรียบเทียบบันทึกกับข้อมูลดิบจะให้ผลที่แตกต่างอย่างเห็นได้ชัดในขณะที่เมื่อใช้บางอย่างเช่นการถดถอยเพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรมันจะมีความสำคัญน้อยลง แก้ไข: นี่คือหน้าข้อความเต็มในส่วน "การแปลงข้อมูล": และนี่คือลิงค์ไปยังกระดาษ: http://www.sciencedirect.com/science/article/pii/S0048969708009121

1
วิธีการจัดการกับการผสมผสานของไบนารีและอินพุตอย่างต่อเนื่องในเครือข่ายประสาทเทียม?
ฉันใช้แพ็คเกจ nnet ใน R เพื่อพยายามสร้าง ANN เพื่อคาดการณ์ราคาอสังหาริมทรัพย์สำหรับคอนโด (โครงการส่วนตัว) ฉันยังใหม่กับสิ่งนี้และไม่มีพื้นฐานทางคณิตศาสตร์ดังนั้นโปรดเปลือยกับฉัน ฉันมีตัวแปรอินพุตที่เป็นทั้งไบนารีและต่อเนื่อง ตัวอย่างเช่นตัวแปรไบนารีบางตัวที่ แต่เดิมใช่ / ไม่ใช่ถูกแปลงเป็น 1/0 สำหรับโครงข่ายประสาท ตัวแปรอื่น ๆ Sqftที่มีอย่างต่อเนื่องเช่น ตัวอย่างการป้อนข้อมูล ฉันปรับมาตรฐานทั้งหมดให้อยู่ในระดับ 0-1 อาจBedroomsและBathroomsไม่ควรเป็นมาตรฐานเนื่องจากช่วงของพวกเขานั้นมีเพียง 0-4 ใช่ไหม อินพุตผสมเหล่านี้มีปัญหาสำหรับ ANN หรือไม่ ฉันได้ผลลัพธ์ที่ถูกต้อง แต่เมื่อตรวจสอบน้ำหนักของ ANN ที่เลือกไว้อย่างละเอียดแล้วดูเหมือนว่าไม่สมเหตุสมผล รหัสของฉันอยู่ด้านล่างคำแนะนำใด ๆ ANN <- nnet(Price ~ Sqft + Bedrooms + Bathrooms + Parking2 + Elevator + Central.AC + …


3
วิธีการสร้างแบบจำลองข้อมูลขนาดใหญ่ยาว?
ตามเนื้อผ้าเราใช้แบบผสมเพื่อสร้างแบบจำลองข้อมูลระยะยาวเช่นข้อมูลเช่น: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 เราสามารถถือว่าการสกัดกั้นแบบสุ่มหรือความชันสำหรับบุคคลที่แตกต่างกัน อย่างไรก็ตามคำถามที่ฉันพยายามแก้ไขจะเกี่ยวข้องกับชุดข้อมูลขนาดใหญ่ (ล้านคนการสังเกต 1 เดือนต่อวันคือแต่ละคนจะมีการสังเกต 30 ครั้ง) ปัจจุบันฉันไม่ทราบว่ามีแพ็กเกจสามารถทำข้อมูลระดับนี้ได้หรือไม่ ฉันสามารถเข้าถึง spark / mahout ได้ แต่พวกเขาไม่มีรุ่นผสมคำถามของฉันคือมีอยู่แล้วที่ฉันสามารถแก้ไขข้อมูลของฉันเพื่อให้ฉันสามารถใช้ RandomForest หรือ SVM เพื่อสร้างโมเดลชุดข้อมูลนี้ได้หรือไม่ เทคนิควิศวกรรมฟีเจอร์ใดที่ฉันสามารถใช้ประโยชน์ได้เพื่อให้สามารถใช้ …

1
เอนโทรปีขึ้นอยู่กับสถานที่ตั้งและขนาด
เอนโทรปีของการกระจายอย่างต่อเนื่องที่มีฟังก์ชั่นความหนาแน่นถูกกำหนดให้เป็นเชิงลบของความคาดหวังของและดังนั้นจึงเท่ากับffflog(f),log⁡(f),\log(f), Hf=−∫∞−∞log(f(x))f(x)dx.Hf=−∫−∞∞log⁡(f(x))f(x)dx.H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. นอกจากนี้เรายังบอกว่าใด ๆ ตัวแปรสุ่มที่มีการกระจายมีความหนาแน่นมีเอนโทรปี (อินทิกรัลนี้ถูกนิยามไว้อย่างดีแม้เมื่อมีค่าศูนย์เนื่องจากสามารถถูกทำให้เท่ากับศูนย์ที่ค่าดังกล่าว)XXXfffHf.Hf.H_f.ffflog(f(x))f(x)log⁡(f(x))f(x)\log(f(x))f(x) เมื่อและเป็นตัวแปรสุ่มที่ (เป็นค่าคงที่)ถูกกล่าวว่าเป็นเวอร์ชันของเลื่อนโดย ในทำนองเดียวกันเมื่อ (เป็นค่าคงที่ในเชิงบวก)ถูกกล่าวว่าเป็นเวอร์ชันของปรับขนาดโดยการรวมสเกลกับการเลื่อนทำให้XXXYYYY=X+μY=X+μY = X+\muμμ\muYYYXXX μ.μ.\mu.Y=XσY=XσY = X\sigmaσσ\sigmaYYYXXX σ.σ.\sigma.Y=Xσ+μ.Y=Xσ+μ.Y=X\sigma + \mu. ความสัมพันธ์เหล่านี้เกิดขึ้นบ่อยครั้ง ตัวอย่างเช่นการเปลี่ยนหน่วยของการวัดของกะและสเกลมันXXX เอนโทรปีของเกี่ยวข้องกับของY=Xσ+μY=Xσ+μY = X\sigma + \muX?X?X?

3
การจัดกึ่งกลางและการปรับขนาดตัวแปรจำลอง
ฉันมีชุดข้อมูลที่มีทั้งตัวแปรเด็ดขาดและตัวแปรต่อเนื่อง ฉันแนะนำให้เปลี่ยนตัวแปรเด็ดขาดเป็นตัวแปรไบนารีสำหรับแต่ละระดับ (เช่น A_level1: {0,1}, A_level2: {0,1}) - ฉันคิดว่าบางคนเรียกว่า "ตัวแปรจำลอง" นี้ ด้วยที่กล่าวว่ามันจะทำให้เข้าใจผิดแล้วศูนย์และปรับขนาดข้อมูลทั้งหมดที่มีตัวแปรใหม่หรือไม่ ดูเหมือนว่าฉันจะสูญเสียความหมาย "เปิด / ปิด" ของตัวแปร หากเป็นการทำให้เข้าใจผิดหมายความว่าฉันควรจัดกึ่งกลางและปรับขนาดตัวแปรต่อเนื่องแยกจากนั้นเพิ่มอีกครั้งลงในชุดข้อมูลของฉันหรือไม่ TIA

3
กำลังแปลงการแจกแจงเบ้อย่างมาก
สมมติว่าฉันมีตัวแปรที่มีการแจกแจงเบ้บวกในระดับสูงมากเช่นการบันทึกจะไม่เพียงพอเพื่อที่จะนำมันอยู่ในช่วงของความเบ้สำหรับการแจกแจงแบบปกติ ตัวเลือกของฉันมีอะไรบ้างในตอนนี้ ฉันจะทำอย่างไรเพื่อแปลงตัวแปรเป็นการกระจายตัวแบบปกติ

4
Boxplot เทียบเท่ากับการแจกของหนัก
สำหรับข้อมูลที่กระจายตามปกติประมาณกล่องแปลงเป็นวิธีที่ดีในการมองเห็นค่ามัธยฐานและการแพร่กระจายของข้อมูลได้อย่างรวดเร็วเช่นเดียวกับการปรากฏตัวของค่าผิดปกติใด ๆ อย่างไรก็ตามสำหรับการแจกแจงแบบเทลด์ที่หนักกว่านั้นจำนวนมากของคะแนนจะแสดงเป็นค่าผิดปกติเนื่องจากค่าผิดปกติถูกกำหนดว่าอยู่นอกปัจจัยคงที่ของ IQR และสิ่งนี้เกิดขึ้นแน่นอนบ่อยครั้งมากขึ้นด้วยการแจกแจงแบบหนา ดังนั้นสิ่งที่ผู้คนใช้ในการมองเห็นข้อมูลประเภทนี้? มีอะไรที่ดัดแปลงเพิ่มเติมหรือไม่ ฉันใช้ ggplot กับ R ถ้ามันสำคัญ

2
รู้จัก Var (X), วิธีคำนวณ Var (1 / X)?
หากฉันมีเพียงฉันจะคำนวณอย่างไรV a r ( 1)Var(X)Var(X)\mathrm{Var}(X)Var(1X)Var(1X)\mathrm{Var}(\frac{1}{X}) ฉันไม่ได้มีข้อมูลใด ๆ เกี่ยวกับการกระจายของดังนั้นผมจึงไม่สามารถใช้การเปลี่ยนแปลงหรือวิธีการอื่นใดที่ใช้น่าจะเป็นของการกระจายXXXXXXX

3
วิธีการคำนวณ Rousseeuw's และ Croux '(1993) Qn scale estimator สำหรับตัวอย่างขนาดใหญ่
Let ดังนั้นสำหรับตัวอย่างสั้น ๆ เช่น{ 1 , 3 , 6 , 2 , 7 , 5 }มันสามารถคำนวณได้จากการค้นหาลำดับที่kที่มีความแตกต่างกันแบบคู่: Qn= Cn. { | Xผม- XJ| ; ฉัน&lt;j }( k )Qn=Cn.{|Xi−Xj|;i&lt;j}(k)Q_n = C_n.\{|X_i-X_j|;i < j\}_{(k)}{ 1 , 3 , 6 , 2 , 7 , 5 }{1,3,6,2,7,5}\{1,3,6,2,7,5\}kkk 7 6 5 3 2 1 1 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.