การแปลงคุณสมบัติของข้อมูลอินพุต


22

ฉันอ่านเกี่ยวกับวิธีแก้ปัญหาตัวต่อOTTO Kaggleนี้และวิธีแก้ปัญหาอันดับแรกดูเหมือนว่าจะใช้การแปลงหลายอย่างสำหรับข้อมูลอินพุต X เช่น Log (X + 1), sqrt (X + 3/8) เป็นต้นมี คำแนะนำทั่วไปเกี่ยวกับเวลาที่จะใช้การแปลงชนิดกับตัวแยกประเภทต่างๆ?

ฉันเข้าใจแนวคิดเกี่ยวกับการทำให้ค่าเฉลี่ยและ var-normal-normalization อย่างไรก็ตามสำหรับการแปลงข้างต้นฉันเดาว่า Log และ Sqrt จะใช้ในการบีบอัดช่วงไดนามิกของข้อมูล และการเลื่อนแกน x เป็นเพียงการป้อนข้อมูลอีกครั้ง อย่างไรก็ตามผู้เขียนเลือกที่จะใช้วิธีการต่าง ๆ ของการทำให้เป็นมาตรฐานสำหรับอินพุต X เดียวกันเมื่อป้อนเข้าสู่ตัวแยกประเภทที่แตกต่างกัน ความคิดใด ๆ


1
ไม่มีความคิดว่าสิ่งใดที่อาจแนะนำสูตรชนิดนั้นได้ แต่คุณอาจต้องการดูการแปลงแบบบ็อกซ์ซึ่งแนะนำการอธิบายแบบเลขชี้กำลังสำหรับตัวแปร
anymous.asker

คำตอบ:


19

เรารักรูปแบบปกติ

ในกรณีส่วนใหญ่เราพยายามทำให้พวกเขาทำตัวเหมือนปกติ มันไม่ใช่มุมมองของตัวแยกประเภท แต่เป็นมุมมองการแยกคุณลักษณะ!

ซึ่งการเปลี่ยนแปลง ?

เกณฑ์หลักในการเลือกการเปลี่ยนแปลงคือ: ทำงานกับข้อมูลได้อย่างไร ดังตัวอย่างข้างต้นบ่งชี้ว่าเป็นสิ่งสำคัญที่ต้องพิจารณาด้วยเช่นกันสองคำถาม

อะไรทำให้รู้สึกทางกายภาพ (ชีวภาพ, เศรษฐกิจ, อะไรก็ตาม) ตัวอย่างเช่นในแง่ของการ จำกัด พฤติกรรมในขณะที่ค่านิยมมีขนาดเล็กมากหรือใหญ่มาก? คำถามนี้มักจะนำไปสู่การใช้ลอการิทึม

เราสามารถทำให้มิติและยูนิตง่ายและสะดวกได้หรือไม่? ถ้าเป็นไปได้เราชอบเครื่องชั่งวัดที่คิดง่าย

คิวบ์รูทของไดรฟ์ข้อมูลและสแควร์รูทของพื้นที่ทั้งคู่มีขนาดของความยาวจนถึงเรื่องที่ซับซ้อนการแปลงเช่นนี้อาจทำให้พวกมันง่ายขึ้น ซึ่งกันและกันมักจะมีหน่วยง่าย ๆ ดังกล่าวก่อนหน้า อย่างไรก็ตามบ่อยครั้งหน่วยที่ค่อนข้างซับซ้อนนั้นเป็นเครื่องบูชาที่ต้องทำ

เมื่อการใช้อะไร ?

การแปลงที่มีประโยชน์ที่สุดในการวิเคราะห์ข้อมูลเบื้องต้นคือการแลกเปลี่ยนแบบลอการิทึมลอการิทึมรูตคิวบ์รูตสแควร์และสแควร์ ในสิ่งต่อไปนี้แม้ว่าจะไม่ได้เน้นมันก็ควรจะใช้การแปลงในช่วงที่พวกเขาให้ผลผลิต (แน่นอน) จำนวนจริงเป็นผลลัพธ์

  • กลับไปกลับมา : การแลกเปลี่ยนซึ่งกันและกัน, x ถึง 1 / x, กับพี่น้องของตนซึ่งกันและกันเชิงลบ, x ถึง -1 / x, เป็นการเปลี่ยนแปลงที่แข็งแกร่งมากที่มีผลกระทบรุนแรงต่อรูปร่างการกระจาย มันไม่สามารถนำไปใช้กับค่าเป็นศูนย์ แม้ว่าจะสามารถนำไปใช้กับค่าลบได้ แต่ก็ไม่มีประโยชน์เว้นแต่ค่าทั้งหมดจะเป็นค่าบวก ส่วนกลับของอัตราส่วนอาจตีความได้ง่ายเช่นเดียวกับอัตราส่วน: ตัวอย่าง:
    • ความหนาแน่นของประชากร (คนต่อพื้นที่หนึ่งหน่วย) กลายเป็นพื้นที่ต่อคน
    • คนต่อแพทย์กลายเป็นหมอต่อคน
    • อัตราการกัดเซาะกลายเป็นเวลาที่จะกัดเซาะความลึกของหน่วย

(ในทางปฏิบัติเราอาจต้องการทวีคูณหรือหารผลลัพธ์ของการรับส่วนกลับด้วยค่าคงที่เช่น 1,000 หรือ 10,000 เพื่อให้ได้ตัวเลขที่จัดการได้ง่าย แต่ตัวมันเองไม่มีผลต่อความเบ้หรือเส้นตรง)

ลำดับกลับกันกลับกันระหว่างค่าของสัญลักษณ์เดียวกัน: ค่ามากที่สุดจะกลายเป็นค่าที่เล็กที่สุดเป็นต้นค่ากลับกันส่วนกลับจะเก็บลำดับไว้ในค่าของสัญลักษณ์เดียวกัน


  • ลอการิทึม : ลอการิทึม, x log 10 x, หรือ x log ex หรือ ln x, หรือ x log 2 x, เป็นการแปลงที่มีผลอย่างมากต่อรูปร่างการแจกแจง มันถูกใช้โดยทั่วไปเพื่อลดความเบ้ที่ถูกต้องและมักจะเหมาะสมสำหรับตัวแปรที่วัดได้ ไม่สามารถใช้กับค่าศูนย์หรือค่าลบ หนึ่งหน่วยในสเกลลอการิทึมหมายถึงการคูณด้วยฐานลอการิทึมที่ใช้ การเติบโตหรือลดลงแบบทวีคูณ

    • Y=aอีxพี(x)

ทำในลักษณะเชิงเส้นโดย - เพื่อให้ตัวแปรการตอบสนอง y ควรถูกบันทึกไว้ (นี่คือ exp () หมายถึงการยกกำลัง e ประมาณ 2.71828 นั่นคือฐานของลอการิทึมธรรมชาติ) การแยกกันของการเติบโตแบบเอกซ์โปเนนเชียลหรือสมการการปฏิเสธ: , และเพื่อให้ a คือจำนวนหรือนับเมื่อ x = 0 ถ้า a และ b> 0, y นั้นเติบโตเร็วขึ้น และอัตราที่เร็วขึ้น (เช่นดอกเบี้ยทบต้นหรือการเติบโตของประชากรโดยไม่ จำกัด ) ในขณะที่ถ้า> 0 และ b <0, y จะลดลงในอัตราที่ช้าลงและช้าลง (เช่นการสลายตัวของกัมมันตภาพรังสี)ล.nY=ล.na+xx=0Y=aอีxพี(0)=a


  • ฟังก์ชั่นพลังงาน :
  • Y=axถูกสร้างเป็นเส้นตรงโดย เพื่อให้ตัวแปรทั้ง y และ x ควรถูกบันทึก ฟังก์ชั่นด้านพลังงานเช่นกัน: ใส่และสำหรับ ,ล.โอก.Y=ล.โอก.a+ล.โอก.x
    x=0>0

  • Y=ax=0 ดังนั้นฟังก์ชั่นพลังงานสำหรับ b บวกต้องผ่านจุดกำเนิดซึ่งมักทำให้เกิดความรู้สึกทางกายภาพหรือชีวภาพหรือเศรษฐกิจ คิดว่า: ศูนย์สำหรับ x หมายถึงศูนย์สำหรับ y หรือไม่? นี้
    ชนิดของฟังก์ชั่นพลังงานเป็นรูปทรงที่เหมาะกับชุดข้อมูลจำนวนมาก
    ค่อนข้างดี

    • พิจารณาอัตราส่วน y = p / q โดยที่ p และ q เป็นค่าบวกในทางปฏิบัติ
  • ตัวอย่างคือ:

    • เพศชาย / หญิง
    • ผู้อยู่ในอุปการะ / คนงาน
    • ความยาวดาวน์สตรีม / ดาวน์วอลเล่ย์
  • จากนั้น y จะอยู่ระหว่าง 0 ถึงอนันต์หรือในกรณีสุดท้ายระหว่าง 1 ถึงอนันต์ ถ้า p = q ดังนั้น y = 1 คำจำกัดความดังกล่าวมักจะนำไปสู่ข้อมูลที่เบ้เพราะมีขีด จำกัด ล่างที่ชัดเจนและไม่มีขีด จำกัด บนที่ชัดเจน อย่างไรก็ตามลอการิทึมนั้นคือ

  • log y = log p / q = log p - log q อยู่ระหว่าง -infinity และ infinity และ p = q หมายความว่า log y = 0 ดังนั้นลอการิทึมของอัตราส่วนดังกล่าวมีแนวโน้มที่จะมีการกระจายแบบสมมาตรมากกว่า


  • รากที่สาม : รากลูกบาศก์ x 1/3 นี่คือการเปลี่ยนแปลงที่แข็งแกร่งพอสมควรโดยมีผลกระทบอย่างมากต่อรูปร่างการกระจาย: มันอ่อนแอกว่าลอการิทึม นอกจากนี้ยังใช้สำหรับลดความเบ้ที่ถูกต้องและมีข้อได้เปรียบที่สามารถนำไปใช้กับค่าศูนย์และค่าลบ โปรดทราบว่าคิวบ์รูทของไดรฟ์มีหน่วยความยาว มันถูกใช้โดยทั่วไปกับข้อมูลปริมาณน้ำฝน

    • การบังคับใช้กับค่าลบต้องมีหมายเหตุพิเศษ พิจารณา
      (2) (2) (2) = 8 และ (-2) (- 2) (- 2) = -8 ตัวอย่างเหล่านี้แสดงว่า
      รูทคิวบ์ของจำนวนลบมีเครื่องหมายลบและ
      ค่าสัมบูรณ์เดียวกันกับรูทคิวบ์ของจำนวนบวกที่เทียบเท่า ทรัพย์สินที่คล้ายกันนี้ถูกครอบครองโดยรูทอื่น ๆ ที่มีอำนาจเป็นส่วน
      กลับของจำนวนเต็มบวกคี่ (พาวเวอร์ 1/3, 1/5, 1/7 เป็นต้น)

    • คุณสมบัตินี้ค่อนข้างละเอียดอ่อน ตัวอย่างเช่นเปลี่ยนพลังงานเพียงแค่ smidgen จาก 1/3 และเราไม่สามารถกำหนดผลลัพธ์เป็นผลคูณของสามคำได้อย่างแม่นยำอีกต่อไป อย่างไรก็ตามคุณสมบัติจะต้องมีการใช้ประโยชน์หากมีประโยชน์


  • สแควร์รูท : สแควร์รูท , x ถึง = sqrt (x), เป็นการแปลงโดยมีเอฟเฟกต์ปานกลางในรูปแบบการกระจาย: มันอ่อนกว่าลอการิทึมและรูทลูกบาศก์ นอกจากนี้ยังใช้สำหรับลดความเบ้ที่ถูกต้องและยังมีข้อได้เปรียบที่สามารถนำไปใช้กับค่าศูนย์ โปรดทราบว่าสแควร์รูทของพื้นที่มีหน่วยความยาว โดยทั่วไปจะใช้กับข้อมูลที่มีการนับโดยเฉพาะอย่างยิ่งหากค่าส่วนใหญ่ค่อนข้างเล็กx(1/2)

  • สี่เหลี่ยมจัตุรัส : สี่เหลี่ยมจัตุรัส x ถึงมีผลปานกลางกับรูปร่างการกระจายและสามารถใช้เพื่อลดความเบ้ซ้าย ใน ทางปฏิบัติเหตุผลหลักสำหรับการใช้มันคือเพื่อให้พอดีกับการตอบสนองโดยเป็น ฟังก์ชันกำลังสอง 2 Quadratics มี จุดเปลี่ยนไม่ว่าจะมากที่สุดหรือต่ำสุดแม้ว่าจุดหักเหในฟังก์ชั่นที่ติดตั้งกับข้อมูลอาจอยู่ไกลเกินขอบเขตของการ สังเกต ระยะทางของวัตถุจากแหล่งกำเนิดเป็นสมการกำลังสองถ้าร่างกายนั้นเคลื่อนที่ภายใต้ความเร่งคงที่ซึ่งให้ เหตุผลทางกายภาพที่ชัดเจนมากสำหรับการใช้กำลังสอง มิฉะนั้น quadratics มักจะใช้เพียงอย่างเดียวเพราะพวกเขาสามารถเลียนแบบx2

    Y=a+x+x2




    ความสัมพันธ์ภายในขอบเขตข้อมูล นอกภูมิภาคนั้นพวกเขาอาจ
    ทำงานได้ไม่ดีนักเพราะพวกเขาใช้ค่าที่มากตามอำเภอใจสำหรับค่าเอ็กซ์ตรีมที่สุดของเอ็กซ์และถ้าการสกัดกั้น a ถูก จำกัด ให้เป็น 0 พวกมันอาจทำงานใกล้กับแหล่งกำเนิด
    • การยกกำลังมักจะทำให้รู้สึกเฉพาะในกรณีที่ตัวแปรที่เกี่ยวข้องเป็นศูนย์หรือบวกเนื่องจากและเหมือนกัน(-x)2x2


ขอบคุณสำหรับการโพสต์ มีประโยชน์จริงๆ คุณสามารถเสริมด้วยตัวอย่างและตัวเลขที่อธิบายว่ามันแปลงข้อมูลต้นฉบับเป็นข้อมูลที่แยกได้หรือไม่
Mvkt

1
@svk: ฉันเพิ่งจัดรูปแบบในลักษณะที่เข้าใจได้ฉันคิดว่า hadi เป็นคนที่เขียนคำตอบ หากฉันเดาถูกเขาอาจคัดลอกมาจากหนังสือเล่มหนึ่ง ลองดูว่าเขาตอบกลับ / แนะนำอะไรบางอย่าง อื่นจะเขียนคำตอบ
Toros91

2
ตามที่ @ Toros91 กล่าวว่าเป็นการรวมกันของแหล่งข้อมูลที่แตกต่างกันฉันขอแนะนำให้ดู วิธีการชนะการแข่งขันด้านวิทยาศาสตร์ข้อมูล: เรียนรู้จาก Kagglers ยอดนิยมและ เอกสาร Stata
hadi gharibi

alrite แม้ว่าจะมีใครสักคนที่จะกรุณาโพสต์โค้ดตัวอย่างบางส่วนในไพ ธ อนหรือ matlab เกี่ยวกับวิธีแปลงแกน x ไปเป็น sq.root หรือสเกลรูตคิวบ์ matlab มีพล็อตการบันทึกสำหรับสเกลบันทึก แต่สำหรับเครื่องชั่งอื่น ๆ มันจะมีประโยชน์หากมีพล็อตกับแกนที่ถูกเปลี่ยนเหล่านี้
Mvkt

1

คนที่เฉพาะเจาะจงเหล่านี้อาจเป็นฮิวริสติกที่บริสุทธิ์ สำหรับภาพที่เป็นมาตรฐานค่อนข้าง: เปลี่ยน RGB เป็น BGR และลบค่าเฉลี่ยจากทุกพิกเซล ใช้ในการแข่งขัน / ชุดข้อมูลทั้งหมดเช่น Imagenet, Pascal VOC, MS COCO สาเหตุคือเครือข่ายมีชุดข้อมูลที่เป็นมาตรฐานเนื่องจากรูปภาพทั้งหมดอาจแตกต่างกันมาก


0

เหมือนกันที่นี่ - ไม่คิดไม่เคยเห็นมาก่อน ฉันเดาว่าพวกเขาลองใช้การเปลี่ยนแปลงที่แตกต่างกันและเลือกอันที่ดีที่สุด เนื่องจากในรายงานพวกเขาบอกว่าการเปลี่ยนแปลงอื่น ๆ จะดีเช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.