คำถามติดแท็ก correlation

1
วิธีรับความสัมพันธ์ระหว่างตัวแปรเด็ดขาดสองประเภทกับตัวแปรเด็ดขาดและตัวแปรต่อเนื่องได้อย่างไร
ฉันกำลังสร้างแบบจำลองการถดถอยและฉันจำเป็นต้องคำนวณด้านล่างเพื่อตรวจสอบความสัมพันธ์ ความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 2 ระดับหลายระดับ ความสัมพันธ์ระหว่างตัวแปรเด็ดขาดหลายระดับและตัวแปรต่อเนื่อง VIF (ปัจจัยเงินเฟ้อความแปรปรวน) สำหรับตัวแปรเด็ดขาดหลายระดับ ฉันเชื่อว่ามันผิดที่จะใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันสำหรับสถานการณ์ข้างต้นเพราะเพียร์สันใช้ได้กับตัวแปร 2 ตัวต่อเนื่องเท่านั้น กรุณาตอบคำถามด้านล่าง สัมประสิทธิ์สหสัมพันธ์ใดดีที่สุดสำหรับกรณีข้างต้น การคำนวณ VIF ใช้งานได้เฉพาะกับข้อมูลต่อเนื่องดังนั้นทางเลือกอื่นคืออะไร ฉันต้องตรวจสอบสมมติฐานอะไรก่อนที่ฉันจะใช้สัมประสิทธิ์สหสัมพันธ์ที่คุณแนะนำ วิธีการนำไปใช้ใน SAS & R

6
ในการเรียนรู้แบบมีผู้สอนเหตุใดจึงไม่ดีที่จะมีคุณลักษณะที่สัมพันธ์กัน
ฉันอ่านที่ไหนสักแห่งว่าถ้าเรามีฟีเจอร์ที่สัมพันธ์กันมากเกินไปเราต้องลบออกเพราะมันอาจทำให้โมเดลแย่ลง เป็นที่ชัดเจนว่าฟีเจอร์ที่สัมพันธ์กันหมายความว่าพวกเขานำข้อมูลเดียวกันมาดังนั้นจึงเป็นการลบตรรกะอย่างใดอย่างหนึ่ง แต่ฉันไม่สามารถเข้าใจว่าทำไมสิ่งนี้ถึงทำให้รูปแบบแย่ลง

4
XGBoost จัดการกับความหลากหลายด้วยตัวเองหรือไม่?
ขณะนี้ฉันกำลังใช้ XGBoost กับชุดข้อมูลที่มีคุณสมบัติ 21 รายการ (เลือกจากรายการของคุณสมบัติ 150 รายการ) จากนั้นจึงใช้รหัสร้อนเพื่อรับคุณสมบัติ ~ 98 ไม่กี่ของคุณสมบัติเหล่านี้ 98 จะค่อนข้างซ้ำซ้อนตัวอย่างเช่น: ตัวแปร (คุณลักษณะ) กยังปรากฏเป็นและ{A}AAABABA\frac{B}{A}CACA\frac{C}{A} คำถามของฉันคือ: ต้นไม้ตัดสินใจที่ได้รับการส่งเสริมจะจัดการกับความสัมพันธ์แบบหลายทางได้อย่างไร( ถ้า? ) การมีอยู่ของความหลากสีจะส่งผลกระทบต่อการทำนายอย่างไรถ้ามันไม่ได้ถูกจัดการ? จากสิ่งที่ฉันเข้าใจรูปแบบคือการเรียนรู้มากกว่าหนึ่งต้นและการทำนายขั้นสุดท้ายขึ้นอยู่กับบางสิ่งบางอย่างเช่น "ผลรวมถ่วงน้ำหนัก" ของการทำนายรายบุคคล ดังนั้นหากสิ่งนี้ถูกต้องต้นไม้การตัดสินใจที่ถูกกระตุ้นควรจะสามารถจัดการการพึ่งพาระหว่างตัวแปรได้ นอกจากนี้ในบันทึกที่เกี่ยวข้อง - วัตถุที่มีความสำคัญของตัวแปรใน XGBoost ทำงานอย่างไร

1
รู้จักไวยากรณ์ในลำดับของโทเค็นฟัซซี่
ฉันมีเอกสารข้อความที่มีรายการเป็นส่วนใหญ่ แต่ละรายการเป็นกลุ่มของโทเค็นหลายประเภทที่แตกต่างกัน: FirstName, นามสกุล, วันเกิด, หมายเลขโทรศัพท์, เมือง, อาชีพ, ฯลฯ โทเค็นคือกลุ่มของคำ รายการสามารถวางได้หลายบรรทัด รายการจากเอกสารจะมีรูปแบบโทเค็นเดียวกัน แต่ไม่จำเป็นต้องเหมือนกันทุกประการ อาจเป็นโทเค็นบางรายการมากขึ้น / น้อยลงระหว่างไอเท็มรวมถึงภายในไอเท็ม FirstName LastName BirthDate PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber Occupation UnrecognizedToken FirstName LastName PhoneNumber Occupation City FirstName LastName BirthDate PhoneNumber City Occupation เป้าหมายคือการระบุไวยากรณ์ที่ใช้เช่น Occupation City และในท้ายที่สุดระบุรายการทั้งหมดแม้คิดว่าพวกเขาไม่ตรงกัน …

2
อัตราค่าโดยสารของสายการบิน - การวิเคราะห์ใดที่ควรใช้เพื่อตรวจสอบพฤติกรรมการตั้งราคาและความสัมพันธ์ของราคา
ฉันต้องการตรวจสอบพฤติกรรมการตั้งราคาของสายการบิน - โดยเฉพาะว่าสายการบินตอบสนองต่อการกำหนดราคาของคู่แข่งอย่างไร ตามที่ฉันจะบอกความรู้ของฉันเกี่ยวกับการวิเคราะห์ที่ซับซ้อนมากขึ้นค่อนข้าง จำกัด ฉันได้ทำวิธีการพื้นฐานทั้งหมดเพื่อรวบรวมมุมมองโดยรวมของข้อมูล ซึ่งรวมถึงกราฟอย่างง่ายซึ่งช่วยระบุรูปแบบที่คล้ายกัน ฉันใช้ SAS Enterprise 9.4 ด้วย อย่างไรก็ตามฉันกำลังมองหาวิธีการตามจำนวนมากขึ้น ชุดข้อมูล ชุดข้อมูลที่รวบรวม (ตัวเอง) ที่ฉันกำลังใช้อยู่มีประมาณ ~ 54.000 อัตราค่าโดยสาร ค่าโดยสารทั้งหมดถูกรวบรวมภายในหน้าต่างเวลา 60 วันเป็นประจำทุกวัน (ทุกคืนเวลา 00:00 น.) ดังนั้นทุกค่าโดยสารภายในช่วงเวลาดังกล่าวจะเกิดขึ้นครั้งขึ้นอยู่กับความพร้อมของค่าโดยสารรวมถึงวันที่ออกเดินทางของเที่ยวบินเมื่อผ่านไปตามวันที่เรียกเก็บค่าโดยสาร (คุณไม่สามารถรวบรวมค่าโดยสารสำหรับเที่ยวบินเมื่อวันที่ออกเดินทางของเที่ยวบินในอดีต)nnn รูปแบบที่ไม่มีการจัดรูปแบบโดยทั่วไปมีลักษณะดังนี้: (ข้อมูลปลอม) +--------------------+-----------+--------------------+--------------------------+---------------+ | requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier | +--------------------+-----------+--------------------+--------------------------+---------------+ | 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.