จาก Bayesian Networks ไปยัง Neural Networks: วิธีการถดถอยหลายตัวแปรสามารถเปลี่ยนเป็นเครือข่ายหลายเอาท์พุทได้อย่างไร


20

ฉันกำลังจัดการกับโมเดลเชิงเส้นลำดับชั้นแบบเบย์ที่นี่เครือข่ายอธิบาย

ตัวแบบกราฟิกอธิบายปัญหา

Yหมายถึงยอดขายสินค้ารายวันในซูเปอร์มาร์เก็ต (ปฏิบัติตาม)

Xเป็นเมทริกซ์ที่รู้จักกันดีของผู้ถดถอยซึ่งรวมถึงราคาโปรโมชั่นวันของสัปดาห์สภาพอากาศวันหยุด

1Sคือระดับสินค้าคงคลังแฝงที่ไม่รู้จักของแต่ละผลิตภัณฑ์ซึ่งทำให้เกิดปัญหามากที่สุดและฉันพิจารณาเวกเตอร์ของตัวแปรไบนารีหนึ่งรายการสำหรับแต่ละผลิตภัณฑ์ที่มีบ่งบอกถึงการออกจากสต็อคและดังนั้นความไม่พร้อมใช้งานของผลิตภัณฑ์ แม้ว่าในทางทฤษฎีไม่ทราบว่าฉันประเมินมันผ่าน HMM สำหรับแต่ละผลิตภัณฑ์ดังนั้นจึงถือได้ว่าเป็นที่รู้จักกันในชื่อ X.ฉันเพิ่งตัดสินใจปลดมันเพื่อพิธีการที่เหมาะสม1

ηเป็นพารามิเตอร์เอฟเฟกต์แบบผสมสำหรับผลิตภัณฑ์ใด ๆ ก็ตามที่พิจารณาถึงผลกระทบแบบผสมคือราคาผลิตภัณฑ์โปรโมชั่นและสต็อกสินค้า

b 1 b 2βคือเวกเตอร์ของสัมประสิทธิ์การถดถอยคงที่ในขณะที่และเป็นเวกเตอร์ของสัมประสิทธิ์ผลกระทบผสม กลุ่มหนึ่งบ่งบอกถึงแบรนด์และอีกกลุ่มระบุถึงรสชาติ (นี่คือตัวอย่างในความเป็นจริงฉันมีหลายกลุ่ม แต่ที่นี่ฉันรายงานเพียง 2 เพื่อความชัดเจน)12

Σ 1 Σ 2Ση ,และเป็นเหนือเอฟเฟกต์ผสมΣ1Σ2

เนื่องจากฉันมีข้อมูลจำนวนมากสมมติว่าฉันปฏิบัติต่อยอดขายแต่ละครั้งเนื่องจาก Poisson กระจายเงื่อนไขบน Regressors (แม้ว่าสำหรับผลิตภัณฑ์บางอย่างการประมาณเชิงเส้นจะถือและสำหรับคนอื่นแบบจำลองที่สูงเกินศูนย์จะดีกว่า) ในกรณีเช่นนี้ฉันจะมีผลิตภัณฑ์ ( นี่เป็นเพียงสำหรับผู้ที่สนใจในแบบจำลอง Bayesian เองข้ามไปที่คำถามหากคุณพบว่ามันไม่น่าสนใจหรือไม่สำคัญ :) ):Y

Ση~ผมW(α0,γ0)

Σ1~ผมW(α1,γ1)

α 0 , γ 0 , α 1 , γ 1 , α 2 , γ 2Σ2~ผมW(α2,γ2) ,รู้จักα0,γ0,α1,γ1,α2,γ2

η~ยังไม่มีข้อความ(0,Ση)

1~ยังไม่มีข้อความ(0,Σ1)

2~ยังไม่มีข้อความ(0,Σ2)

Σ ββ~ยังไม่มีข้อความ(0,Σβ) ,เป็นที่รู้จักΣβ

λเสื้อผมJk=β* * * *Xเสื้อผม+ηผม* * * *Xพีพีsเสื้อผม+1J* * * *Zเสื้อJ+2kZเสื้อk ,

YtijkPoi(exp(λtijk))

j 1 , , m 1 k 1 , , m 2ผม1,...,ยังไม่มีข้อความ , ,J1,...,ม.1k1,...,ม.2

เอ็กซ์พีพีs ฉันฉันW Z ฉันZ ฉัน = X ฉันσ ฉันเจฉันเจZผมเมทริกซ์ของเอฟเฟกต์แบบผสมสำหรับ 2 กลุ่มแสดงราคาการส่งเสริมการขายและสต็อคของผลิตภัณฑ์ที่พิจารณา หมายถึงการแจกแจง Wishart แบบผกผันซึ่งมักจะใช้สำหรับเมทริกซ์ความแปรปรวนร่วมของพหุตัวแปรหลายตัวแปรปกติ แต่มันไม่สำคัญที่นี่ ตัวอย่างของการที่เป็นไปได้อาจจะเป็นเมทริกซ์ของทุกราคาหรือเราอาจจะบอกว่าZ_iสำหรับความนับถือของเมทริกซ์ความแปรปรวนร่วม - ความแปรปรวนร่วมฉันจะพยายามรักษาความสัมพันธ์ระหว่างรายการดังนั้นจะเป็นค่าบวกหากและเป็นผลิตภัณฑ์ของแบรนด์เดียวกันหรืออย่างใดอย่างหนึ่ง รสชาติเดียวกัน XพีพีsผมผมWZผมZผม=XผมσผมJผมJ

สัญชาตญาณที่อยู่เบื้องหลังโมเดลนี้จะเป็นไปได้ว่ายอดขายของผลิตภัณฑ์ที่กำหนดขึ้นอยู่กับราคาความพร้อมใช้งานของมันหรือไม่ แต่ยังขึ้นอยู่กับราคาของผลิตภัณฑ์อื่นทั้งหมดและ stockouts ของผลิตภัณฑ์อื่น ๆ ทั้งหมด เนื่องจากฉันไม่ต้องการมีแบบจำลองเดียวกัน (อ่าน: เส้นโค้งการถดถอยแบบเดียวกัน) สำหรับสัมประสิทธิ์ทั้งหมดฉันแนะนำเอฟเฟกต์แบบผสมที่ใช้ประโยชน์จากกลุ่มที่ฉันมีในข้อมูลของฉันผ่านการแชร์พารามิเตอร์

คำถามของฉันคือ:

  1. มีวิธีใดที่จะแปลงโมเดลนี้เป็นสถาปัตยกรรมเครือข่ายประสาทเทียมหรือไม่? ฉันรู้ว่ามีคำถามมากมายที่มองหาความสัมพันธ์ระหว่างเครือข่ายแบบเบย์เขตมาร์กอฟสุ่มแบบจำลองลำดับชั้นแบบเบย์และเครือข่ายประสาท ฉันถามคำถามเกี่ยวกับโครงข่ายประสาทเนื่องจากมีปัญหามิติสูงของฉัน (พิจารณาว่าฉันมีผลิตภัณฑ์ 340) การประมาณค่าพารามิเตอร์ผ่าน MCMC ใช้เวลาหลายสัปดาห์ (ฉันลองใช้เพียง 20 ผลิตภัณฑ์ที่รันคู่ขนานใน runJags และใช้เวลาหลายวัน) . แต่ฉันไม่ต้องการไปสุ่มและให้ข้อมูลกับเครือข่ายประสาทเป็นกล่องดำ ฉันต้องการใช้ประโยชน์จากโครงสร้างการพึ่งพา / ความเป็นอิสระของเครือข่ายของฉัน

ที่นี่ฉันเพิ่งวาดเครือข่ายประสาท ดังที่คุณเห็น regressors (และระบุราคาตามลำดับและสสินค้าของ ) ที่ด้านบนจะถูกใส่เข้าไปในเลเยอร์ที่ซ่อนอยู่เหมือนกับผลิตภัณฑ์เฉพาะ (ที่นี่ฉันถือว่าราคาและสต็อกสินค้า) S i I PผมSผมผม(ขอบสีน้ำเงินและสีดำไม่มีความหมายโดยเฉพาะมันเป็นเพียงเพื่อทำให้รูปชัดเจนขึ้น) นอกจากนี้และอาจมีความสัมพันธ์สูงในขณะที่Y 1 Y 2 Y 3Y1Y2Y3อาจเป็นผลิตภัณฑ์ที่แตกต่างอย่างสิ้นเชิง (คิดถึงน้ำส้ม 2 แก้วและไวน์แดง) แต่ฉันไม่ได้ใช้ข้อมูลนี้ในเครือข่ายประสาทเทียม ฉันสงสัยว่าข้อมูลการจัดกลุ่มจะใช้ในการ inizialization น้ำหนักหรือหากใครสามารถปรับแต่งเครือข่ายเพื่อแก้ไขปัญหา

ตัวอย่างหุ่นกระบอกของโครงข่ายประสาท

แก้ไขความคิดของฉัน:

การเริ่มต้นเป็นไปได้หรือไม่

ความคิดของฉันจะเป็นแบบนี้: เมื่อก่อนและเป็นผลิตภัณฑ์ที่มีความสัมพันธ์กันในขณะที่นั้นแตกต่างกันโดยสิ้นเชิง เมื่อรู้สิ่งนี้ฉันจะทำสิ่งต่าง ๆ ก่อน:Y 2 Y 3Y1Y2Y3

  1. ฉันจัดสรรเซลล์ประสาทบางส่วนในเลเยอร์ที่ซ่อนอยู่ให้กับกลุ่มที่ฉันมีในกรณีนี้ฉันมี 2 กลุ่ม {( ), ( )}Y 3Y1,Y2Y3
  2. ฉันเริ่มต้นน้ำหนักสูงระหว่างอินพุตและโหนดที่จัดสรร (ขอบตัวหนา) และแน่นอนว่าฉันสร้างโหนดที่ซ่อนอยู่อื่น ๆ เพื่อจับภาพ 'แบบสุ่ม' ที่เหลืออยู่ในข้อมูล

ขอบคุณล่วงหน้าสำหรับความช่วยเหลือของคุณ


@Tomasso Guerrini ที่นี่เป็นไปได้คำตอบสำหรับคุณ: stats.stackexchange.com/questions/4498/ …
Anton Danilov

ขอบคุณ @AntonDanilov โชคไม่ดีที่คำตอบที่ยอมรับบอกว่า 'ในขณะที่เครือข่ายประสาทมาพร้อมกับ "กราฟ" พวกเขามักจะไม่เข้ารหัสข้อมูลการพึ่งพาและโหนดไม่ได้เป็นตัวแทนของตัวแปรสุ่ม': /
Tommaso Guerrini

1
คุณลองสแตนแล้วหรือยังไม่เป็นไปได้สำหรับปัญหาของคุณ? มิลโตเนียนมอนติคาร์โลสามารถเป็นคำสั่งที่มีขนาดเร็วกว่าการสุ่มตัวอย่างของกิ๊บส์และปรับให้เข้ากับตัวแปรนับร้อย (หรือหลายพัน)
lacerbi

1
คุณได้ลองโพสต์คำถามเดียวกันไปยังรายชื่อผู้รับจดหมายของผู้ใช้สแตนหรือไม่? พวกเขามักจะเป็นประโยชน์อย่างยิ่งกับด้านเทคนิคเพื่อให้รูปแบบการทำงาน ตัวอย่างเช่นอาจเป็นไปได้ว่าปัญหาในกรณีของคุณสามารถแก้ไขได้ด้วยการกำหนดพารามิเตอร์ที่ดีกว่า ( มิล Monte Carloควรผสมมากเร็วกว่าการสุ่มตัวอย่างกิ๊บส์.)
lacerbi

1
อาจจะเป็นการดีกว่าถ้าบอกว่าฉันส่งจดหมายขยะไปยังรายชื่อผู้รับจดหมาย .. ขอบคุณมาก Luigi โดยวิธี .. ฉันอยู่ในสถานการณ์ที่ฉันไม่มีเวลาขุดปัญหามากเท่าที่ควรเนื่องจากฉันมีกำหนดส่งขาเข้า ดูเหมือนว่า STAN เป็นเครื่องมือที่ยอดเยี่ยม แต่ช่วงการเรียนรู้นั้นสูงชันเล็กน้อยที่จะตระหนักถึงประสิทธิภาพอันน่าทึ่งของมัน (ณ ตอนนี้ฉันได้ตระหนักถึงความเร็วในการเขียน JAGS)
Tommaso Guerrini

คำตอบ:


1

สำหรับบันทึกแล้วฉันไม่ได้มองสิ่งนี้เป็นคำตอบ แต่เป็นความคิดเห็นที่ยาว! PDE (สมการความร้อน) ที่ใช้ในการสร้างแบบจำลองการไหลของความร้อนผ่านแท่งโลหะสามารถใช้ในการกำหนดราคาแบบตัวเลือก ไม่มีใครที่ฉันเคยรู้จักพยายามแนะนำการเชื่อมต่อระหว่างตัวเลือกการกำหนดราคาและการไหลของความร้อนต่อ se ฉันคิดว่าคำพูดจากลิงค์ของ Danilov กำลังพูดในสิ่งเดียวกัน ทั้งกราฟเบย์และโครงข่ายประสาทใช้ภาษาของกราฟเพื่อแสดงความสัมพันธ์ระหว่างชิ้นส่วนภายในที่แตกต่างกัน อย่างไรก็ตามกราฟแบบเบย์บอกสิ่งหนึ่งเกี่ยวกับโครงสร้างความสัมพันธ์ของตัวแปรอินพุตและกราฟของตาข่ายประสาทบอกวิธีสร้างฟังก์ชันการทำนายจากตัวแปรอินพุต สิ่งเหล่านี้แตกต่างกันมาก
วิธีการต่างๆที่ใช้ใน DL พยายามที่จะ 'เลือก' ตัวแปรที่สำคัญที่สุด แต่นั่นเป็นปัญหาเชิงประจักษ์ นอกจากนี้ยังไม่ได้บอกใครเกี่ยวกับโครงสร้างความสัมพันธ์ของทั้งชุดตัวแปรทั้งหมดหรือตัวแปรที่เหลือ มันแสดงให้เห็นว่าตัวแปรที่รอดตายจะดีที่สุดสำหรับภาคแสดง ตัวอย่างเช่นหากมีคนดูตาข่ายประสาทหนึ่งจะนำไปสู่ชุดข้อมูลเครดิตเยอรมันซึ่งถ้าฉันจำได้อย่างถูกต้อง 2,000 จุดข้อมูลและตัวแปร 5 ขึ้นอยู่กับ จากการลองผิดลองถูกฉันคิดว่าคุณจะพบว่าเน็ตที่มีเลเยอร์ที่ซ่อนอยู่เพียง 1 ชั้นและการใช้ตัวแปรเพียง 2 ตัวจะให้ผลลัพธ์ที่ดีที่สุดสำหรับการทำนาย อย่างไรก็ตามสิ่งนี้สามารถค้นพบได้โดยการสร้างแบบจำลองทั้งหมดและทดสอบในชุดการทดสอบอิสระ


ฉันไม่ได้เปรียบเทียบกับแอปพลิเคชันของโมเดลเดียวกันกับข้อมูลที่ต่างกัน: ที่นี่ข้อมูลเหมือนกันและโมเดลนั้นแตกต่างจากที่อื่น นอกจากนี้ฉันไม่ได้พยายามหาข้อสรุปเกี่ยวกับโครงสร้างความสัมพันธ์ของตัวแปรของฉันโดยใช้ตาข่ายประสาทซึ่งทำได้ดีผ่านการอนุมานแบบโปสเตอร์จากชาวเบย์ กราฟเป็นเพียงภาพสิ่งที่เกิดขึ้นในโมเดลลำดับชั้นดังนั้นฉันไม่เข้าใจสิ่งที่ 'ภาษาของกราฟ' (แต่ฉันอาจทำให้คุณเข้าใจผิดกับชื่อ แต่ฉันต้องการลวงตาที่หนึ่ง: D)
Tommaso Guerrini

และบางทีฉันก็ไม่เข้าใจคำถามของคุณ ฉันยังคิดว่าประเด็นคือวิธีการสร้างขอบในโครงสร้างกราฟสองรายการนั้นไม่มีส่วนเกี่ยวข้องกัน หนึ่งสามารถกำหนดโครงข่ายประสาทด้วยชุดของขอบและน้ำหนักที่กำหนด แต่ไม่มีเหตุผลที่จะคิดว่าตาข่ายดังกล่าวจะถูกต้องหรือเป็นประโยชน์ หัวใจของการสร้างโครงข่ายประสาทคือการใช้บางสิ่งบางอย่างที่คล้ายกับการขยายพันธุ์กลับเพื่อให้ข้อมูลกำหนดน้ำหนักที่ 'ถูกต้อง'
meh

"กราฟเป็นเพียงภาพสิ่งที่เกิดขึ้นในโมเดลลำดับชั้น" เราเห็นพ้องกันว่าในกรณีหนึ่งเรากำหนดโครงสร้างความแปรปรวนร่วมและแบบจำลองสามารถตีความได้ดีในด้านหลังในขณะที่ในอีกกรณีหนึ่งเราปล่อยให้การไล่ระดับสีลงมาทำงานและแม้ว่าจะไม่สามารถตีความได้ คำถามของฉันคือ: มีวิธีที่จะตีความความหมายในขณะที่ไม่สูญเสียประสิทธิภาพการทำนายหรือไม่? นั่นเป็นเหตุผลที่ฉันถามคำถามนี้ในสแต็คและนั่นเป็นเหตุผลที่ฉันเสนอความคิดนั้นในการแก้ไขฉันกำลังมองหาแนวคิด ฉันหวังว่าตอนนี้มันชัดเจนสำหรับคุณ
Tommaso Guerrini

ไม่มีใครสามารถพิสูจน์ได้ว่าเป็นลบดังนั้นฉันจึงไม่สามารถสรุปได้อย่างแน่นอนว่าไม่มีการเชื่อมต่อระหว่างกราฟของ Bayesian Networks และของตาข่ายประสาท ฉันสามารถพูดได้ว่าฉันไม่มีความรู้เกี่ยวกับการเชื่อมต่อดังกล่าวและฉันสงสัยอย่างยิ่งต่อการเชื่อมต่อใด ๆ ในขณะที่หนึ่งสามารถใช้โครงสร้างกราฟของเครือข่าย Bayesian เพื่อให้โครงสร้างกราฟสำหรับเครือข่ายประสาทจากมุมมองเครือข่ายประสาทนี้ดูเหมือนจะไม่สมเหตุสมผล ฉันยังไม่ได้มีเวลาในการทำงานออกรายละเอียด แต่เป็นทดลองทางความคิดจินตนาการชุดข้อมูลที่ตัวแปรอิสระทุกคน statisitically
Meh

Y=Σxผม+ΣZผมZผม=A×σ-1(xผม)σZผมประมาณศูนย์ พวกเขาควรเป็นส่วนหนึ่งของแบบจำลองที่ดี
meh
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.