การแยกวิเคราะห์ข้อความอ้างอิงอัตโนมัติในเอกสารอ้างอิงทางวิชาการ

18

มีซอฟต์แวร์ใด (หรือรหัสหลอก) ซึ่งสามารถสแกนข้อความโดยอัตโนมัติ (วางลงในเครื่องมือหรืออ่านจาก. doc / .pdf) และระบุข้อมูลการอ้างอิงโดยใช้รูปแบบมาตรฐานหรือไม่ ข้อมูลจะถูกแบ่งออกเป็นฟิลด์ที่เป็นส่วนประกอบและส่งออกเป็น XML, CSV หรือรูปแบบข้อมูลที่มีโครงสร้างอื่น ๆ ฉันดูที่cb2Bibแต่สามารถดึงปีจากการอ้างอิงสไตล์ฮาร์วาร์ดซึ่งไม่เพียงพอ

parsing citations

— Alistair Knock
แหล่งที่มา

คุณต้องการสแกนข้อความด้วยตัวเองหรือเพียงแค่อ้างอิงส่วน?

— InnaM

เพียงแค่การอ้างอิง - อาจเป็นเอกสารที่มีสิ่งพิมพ์ส่วนตัว

— Alistair Knock

ฉันไม่แน่ใจว่านี่เป็นสิ่งที่คุณอาจต้องการ แต่คุณสามารถลองrefhive.com

— Mostafa Elmoghazi

4

ดูรายการ Citation Parsers ที่สามารถสร้าง XML จากข้อความอินพุต:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (ในโหมดการบำรุงรักษาตั้งแต่ 1 สิงหาคม 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

ด้วย freecite คุณสามารถใช้curlคำสั่งเพื่อส่งการอ้างอิงดังนี้ (ใน PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

— ถัง
แหล่งที่มา

ตัวเลือกหนึ่งคือgithub.com/inspirehep/refextract มันไม่ได้ขึ้นกับ ML แต่มันใช้งานได้ดีกับการทดสอบของฉัน

— Josir

3

ในขณะนี้ (2017) โครงการโอเพ่นซอร์สที่ใช้งานมากที่สุดในการดำเนินการนี้ดูเหมือนจะเป็นAnystyle Parser (เวอร์ชันล่าสุด 07-2016) สามารถใช้งานผ่านเว็บอินเตอร์เฟส API หรือดาวน์โหลดเป็น RubyGem

พวกเขากล่าวถึงเว็บไซต์ของตนอย่างชัดเจนว่าการใช้งานนั้นได้รับแรงบันดาลใจจาก ParsCit (เวอร์ชันล่าสุด 2013) และ FreeCite (การกระทำครั้งสุดท้ายเมื่อปี 2009)

สร้างเว็บไซต์ของพวกเขาด้วย:

AnyStyle Parser ใช้การเรียนรู้ด้วยเครื่องที่ทรงพลังโดยใช้เงื่อนไขแบบสุ่มที่สามารถฝึกอบรมได้โดยทุกคนโดยใช้เครื่องมือแก้ไขในตัวของเรา

นั่นเป็นคุณสมบัติเจ๋งจริง ๆ ซึ่งทำให้การใช้งานที่น่าสนใจที่สุด (imho) การฝึกอบรมดูเหมือนจะตรงไปตรงสวยตามที่อธิบายไว้ในเอกสาร API คุณเพียงแค่ให้ผลลัพธ์ที่แก้ไขด้วยตนเองแล้วและเรียกใช้Anystyle.parser.trainคำสั่ง ฉันไม่แน่ใจว่า ParsCit และ FreeCite รองรับสิ่งนี้หรือไม่ แต่ถ้าไม่เช่นนั้นนี่ก็เป็นคุณลักษณะที่แตกต่างอย่างมากสำหรับฉัน

— Wouter
แหล่งที่มา

ด้วยข้อยกเว้นของ Anystyle Parser พวกเขาทั้งหมดถูกกล่าวถึงในคำตอบโหวตสูงสุดในขณะนี้ อะไรทำให้พวกเขาโดดเด่น อะไรคือข้อดีหรือข้อเสียของคำถามเดิม

— เซท

อ่าแน่นอน ฉันจะแก้ไขและปรับปรุงคำตอบของฉัน ขอบคุณสำหรับการชี้ให้เห็นว่า

— Wouter

ดูเหมือนว่ามันจะตายแล้ว

— ผู้เชี่ยวชาญ

1

@Brandon: ฉันได้โพสต์ HOWTO ที่นี่: github.com/inukshuk/wapiti-ruby/issues/3

— Wouter

1

ดูดีมากขอบคุณ! ในฐานะคนที่ไม่เคยสัมผัสทับทิมมันจะมีประโยชน์มากจริงๆ

— แบรนดอน

2

ลองใช้เครื่องมือเช่นRegex บัดดี้หรือExpresso

หากคุณไม่ใช่โปรแกรมเมอร์นิพจน์ปกติอาจเป็นเรื่องที่น่ากลัว แต่พวกเขาก็ไม่ได้ยากขนาดนั้นโดยเฉพาะอย่างยิ่งกับเครื่องมือที่เหมาะสมเช่นข้อใดข้อหนึ่งข้างต้น

นี่คือตัวอย่างของบางคนที่ใช้นิพจน์ปกติสำหรับการแยกการอ้างอิง:

การอ้างถึงการแยกวิเคราะห์การแสดงออกปกติ

— เถ้า
แหล่งที่มา

1

Mendeleyน่าจะทำได้ มันสามารถนำเข้า PDF แล้วส่งออกข้อมูลเมตาไปยัง BibTeX, RIS และ EndNote XML ดาวน์โหลดได้ฟรีและข้ามแพลตฟอร์ม

แก้ไข: ฉันทดสอบสิ่งนี้กับเอกสารสองสามฉบับ ดูเหมือนว่าการนำเข้า PDF ทำงานได้ดีสำหรับการอ้างอิงที่จัดรูปแบบอย่างถูกต้อง สำหรับเอกสารที่ฉันสร้างขึ้นโดยใช้ LaTeX การอ้างอิงทั้งหมดกับผู้แต่งในรูปแบบ "Smith, J. " หรือ "J. Smith" ฯลฯ ได้รับการนำเข้าที่ดี หากผู้เขียนเป็น บริษัท (คำเดียว) หรือการอ้างอิงไม่สมบูรณ์ก็ไม่ทำงานเช่นกัน ข้อมูลอ้างอิงที่แยกสามารถแก้ไขและส่งออกไปยัง BibTeX ได้อย่างง่ายดาย ฯลฯ

— sblair
แหล่งที่มา

2

"ฟีเจอร์นี้ถูกลบออกใน Mendeley 0.9.7 เพราะมันใช้ทรัพยากรในปริมาณที่พอสมควร (ฝั่งไคลเอ็นต์และเซิร์ฟเวอร์) โดยไม่ให้คุณค่าเพียงพอเราวางแผนที่จะเปิดตัวฟีเจอร์ใหม่ในรูปแบบที่ดีขึ้นในอนาคต" ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…

— iceman

1

ฉันเคยเห็นโปรแกรม Westlaw ทำเพื่อการอ้างอิงทางกฎหมาย แต่นั่นอาจไม่ใช่สิ่งที่คุณกำลังมองหา Reference Managerอาจทำสิ่งนั้นในรูปแบบการศึกษา แต่ฉันไม่เคยใช้เลย

— Kaypro II
แหล่งที่มา

1

ลอง http://www.crossref.org/guestquery/#stqsearch

อันนี้มีความสามารถในการแยกวิเคราะห์ข้อความอ้างอิงของคุณโดยอัตโนมัติและมีลิงก์ไปยังบทความออนไลน์

— anton
แหล่งที่มา

0

Zotero เป็นปลั๊กอินสำหรับ firefox ซึ่งใช้สำหรับเนื้อหาเว็บ ไม่แน่ใจว่ามีเครื่องมือที่คล้ายกันสำหรับเอกสาร / pdf หรือไม่

— Abhinav
แหล่งที่มา

1

ฉันรู้ว่านี่ไม่ใช่สิ่งที่ Zotero ออกแบบมาให้ทำ แต่ถ้าคุณชี้ Firefox ไปที่ไฟล์ข้อความหรือไฟล์ html ที่มีข้อมูลที่เกี่ยวข้อง Zotero อาจรับรู้การอ้างอิงแล้วคุณสามารถเพิ่มลงในห้องสมุด Zotero และส่งออก ไลบรารีทั้งหมดในรูปแบบใดก็ได้ที่คุณชอบ (ฉันรู้ว่า Zotero รองรับรูปแบบมากมาย) มันอาจจะเจ็บปวดสำหรับไฟล์จำนวนมาก

— nedned

ฉันไม่เห็นว่า Zotero ทำในสิ่งที่ OP ถามหรือไม่ ฉันติดตั้งแล้ว แต่ดูเหมือนจะไม่มีตัวเลือกในการแยกวิเคราะห์อ้างอิง

— Rikki

Zotero แยกวิเคราะห์การอ้างอิงจากเว็บไซต์ที่เข้ารหัสพิเศษไม่ใช่จากข้อความปกติ

— Ochado

0

นี่อาจเป็นของมากกว่าความคิดเห็นของ @Abhinav แต่ zotero จะจัดการกับข้อมูลที่มีโครงสร้างอย่างแน่นอนเท่านั้น

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

แฮ็คที่น่าสนใจอาจพยายามเขียนโปรแกรมที่ใช้การอ้างอิงแต่ละรายการเป็นข้อความค้นหาในฐานข้อมูลที่คุณชื่นชอบจากนั้นใช้บางอย่างเช่น zotero เพื่อสร้างข้อมูลอ้างอิง คุณสามารถดาวน์โหลดข้อมูลที่มีโครงสร้างจากบริการต่างๆเช่น citeUlike แจ้งให้เราทราบหากคุณทำสิ่งที่ชอบ! (วางไว้บน GitHub ถ้าคุณทำ;)

— Dav Clark
แหล่งที่มา