จะนำเข้าข้อมูลจาก mongodb ไปยังแพนด้าได้อย่างไร?


100

ฉันมีข้อมูลจำนวนมากในคอลเล็กชันใน mongodb ซึ่งฉันต้องวิเคราะห์ ฉันจะนำเข้าข้อมูลนั้นไปยังแพนด้าได้อย่างไร

ฉันยังใหม่กับแพนด้าและมึนงง

แก้ไข: คอลเลกชัน mongodb มีค่าเซ็นเซอร์ที่ติดแท็กวันที่และเวลา ค่าเซ็นเซอร์เป็นประเภทข้อมูลลอย

ข้อมูลตัวอย่าง:

{
"_cls" : "SensorReport",
"_id" : ObjectId("515a963b78f6a035d9fa531b"),
"_types" : [
    "SensorReport"
],
"Readings" : [
    {
        "a" : 0.958069536790466,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:26:35.297Z"),
        "b" : 6.296118156595,
        "_cls" : "Reading"
    },
    {
        "a" : 0.95574014778624,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:27:09.963Z"),
        "b" : 6.29651468650064,
        "_cls" : "Reading"
    },
    {
        "a" : 0.953648289182713,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:27:37.545Z"),
        "b" : 7.29679823731148,
        "_cls" : "Reading"
    },
    {
        "a" : 0.955931884300997,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:28:21.369Z"),
        "b" : 6.29642922525632,
        "_cls" : "Reading"
    },
    {
        "a" : 0.95821381,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:41:20.801Z"),
        "b" : 7.28956613,
        "_cls" : "Reading"
    },
    {
        "a" : 4.95821335,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:41:36.931Z"),
        "b" : 6.28956574,
        "_cls" : "Reading"
    },
    {
        "a" : 9.95821341,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:42:09.971Z"),
        "b" : 0.28956488,
        "_cls" : "Reading"
    },
    {
        "a" : 1.95667927,
        "_types" : [
            "Reading"
        ],
        "ReadingUpdatedDate" : ISODate("2013-04-02T08:43:55.463Z"),
        "b" : 0.29115237,
        "_cls" : "Reading"
    }
],
"latestReportTime" : ISODate("2013-04-02T08:43:55.463Z"),
"sensorName" : "56847890-0",
"reportCount" : 8
}

การใช้ ประเภทฟิลด์ที่กำหนดเองกับ MongoEngine สามารถจัดเก็บและเรียกค้น Pandas DataFrames ได้อย่างง่ายดายเพียงmongo_doc.data_frame = my_pandas_df
Jthorpe

คำตอบ:


135

pymongo อาจช่วยให้คุณมีรหัสต่อไปนี้ที่ฉันใช้:

import pandas as pd
from pymongo import MongoClient


def _connect_mongo(host, port, username, password, db):
    """ A util for making a connection to mongo """

    if username and password:
        mongo_uri = 'mongodb://%s:%s@%s:%s/%s' % (username, password, host, port, db)
        conn = MongoClient(mongo_uri)
    else:
        conn = MongoClient(host, port)


    return conn[db]


def read_mongo(db, collection, query={}, host='localhost', port=27017, username=None, password=None, no_id=True):
    """ Read from Mongo and Store into DataFrame """

    # Connect to MongoDB
    db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)

    # Make a query to the specific DB and Collection
    cursor = db[collection].find(query)

    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(list(cursor))

    # Delete the _id
    if no_id:
        del df['_id']

    return df

ขอบคุณนี่คือวิธีที่ฉันใช้ ฉันยังมีเอกสารฝังตัวหลายชุดในแต่ละแถว ผมจึงต้องย้ำมันภายในแต่ละแถวด้วย มีวิธีที่ดีกว่านี้หรือไม่ ??
นิธิน

เป็นไปได้ไหมที่จะให้ตัวอย่างโครงสร้าง mongodb ของคุณ?
waitingkuo

3
สังเกตว่าlist()ภายในจะdf = pd.DataFrame(list(cursor))ประเมินเป็นรายการหรือตัวสร้างเพื่อให้ CPU เย็น หากคุณมีรายการข้อมูล zillionty-one และอีกไม่กี่บรรทัดถัดไปจะมีการแบ่งระดับรายละเอียดและตัดทอนอย่างสมเหตุสมผลแล้ว shmegegge ทั้งหมดก็ยังปลอดภัยที่จะส่งเข้ามา Nice
Phlip

2
ช้ามาก @ df = pd.DataFrame(list(cursor)). การสอบถาม db บริสุทธิ์นั้นเร็วกว่ามาก เราสามารถเปลี่ยนแคสต์listเป็นอย่างอื่นได้ไหม
Peter.k

1
@ ปีเตอร์เส้นนั้นยังสบตาฉัน. การแคสต์เคอร์เซอร์ฐานข้อมูลซึ่งออกแบบมาให้ทำซ้ำได้และอาจรวมข้อมูลจำนวนมากไว้ในรายการในหน่วยความจำดูเหมือนจะไม่ฉลาดสำหรับฉัน
Rafa

42

คุณสามารถโหลดข้อมูล mongodb ของคุณไปยังแพนด้า DataFrame โดยใช้รหัสนี้ มันใช้ได้กับฉัน หวังว่าสำหรับคุณเช่นกัน

import pymongo
import pandas as pd
from pymongo import MongoClient
client = MongoClient()
db = client.database_name
collection = db.collection_name
data = pd.DataFrame(list(collection.find()))

24

Monaryทำอย่างนั้นและมันเร็วมาก ( ลิงค์อื่น )

ดูโพสต์เด็ด ๆ นี้ซึ่งมีบทแนะนำสั้น ๆ และการกำหนดเวลา


Monary รองรับประเภทข้อมูลสตริงหรือไม่
Snehal Parmar

ฉันลอง Monary แล้ว แต่ต้องใช้เวลามาก ฉันไม่มีการเพิ่มประสิทธิภาพบางอย่างหรือไม่ พยายามclient = Monary(host, 27017, database="db_tmp") columns = ["col1", "col2"] data_type = ["int64", "int64"] arrays = client.query("db_tmp", "coll", {}, columns, data_type)สำหรับระเบียนจะใช้เวลาประมาณ50000 200s
nishant

ฟังดูช้ามาก ... พูดตรงๆฉันไม่รู้ว่าสถานะของโครงการนี้คืออะไรตอนนี้ 4 ปีต่อมา ...
shx2

17

ตาม PEP ง่ายดีกว่าซับซ้อน:

import pandas as pd
df = pd.DataFrame.from_records(db.<database_name>.<collection_name>.find())

คุณสามารถรวมเงื่อนไขเช่นเดียวกับที่คุณทำงานกับฐานข้อมูล mongoDB ทั่วไปหรือแม้แต่ใช้ find_one () เพื่อรับองค์ประกอบเดียวจากฐานข้อมูลเป็นต้น

และ voila!


pd.DataFrame.from_records ดูเหมือนว่าจะช้าพอ ๆ กับ DataFrame (list ()) แต่ผลลัพธ์ไม่สอดคล้องกันมาก %% เวลาแสดงอะไรก็ได้ตั้งแต่ 800 ms ถึง 1.9 วินาที
AFD

1
สิ่งนี้ไม่ดีสำหรับบันทึกขนาดใหญ่เนื่องจากไม่แสดงข้อผิดพลาดของหน่วยความจำ instread จะหยุดระบบสำหรับข้อมูลขนาดใหญ่เกินไป ในขณะที่ pd.DataFrame (รายการ (เคอร์เซอร์)) แสดงข้อผิดพลาดของหน่วยความจำ
Amulya Acharya


9

สำหรับการจัดการกับข้อมูลนอกคอร์ (ไม่พอดีกับ RAM) อย่างมีประสิทธิภาพ (เช่นการดำเนินการแบบขนาน) คุณสามารถลองใช้ระบบนิเวศของ Python Blaze : Blaze / Dask / Odo

Blaze (และOdo ) มีฟังก์ชั่นสำเร็จรูปเพื่อจัดการกับ MongoDB

บทความที่มีประโยชน์บางส่วนที่จะเริ่มต้น:

และบทความที่แสดงให้เห็นว่าสิ่งที่น่าอัศจรรย์เป็นไปได้อย่างไรกับ Blaze stack: การวิเคราะห์ความคิดเห็น Reddit 1.7 พันล้านรายการด้วย Blaze และ Impala (โดยพื้นฐานแล้วการสอบถามความคิดเห็น Reddit 975 Gb ในไม่กี่วินาที)

ปล. ฉันไม่ได้มีส่วนเกี่ยวข้องกับเทคโนโลยีเหล่านี้


1
ฉันยังเขียนโพสต์โดยใช้ Jupyter Notebook พร้อมตัวอย่างวิธีที่ Dask ช่วยเร่งความเร็วในการดำเนินการแม้ในข้อมูลที่เหมาะสมกับหน่วยความจำโดยใช้หลายคอร์ในเครื่องเดียว
Dennis Golomazov

9

อีกทางเลือกหนึ่งที่ฉันพบว่ามีประโยชน์มากคือ:

from pandas.io.json import json_normalize

cursor = my_collection.find()
df = json_normalize(cursor)

ด้วยวิธีนี้คุณจะได้รับการเปิดเผยเอกสาร mongodb ที่ซ้อนกันได้ฟรี


2
ฉันได้รับข้อผิดพลาดจากวิธีนี้TypeError: data argument can't be an iterator
Gabriel Fair

2
แปลกนี้ทำงานบนหลามของฉันโดยใช้หมีแพนด้า3.6.7 0.24.2บางทีคุณอาจลองdf = json_normalize(list(cursor))แทน?
Ikar Pohorský

สำหรับ +1 docs อาร์กิวเมนต์ max_level กำหนดระดับความลึกสูงสุดของคำสั่ง ฉันเพิ่งทำการทดสอบและมันไม่เป็นความจริงดังนั้นบางคอลัมน์จะต้องแยกด้วยข้อผิดพลาด. str ยังคงเป็นคุณสมบัติที่ดีมากสำหรับการทำงานกับ mongodb
Mauricio Maroto

5

การใช้

pandas.DataFrame(list(...))

จะใช้หน่วยความจำมากหากผลลัพธ์ของตัววนซ้ำ / ตัวสร้างมีขนาดใหญ่

ดีกว่าที่จะสร้างชิ้นเล็ก ๆ และต่อกันในตอนท้าย

def iterator2dataframes(iterator, chunk_size: int):
  """Turn an iterator into multiple small pandas.DataFrame

  This is a balance between memory and efficiency
  """
  records = []
  frames = []
  for i, record in enumerate(iterator):
    records.append(record)
    if i % chunk_size == chunk_size - 1:
      frames.append(pd.DataFrame(records))
      records = []
  if records:
    frames.append(pd.DataFrame(records))
  return pd.concat(frames)


1

ต่อไปนี้เป็นคำตอบที่ดีนี้โดยwaitingkuoฉันต้องการที่จะเพิ่มความเป็นไปได้ในการดำเนินการที่ใช้ chunksize สอดคล้องกับ.read_sql ()และ.read_csv () ฉันขยายคำตอบจากDeu Leungโดยหลีกเลี่ยงการ "บันทึก" ของ "iterator" / "cursor" ทีละรายการ ฉันจะยืมฟังก์ชั่นread_mongoก่อนหน้านี้

def read_mongo(db, 
           collection, query={}, 
           host='localhost', port=27017, 
           username=None, password=None,
           chunksize = 100, no_id=True):
""" Read from Mongo and Store into DataFrame """


# Connect to MongoDB
#db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)
client = MongoClient(host=host, port=port)
# Make a query to the specific DB and Collection
db_aux = client[db]


# Some variables to create the chunks
skips_variable = range(0, db_aux[collection].find(query).count(), int(chunksize))
if len(skips_variable)<=1:
    skips_variable = [0,len(skips_variable)]

# Iteration to create the dataframe in chunks.
for i in range(1,len(skips_variable)):

    # Expand the cursor and construct the DataFrame
    #df_aux =pd.DataFrame(list(cursor_aux[skips_variable[i-1]:skips_variable[i]]))
    df_aux =pd.DataFrame(list(db_aux[collection].find(query)[skips_variable[i-1]:skips_variable[i]]))

    if no_id:
        del df_aux['_id']

    # Concatenate the chunks into a unique df
    if 'df' not in locals():
        df =  df_aux
    else:
        df = pd.concat([df, df_aux], ignore_index=True)

return df

1

วิธีการที่คล้ายกันเช่น Rafael Valero, waitingkuo และ Deu Leung โดยใช้เลขหน้า :

def read_mongo(
       # db, 
       collection, query=None, 
       # host='localhost', port=27017, username=None, password=None,
       chunksize = 100, page_num=1, no_id=True):

    # Connect to MongoDB
    db = _connect_mongo(host=host, port=port, username=username, password=password, db=db)

    # Calculate number of documents to skip
    skips = chunksize * (page_num - 1)

    # Sorry, this is in spanish
    # https://www.toptal.com/python/c%C3%B3digo-buggy-python-los-10-errores-m%C3%A1s-comunes-que-cometen-los-desarrolladores-python/es
    if not query:
        query = {}

    # Make a query to the specific DB and Collection
    cursor = db[collection].find(query).skip(skips).limit(chunksize)

    # Expand the cursor and construct the DataFrame
    df =  pd.DataFrame(list(cursor))

    # Delete the _id
    if no_id:
        del df['_id']

    return df

0

คุณสามารถบรรลุสิ่งที่คุณต้องการด้วยpdmongoในสามบรรทัด:

import pdmongo as pdm
import pandas as pd
df = pdm.read_mongo("MyCollection", [], "mongodb://localhost:27017/mydb")

หากข้อมูลของคุณมีขนาดใหญ่มากคุณสามารถทำการค้นหาแบบรวมก่อนโดยการกรองข้อมูลที่คุณไม่ต้องการจากนั้นจับคู่กับคอลัมน์ที่คุณต้องการ

นี่คือตัวอย่างของการแมปReadings.aกับคอลัมน์aและการกรองตามreportCountคอลัมน์:

import pdmongo as pdm
import pandas as pd
df = pdm.read_mongo("MyCollection", [{'$match': {'reportCount': {'$gt': 6}}}, {'$unwind': '$Readings'}, {'$project': {'a': '$Readings.a'}}], "mongodb://localhost:27017/mydb")

read_mongo ยอมรับอาร์กิวเมนต์เดียวกันกับ pymongo aggregate

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.