python-pandas и базы данных, такие как mysql


97

В документации к Pandas есть множество примеров лучших практик работы с данными, хранящимися в различных форматах.

Однако я не могу найти хороших примеров для работы, например, с базами данных, такими как MySQL.

Может ли кто-нибудь указать мне ссылки или дать несколько фрагментов кода о том, как эффективно преобразовать результаты запроса с помощью mysql-python во фреймы данных в Pandas?




Также обратите внимание на Blaze .
Сергей Оршанский

Если вы готовы тратить деньги, я считаю, что в книге Уэса МакКинни («Python для анализа данных») есть несколько полезных примеров.
MTrenfield

Ответы:


102

Как говорит Уэс, read_sql io / sql сделает это, как только вы установили соединение с базой данных с использованием библиотеки, совместимой с DBI. Мы можем посмотреть на два коротких примерах использования MySQLdbи cx_Oracleбиблиотек для подключения к Oracle и MySQL и запросами своих словарей данных. Вот пример cx_Oracle:

import pandas as pd
import cx_Oracle

ora_conn = cx_Oracle.connect('your_connection_string')
df_ora = pd.read_sql('select * from user_objects', con=ora_conn)    
print 'loaded dataframe from Oracle. # Records: ', len(df_ora)
ora_conn.close()

А вот эквивалентный пример для MySQLdb:

import MySQLdb
mysql_cn= MySQLdb.connect(host='myhost', 
                port=3306,user='myusername', passwd='mypassword', 
                db='information_schema')
df_mysql = pd.read_sql('select * from VIEWS;', con=mysql_cn)    
print 'loaded dataframe from MySQL. records:', len(df_mysql)
mysql_cn.close()

57

Для недавних читателей этого вопроса: панды имеют следующее предупреждение в своих документах для версии 14.0 :

Предупреждение: некоторые из существующих функций или псевдонимов функций устарели и будут удалены в будущих версиях. Сюда входят: tquery, uquery, read_frame, frame_query, write_frame.

И:

Предупреждение: поддержка варианта mysql при использовании объектов подключения DBAPI устарела. В дальнейшем MySQL будет поддерживаться механизмами SQLAlchemy (GH6900).

Это делает многие ответы здесь устаревшими. Вам следует использовать sqlalchemy:

from sqlalchemy import create_engine
import pandas as pd
engine = create_engine('dialect://user:pass@host:port/schema', echo=False)
f = pd.read_sql_query('SELECT * FROM mytable', engine, index_col = 'ID')

загрузка таблицы со 133 строками и 7 столбцами занимает около 30 секунд .. не могли бы вы рассказать, почему это так?
idoda

@idoda [в общем, это не тема вопроса, и лучше задать новый вопрос, чтобы получить больше мнений]. Вы уверены, что дело не в задержке запроса? Значительно ли быстрее просто отправить запрос и получить результаты?
Korem

@Korem Я действительно думал об открытии нового, но сначала хотел убедиться, что это не тривиальный. Когда я использую клиент mySql (Sequel pro) и запрашиваю базу данных, повторное использование выполняется намного быстрее. Когда вы говорите «просто отправка, а затем получение», вы это имеете в виду? (с использованием клиента)
idoda

@idoda Я имею в виду сравнение времени, необходимого для выполнения, engine.execute("select * FROM mytable")со временем, требуемым для выполненияpd.read_sql_query('SELECT * FROM mytable', engine)
Корем

Можно ли передать запрос sqlalchemy (session.query, как в моем ответе ниже) непосредственно в метод pandas? Вот бы потрошитель!
dmvianna 05

23

Для записи вот пример использования базы данных sqlite:

import pandas as pd
import sqlite3

with sqlite3.connect("whatever.sqlite") as con:
    sql = "SELECT * FROM table_name"
    df = pd.read_sql_query(sql, con)
    print df.shape

1
Вы можете указать столбец для использования в качестве индекса, указав index_col='timestamp'в frame_query.
Механическая улитка

19

Я предпочитаю создавать запросы с помощью SQLAlchemy , а затем делать из него DataFrame. SQLAlchemy облегчает комбинировать SQL условия Pythonically , если вы собираетесь смешивать и сочетать вещи снова и снова.

from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import Table
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from pandas import DataFrame
import datetime

# We are connecting to an existing service
engine = create_engine('dialect://user:pwd@host:port/db', echo=False)
Session = sessionmaker(bind=engine)
session = Session()
Base = declarative_base()

# And we want to query an existing table
tablename = Table('tablename', 
    Base.metadata, 
    autoload=True, 
    autoload_with=engine, 
    schema='ownername')

# These are the "Where" parameters, but I could as easily 
# create joins and limit results
us = tablename.c.country_code.in_(['US','MX'])
dc = tablename.c.locn_name.like('%DC%')
dt = tablename.c.arr_date >= datetime.date.today() # Give me convenience or...

q = session.query(tablename).\
            filter(us & dc & dt) # That's where the magic happens!!!

def querydb(query):
    """
    Function to execute query and return DataFrame.
    """
    df = DataFrame(query.all());
    df.columns = [x['name'] for x in query.column_descriptions]
    return df

querydb(q)

Также вы должны указать драйвер, если он не совпадает с драйвером по умолчанию в SQLAlchemy :dialect+driver://user:pwd@host:port/db
Нуно Андре

11

Пример MySQL:

import MySQLdb as db
from pandas import DataFrame
from pandas.io.sql import frame_query

database = db.connect('localhost','username','password','database')
data     = frame_query("SELECT * FROM data", database)

7
frame_queryустарела. Теперь используйте pd.read_sql(query, db)вместо этого.
Роберт Смит

8

Тот же синтаксис работает для сервера Ms SQL с использованием podbc.

import pyodbc
import pandas.io.sql as psql

cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER=servername;DATABASE=mydb;UID=username;PWD=password') 
cursor = cnxn.cursor()
sql = ("""select * from mytable""")

df = psql.frame_query(sql, cnxn)
cnxn.close()

5

Вот как вы подключаетесь к PostgreSQL с помощью драйвера psycopg2 (установите с помощью «apt-get install python-psycopg2», если вы используете производную ОС Debian Linux).

import pandas.io.sql as psql
import psycopg2

conn = psycopg2.connect("dbname='datawarehouse' user='user1' host='localhost' password='uberdba'")

q = """select month_idx, sum(payment) from bi_some_table"""

df3 = psql.frame_query(q, conn)


4

pandas.io.sql.frame_queryустарела. pandas.read_sqlВместо этого используйте .


1

импортировать модуль

import pandas as pd
import oursql

подключиться

conn=oursql.connect(host="localhost",user="me",passwd="mypassword",db="classicmodels")
sql="Select customerName, city,country from customers order by customerName,country,city"
df_mysql = pd.read_sql(sql,conn)
print df_mysql

Это прекрасно работает и с использованием pandas.io.sql frame_works (с предупреждением об устаревании). Используемая база данных - это образец базы данных из учебника mysql.


0

Это должно работать нормально.

import MySQLdb as mdb
import pandas as pd
con = mdb.connect(‘127.0.0.1’, root’, password’, database_name’);
with con:
 cur = con.cursor()
 cur.execute(“select random_number_one, random_number_two, random_number_three from randomness.a_random_table”)
 rows = cur.fetchall()
 df = pd.DataFrame( [[ij for ij in i] for i in rows] )
 df.rename(columns={0: Random Number One’, 1: Random Number Two’, 2: Random Number Three’}, inplace=True);
 print(df.head(20))

0

Это помогло мне подключиться к AWS MYSQL (RDS) из лямбда-функции на основе python 3.x и загрузить в pandas DataFrame.

import json
import boto3
import pymysql
import pandas as pd
user = 'username'
password = 'XXXXXXX'
client = boto3.client('rds')
def lambda_handler(event, context):
    conn = pymysql.connect(host='xxx.xxxxus-west-2.rds.amazonaws.com', port=3306, user=user, passwd=password, db='database name', connect_timeout=5)
    df= pd.read_sql('select * from TableName limit 10',con=conn)
    print(df)
    # TODO implement
    #return {
    #    'statusCode': 200,
    #    'df': df
    #}

0

Для пользователей Postgres

import psycopg2
import pandas as pd

conn = psycopg2.connect("database='datawarehouse' user='user1' host='localhost' password='uberdba'")

customers = 'select * from customers'

customers_df = pd.read_sql(customers,conn)

customers_df

1
Не могли бы вы указать на разницу в ответе @Will и почему следует выбрать ваше решение?
Себастьян,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.