Python je jako jazyk nadmíru cenný, zvláště když chcete pracovat se strukturovanými daty. Vzhledem k tomu, že lidé ukládají velké množství dat do souborů aplikace Excel, je nutné sloučit více souborů, abyste ušetřili čas a námahu.

Python vám to přesně umožňuje; bez ohledu na to, kolik souborů Excel chcete zkombinovat, můžete to udělat relativně snadno. Vzhledem k rozsahu jeho knihoven a zdrojů třetích stran můžete importovat a používat mnohostranné nástroje Pythonu k provádění svých nabídek.

V této příručce budete muset nainstalovat a používat knihovny Pandas k importu dat do Pythonu před jejich konsolidací.

Nainstalujte knihovny Pandas v Pythonu

Pandas je knihovna třetí strany, kterou si můžete nainstalovat v Pythonu. Některá IDE již v sobě mají nainstalované Pandy.

Pokud používáte verze IDE která se nedodává s předinstalovanými Pandami, buďte si jisti, že ji můžete nainstalovat přímo v Pythonu.

Zde je návod, jak nainstalovat Pandy:

pip install pandy

Pokud používáte Jupyter Notebook, můžete Pandy nainstalovat přímo pomocí

instagram viewer
PIP příkaz. Většinou, když jste nainstalovali Jupyter s Anacondou, existuje vysoká šance, že již budete mít Pandy k dispozici pro přímé použití.

Pokud nemůžete volat Pandy, můžete použít výše uvedený příkaz k jejich přímé instalaci.

Kombinace souborů Excel s Pythonem

Nejprve musíte vytvořit složku ve vámi preferovaném umístění se všemi soubory aplikace Excel. Jakmile je složka připravena, můžete začít psát kód pro import knihoven.

V tomto kódu použijete dvě proměnné:

  1. pandy: Knihovna Pandas poskytuje datové rámce pro ukládání souborů aplikace Excel.
  2. OS: Knihovna je výhodná pro čtení dat ze složky vašeho počítače

Chcete-li importovat tyto knihovny, použijte tyto příkazy:

Importujte pandy jako pd
Import OS
  • Import: Syntaxe Pythonu používaná k importu knihoven v Pythonu
  • pandy: Název knihovny
  • pd: Alias ​​předán knihovně
  • OS: Knihovna pro přístup k systémové složce

Jakmile naimportujete knihovny, vytvořte dvě proměnné pro uložení vstupní a výstupní cesty k souboru. Vstupní cesta k souboru je nutná pro přístup ke složce souborů. Cesta k výstupnímu souboru je nezbytná, protože tam bude exportován kombinovaný soubor.

Pokud používáte Python, ujistěte se, že jste změnili zpětné lomítko na dopředné lomítko (\ na /)

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel soubory/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"

Připojte / na konci také dokončit cesty.

Soubory složky jsou dostupné v seznamu. Vytvořte seznam pro uložení všech odkazů na soubory vstupní složky pomocí listdir funkce z OS knihovna.

Pokud si nejste jisti funkcemi dostupnými v knihovně, můžete použít dir funkce s názvem knihovny. Chcete-li například zkontrolovat přesnou verzi funkce listdir, můžete použít příkaz takto:

dir (OS)

Výstup se bude skládat ze všech souvisejících funkcí dostupných v knihovně OS. Funkce listdir je jednou z mnoha funkcí dostupných v této knihovně.

Vytvořte novou proměnnou pro uložení vstupních souborů ze složky.

excel_file_list = os.listdir (cesta k vstupnímu_souboru)

Vytiskněte tuto proměnnou, abyste viděli názvy souborů uložených ve složce. Po použití funkce tisku se zobrazí všechny soubory uložené ve složce.

tisknout (excel_file_list)

Dále musíte přidat nový datový rámec pro uložení každého souboru aplikace Excel. Představte si datový rámec jako kontejner pro ukládání dat. Zde je příkaz pro vytvoření datového rámce.

df = pd. DataFrame()
  • df: Proměnná pro uložení hodnoty DataFrame
  • pd: Přezdívka pro Knihovna pand
  • DataFrame: Výchozí syntaxe pro přidání datového rámce

Vstupní složka má tři .xlsx soubory v tomto příkladu. Názvy souborů jsou:

Soubor1_excel.xlsx
Soubor2_excel.xlsx
Soubor3_excel.xlsx

Chcete-li otevřít každý soubor z této složky, musíte spustit smyčku. Smyčka poběží pro každý ze souborů ve výše vytvořeném seznamu.

Můžete to udělat takto:

pro excel_files v excel_file_list:

Dále je nutné zkontrolovat přípony souborů, protože kód otevře pouze soubory XLSX. Ke kontrole těchto souborů můžete použít Li prohlášení.

Použijte končí s fungovat pro tento účel takto:

pro excel_files v excel_file_list:

if excel_files.endswith(.xlsx"):

  • excel_files: Seznam se všemi hodnotami souboru
  • končí s: Funkce pro kontrolu přípony souborů
  • (.xlsx): Tato hodnota řetězce se může měnit v závislosti na tom, co chcete hledat

Nyní, když jste identifikovali soubory aplikace Excel, můžete vytvořit nový datový rámec pro čtení a ukládání souborů jednotlivě.

pro excel_files v excel_file_list:

if excel_files.endswith(.xlsx"):

df1 = pd.read_excel (cesta k vstupnímu_souboru+soubory_excelu)

  • df1: Nový datový rámec
  • pd: Knihovna pand
  • read_excel: Funkce pro čtení souborů aplikace Excel v knihovně Pandas
  • cesta k vstupnímu_souboru: Cesta ke složce, kde jsou soubory uloženy
  • excel_files: Jakákoli proměnná, která se používá v cyklu for

Chcete-li začít přidávat soubory, musíte použít připojit funkce.

pro excel_files v excel_file_list:

if excel_files.endswith(.xlsx"):

df1 = pd.read_excel (cesta k vstupnímu_souboru+soubory_excelu)
df = df.append (df1)

Konečně, nyní, když je konsolidovaný datový rámec připraven, jej můžete exportovat do výstupního umístění. V tomto případě exportujete datový rámec do souboru XLSX.

df.to_excel (cesta_výstupního_souboru+"konsolidovaný_soubor.xlsx")
  • df: Dataframe k exportu
  • to_excel: Příkaz používaný k exportu dat
  • cesta k výstupnímu_souboru: Cesta definovaná pro uložení výstupu
  • Consolidated_file.xlsx: Název konsolidovaného souboru

Nyní se podívejme na konečný kód:

#Pandas se používá jako datový rámec pro zpracování souborů aplikace Excel
importovat pandy jako pd
import os

# změňte lomítko z „\“ na „/“, pokud používáte zařízení Windows

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel soubory/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"

#create a list pro uložení všech odkazů na soubory vstupní složky pomocí funkce listdir z knihovny OS.
# Chcete-li zobrazit obsah knihovny (jako funkce listdir, můžete použít funkci dir na název knihovny).
#Pro výpis obsahu použijte dir (jméno_knihovny).

excel_file_list = os.listdir (cesta k vstupnímu_souboru)

#po definování seznamu vytiskněte všechny soubory uložené ve složce
excel_file_list

#Jakmile se každý soubor otevře, použijte funkci append k zahájení konsolidace dat uložených ve více souborech

#vytvořte nový, prázdný datový rámec pro zpracování importu souborů aplikace Excel
df = pd. DataFrame()

# Spusťte cyklus for pro procházení každého souboru v seznamu
pro excel_files v excel_file_list:
#zkontrolujte pouze soubory s příponou .xlsx
if excel_files.endswith(.xlsx"):
#vytvořte nový datový rámec pro čtení/otevření každého souboru aplikace Excel ze seznamu souborů vytvořených výše
df1 = pd.read_excel (cesta k vstupnímu_souboru+soubory_excelu)
#připojit každý soubor do původního prázdného datového rámce
df = df.append (df1)

#transfer konečný výstup do souboru Excel (xlsx) na výstupní cestě
df.to_excel (cesta_výstupního_souboru+"konsolidovaný_soubor.xlsx")

Použití Pythonu ke kombinaci více sešitů Excelu

Python's Pandas je vynikající nástroj pro začátečníky i pokročilé uživatele. Knihovnu hojně využívají vývojáři, kteří chtějí ovládat Python.

I když jste začátečník, můžete se naučit nuance Pandas a jak se knihovna používá v Pythonu, můžete mít obrovský užitek.

6 Pandas Operations pro začátečníky

Osvojte si pandy pomocí těchto operací pro začátečníky.

Přečtěte si další

PodíltweetE-mailem
Související témata
  • Programování
  • Krajta
  • Microsoft Excel
  • Tabulka
O autorovi
Gaurav Siyal (59 zveřejněných článků)

Gaurav Siyal má dva roky zkušeností s psaním, psaním pro řadu digitálních marketingových firem a dokumentů životního cyklu softwaru.

Více od Gaurava Siyala

Přihlaste se k odběru našeho newsletteru

Připojte se k našemu zpravodaji a získejte technické tipy, recenze, bezplatné e-knihy a exkluzivní nabídky!

Chcete-li se přihlásit k odběru, klikněte sem