Python je jako jazyk nadmíru cenný, zvláště když chcete pracovat se strukturovanými daty. Vzhledem k tomu, že lidé ukládají velké množství dat do souborů aplikace Excel, je nutné sloučit více souborů, abyste ušetřili čas a námahu.
Python vám to přesně umožňuje; bez ohledu na to, kolik souborů Excel chcete zkombinovat, můžete to udělat relativně snadno. Vzhledem k rozsahu jeho knihoven a zdrojů třetích stran můžete importovat a používat mnohostranné nástroje Pythonu k provádění svých nabídek.
V této příručce budete muset nainstalovat a používat knihovny Pandas k importu dat do Pythonu před jejich konsolidací.
Nainstalujte knihovny Pandas v Pythonu
Pandas je knihovna třetí strany, kterou si můžete nainstalovat v Pythonu. Některá IDE již v sobě mají nainstalované Pandy.
Pokud používáte verze IDE která se nedodává s předinstalovanými Pandami, buďte si jisti, že ji můžete nainstalovat přímo v Pythonu.
Zde je návod, jak nainstalovat Pandy:
pip install pandy
Pokud používáte Jupyter Notebook, můžete Pandy nainstalovat přímo pomocí
PIP příkaz. Většinou, když jste nainstalovali Jupyter s Anacondou, existuje vysoká šance, že již budete mít Pandy k dispozici pro přímé použití.Pokud nemůžete volat Pandy, můžete použít výše uvedený příkaz k jejich přímé instalaci.
Kombinace souborů Excel s Pythonem
Nejprve musíte vytvořit složku ve vámi preferovaném umístění se všemi soubory aplikace Excel. Jakmile je složka připravena, můžete začít psát kód pro import knihoven.
V tomto kódu použijete dvě proměnné:
- pandy: Knihovna Pandas poskytuje datové rámce pro ukládání souborů aplikace Excel.
- OS: Knihovna je výhodná pro čtení dat ze složky vašeho počítače
Chcete-li importovat tyto knihovny, použijte tyto příkazy:
Importujte pandy jako pd
Import OS
- Import: Syntaxe Pythonu používaná k importu knihoven v Pythonu
- pandy: Název knihovny
- pd: Alias předán knihovně
- OS: Knihovna pro přístup k systémové složce
Jakmile naimportujete knihovny, vytvořte dvě proměnné pro uložení vstupní a výstupní cesty k souboru. Vstupní cesta k souboru je nutná pro přístup ke složce souborů. Cesta k výstupnímu souboru je nezbytná, protože tam bude exportován kombinovaný soubor.
Pokud používáte Python, ujistěte se, že jste změnili zpětné lomítko na dopředné lomítko (\ na /)
input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel soubory/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"
Připojte / na konci také dokončit cesty.
Soubory složky jsou dostupné v seznamu. Vytvořte seznam pro uložení všech odkazů na soubory vstupní složky pomocí listdir funkce z OS knihovna.
Pokud si nejste jisti funkcemi dostupnými v knihovně, můžete použít dir funkce s názvem knihovny. Chcete-li například zkontrolovat přesnou verzi funkce listdir, můžete použít příkaz takto:
dir (OS)
Výstup se bude skládat ze všech souvisejících funkcí dostupných v knihovně OS. Funkce listdir je jednou z mnoha funkcí dostupných v této knihovně.
Vytvořte novou proměnnou pro uložení vstupních souborů ze složky.
excel_file_list = os.listdir (cesta k vstupnímu_souboru)
Vytiskněte tuto proměnnou, abyste viděli názvy souborů uložených ve složce. Po použití funkce tisku se zobrazí všechny soubory uložené ve složce.
tisknout (excel_file_list)
Dále musíte přidat nový datový rámec pro uložení každého souboru aplikace Excel. Představte si datový rámec jako kontejner pro ukládání dat. Zde je příkaz pro vytvoření datového rámce.
df = pd. DataFrame()
- df: Proměnná pro uložení hodnoty DataFrame
- pd: Přezdívka pro Knihovna pand
- DataFrame: Výchozí syntaxe pro přidání datového rámce
Vstupní složka má tři .xlsx soubory v tomto příkladu. Názvy souborů jsou:
Soubor1_excel.xlsx
Soubor2_excel.xlsx
Soubor3_excel.xlsx
Chcete-li otevřít každý soubor z této složky, musíte spustit smyčku. Smyčka poběží pro každý ze souborů ve výše vytvořeném seznamu.
Můžete to udělat takto:
pro excel_files v excel_file_list:
Dále je nutné zkontrolovat přípony souborů, protože kód otevře pouze soubory XLSX. Ke kontrole těchto souborů můžete použít Li prohlášení.
Použijte končí s fungovat pro tento účel takto:
pro excel_files v excel_file_list:
if excel_files.endswith(.xlsx"):
- excel_files: Seznam se všemi hodnotami souboru
- končí s: Funkce pro kontrolu přípony souborů
- (.xlsx): Tato hodnota řetězce se může měnit v závislosti na tom, co chcete hledat
Nyní, když jste identifikovali soubory aplikace Excel, můžete vytvořit nový datový rámec pro čtení a ukládání souborů jednotlivě.
pro excel_files v excel_file_list:
if excel_files.endswith(.xlsx"):
df1 = pd.read_excel (cesta k vstupnímu_souboru+soubory_excelu)
- df1: Nový datový rámec
- pd: Knihovna pand
- read_excel: Funkce pro čtení souborů aplikace Excel v knihovně Pandas
- cesta k vstupnímu_souboru: Cesta ke složce, kde jsou soubory uloženy
- excel_files: Jakákoli proměnná, která se používá v cyklu for
Chcete-li začít přidávat soubory, musíte použít připojit funkce.
pro excel_files v excel_file_list:
if excel_files.endswith(.xlsx"):
df1 = pd.read_excel (cesta k vstupnímu_souboru+soubory_excelu)
df = df.append (df1)
Konečně, nyní, když je konsolidovaný datový rámec připraven, jej můžete exportovat do výstupního umístění. V tomto případě exportujete datový rámec do souboru XLSX.
df.to_excel (cesta_výstupního_souboru+"konsolidovaný_soubor.xlsx")
- df: Dataframe k exportu
- to_excel: Příkaz používaný k exportu dat
- cesta k výstupnímu_souboru: Cesta definovaná pro uložení výstupu
- Consolidated_file.xlsx: Název konsolidovaného souboru
Nyní se podívejme na konečný kód:
#Pandas se používá jako datový rámec pro zpracování souborů aplikace Excel
importovat pandy jako pd
import os# změňte lomítko z „\“ na „/“, pokud používáte zařízení Windows
input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel soubory/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"#create a list pro uložení všech odkazů na soubory vstupní složky pomocí funkce listdir z knihovny OS.
# Chcete-li zobrazit obsah knihovny (jako funkce listdir, můžete použít funkci dir na název knihovny).
#Pro výpis obsahu použijte dir (jméno_knihovny).excel_file_list = os.listdir (cesta k vstupnímu_souboru)
#po definování seznamu vytiskněte všechny soubory uložené ve složce
excel_file_list#Jakmile se každý soubor otevře, použijte funkci append k zahájení konsolidace dat uložených ve více souborech
#vytvořte nový, prázdný datový rámec pro zpracování importu souborů aplikace Excel
df = pd. DataFrame()# Spusťte cyklus for pro procházení každého souboru v seznamu
pro excel_files v excel_file_list:
#zkontrolujte pouze soubory s příponou .xlsx
if excel_files.endswith(.xlsx"):
#vytvořte nový datový rámec pro čtení/otevření každého souboru aplikace Excel ze seznamu souborů vytvořených výše
df1 = pd.read_excel (cesta k vstupnímu_souboru+soubory_excelu)
#připojit každý soubor do původního prázdného datového rámce
df = df.append (df1)
#transfer konečný výstup do souboru Excel (xlsx) na výstupní cestě
df.to_excel (cesta_výstupního_souboru+"konsolidovaný_soubor.xlsx")
Použití Pythonu ke kombinaci více sešitů Excelu
Python's Pandas je vynikající nástroj pro začátečníky i pokročilé uživatele. Knihovnu hojně využívají vývojáři, kteří chtějí ovládat Python.
I když jste začátečník, můžete se naučit nuance Pandas a jak se knihovna používá v Pythonu, můžete mít obrovský užitek.
Osvojte si pandy pomocí těchto operací pro začátečníky.
Přečtěte si další
- Programování
- Krajta
- Microsoft Excel
- Tabulka
Gaurav Siyal má dva roky zkušeností s psaním, psaním pro řadu digitálních marketingových firem a dokumentů životního cyklu softwaru.
Přihlaste se k odběru našeho newsletteru
Připojte se k našemu zpravodaji a získejte technické tipy, recenze, bezplatné e-knihy a exkluzivní nabídky!
Chcete-li se přihlásit k odběru, klikněte sem