Discover Top Posts Tagged with #dataframe

Popular Recent

If I start posting about my ocs you guys have to all pretend you can’t tell who they’re all based on. like i need you all to promise to pretend I’m capable of original thought

#or am I gonna have to pull a tmuir and disappear from #tumblr before I can start talking about them #like it’s fine if everyone knows who lev is That’s obvious. but everyone else #dataframe

How to Create DataFrame in Python ☞ https://morioh.com/p/452befebd0f7?f=5c21fb01c16e2556b555ab32

#morioh #Python #DataFrame #python

#morioh #Python #DataFrame

Dataframe

DataFrame — это табличная структура данных с именованными столбцами и индексами строк, предназначенная для удобного хранения, преобразования и анализа структурированных данных в аналитических и научных вычислениях. Представьте себе лист Excel, но с возможностью программного управления и обработки миллионов строк за секунды. Это основной объект для манипуляции данными в языке Python (библиотека Pandas) и экосистеме Big Data (Apache Spark). DataFrame хранит данные разных типов (числа, строки, даты) в столбцах, но имеет строгую структуру. Без понимания этого инструмента работа современного дата-сайентиста или аналитика невозможна.

Анатомия DataFrame

Чтобы эффективно работать с DataFrame, нужно понимать его внутреннее устройство. Он не просто хранит ячейки, а связывает их в интеллектуальную систему. Конструкция держится на трех основных компонентах: Index (Индекс). Это "адрес" каждой строки. Обычно это последовательность чисел от 0 до N, но индексом могут быть даты или уникальные ID. Индекс позволяет мгновенно находить нужные записи без перебора всего массива. Columns (Колонки). Это имена переменных или признаков. Каждый столбец имеет имя (заголовок) и, что критически важно, определенный тип данных. Data (Данные). Это само содержимое ячеек. В библиотеке Pandas данные часто хранятся в виде массивов NumPy для максимальной скорости вычислений. Когда вы пишете код, вы всегда обращаетесь к координатам: df. Взаимодействие этих компонентов определяет, как мы обращаемся к информации. Мы не говорим «ячейка C5», мы говорим «строка с индексом '2023-10-01' и колонка 'Revenue'».

Другие варианты обращения к данным вы можете посмотреть на следующей таблице Операция Синтаксис Результат (тип) Выбор столбца df Series Выбор строки по метке df.loc Series Выбор строки по индексу (позиции) df.iloc Series Срез строк df DataFrame Выбор строк по булеву вектору df DataFrame Ключевая особенность архитектуры - гетерогенность столбцов. Вы можете хранить целые числа в колонке "Возраст" и текст в колонке "Имя". Однако внутри одного столбца тип данных всегда должен быть одинаковым. Это позволяет компьютеру оптимизировать память и применять быстрые векторные операции. Series vs DataFrame и работа с Осями

Важно различать одномерные и двумерные структуры.

Series: Это один столбец с его индексом. Это одномерный массив.

DataFrame: Это контейнер для нескольких объектов Series. Эти Series склеены вместе и имеют общий индекс.

При операциях с таблицей мы часто указываем направление. В Pandas и NumPy это называется осями (axes):

axis=0 Двигаемся вдоль индекса (по вертикали). Если мы считаем среднее с axis=0, мы схлопываем строки и получаем среднее для каждого столбца.

axis=1 Двигаемся вдоль колонок (по горизонтали). Операция применяется к каждой строке отдельно.

Архитектура памяти Dataframe в Pandas - BlockManager В отличие от того, как мы видим таблицу на экране, Pandas не хранит данные построчно. Под капотом работает механизм BlockManager, который группирует колонки по типам данных.

DataFrame физически состоит из одного или нескольких блоков. Все колонки типа int собираются в один блок. Все колонки типа float — в другой. Объекты (строки) — в третий. Именно внутри блока данные хранятся в памяти непрерывно (contiguous memory). Это ключевой момент для понимания производительности. Инспекция памяти Вы можете увидеть это устройство своими глазами. Атрибут _mgr (_data depreciated) покажет внутреннюю кухню BlockManager, а .values.base подтвердит, что разные колонки одного типа делят общую память. # Посмотреть, как BlockManager сгруппировал данные print(df._mgr) # Проверить, что колонка 'Age' (int) делит память с 'Salary' (int) # Вывод покажет значения и других колонок из того же блока print(df.values.base)

Влияние на скорость (Performance) Понимание блочной структуры помогает избегать скрытых тормозов в коде. Срезы (Slicing) Если вы делаете срез колонок одного типа (например, только числовые Age и Salary), Pandas не копирует данные. Он создает "вид" (view), что очень быстро. Если срез затрагивает разные типы (например, число Age и строку Department), Pandas вынужден копировать данные в новую структуру. Добавление строк (Appending) Это одна из самых дорогих операций. Добавление новой строки заставляет Pandas: Создавать новые блоки. Копировать все данные из старых блоков в новые. Заново перераспределять память. Best Practice: Никогда не добавляйте данные в цикле построчно (append). Гораздо эффективнее собрать данные в список и один раз объединить их через pd.concat(). Добавление колонок Здесь Pandas работает умнее. Копирование блоков откладывается (lazy) до тех пор, пока какая-либо операция реально не потребует перестройки памяти. Практика - Базовый синтаксис (Pandas) Разберем основные операции, с которыми инженер сталкивается ежедневно. Для примеров используем библиотеку Pandas — стандарт индустрии. Загрузка и Создание Мы редко создаем данные вручную, обычно мы их читаем. import pandas as pd # Сценарий 1: Чтение из файла (Самый частый кейс) # Pandas сам распознает заголовки и типы данных df_csv = pd.read_csv('test_data.csv', sep=',') df_json = pd.read_json('test_data_export.json') # Сценарий 2: Создание из словаря (для тестов) data = { 'city': , 'temp': , 'is_raining': } # Ключи словаря станут колонками df = pd.DataFrame(data)

Доступ к данным - loc vs iloc Это самая запутанная тема для новичков. Запомните главное правило: loc смотрит на названия, iloc — на позиции. Представьте, что у нас есть DataFrame df, где индексом являются имена городов ( для примера возьмем справочник созданный нами в предыдущей практике Moscow-Perm-Sochi) # Установим город как индекс df = df.set_index('city') # --- .loc (LABEL based) --- # "Дай мне данные для строки с меткой 'Perm'" perm_data = df.loc # "Дай мне температуру (колонка) для Москвы (строка)" msk_temp = df.loc # Вернет 15 # --- .iloc (INTEGER based) --- # "Дай мне первую строку таблицы" (неважно, как она называется) first_row = df.iloc # "Дай мне первые 2 строки и 1-ю колонку" slice_data = df.iloc

Используйте loc для бизнес-логики ("найди клиента X"), а iloc — для технических операций ("дай последние 5 строк"). Механизм работы Почему DataFrame работает быстрее, чем обычные списки Python? Секрет кроется в способе обработки команд. Основные принципы механики включают: Векторизация (Vectorization). Операции применяются ко всему столбцу сразу. Вам не нужно писать циклы, чтобы умножить цены на налог. Вы просто умножаете колонку на число, и процессор делает это пачкой. Выравнивание (Alignment). При сложении двух таблиц DataFrame автоматически сопоставляет данные по индексам. Если индексы не совпадают, система подставит значение NaN (Not a Number), но не выдаст ошибку. Бродкастинг (Broadcasting). Это механизм распространения операций меньшей размерности на большую. Например, при вычитании среднего значения из всего столбца это число "растягивается" на длину всей таблицы. Таким образом, механизм DataFrame берет на себя рутинную работу по итерациям и сопоставлению. Разработчик описывает "что" нужно сделать, а библиотека решает "как" это сделать эффективно. Сценарии использования Dataframes DataFrame используется на всех этапах жизненного цикла данных, от загрузки до моделирования. Это универсальный контейнер для аналитики. Наиболее частые сценарии применения: Разведочный анализ (EDA). Загрузка "сырых" данных для первого взгляда. Аналитики используют методы describe() или head() для оценки распределения значений, поиска аномалий и понимания структуры. Очистка данных (Data Cleaning). Реальные данные редко бывают идеальными. DataFrame предоставляет инструменты для заполнения пропусков, удаления дубликатов и исправления опечаток в текстовых полях. Инженерия признаков (Feature Engineering). Создание новых колонок на основе существующих. Например, выделение дня недели из даты или вычисление отношения "цена/качество" для обучения нейросетей. ETL-процессы. Извлечение данных из баз, их трансформация в нужный формат и загрузка в хранилище. DataFrame служит буфером для обработки информации в памяти. В итоге, практически любая задача по обработке табличных данных в Data Science решается через этот интерфейс.

Взаимодействие и Код

Стандартом индустрии для локальной обработки данных является библиотека Pandas. Рассмотрим базовые операции на языке Python. Сначала мы создадим простой DataFrame и выполним фильтрацию. import pandas as pd # Создаем данные из словаря data = { 'Name': , 'Age': , 'Department': , 'Salary': } data # Инициализируем DataFrame df = pd.DataFrame(data) # Фильтрация: выбираем сотрудников IT старше 26 лет it_workers = df == 'IT') & (df > 26)] print(it_workers)

Второй важнейший паттерн - группировка и агрегация. Это аналог GROUP BY в SQL. Мы разбиваем данные на группы, применяем функцию и собираем обратно. # Группируем по отделу и считаем среднюю зарплату avg_salary = df.groupby('Department').mean() # Добавляем новую колонку (векторная операция) df = df * 0.1

Этот код читается почти как обычный английский текст, что снижает порог входа для новичков, но при этом покрывают 80% повседневной работы аналитика данных.

Сравнение Pandas vs Spark DataFrame vs Polars

Хотя концепция DataFrame едина, реализации могут отличаться. Выбор инструмента зависит от объема данных и доступных ресурсов. Когда данных становится слишком много для одной машины (Big Data), Pandas перестает справляться. На сцену выходят распределенные системы. Принцип остается тем же (таблица, колонки, операции), но синтаксис и исполнение меняются. Сравним, как одну и ту же задачу решают разные инструменты. Задача прочитать CSV и отфильтровать строки, где value > 100. Pandas. Идеален для данных, которые помещаются в оперативную память одного компьютера (обычно до 10-50 ГБ). Работает на одном ядре процессора. Это самый богатый функционально инструмент. Apache Spark DataFrame. Предназначен для Big Data. Используется для кластерных вычислений (терабайты данных). Данные разбиваются на части и обрабатываются параллельно на кластере серверов. Использует "ленивые вычисления" (lazy evaluation): ничего не считает, пока не потребуете результат. from pyspark.sql import SparkSession spark = SparkSession.builder.appName("Example").getOrCreate() # Чтение (ленивое) sdf = spark.read.csv("big_data.csv", header=True, inferSchema=True) # Фильтрация (трансформация) filtered_sdf = sdf.filter(sdf.value > 100) # Действие (Action) — только тут Spark реально начнет работать filtered_sdf.show() Polars. Современная, сверхбыстрая альтернатива Pandas, написанная на языке Rust. Она использует все ядра процессора и эффективно работает с памятью. Это восходящая звезда в мире аналитики. import polars as pl # Чтение pdf = pl.read_csv("data.csv") # Фильтрация (синтаксис похож на Pandas, но быстрее) res = pdf.filter(pl.col("value") > 100) print(res) Если вы выучили логику работы с DataFrame в Pandas, переход на Spark или Polars займет у вас пару дней. Логика "выбрать — отфильтровать — сгруппировать" везде одинакова. Выбирайте Pandas для обучения и небольших проектов, Spark - для терабайтов данных, а Polars - для ускорения локальной обработки. Оптимизация и "подводные камни" При работе с большими таблицами легко написать код, который "завесит" компьютер. Эффективность требует дисциплины. Потому мы можем предложить основные правила оптимизации. Избегайте циклов for. Никогда не итерируйтесь по строкам с помощью iterrows(). Это работает в сотни раз медленнее встроенных векторных функций. Следите за типами данных. По умолчанию Pandas может использовать int64 или float64. Для небольших чисел (например, возраста) достаточно int8. Это снижает потребление памяти в разы. Осторожнее с копиями. При изменении среза данных можно получить SettingWithCopyWarning. Это сигнал, что вы меняете копию, а не оригинал. Используйте .loc для явного указания места записи. Соблюдение этих простых правил сделает ваши скрипты быстрыми и надежными. Чуть больше информации про DataFrames вы сможете получить посмотрев наши видео про основы работы с библиотекой Pandas ( где объясняется тема Dataframe, Series) которое является частью бесплатного видео курса записанного преподавателями "Школы больших данных" и доступного на сайте нашего проекта "Школы Питон". Ваш браузер не поддерживает видео. Скачайте видео

Заключение

DataFrame - это универсальный язык общения аналитика с данными. Он превращает хаотичные массивы информации в стройную структуру, готовую к анализу. Неважно, используете ли вы Pandas на ноутбуке или Spark на кластере, логика работы остается прежней. Следующим шагом после освоения DataFrame должно стать изучение SQL для работы с базами данных. Референсные ссылки - (https://pandas.pydata.org/docs/user_guide/dsintro.html) - (https://spark.apache.org/docs/latest/sql-programming-guide.html) - (https://docs.pola.rs/user-guide/)

#ApacheSpark #Dataframe

Python Pandas Tutorial : Series and DataFrame Basics #2

In this tutorial you will learn about Python Pandas Series and DataFrame Automation from basics to advance. Pandas is a Python … source

#Basics #Dataframe #Pandas #Python #Series #Tutorial

lev & annie dataframe crucially aren’t lab experiments but it’s close enough and I need material for the tag

#dataframe #they’re lab equipment

BigQuery DataFrame And Gretel Verify Synthetic Data Privacy

It looked at how combining Gretel with BigQuery DataFrame simplifies synthetic data production while maintaining data privacy in the useful guide to synthetic data generation with Gretel and BigQuery DataFrames. In summary, BigQuery DataFrame is a Python client for BigQuery that offers analysis pushed down to BigQuery using pandas-compatible APIs.

Gretel provides an extensive toolkit for creating synthetic data using state-of-the-art machine learning methods, such as large language models (LLMs). An seamless workflow is made possible by this integration, which makes it simple for users to move data from BigQuery to Gretel and return the created results to BigQuery.

The technical elements of creating synthetic data to spur AI/ML innovation are covered in detail in this tutorial, along with tips for maintaining high data quality, protecting privacy, and adhering to privacy laws. In Part 1, to de-identify the data from a BigQuery patient records table, and in Part 2, it create synthetic data to be saved back to BigQuery.

Setting the stage: Installation and configuration

With BigFrames already installed, you may begin by using BigQuery Studio as the notebook runtime. To presume you are acquainted with Pandas and have a Google Cloud project set up.

Step 1: Set up BigQuery DataFrame and the Gretel Python client.

Step 2: Set up BigFrames and the Gretel SDK: To use their services, you will want a Gretel API key. One is available on the Gretel console.

Part 1: De-identifying and processing data with Gretel Transform v2

De-identifying personally identifiable information (PII) is an essential initial step in data anonymization before creating synthetic data. For these and other data processing tasks, Gretel Transform v2 (Tv2) offers a strong and expandable framework.

Tv2 handles huge datasets efficiently by combining named entity recognition (NER) skills with sophisticated transformation algorithms. Tv2 is a flexible tool in the data preparation pipeline as it may be used for preprocessing, formatting, and data cleaning in addition to PII de-identification. Study up on Gretel Transform v2.

Step 1: Convert your BigQuery table into a BigFrames DataFrame.

Step 2: Work with Gretel to transform the data.

Part 2: Generating synthetic data with Navigator Fine Tuning (LLM-based)

Gretel Navigator Fine Tuning (NavFT) refines pre-trained models on your datasets to provide high-quality, domain-specific synthetic data. Important characteristics include:

Manages a variety of data formats, including time series, JSON, free text, category, and numerical.

Maintains intricate connections between rows and data kinds.

May provide significant novel patterns, which might enhance the performance of ML/AI tasks.

Combines privacy protection with data usefulness.

By utilizing the advantages of domain-specific pre-trained models, NavFT expands on Gretel Navigator’s capabilities and makes it possible to create synthetic data that captures the subtleties of your particular data, such as the distributions and correlations for numeric, categorical, and other column types.

Using the de-identified data from Part 1, it will refine a Gretel model in this example.

Step 1: Make a model better:

# Display the full report within this notebooktrain_results.report.display_in_notebook()

Step 2: Retrieve the Quality Report for Gretel Synthetic Data.

Step 3: Create synthetic data using the optimized model, assess the privacy and quality of the data, and then publish the results back to a BQ table.

A few things to note about the synthetic data:

Semantically accurate, the different modalities (free text, JSON structures) are completely synthetic and retained.

The data are grouped by patient during creation due to the group-by/order-by hyperparameters that were used during fine-tuning.

How to use BigQuery with Gretel

This technical manual offers a starting point for creating and using synthetic data using Gretel AI and BigQuery DataFrame. You may use the potential of synthetic data to improve your data science, analytics, and artificial intelligence development processes while maintaining data privacy and compliance by examining the Gretel documentation and using these examples.

#dataframe

Trending Tags

Recently Viewed Tags

#dataframe