پانداس، کتابخونه ای برای کار با داده ها، که مهمترین آن ها دیتافریم و سری هستند.در ادامه با این دیتا ها و نحوه کار باهاشون آشنا میشیم.
پاندا کتابخونه بزرگی است،در هر قسمت از این سری مقالات با بخشی از این دنیای بزرگ آشنا میشویم.
نصب :
راحت ترین مرحله همینجاست، وارد خط فرمان بشید و این دو دستور را بنویسید:
pip install pandas
pip install numpy
بعد از دانلود و نصب برید سراغ محل کدنویسیتون (مثل همیشه از VScode استفاده میکنم). اولین کاری که میخوایم بکنیم آشنایی با سری هاست
سری ها و دیتا فریم ها به چه دردی میخورند؟
عموما برای مرتب سازی داده ها، رسم نمودار ، کار با داده ها و... استفاده میشوند.
سری ها مثل دیکشنری هستند. از یک ایندکس (index) و یک داده(data) تشکیل میشن.ایندکس ها به صورت پیشفرض به ازای n داده، 0 تا n-1 هستند.
برای مثال یک سری با دیتای سیب،پرتغال و موز به این شکله:
0 سیب
1 پرتقال
2 موز
اما بریم سراغ ساخت سری:
اول از همه باید پانداس رو فراخوانی کنیم (که ما بهش اسم مستعار pd رو میدیم که راحت تر استفاده بشه). همچنین نامپای(numpy) رو هم ایمپوریت میکنیم که تو این مقاله زیاد باهاش کار نمیکنیم و صرفا یک مثال میزنیم.
import pandas as pd
import numpy as np
ما میخواهیم یه سری با چند اسم بسازیم.پس اول اسم هامون رو توی یک متغیر لیست تعریف میکنیم:
data = ["ali","erfan","sadra"]
حالا برای تبدیل کردنش به سری از این دستور استفاده میکنیم :
myser = pd.Series(data)
دقت کنید که S باید بزرگ باشه.نتیجه بعد از پرینت کردن به این صورته:
0 ali
1 erfan
2 sadra
dtype: object
اما اگه بخوایم اون ایندکس ها به جای عدد داده دلخواه ما باشه چی؟ یه لیست دیگه میسازیم و اینجوری به سری معرفیش میکنیم :
indexs = ["In1","in2","in3"]
myser = pd.Series(data, index=indexs)
بعد از پرینت نتیجه به این صورته:
In1 ali
in2 erfan
in3 sadra
dtype: object
به همین سادگی ما تونستیم یه سری بسازیم.
اما سری فقط با داده معمولی پایتون نیست و ما میتونیم حتی با آرایه های نامپای سری بسازیم :
data = np.array(["ali","erfan","sadra"])
indexs = ["In1","in2","in3"]
myser = pd.Series(data, index=indexs)
بعد از اجرا میبینیم که نتیجه همون شکلیه و هیچ اروری نداریم
اما دیتا فریم چیه؟ دیتافریم دقیقا مثل یک جدوله، برای مثال این یک دیتافریمه :
name age
0 ali 15
1 erfan 15
2 sadra 14
اون ردیف ها (0 تا 2) و ستون ها (age و name) میتونه چندین تا باشه.
ساخت دیتافریم :
به دو روش میتونیم این نوع داده رو تعریف کنیم،روش اول با کمک دیکشنری که مقدار(value) اون یک لیسته.در نتیجه کلید ها تبدیل به عنوان ستون و مقدار ها تبدیل به ردیف ها میشن:
data = {
"name":["ali","erfan","sadra"],
"age":[15,15,14]
}
df = pd.DataFrame*(data)
با پرینت کردن df میتونیم همون نتیجه قبلی رو ببینیم.
روش دوم هم به صورت لیستی است :
data = [["ali",15],["erfan",15],["sadra",14]]
column = ["name","age"]
df = pd.DataFrame(data,coumns=column)
همینطور که حدس میزنید مقدار این متغیر هم دقیقا مثل همون قبلیهاست.
امیدوارم از این مطلب خوشتون اومده باشه، توی قسمت بعدی از این مجموعه مطالب سراغ خواندن داده از فایل csv و excel میرویم.
با سلام خدمت شما دوستان گرامی، امیدوارم خسته نباشید. بنظر من اگه مقالات از حد معرفی در بیاد و مطالب را بصورت کامل و حرفه ای بیان کنید خیلی بیشتر مورد استفاده قرار می گیره و کمک بیشتری به یادگیری موضوع میکنه. از زحمات شما متشکرم