python 29

Pandas 자주 사용하는 용어정리

1. Series : 판다스의 1차원 데이터를 만들때 사용 2. df.loc [ , ] : 사람용인, 인덱스와 컬럼명으로 데이터를 억세스(가져오는 ) 방법. 3. . iloc : 컴퓨터용 4. df.drop(axis) : 판다스에서 원하는 값을 지울떄(엑시스 값을 정해주지 않을 경우 디폴트 파라미터가 발동되어 axis=0 )으로 적용된다 5. .set_index(컬럼값) : 적용한 컬럼값을 인덱스 값으로 바꿔준다 6. df.head(): 위에서부터 5개의 값을 가져온다 () 안에 쓴 숫자만큼 가져온다/ 7. df.tail(): 뒤에서부터 5개의 값을 가져온다 () 안에 쓴 숫자만큼 가져온다/ 8. df.describe() : 수치 데이터의 통계를 다 가지고온다 9. fillna() : nan 값을 () ..

python 2022.05.25

Pandas 행 , 열 삭제 와 추가

판다스 데이터 프레임에서는 원하는 열 , 행을 삭제하거나 추가할수있다. 우선 새로운 데이터값과 컬럼을 만든후 append 함수를 통해 추가해줄수있으며 삭제하고싶을때는 drop 함수를 통해 삭제할수있다 drop 함수를 사용할경우 행과열을 지정해주는 axis 값을 꼭 적용해야한다 컬럼 이름 바꾸기 , 새로운 컬럼 추가하기 컬럼 이름을 바꾸고싶을땐 변수 뒤에 .rename 함수를이용할수있다. rename 함수를 이용할때는 컬럼값을 딕셔러니로 {원래 컬럼이름 : 바꿀 컬럼 이름} 설정해 줘야한다 또 새로운 컬럼과 데이터를 추가하고싶을 경우 변수[추가할 컬럼이름] = [추가할 데이터 값] 으로 원하는 값을 적용할수있다.

python 2022.05.25

Pandas 데이터 억세스 (loc , iloc , [])

판다스 데이터 프레임을 이용할때 가장 중요한 부분이 원하는 데이터를 억세싱할수 있는가이다. 데이터 억세스 기호는 [] 기호를 사용한다. 변수 이름과 컬럼이름 데이터 억세스 기호만 있으면 플에임 안에 들어있는 데이터값을 내가 원하는 항목만 추려서 억세스할수있다. loc 변수이름.loc[ , ] 안에 첫번째는 행 두번째는 열을 입력함으로써 원하는 값을 데이터 프레임째로 가져올수있으며 슬라이싱을 이용하면 보다 편하게 데이터를 억세스 할수있다, iloc 다음은 iloc를 이용한 방법으로 iloc는 loc와 비슷하나 컴퓨터가 자동으로 매기는 인덱스로 행과 열을 가져오는 방법이다 iloc 를 사용할때는 컬럼이름 , 인덱스 이름으로는 억세스가 불가능하며 컴퓨터가 매겨준 숫자로만 억세스 해야한다.

python 2022.05.25

Pandas Dataframe, NaN

Dataframe 판다스의 유용한 기능중 하나인 데이터 프레임 기능이다. 판다스는 시리즈를 행과 열을 가지고있는 데이터로 reshape 한다면 그것을 데이터 프레임으로 표로만들어서 나타내준다. 행과 열을 나눌때 맨 위쪽 진한글자는 컬럼 columns, 안에있는 데이터는 values 왼쪽 진한 글자가 인덱스 index 라는 용어로 사용함으로 용어를 정확하게 숙지해야한다. NaN Nan은 데이터값이 없는것으로 우리는 dropna() 를 통해 Nan이 들어가있는 행을 지울수도 fillna()을 통해 Nan 값을 내가 원하는 값으로 채워 넣어 줄수도 있다.

python 2022.05.25

Pandas Series

넘파이를 보다 더 효율적으로 활용하기위해서는 판다스를 숙지하여야한다 판다스는 넘파이보다 훨씬 더 편리한 기능과 유용한 함수들이 많으니 확실하게 공부해야한다. Pandas Series 판다스의 기본 1차원 데이터를 시리즈라고 부른다. 시리즈를 사용하거나 만들때는 꼭 앞에 s를 대문자 S로 써야한다. 시리즈는 일자로 되어있어도 행렬이 아니니 주의하자. 지금까지 배웠던 인덱스가 컴퓨터가 자동으로 매기는 인덱스 였다면 판다스를 사용할때 인덱스라는 용어는 안에있는데이터중 맨 왼쪽에 붙어있는걸 의미한다. 판다스 시리즈를 만들때 데이터와 인덱스 구분을 확실히 지어준다면 기본적인 연산은 쉽게 활용할수있다.

python 2022.05.25

넘파이의 항목 삭제,항목 추가,Slicing

np.delete 함수를 사용하여 원하는 행,열 을 지울수있다 delete 함수를 사용 할때 가장 중요한것은 axis 를 통해 행 혹을 열을 확실히 지정해줘야 한다는것이다. 데이터 억세스 기호를 사용하여 내가 원하는 해당 요소만을 삭제할 수도있다. 항목을 끝에 추가하기 항목을 추가할떄는 append 함수를 이용하면 된다 append g함수는 내가 저장했던 데이터 마지막 끝에 내가 적용한 데이터가 저장된다. 원하는 위치에 데이터를 넣고 싶을땐 insert 함수에 원하는 값과 위치를 입력하면된다. Slicing 데이터를 원하는 부분만큼 범위를 정해서 가져올수있는 슬라이싱은 행과열의 위치를 확인하여 데이터 억세스를 하면된다.

python 2022.05.25

넘파이에서 사용하는 여러함수

numpy 에서 사용할수있는 여러 함수들을 알아보자. as: 앞의 라이브러리를 뒤에쓴 이름으로 쓰겠다 변수.mean() : 평균구할때 변수.size : 길이 구할떄 변수.dtype : 데이터 타입을 수할때 변수.max() : 최대값 변수.min() : 최소값 np.array( 변수 ) : 변수(리스트) 의 값을 넘파이의 1차원 배열로 만든다. 변수=np.array([[1,2],[3,4]]) 넘파이의 2차원 배열을 만드는 방법 변수.shape : 데이터 모양을 확인하는 방법 np.save('my_array' , D) : 넘파이를 저장하는방법 Y=np.load('mY_array.npy') : 넘파이를 불러오는 방법 위 함수들을 활용하면 numpy를 더욱 쉽게 사용할수있다. 넘파이는 기본 부등식 하나만으로도 ..

python 2022.05.25

Python Numpy(넘파이)

NumPy는 다차원 배열을 처리할 수 있는 선형대수학(Linear Algebra) 라이브러리입니다. 다음이 실행이 안되면 아나콘다프롬프트에서 conda install numpy 를 실행하여 설치합니다. 라이브러리 NUMPY = 다차원 배열을 처리 나열된 숫자는 1차원 , 행과 열로 되어있으면 2차원 ,행과 열이 중복적으로 여러가지 있는걸 3차원이라고 한다. 값이 array( [ ] ) 라고 아웃풋이 나오면 넘파이라고 하고 in[8] 처럼 리스트를 넘파이의 1차원 배열로 만들 수 있다. 넘파이로 데이터 개수를 알고싶으면 size를 사용하면 된다. 리스트에 겨우에는 size를 사용할 수 없다.

python 2022.05.04

Python library(random number, 평균값 중앙값, 날짜시간 )

random number 처음에 import random 을 써줘야한다. 똑같은 난수의 패턴이 나오게 하는 방법 random.seed(숫자) 무작위로 나온 수의 순서와 관련된 패턴을 똑같이 하고싶을때 seed값을 사용한다. 평균값과 중앙값을 구하는 라이브러리 함수 중앙값은 sorted()함수를 통해 정렬을 한후에 가운데 있는 중앙값을 구해야한다 . 날짜 관련 라이브러리를 사용하기위해 from datetime import date 를 쓰고 data()를 사용해서 날짜를 만들 수 있다. 위의 그림에서 date(2022,5,8) 을 some_day로 저장해주고 (저장해준값) .year 을 하면 연도가 .month를 하면 월 .day로하면 날짜 .weekday()를 하면 요일이 나온다. 위의 그림에서 some_..

python 2022.04.28