[혼공분석] with 파이썬 1주차 내용 정리 ( 새로 알게된 사실 위주)
1-1장. 데이터 분석이란
1. 데이터 분석과 데이터 과학의 차이
2. 데이터 분석의 의미
3. 파이썬의 패키지
1) 넘파이(numpy) : 과학, 수학 계산 및 배열에 필요 (주로 2차원 이상의 배열인 행렬,텐서 계산 시 사용했었음)
2) 판다스(pandas) : 액셀처럼 표로 사용
3) 사이파이(SciPy) : 미적분, 선형대수 등
4) 맷플롯립(matplotlib) : 정적, 동적 그래프 작도
5) 사이킷런(scikit-learn) : 머신러닝에 사용
1-2장. 구글코랩과 주피터 노트북
1. 코랩 파일 = 노트북 = 코랩 메모장
2. 코랩의 셀
1) 코드셀
2) 텍스트 셀 (HTML, 마트다운)
◈ 마크다운
# 제목1 : 큰글씨 제목
##제목2 : 중간글씨 제목
###제목3 : 작은글씨 제목
**혼공분석** : 굵게 쓰기 (혼공분석)
*혼공분석* or _혼공분석_ : 기울임꼴 (혼공분석)
> 혼공분석 : 들여쓰기
[한빛미디어](http:// 링크) : 하이링크 만듬
$ y = x \times z $ : 레이택 추
3. 확인문제 오답정리
1-2 확인문제 2번. 코랩노트북은 어디서 실행되나요?
- 오답: 구글 드라이브
- 정답: 구글 클라우드(가상서버)
1-3장. 이 도서가 얼마나 인기가 좋을까요?
1. 파일 업로드의 2가지 방법
방법1. 구글 드라이브에서 다운
import gdown
gdown.download('http://bit.ly/3eecMKZ','남산도서관 장서 대출목록(2021년 04월).csv',quiet=False)
방법2. 컴퓨터에서 파일 업로드 : 파일 칸에 드래그
2. 파일 출력하기
(1) 몇줄만 빠르게 읽어보기
open() 함수 이용.
이때 매개변수 mode의 바이너리 읽기모드인 rb로 지정하면 문자 인코딩 형식에 무관하게 파일을 열수 있다.
chardet 패키지의 chardet.detect()
chardet.detect( )함수로 문자 인코딩 방식을 알 수 있다. 이 인코딩으로 with open 한다.
import chardet
with open('남산도서관 장서 대출목록(2021년 04월).csv',mode ='rb') as f:
d = f.readline()
print(chardet.detect(d))
위 코드를 통해 해당 데이터는 'EUC-KR'의 문자 인코딩임을 알 수 있었다.
(2) 모두 다 읽어보기
: 판다스의 pd.read_csv( '파일명.csv', endcoding = '파일의 문자인코딩') → 4가지 +a 매개변수
매개변수 low_memory = False
파일을 나눠읽지 않고 한번에 읽어서 DtypeWarning을 출력하지 않는다.
매개변수 header = None
으로 지정한다면 데이터 첫 행에 열이름이 없음을 전달
매개변수 names : 열이름 리스트를 따로 전달할 수 있음.
매개변수 index_col = 0
: 으로 지정하면 인덱스를 추가하지 않음.
3. 파일 저장하기
: df.to_csv('저장할 파일명') 메소드 이용하기
1) 이때 인덱스는 저장하지 않으려면 index = False
2)csv가 아닌 엑셀파일로 저장하려면?
→ df.to_excel('저장할 파일명.xlsx', index = False)