확률과 확률분포
확률사건 A가 발생할 확률 P(A)는 랜덤한 결과가 나오는 실험을 무한히 많이 수행했을 때 사건 A가 발생하는 비율로 불확실성을 이해하고 설명하는데 활용되는 것이다. 표본공간이란(S) 랜덤한 결과가 나오는 실험에서 나올 수 있는 모든 결과를 모아 놓은 집합으로 P(S)로 표현하며, 주사위를 던졌을 때 나올 수 있는 수의 경우 {1, 2, 3, 4, 5, 6}으로 나타낼 수 있다. 사건이란 표본공간의 부분집합으로 주사위를 던졌을 대 짝수가 나오는 확률 {2, 4, 6} 등을 의미한다. 사건 A와 사건 B가 둘다 일어나는 것이 불가능한 경우, 교집합은 0이고, A와 B는 배반사건이라고 한다. A의 여사건은 A가 일어나지 않는 사건을 의미한다. 조건부 확률은 사건 A가 일어났다는 조건 하에 사건 B가 일어날 ..
2024. 9. 8.
파이썬 자료 구조 : 리스트, 튜플, 집합, 딕셔너리
리스트리스트는 여러 개의 원소를 저장하는 자료형으로 container라고 부르며, 저장된 값을 변경할 수 있는 (mutable) 특징을 가지고 있다. 리스트에 저장된 값들에는 순서가 존재하며 (sequential), 리스트는 대괄호를 이용해서 생성하고, 쉼표를 이용해서 구분한다. my_list = [1, 2, 3, 4, 5]리스트는 다른 프로그래밍 언어와 차이가 있는데, 보통 리스트와 유사한 "배열"이라는 구조는 같은 데이터 형식의 값만 저장할 수 있다는 제한이 있지만, 리스트는 다른 데이터 형의 값도 함께 저장할 수 있다. (즉, 문자형/논리형/숫자형 혼합하여 리스트 구성 가능) 리스트의 하나하나의 원소에 접근하기 위해서는 인덱스를 활용하는데, 0부터 n-1까지의 인덱스를 사용할 수 있다. my_mix..
2024. 9. 8.
데이터의 구분 - 정형 데이터, 반정형 데이터, 범주형 데이터, 수치형 데이터
데이터의 정의 데이터는 datum의 복수형으로 "주다"라는 의미의 라틴어 동사 dare에서 유래하였다. datum은 주는 것이라는 의미를 가졌는데 즉 데이터라는 개념은 우리에게 주어진 것들이라는 뜻이다. 데이터는 질적, 양적 변수들의 가치 집합이며, 정보의 조합이다. 데이터과학의 목표는 우리에게 주어진 데이터를 찾아 가는 방법을 탐구하는 것이며, 이를 위해 통계학적 사고와 이해가 필수적이다. 일반적으로 데이터, 정보, 지식은 혼용되어 사용되고 있으며, 그 개념의 차이를 이해하기가 어렵다. 그러나 이 세 가지 용어는 각각 의미가 조금씩 다른 특징이 있다.데이터는 정보를 추출하기 위해 사용하는 원천이고, 정보는 관찰이나 측정을 통해 수집한 자료를 체계적으로 정리한 것을 의미하며, 지식은 정보를 다루는 과정..
2024. 9. 7.