본문 바로가기

분류 전체보기21

통계적추론, 표본 변동, 중심극한정리, 신뢰구간 95%의 의미 1. 표본분포와 중심극한정리표본 변동은 표본을 랜덤하게 뽑은 과정에서 표본마다 조금씩 다른 개체가 선택되면서 생기는 표본 간의 차이를 의미한다. 이러한 표본 변동은 여러 표본 사이의 차이이며, 한 표본 내에서의 개체 차이나 모집단 내에서의 개체의 차이가 아니다. 표본 평균의 값은 표본모다 조금씩 다르지만, 모평균과 비슷한 값을 가지며 차이가 많이 나는 표본 평균은 적다. pop중심극한정리란 표본평균의 분포가 모평균 근처에 어떤 모양으로 얼마나 집중되어 있는지 알려 주는 정리이며, 아래가 주요 내용이다.  표본평균의 평균은 모평균과 같다.  (표본을 뽑아 평균을 낸 모든 값을 평균 내보면 모집단 전체의 평균과 같아진다)표본평균의 분산은 모분산/n과 같다. (내가 뽑은 표본평균이 크면 클 수록 모평균에 가까.. 2024. 9. 8.
확률과 확률분포 확률사건 A가 발생할 확률 P(A)는 랜덤한 결과가 나오는 실험을 무한히 많이 수행했을 때 사건 A가 발생하는 비율로 불확실성을 이해하고 설명하는데 활용되는 것이다. 표본공간이란(S) 랜덤한 결과가 나오는 실험에서 나올 수 있는 모든 결과를 모아 놓은 집합으로 P(S)로 표현하며, 주사위를 던졌을 때 나올 수 있는 수의 경우 {1, 2, 3, 4, 5, 6}으로 나타낼 수 있다. 사건이란 표본공간의 부분집합으로 주사위를 던졌을 대 짝수가 나오는 확률 {2, 4, 6} 등을 의미한다. 사건 A와 사건 B가 둘다 일어나는 것이 불가능한 경우, 교집합은 0이고, A와 B는 배반사건이라고 한다. A의 여사건은 A가 일어나지 않는 사건을 의미한다. 조건부 확률은 사건 A가 일어났다는 조건 하에 사건 B가 일어날 .. 2024. 9. 8.
파이썬, R, SQL 차이, 난이도, 동시 학습 주의점 1.  정의 및 역사파이썬(Python)은 1991년 네덜란드의 프로그래머 귀도 반 로섬(Guido van Rossum)에 의해 개발된 프로그래밍 언어입니다. 파이썬은 간결하고 직관적인 문법으로 유명하며, 범용 프로그래밍 언어로 다양한 분야에서 활용됩니다. 높은 생산성과 가독성으로 많은 개발자들이 선호하는 언어입니다.SQL(Structured Query Language)은 1970년대 IBM에서 관계형 데이터베이스 관리 시스템(RDBMS)을 관리하기 위해 처음 개발되었습니다. SQL은 데이터를 정의하고 조작하는 데 사용되며, 특히 데이터베이스에서 데이터를 검색하고 업데이트하는 데 주로 활용됩니다.R은 1993년에 뉴질랜드의 로버트 겐틀맨(Robert Gentleman)과 로스 이하카(Ross Ihaka).. 2024. 9. 8.
파이썬 자료 구조 : 리스트, 튜플, 집합, 딕셔너리 리스트리스트는 여러 개의 원소를 저장하는 자료형으로 container라고 부르며, 저장된 값을 변경할 수 있는 (mutable) 특징을 가지고 있다. 리스트에 저장된 값들에는 순서가 존재하며 (sequential), 리스트는 대괄호를 이용해서 생성하고, 쉼표를 이용해서 구분한다. my_list = [1, 2, 3, 4, 5]리스트는 다른 프로그래밍 언어와 차이가 있는데, 보통 리스트와 유사한 "배열"이라는 구조는 같은 데이터 형식의 값만 저장할 수 있다는 제한이 있지만, 리스트는 다른 데이터 형의 값도 함께 저장할 수 있다. (즉, 문자형/논리형/숫자형 혼합하여 리스트 구성 가능) 리스트의 하나하나의 원소에 접근하기 위해서는 인덱스를 활용하는데, 0부터 n-1까지의 인덱스를 사용할 수 있다. my_mix.. 2024. 9. 8.
데이터과학, 데이터과학자와 데이터 주도권 데이터과학의 기초 개념데이터과학은 데이터를 과학의 대상으로 다루는 접근법을 의미하는 것으로 체계적인 데이터 축적, 과학적인 데이터 분석틀 설계 등이 포함된다. 데이터과학은 데이터분석과 동일하다고 보는 관점도 있지만, 데이터 분석은 데이터과학의 일부분일 뿐이며, 분석 도구 자체까지 연구하는 포괄적인 학문이다.일반적 과학 이론과 데이터과학의 차이점은 그 형성과정에서 비롯된다. 대부분의 과학적 접근법은 검증의 대상이 되는 적절한 질문(가설)에서 시작하고, 데이터를 체계적으로 수집하여 증거를 축적한 뒤 확인한다. 그러나 데이터과학은  관찰, 측정, 데이터 수집이 선행되고 경험적 일반화 과정에 이르는 접근 방법이라고 할 수 있다.이에 데이터과학에서는 방법론적 관점에서 조사를 원활하게 수행하기 위한 방법, 도구, .. 2024. 9. 7.
데이터의 구분 - 정형 데이터, 반정형 데이터, 범주형 데이터, 수치형 데이터 데이터의 정의 데이터는 datum의 복수형으로 "주다"라는 의미의 라틴어 동사 dare에서 유래하였다. datum은 주는 것이라는 의미를 가졌는데 즉 데이터라는 개념은 우리에게 주어진 것들이라는 뜻이다. 데이터는 질적, 양적 변수들의 가치 집합이며, 정보의 조합이다. 데이터과학의 목표는 우리에게 주어진 데이터를 찾아 가는 방법을 탐구하는 것이며, 이를 위해 통계학적 사고와 이해가 필수적이다. 일반적으로 데이터, 정보, 지식은 혼용되어 사용되고 있으며, 그 개념의 차이를 이해하기가 어렵다. 그러나 이 세 가지 용어는 각각 의미가 조금씩 다른 특징이 있다.데이터는 정보를 추출하기 위해 사용하는 원천이고, 정보는 관찰이나 측정을 통해 수집한 자료를 체계적으로 정리한 것을 의미하며,  지식은 정보를 다루는 과정.. 2024. 9. 7.