목차
15 처지: 데이터 마이닝, 각거리, 벡터, 내적 공간, 노름 공간, 다항식 전개, 스칼라곱, 클러스터, 정보 검색, 정규화, 유클리드 거리, 상관 분석, 삼각함수, 해밍 거리, Tf-idf.
- 데이터 분석
- 유사도 척도
- 정보 검색 기술
데이터 마이닝
이터 마이닝(data mining)은 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이.
각거리
각거리(角距離)는 관측 장소에서 두 점에 이르는 두 선 사이의 각도의 크기를 의미.
보다 코사인 유사도와 각거리
벡터
벡터(vector)는 크기 만으로 나타낼 수 있는 스칼라(scalar)와 달리 방향과 크기를 사용하여 나타낼 수 있. 일상적으로 사용하는 벡터는 유향선분(방향이 있는 선분 즉, 화살표)를 써서 표현할 수 있.
보다 코사인 유사도와 벡터
내적 공간
적을 사용하여 정의한, 두 벡터 사이의 각도의 기하학적 해석 선형대수학과 함수해석학에서, 내적 공간(內積空間)은 두 벡터의 쌍에 스칼라를 대응시키는 일종의 함수가 주어진 벡터 공간이.
노름 공간
선형대수학 및 함수해석학에서, 노름 공간(norm空間)은 원소들에 일종의 ‘길이’ 또는 ‘크기’가 부여된 벡터 공간이.
다항식 전개
항식 전개(多項式 展開)는 인수 분해된 다항식을 인수들끼리 분배법칙을 이용하여 곱셈을 한 다음, 동류항들끼리 교환법칙과 결합법칙을 이용하여 덧셈뺄셈을 하여 다시 푸는 과정이.
스칼라곱
수학에서, 스칼라곱() 또는 점곱()은 유클리드 공간의 두 벡터로부터 실수 스칼라를 얻는 연산이.
클러스터
스터(cluster)는 다음을 가리.
정보 검색
정보 검색(情報檢索, information retrieval)은 집합적인 정보로부터 원하는 내용과 관련이 있는 부분을 얻어 내는 행위를 말. 이를 위해 메타데이터나 색인이 사용될 수 있. 자동화된 정보 검색 시스템은 소위 ‘정보 과부하’라 불리는 상태를 완화시키기 위해 사용.
정규화
정규화 또는 정상화(normalization)는 어떤 대상을 일정한 규칙이나 기준에 따르는 ‘정규적인’ 상태로 바꾸거나, 비정상적인 대상을 정상적으로 되돌리는 과정을 뜻. 정규화 및 정상화라는 용어는 여러 분야에서 다음과 같이 사용.
보다 코사인 유사도와 정규화
유클리드 거리
유클리드 거리(Euclidean distance)는 두 점 사이의 거리를 계산할 때 흔히 쓰는 방법이.
상관 분석
상관 분석(correlation analysis)은 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이.
삼각함수
사인 함수와 코사인 함수 수학에서, 삼각함수(三角函數)는 각의 크기를 삼각비로 나타내는 함수이.
해밍 거리
블록 부호 이론에서, 해밍 거리(Hamming距離)는 곱집합 위에 정의되는 거리 함수이.
Tf-idf
TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이.
참고하세요
데이터 분석
유사도 척도
- 자카드 지수
- 코사인 유사도