목차
20 처지: 말뭉치, 거짓 음성, 거짓 양성, 벡터 공간, 고윳값, 불리언 모델, 노름 공간, 스칼라곱, 특잇값, 잠재 디리클레 할당, 일반화 벡터 공간 모델, 제라드 솔튼, 정보 검색, 코넬 대학교, 코사인 유사도, 역색인, 삼각함수, 워드넷, NumPy, Tf-idf.
말뭉치
말뭉치 또는 코퍼스()는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이.
거짓 음성
짓 음성(false negative) 또는 2종 오류(type II error)는 통계상 실제로는 양성인데 검사 결과는 음성이라고 나오는 것이.
거짓 양성
짓 양성(false positive) 또는 1종 오류(type I error)는 통계상 실제로는 음성인데 검사 결과는 양성이라고 나오는 것이.
벡터 공간
선형대수학에서, 벡터 공간(vector空間)은 원소를 서로 더하거나, 주어진 배수로 늘이거나 줄일 수 있는 공간이.
고윳값
위 두 장의 그림은 원래 이미지가 옆으로 기울어진 모양으로 변하는 선형 변환을 보여주고 있다. 이 선형 변환에서 수평 축은 그대로 수평 축으로 남기 때문에 푸른색 화살표는 방향이 변하지 않지만 붉은색 화살표는 방향이 변하게 된다.
불리언 모델
불리언 모델(boolean model) 은 정보 검색 분야에서 사용되는 고전적인 모델로, 오늘날에도 많은 정보 검색 시스템에서 활용되고 있.
노름 공간
선형대수학 및 함수해석학에서, 노름 공간(norm空間)은 원소들에 일종의 ‘길이’ 또는 ‘크기’가 부여된 벡터 공간이.
스칼라곱
수학에서, 스칼라곱() 또는 점곱()은 유클리드 공간의 두 벡터로부터 실수 스칼라를 얻는 연산이.
특잇값
유클리드 공간 위의 선형 변환은 단위 공을 타원체로 대응시키며, 선형 변환의 특잇값들은 타원체의 주축 반지름들이다. 함수해석학에서, 특잇값(特異값)은 콤팩트 작용소와 그 에르미트 수반의 합성의 고윳값의 제곱근이.
잠재 디리클레 할당
자연어 처리에서 잠재 디리클레 할당(Latent Dirichlet allocation, LDA)은 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 대한 확률적 토픽 모델 기법 중 하나이.
일반화 벡터 공간 모델
일반화 벡터 공간 모델(一般化―空間―)은 정보 검색에서 사용되는 벡터 공간 모델을 일반화한 모델이.
제라드 솔튼
제라드 솔튼(Gerard Salton, 1927년 3월 8일~1995년 8월 28일)은 코넬 대학교의 컴퓨터 과학과 교수였.
정보 검색
정보 검색(情報檢索, information retrieval)은 집합적인 정보로부터 원하는 내용과 관련이 있는 부분을 얻어 내는 행위를 말. 이를 위해 메타데이터나 색인이 사용될 수 있. 자동화된 정보 검색 시스템은 소위 ‘정보 과부하’라 불리는 상태를 완화시키기 위해 사용.
코넬 대학교
학교 캠퍼스 코넬 대학교(Cornell University)는 미국 뉴욕 주 이사카에 있는 사립 대학이.
코사인 유사도
사인 유사도(― 類似度)는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미.
역색인
학에서 역색인, 역 인덱스(inverted index), 역 파일(inverted file)은 낱말이나 숫자와 같은 내용물로부터의 매핑 정보를 데이터베이스 파일의 특정 지점이나 문서 또는 문서 집합 안에 저장하는 색인 데이터 구조이.
삼각함수
사인 함수와 코사인 함수 수학에서, 삼각함수(三角函數)는 각의 크기를 삼각비로 나타내는 함수이.
워드넷
워드넷(WordNet)은 영어의 의미 어휘목록이.
NumPy
NumPy는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리 할 수 있게 해주는 파이썬의 라이브러리 입. NumPy는 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현 된 기능을 제공합.
Tf-idf
TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이.
또한 벡터공간 모델로 알려져 있다.