본문 바로가기

Programming

Social Tagging 데이터 셋 (Datasets)


새로운 알고리즘 방법에 대하여 연구를 할때 그 방법론을 실험적으로 분석 평가를 해야한다.
특히 CS분야에서 유명한 학회나 저널의 논문을 작성할때는 규모가 큰 실 데이터로 실험하는 것을 선호한다. 
도메인에 따라 조금 틀리지만 대체적으로 소셜 태깅 관련 논문에서 가장 많이 사용되는 실 데이터 셋은 딜리셔스, 플리커, Last.fm, CiteULike 데이터 인것 같다.
딜리셔스 (웹페이지 북마크), 플리커 (사진), Last.fm (음악)은 각 사이트에서 공식적으로 제공되는 데이터가 없다. 따라서 연구자들은 각자 API를 이용해 일부 데이터 crawling을 해서 사용한다. 그리고 그 데이터를 웹에 제공하기도 한다. 이에 반해 CiteULike (논문) 데이터는 CiteULike 사이트에서 연구의 목적하에 제공된다.
구글링을 하다보면 각 데이터 셋에 대해 여러 종류의 데이터를 다운 받을수 있겠지만 단순 Triple 구조 (사용자, 태그, 리소스)의 어느 정도 규모가 있는 데이테 셋을 몇개 소개하겠다.

1. 딜리셔스와 플리커 데이터 
https://www.uni-koblenz.de/FB4/Institutes/IFI/AGStaab/Research/DataSets/PINTSExperimentsDataSets/

   사용자 수
 태그 수
 리소스 수
 Triple 수
 플리커  319,686    
 1,607,879  28,153,045  112,900,000
 딜리셔스  532,924  2,481,698  17,262,480  140,126,586


테이터 규모가 상당히 커 데이터베이스로 데이터 처리하는데 조금의 시간이 소요된다.

2. CiteULike 데이터 
http://www.citeulike.org/faq/data.adp
CiteULike.com에서 최신의 데이터 백업본을 제공한다. 따라서 시간이 지날  수록 데이터의 양이 변한다.
장점은 데이터가 상대적으로 잘 정리되어 있기에 데이터를 쉽게 처리할 수 있어 연구 목적으로 사용하기 좋다.

3. Bibsonomy 데이터
http://www.kde.cs.uni-kassel.de/bibsonomy/dumps
딜리셔스, 플리커, CiteULike 보다는 인지도가 떨어지지만 연구 실험적 목적이라면 Bibsonomy 데이터도 이용할 만 하다. 데이터가 잘 정리되어 있어 처리하기 용이하다.

4. MovieLens 데이터
http://www.grouplens.org/node/12
Movielens 데이터 셋은 추천시스템에서 널리 사용되는 데이터 셋중 하나이다.
예전에는 <사용자 - 영화 - 선호도 평가점수>의 데이터만 존재했지만 최근들어 MovieLens 10M 데이터에는 <사용자 - 영화 - 태그> 데이터가 추가되었다. 사용자 Rating 데이터와 Tagging 데이터가 함께 제공되기에 2개의 데이터가 모두 필요할 때에는 최적의 데이터 셋이다.

5. Last.fm 데이터

http://www.grouplens.org/node/462

"2nd International Workshop on Information Heterogeneity and Fusion in Recommender Systems (HetRec 2011) 워크샵을 위한 데이터. Last.fm 이외에도 딜리셔스, Movielens 데이터도 있다.