CuMiDa

CuMiDa

CuMiDa

An Extensively Curated Microarray Database

Cite Publications Workflow Datasets

One might have notice a pattern, when applying machine learning techniques in cancer microarray datasets: they are scattered through multiple repositories, normally from old studies, being employed time and time again for the same purposes. However, the reality is that the microarray technology has changed, from their chip technology and number of known probes to their preprocessing options. Hence, continuing employing the same examples and old datasets, already manipulated by older studies, is not in agreement with the reality we have nowadays. Right now, microarray datasets contain more genes, come from multiple platforms and need a more rigorous filtering and preprocessing to be ready for machine learning approaches.

Here we present the Curated Microarray Database (CuMiDa), a repository containing 78 handpicked cancer microarray datasets, extensively curated from 30.000 studies from the Gene Expression Omnibus (GEO), solely for machine learning. The aim of CuMiDa is to offer homogeneous and state-of-the-art biological preprocessing of these datasets, together with numerous 3-fold cross validation benchmark results to propel machine learning studies focused on cancer research. The database make available various download options to be employed by other programs, as well for PCA and t-SNE results. CuMiDa stands different from existing databases for offering newer datasets, manually and carefully curated, from samples quality, unwanted probes, background correction and normalization, to create a more reliable source of data for computational research.

How to Cite

If you use CuMiDa in a scientific publication, we would appreciate citations to the following paper:

CuMiDa: An Extensively Curated Microarray Database for Benchmarking and Testing of Machine Learning Approaches in Cancer Research FELTES, B. C.; CHANDELIER, E. B.; GRISCI, B. I.; DORN, M. Journal of Computational Biology, v. 26, 2019.

BibTeX

@article{cumida:2019,
    author = {Feltes, B.C. and Chandelier, E. B. and Grisci, B. I. and Dorn, M.},
    title = {CuMiDa: An Extensively Curated Microarray Database for Benchmarking and Testing of Machine Learning Approaches in Cancer Research},
    journal = {Journal of Computational Biology},
    volume = {26},
    number = {4},
    pages = {376-386},
    year = {2019},
    doi = {10.1089/cmb.2018.0238}
    }

Workflow

Datasets

Cancer type

Sort by

Type Breast GSE 10797 GPL Platform 571 Samples 66 Genes 22278 Classes 3

dt 0.65 hc 0.44 nb 0.67 rf 0.65 knn 0.55 mlp 0.53 svm 0.82 zeror 0.41 kmeans 0.58

Type Prostate GSE 11682 GPL Platform 4133 Samples 31 Genes 33468 Classes 2

dt 0.52 hc 0.55 nb 0.48 rf 0.35 knn 0.39 mlp 0.52 svm 0.52 zeror 0.52 kmeans 0.55

Type Head/Neck GSE 12452 GPL Platform 570 Samples 40 Genes 54676 Classes 2

dt 0.85 hc 0.8 nb 0.95 rf 0.93 knn 0.93 mlp 0.97 svm 0.97 zeror 0.78 kmeans 0.75

Type Ovary GSE 12470 GPL Platform 887 Samples 53 Genes 18930 Classes 3

dt 0.62 hc 0.68 nb 0.83 rf 0.79 knn 0.79 mlp 0.85 svm 0.85 zeror 0.66 kmeans 0.7

Type Leukemia GSE 14317 GPL Platform 571 Samples 25 Genes 22278 Classes 2

dt 0.68 hc 0.68 nb 0.88 rf 0.88 knn 0.92 mlp 1 svm 1 zeror 0.72 kmeans 0.8

Type Liver GSE 14520_U133_2 GPL Platform 3921 Samples 41 Genes 22278 Classes 2

dt 0.98 hc 0.51 nb 0.95 rf 1 knn 0.88 mlp 0.98 svm 1 zeror 0.54 kmeans 0.83

Type Liver GSE 14520_U133A GPL Platform 571 Samples 357 Genes 22278 Classes 2

dt 0.92 hc 0.5 nb 0.96 rf 0.96 knn 0.93 mlp 0.8 svm 0.97 zeror 0.51 kmeans 0.92

Type Brain GSE 15824 GPL Platform 570 Samples 37 Genes 54676 Classes 4

dt 0.41 hc 0.51 nb 0.62 rf 0.78 knn 0.81 mlp 0.7 svm 0.81 zeror 0.32 kmeans 0.62

Type Pancreatic GSE 16515 GPL Platform 570 Samples 51 Genes 54676 Classes 2

dt 0.78 hc 0.69 nb 0.84 rf 0.82 knn 0.76 mlp 0.78 svm 0.86 zeror 0.71 kmeans 0.76

Type Ovary GSE 16570 GPL Platform 6947 Samples 15 Genes 48804 Classes 2

dt 0.93 hc 1 nb 1 rf 1 knn 1 mlp 1 svm 1 zeror 0.6 kmeans 1

Type Ovary GSE 16708 GPL Platform 6947 Samples 24 Genes 48804 Classes 2

dt 0.92 hc 0.58 nb 1 rf 1 knn 1 mlp 1 svm 1 zeror 0.62 kmeans 1

Type Lung GSE 18842 GPL Platform 570 Samples 90 Genes 54676 Classes 2

dt 0.97 hc 0.5 nb 1 rf 1 knn 0.94 mlp 0.99 svm 1 zeror 0.51 kmeans 0.97

Type Lung GSE 19804 GPL Platform 570 Samples 114 Genes 54676 Classes 2

dt 0.91 hc 0.52 nb 0.91 rf 0.92 knn 0.79 mlp 0.85 svm 0.93 zeror 0.49 kmeans 0.89

Type Gastric GSE 19826 GPL Platform 570 Samples 24 Genes 54676 Classes 2

dt 0.67 hc 0.54 nb 0.71 rf 0.67 knn 0.67 mlp 0.67 svm 0.67 zeror 0.5 kmeans 0.79

Type Colorectal GSE 21510 GPL Platform 570 Samples 147 Genes 54676 Classes 3

dt 0.9 hc 0.71 nb 0.97 rf 0.94 knn 0.97 mlp 1 svm 0.99 zeror 0.71 kmeans 0.83

Type Liver GSE 22405 GPL Platform 10553 Samples 48 Genes 22284 Classes 2

dt 0.83 hc 0.52 nb 0.88 rf 0.83 knn 0.73 mlp 0.92 svm 0.92 zeror 0.5 kmeans 0.62

Type Leukemia GSE 22529_U133A GPL Platform 96 Samples 52 Genes 22284 Classes 2

dt 0.9 hc 0.81 nb 0.9 rf 0.92 knn 0.94 mlp 0.98 svm 0.98 zeror 0.79 kmeans 0.54

Type Leukemia GSE 22529_U133B GPL Platform 97 Samples 52 Genes 22646 Classes 2

dt 0.88 hc 0.77 nb 0.9 rf 0.9 knn 0.9 mlp 0.96 svm 0.96 zeror 0.79 kmeans 0.52

Type Gastric GSE 22804 GPL Platform 6480 Samples 14 Genes 41084 Classes 1

dt NA hc NA nb NA rf NA knn NA mlp NA svm NA zeror NA kmeans NA

Type Breast GSE 22820 GPL Platform 6480 Samples 139 Genes 33580 Classes 2

dt 0.96 hc 0.92 nb 0.97 rf 0.99 knn 0.99 mlp 1 svm 1 zeror 0.93 kmeans 0.65

Type Colorectal GSE 25070 GPL Platform 6883 Samples 52 Genes 24527 Classes 2

dt 0.81 hc 0.52 nb 0.94 rf 0.96 knn 0.88 mlp 0.94 svm 0.96 zeror 0.48 kmeans 0.96

Type Breast GSE 26304 GPL Platform 6848 Samples 115 Genes 33638 Classes 5

dt 0.39 hc 0.36 nb 0.34 rf 0.34 knn 0.3 mlp 0.3 svm 0.26 zeror 0.36 kmeans 0.35

Type Breast GSE 26910 GPL Platform 570 Samples 12 Genes 54676 Classes 2

dt 0.25 hc 0.58 nb 0.83 rf 0.83 knn 0.75 mlp 0.83 svm 0.83 zeror 0.5 kmeans 0.83

Type Prostate GSE 26910 GPL Platform 570 Samples 12 Genes 54676 Classes 2

dt 0.5 hc 0.58 nb 0.67 rf 0.83 knn 0.67 mlp 0.67 svm 0.83 zeror 0.5 kmeans 0.67

Type Lung GSE 27262 GPL Platform 570 Samples 48 Genes 54676 Classes 2

dt 0.94 hc 0.52 nb 0.98 rf 1 knn 0.94 mlp 1 svm 1 zeror 0.5 kmeans 1

Type Leukemia GSE 28497 GPL Platform 96 Samples 281 Genes 22284 Classes 7

dt 0.73 hc 0.27 nb 0.78 rf 0.79 knn 0.7 mlp 0.72 svm 0.88 zeror 0.26 kmeans 0.45

Type Bladder GSE 31189 GPL Platform 570 Samples 85 Genes 54676 Classes 2

dt 0.54 hc 0.58 nb 0.46 rf 0.55 knn 0.62 mlp 0.58 svm 0.64 zeror 0.56 kmeans 0.55

Type Colorectal GSE 32323 GPL Platform 570 Samples 33 Genes 54676 Classes 2

dt 0.82 hc 0.52 nb 0.97 rf 0.97 knn 1 mlp 1 svm 1 zeror 0.52 kmeans 1

Type Breast GSE 33447 GPL Platform 14550 Samples 16 Genes 36623 Classes 2

dt 0.88 hc 0.56 nb 0.88 rf 0.94 knn 0.88 mlp 0.88 svm 1 zeror 0.44 kmeans 0.88

Type Leukemia GSE 33615 GPL Platform 4133 Samples 71 Genes 33580 Classes 2

dt 0.93 hc 0.69 nb 0.94 rf 1 knn 0.99 mlp 1 svm 1 zeror 0.7 kmeans 0.99

Type Prostate GSE 38241 GPL Platform 4133 Samples 39 Genes 41016 Classes 1

dt NA hc NA nb NA rf NA knn NA mlp NA svm NA zeror NA kmeans NA

Type Breast GSE 38959 GPL Platform 4133 Samples 43 Genes 33580 Classes 2

dt 0.74 hc 0.72 nb 0.91 rf 0.98 knn 0.88 mlp 0.95 svm 0.95 zeror 0.7 kmeans 0.98

Type Bladder GSE 40355 GPL Platform 13497 Samples 24 Genes 29045 Classes 3

dt 0.67 hc 0.38 nb 0.54 rf 0.75 knn 0.71 mlp 0.75 svm 0.79 zeror 0.25 kmeans 0.75

Type Colorectal GSE 41328 GPL Platform 570 Samples 18 Genes 54676 Classes 2

dt 1 hc 0.67 nb 0.89 rf 0.89 knn 0.94 mlp 0.89 svm 0.89 zeror 0.56 kmeans 0.72

Type Colorectal GSE 41657 GPL Platform 6480 Samples 86 Genes 33468 Classes 4

dt 0.64 hc 0.34 nb 0.86 rf 0.79 knn 0.64 mlp 0.7 svm 0.78 zeror 0.33 kmeans 0.58

Type Breast GSE 42568 GPL Platform 570 Samples 116 Genes 54676 Classes 2

dt 0.94 hc 0.88 nb 0.99 rf 0.97 knn 0.98 mlp 0.99 svm 0.99 zeror 0.87 kmeans 0.62

Type Head/Neck GSE 42743 GPL Platform 570 Samples 103 Genes 54676 Classes 2

dt 0.85 hc 0.73 nb 0.86 rf 0.87 knn 0.89 mlp 0.83 svm 0.87 zeror 0.72 kmeans 0.82

Type Colorectal GSE 44076 GPL Platform 13667 Samples 194 Genes 49387 Classes 2

dt 0.95 hc 0.51 nb 0.98 rf 0.98 knn 0.98 mlp 0.99 svm 0.99 zeror 0.49 kmeans 0.98

Type Colorectal GSE 44861 GPL Platform 3921 Samples 105 Genes 22278 Classes 2

dt 0.78 hc 0.51 nb 0.84 rf 0.82 knn 0.69 mlp 0.64 svm 0.84 zeror 0.5 kmeans 0.6

Type Breast GSE 45827 GPL Platform 570 Samples 151 Genes 54676 Classes 6

dt 0.8 hc 0.34 nb 0.93 rf 0.95 knn 0.8 mlp 0.58 svm 0.94 zeror 0.27 kmeans 0.7

Type Liver GSE 46408 GPL Platform 4133 Samples 12 Genes 33468 Classes 2

dt 0.25 hc 0.58 nb 0.92 rf 0.92 knn 0.83 mlp 0.83 svm 0.83 zeror 0.5 kmeans 0.92

Type Prostate GSE 46602 GPL Platform 570 Samples 49 Genes 54676 Classes 2

dt 0.82 hc 0.69 nb 0.9 rf 0.92 knn 0.94 mlp 0.96 svm 0.94 zeror 0.71 kmeans 0.65

Type Brain GSE 50161 GPL Platform 570 Samples 130 Genes 54676 Classes 5

dt 0.85 hc 0.38 nb 0.85 rf 0.91 knn 0.87 mlp 0.82 svm 0.95 zeror 0.35 kmeans 0.46

Type Liver GSE 50579 GPL Platform 14550 Samples 76 Genes 36548 Classes 2

dt 0.97 hc 0.87 nb 0.89 rf 0.87 knn 0.96 mlp 0.92 svm 0.99 zeror 0.84 kmeans 0.79

Type Renal GSE 53757 GPL Platform 570 Samples 143 Genes 54676 Classes 2

dt 0.74 hc 0.51 nb 0.84 rf 0.85 knn 0.79 mlp 0.83 svm 0.83 zeror 0.5 kmeans 0.85

Type Head/Neck GSE 53819 GPL Platform 6480 Samples 35 Genes 32784 Classes 2

dt 0.74 hc 0.51 nb 0.91 rf 0.97 knn 0.97 mlp 0.97 svm 1 zeror 0.49 kmeans 0.51

Type Prostate GSE 55945 GPL Platform 570 Samples 17 Genes 54676 Classes 2

dt 0.82 hc 0.65 nb 0.59 rf 0.65 knn 0.71 mlp 0.94 svm 0.82 zeror 0.59 kmeans 0.53

Type Breast GSE 57297 GPL Platform 17077 Samples 26 Genes 42946 Classes 2

dt 0.65 hc 0.69 nb 0.77 rf 0.85 knn 1 mlp 1 svm 0.96 zeror 0.73 kmeans 0.69

Type Liver GSE 57957 GPL Platform 10558 Samples 75 Genes 47324 Classes 2

dt 0.88 hc 0.51 nb 0.97 rf 0.97 knn 0.89 mlp 0.96 svm 0.96 zeror 0.52 kmeans 0.93

Type Head/Neck GSE 59102 GPL Platform 6480 Samples 42 Genes 32704 Classes 2

dt 0.93 hc 0.67 nb 1 rf 0.98 knn 1 mlp 1 svm 0.98 zeror 0.69 kmeans 1

Type Breast GSE 59246 GPL Platform 13607 Samples 101 Genes 36623 Classes 2

dt 0.77 hc 0.56 nb 0.72 rf 0.79 knn 0.73 mlp 0.6 svm 0.85 zeror 0.55 kmeans 0.62

Type Ovary GSE 6008 GPL Platform 96 Samples 98 Genes 22284 Classes 4

dt 0.65 hc 0.42 nb 0.68 rf 0.71 knn 0.66 mlp 0.64 svm 0.71 zeror 0.42 kmeans 0.41

Type Prostate GSE 60329 GPL Platform 14550 Samples 105 Genes 42531 Classes 1

dt NA hc NA nb NA rf NA knn NA mlp NA svm NA zeror NA kmeans NA

Type Liver GSE 60502 GPL Platform 96 Samples 36 Genes 22284 Classes 2

dt 0.81 hc 0.53 nb 0.97 rf 0.94 knn 0.72 mlp 0.97 svm 0.97 zeror 0.5 kmeans 0.69

Type Liver GSE 62043 GPL Platform 6480 Samples 95 Genes 40820 Classes 1

dt NA hc NA nb NA rf NA knn NA mlp NA svm NA zeror NA kmeans NA

Type Liver GSE 62232 GPL Platform 570 Samples 91 Genes 54676 Classes 2

dt 0.89 hc 0.88 nb 0.97 rf 0.95 knn 1 mlp 0.99 svm 1 zeror 0.89 kmeans 0.7

Type Leukemia GSE 63270 GPL Platform 17810 Samples 101 Genes 54676 Classes 2

dt 0.89 hc 0.6 nb 1 rf 1 knn 0.99 mlp 1 svm 1 zeror 0.59 kmeans 0.79

Type Renal GSE 6344_U133A GPL Platform 96 Samples 20 Genes 22284 Classes 2

dt 0.45 hc 0.9 nb 0.9 rf 0.85 knn 0.85 mlp 0.8 svm 0.8 zeror 0.45 kmeans 0.9

Type Renal GSE 6344_U133B GPL Platform 97 Samples 20 Genes 22646 Classes 2

dt 0.85 hc 0.85 nb 0.9 rf 0.85 knn 0.8 mlp 0.8 svm 0.85 zeror 0.45 kmeans 0.8

Type Lung GSE 63459 GPL Platform 6883 Samples 65 Genes 24527 Classes 2

dt 0.49 hc 0.52 nb 0.72 rf 0.74 knn 0.58 mlp 0.63 svm 0.68 zeror 0.49 kmeans 0.71

Type Renal GSE 66270 GPL Platform 570 Samples 28 Genes 54676 Classes 2

dt 0.79 hc 1 nb 1 rf 1 knn 1 mlp 1 svm 1 zeror 0.46 kmeans 1

Type Prostate GSE 6919_U95Av2 GPL Platform 8300 Samples 124 Genes 12626 Classes 2

dt 0.45 hc 0.51 nb 0.63 rf 0.69 knn 0.58 mlp 0.65 svm 0.67 zeror 0.49 kmeans 0.62

Type Prostate GSE 6919_U95B GPL Platform 92 Samples 124 Genes 12621 Classes 2

dt 0.6 hc 0.51 nb 0.71 rf 0.67 knn 0.56 mlp 0.62 svm 0.68 zeror 0.52 kmeans 0.54

Type Prostate GSE 6919_U95C GPL Platform 93 Samples 115 Genes 12647 Classes 2

dt 0.65 hc 0.5 nb 0.69 rf 0.66 knn 0.55 mlp 0.63 svm 0.64 zeror 0.51 kmeans 0.51

Type Breast GSE 70947 GPL Platform 13607 Samples 289 Genes 35982 Classes 2

dt 0.8 hc 0.51 nb 0.83 rf 0.86 knn 0.82 mlp 0.7 svm 0.93 zeror 0.51 kmeans 0.78

Type Leukemia GSE 71449 GPL Platform 19197 Samples 45 Genes 52201 Classes 4

dt 0.71 hc 0.42 nb 0.49 rf 0.38 knn 0.38 mlp 0.42 svm 0.58 zeror 0.44 kmeans 0.42

Type Leukemia GSE 71935 GPL Platform 570 Samples 46 Genes 54676 Classes 2

dt 0.74 hc 0.78 nb 0.8 rf 0.8 knn 0.87 mlp 0.87 svm 0.89 zeror 0.8 kmeans 0.63

Type Lung GSE 74706 GPL Platform 13497 Samples 35 Genes 29149 Classes 2

dt 0.91 hc 0.54 nb 1 rf 1 knn 0.94 mlp 1 svm 1 zeror 0.49 kmeans 0.94

Type Colorectal GSE 75548 GPL Platform 10558 Samples 12 Genes 48108 Classes 2

dt 0.92 hc 0.58 nb 0.75 rf 0.83 knn 0.83 mlp 0.83 svm 0.83 zeror 0.5 kmeans 0.67

Type Liver GSE 76427 GPL Platform 10558 Samples 165 Genes 47323 Classes 2

dt 0.95 hc 0.7 nb 0.96 rf 0.95 knn 0.88 mlp 0.93 svm 0.96 zeror 0.7 kmeans 0.94

Type Lung GSE 7670 GPL Platform 96 Samples 51 Genes 22284 Classes 2

dt 0.96 hc 0.55 nb 0.9 rf 0.98 knn 0.86 mlp 0.96 svm 0.96 zeror 0.53 kmeans 0.96

Type Colorectal GSE 77953 GPL Platform 96 Samples 55 Genes 22284 Classes 4

dt 0.6 hc 0.35 nb 0.85 rf 0.87 knn 0.76 mlp 0.95 svm 0.95 zeror 0.29 kmeans 0.51

Type Breast GSE 7904 GPL Platform 570 Samples 45 Genes 54676 Classes 3

dt 0.71 hc 0.49 nb 0.82 rf 0.91 knn 0.8 mlp 0.93 svm 0.96 zeror 0.47 kmeans 0.62

Type Gastric GSE 79973 GPL Platform 570 Samples 20 Genes 54676 Classes 2

dt 0.65 hc 0.55 nb 0.9 rf 0.9 knn 0.85 mlp 0.85 svm 0.85 zeror 0.45 kmeans 0.9

Type Prostate GSE 8511 GPL Platform 1708 Samples 12 Genes 41055 Classes 1

dt NA hc NA nb NA rf NA knn NA mlp NA svm NA zeror NA kmeans NA

Type Colorectal GSE 8671 GPL Platform 570 Samples 63 Genes 54676 Classes 2

dt 0.94 hc 0.52 nb 1 rf 1 knn 0.98 mlp 1 svm 1 zeror 0.51 kmeans 0.98

Type Breast GSE 89116 GPL Platform 6947 Samples 38 Genes 39427 Classes 3

dt 0.45 hc 0.37 nb 0.42 rf 0.5 knn 0.42 mlp 0.29 svm 0.47 zeror 0.45 kmeans 0.58

Type Leukemia GSE 9476 GPL Platform 96 Samples 64 Genes 22284 Classes 5

dt 0.89 hc 0.41 nb 0.89 rf 0.98 knn 0.89 mlp 0.94 svm 0.98 zeror 0.41 kmeans 0.67