Metode atau teknik matematika, statistik atau machine learning yang dibahas pada buku ini adalah telah umum digunakan. Sehingga buku ini tidak akan membahas tentang konsep metode dan teknik tersebut. Buku hanya fokus membahas implementasi setiap metode dan teknik pada lingkungan R. Topik machine learning yang dibahas pada buku ini hanya fokus kepada supervised learning pada umumnya dan klasifikasi pada khususnya. Setiap teknik klasifikasi yang dibahas disertai contoh masalah dan penyelesaian langkah demi langkah sehingga dapat diikuti oleh pembaca dengan mudah. Selain membahas teknik-teknik supervised learning – klasifikasi, buku ini juga membahas teknik yang digunakan untuk mengukur kinerja teknik klasifikasi yang digunakan. Sehingga pembaca dapat memiliki pengetahuan yang lengkap untuk menyelesaikan masalah klasifikasi pada lingkungan - uploaded by Mohammad Reza FaisalAuthor contentAll figure content in this area was uploaded by Mohammad Reza FaisalContent may be subject to copyright. Discover the world's research25+ million members160+ million publication billion citationsJoin for free A preview of the PDF is not available ... Proses klasifikasi teks review terhadap layanan telemedicine Halodoc untuk sentimen positif maupun negatif dilakukan dengan beberapa metode yang paling popular diantaranya Naïve Bayes Classifier, KNN, SVM. Penelitian mengenai Naïve Bayes Classifier untuk melakukan klasifikasi pada aplikasi Halodoc telah dilakukan oleh Neng Resti Wardani Wardani and Erfina 2021 yang memperoleh nilai akurasi 82,86 %. merupakan metode klasifikasi dengan cara kerja menghitung probabilitas atau peluang berdasarkan rumus Bayesian Rule yang digunakan untuk memecahkan masalah klasifikasi pada featurefeature data bernilai nominal maupun numerik Faisal and Nugrahadi 2017 dan dikenal memiliki tingkat akurasi tinggi pada pengaplikasian database dengan data yang besar Prasetyo 2012. Berdasarkan penelitian Muhammad Rangga Aziz Nasution Nasution and Hayaty 2019 diperoleh bahwa jika dibandingkan dengan KNN model SVM memiliki tingkat akurasi yang lebih baik Oleh Karena itu, pada penelitian ini dilakukan perbandingan antara metode Naïve Bayes Classifier dan Support Vector Machine pada analisis sentimen review pengguna layanan telemedicine Halodoc pada masa pandemi COVID-19 berdasarkan performa kinerja masing-masing algoritma. ...... Support vector machine adalah metode prediksi dalam permasalahan klasifikasi dan regresi Santosa 2007. Prinsip dasar Support vector machine pada permasalahan klasfikasi yang secara linear maupun non linear dengan memasukkan konsep kernel pada ruang kerja yang berdimensi tinggi dengan cara kerja memisahkan kedua class atau kelompok suatu data dengan adanya garis hyperlane optimal yang tujuannya untuk mencari hyperlane terbaik Faisal and Nugrahadi 2017. Penggunaan Support vector machine untuk klasifikasi karena SVM mempunyai keunggulan dalam menggeneralisasi data jika dibandingkan dengan teknik sebelumnya Vapnik et al. 1997. ...REYNALDA NABILA CIKANIAHalodoc is a telemedicine-based healthcare application that connects patients with health practitioners such as doctors, pharmacies, and laboratories. There are some comments from halodoc users, both positive and negative comments. This indicates the public's concern for the Halodoc application so it is necessary to analyze the sentiment or comments that appear on the Halodoc application service, especially during the COVID-19 pandemic in order for Halodoc application services to be better. The Naïve Bayes Classifier NBC and Support Vector Machine SVM algorithms are used to analyze the public sentiment of Halodoc's telemedicine service application users. The negative category sentiment classification result was while the positive category sentiment was from 5,687 reviews which means that the positive review sentiment is more than the negative review sentiment. The accuracy performance of the Naive Bayes Classifier Algorithm resulted in an accuracy rate of with an AUC value of and a G-Mean of while svm algorithm with KERNEL RBF had an accuracy value of with an AUC value of and a G-Mean value of Based on the accuracy value of the model can be known SVM Kernel RBF model better than NBC on classifying the review of user sentiment of halodoc telemedicine service... This technique is the same as "programming by example". This technique involves a training phase in which historical training data whose characters are assigned to known results and processed into data mining algorithms [17]. The multilayer neural network method is a backpropagation algorithm that uses a learning rule gradient descent. ...Arko DjajadiWinarno WinarnoAbdullah Dwi SrengginiDelays in the completion of pvd production can be caused by several factors. Including the actual experience in the production of the difficulty of each process and color type, even the difficulty of the product type can also be affected. In this study, the prediction of the delay in the completion of pvd production was carried out using the decision tree and Multilayer Perceptron data mining method approach using Production Results data at PT. Surya Toto Indonesia, whose results are expected to provide information and input for the company in making production plans in the future. The data testing method was carried out with 5 five testing times with different amounts of data to determine the level of consistency of accuracy obtained. gives the results of a decision tree where the root is the color type and as the leaf is the product category, type type and order period. The average value of accuracy generated in the decision tree method is While the Multilayer Perceptron obtained an average accuracy of which is greater than the decision tree method with a difference of Data mining atau disebut juga dengan knowledge discovery merupakan penggalian informasi yang tersimpan dalam basis data yang besar melalui studi mengumpulkan, membersihkan, memproses, dan menganalisis, sehingga mendapatkan hal yang berguna dari data Angarwal, 2015. Adapun fokus data mining sendiri adalah pada bagaimana manusia dapat memecahkan masalah dari pola hasil identifikasi pembelajaran komputer atau disebut juga machine learning Faisal dan Nugrahadi, 2019. ...Hilman WinnosRichashanty SeptimaHusna GemasihPada periode tahun 2018 sampai dengan tahun 2021 saham PT. BSI tbk BRIS cenderung mengalami fluktuasi harga setiap hari, sehingga dari kumpulan data time-series saham BRIS dibutuhkan penggalian data untuk menemukan pola model prediksi yang dapat menemukan informasi yang bermanfaat. Metode Data mining atau disebut juga dengan knowledge discovery merupakan penggalian informasi yang tersimpan dalam basis data yang besar melalui studi mengumpulkan, membersihkan, memproses, dan menganalisis, sehingga mendapatkan hal yang berguna dari data saham BRIS. Adapun model yang digunakan adalah metode regresi linier berganda, dan metode ARIMA dimana kedua metode tersebut memiliki keunggulan dalam analisis data numerik yang cukup akurat. Tujuan penelitian ini adalah untuk menerapkan dan menghasilkan model persamaan yang akurat antra kedua metode tersebut dalam memprediksi harga saham PT. BSI tbk. Hasil yang didapat adalah model regresi linier berganda dengan hasil nilai MAPE 1,1% yaitu 98,9% lebih akurat dibandingkan dengan model ARIMA yaitu dengan hasil nilai MAPE 2,36% dan akurasinya 98,9%.... Rstudio dapat mempermudah pengguna dalam menggunakan bahasa pemrograman R dengan user interface yang lebih mudah dipahami. [8,9] Bahasa pemrograman R sendiri adalah bahasa pemrograman yang dikembangkan secara khusus untuk menangani permasalahan statistik. [10] ...The arrival of the big data era with characteristics such as large volumes of data makes the calculation of execution time a concern when carrying out data analytics processes, such as forecasting food commodity prices. This study aims to examine the effect of the big data framework through the use of sparkR. The test is carried out by varying several deep learning forecasting models, namely the multi-layer perceptron model and by using the price of one food commodity from 2018 to 2020. The results show that sparkR is significantly shorter its execution time when compared to R studio. The results of testing the influence of the MLP model also show that a model with two hidden layers with a maximum node of 13 nodes in hidden layers 1 and 2 produces the longest execution time compared to only using 1 hidden layer with 5 nodes or using two hidden layers with a number of nodes of 5 and 3.... RStudio merupakan tool pemrograman atau integrated development environment IDE bahasa R yang memiliki antarmuka lebih baik daripada RGui Faisal dan Nugrahadi, 2019. ...Hanik MalikhatinAgus Rusgiyono Di Asih I MaruddaniProspective TKI workers who apply for passports at the Immigration Office Class I Non TPI Pati have countries destinations and choose different PPTKIS agencies. Therefore, the grouping of characteristics prospective TKI needed so that can be used as a reference for the government in an effort to improve the protection of TKI in destination countries and carry out stricter supervision of PPTKIS who manage TKI. The purpose of this research is to classify the characteristics of prospective TKI workers with the optimal number of clusters. The method used is k-Modes Clustering with values of k = 2, 3, 4, and 5. This method can agglomerate categorical data. The optimal number of clusters can be determined using the Dunn Index. For grouping data easily, then compiled a Graphical User Interface GUI based application with RStudio. Based on the analysis, the optimal number of clusters is two clusters with a Dunn Index value of 0,4. Cluster 1 consists of mostly male TKI workers 51,04%, aged ≥ 20 years old 91,93%, with the destination Malaysia country 47%, and choosing PPTKIS Surya Jaya Utama Abadi 37,51%, while cluster 2, mostly of male TKI workers 94,10%, aged ≥ 20 years old 82,31%, with the destination Korea Selatan country 77,95%, and choosing PPTKIS BNP2TKI 99,78%.... Prediction is the result of the classification of the status variable produced by the program / software. From the formation of the configuration matrix, several other values can be calculated that can be used as classification performance values [2]. These values are as follows ...Banyuwangi is the largest district in East Java with an area of 5, km ² . It has a long coastline of about km which stretches along the southern eastern boundary of Banyuwangi Regency, and there are 10 islands. The BMKG estimates that the dry season in the Banyuwangi area is due to the appearance of the beach having hot weather and rarely rains. Banyuwangi also predicts that the dry season is due to the slight influence of cloud growth. Rainfall is a factor of the rainy season which has a big influence on life such as aviation, plantations and agriculture. Agriculture and plantations in Banyuwangi are mostly located in remote areas. Remote areas are likely to lack weather and climate data information. climate elements of a region cannot be ignored, especially rainfall. Based on data from BMKG Meteorology, Climatology and Geophysics, the weather data used needs to be classified. Rainfall classification can be categorized into three, namely, light, normal and heavy. There are quite a lot of classification methods, there are several new methods that are quite good such as Naive Bayes NB. Naive Bayes Classifier NBC is an algorithm in data mining techniques that is used to determine the probability of a member of a group. Large and irrelevant datasets can be solved using the Naive Bayes Classifier NBC method. The rainfall data used is known first, observed then identified to form a training dataset. Determining the accuracy of rainfall with the Naive Bayes Classifier NBC can use several parameters that have a physical relationship between the atmosphere and rainfall. The parameters used to determine rainfall are humidity, rainfall and precipitation. From this study, from 49 data testing, 47 data were predicted correctly with an accuracy of 96%.... Garis ini dikenal dengan hyperplane, dengan teknik SVM bertujuan untuk mencari hyperplane yang optimal. Kernel merupakan fungsi yang digunakan untuk mendapatkan hyperplane yang optimum [9]. ...AbstrakSaham merupakan salah satu bentuk investasi yang mana merupakan surat berharga yang menjadi bukti kepemilikan seseorang atas suatu perusahaan. Pergerakan saham dari waktu ke waktu relatif tidak menentu dan tidak pasti, namun masih dapat diprediksi. Prediksi harga saham ini akan sangat berguna bagi investor untuk mengetahui bagaimana alur investasi bekerja pada setiap harga pada masing-masing harga saham yang berubah dari waktu ke waktu. Model prediksi pergerakan harga saham yang akurat dapat membantu para investor dalam pertimbangan pengambilan keputusan transaksi saham karena pergerakan harga saham yang cenderung non linier ini akan menyulitkan investor dalam melakukan prediksi. Dalam penelitian ini dilakukan prediksi harga saham PT. Telekomunikasi Indonesia menggunakan metode algoritma Support Vector Machine yang ditingkatkan kinerjanya menggunakan kernel RBF. Dari hasil pengujian dengan metode Support Vector Machine dihasilkan tingkat akurasi sebesar dan RMSE sebesar Pengujian juga dilakukan menggunakan algoritma k-Nearest Neighbors dengan tingkat akurasi sebesar dan RMSE sebesar Dengan itu diketahui bahwa algoritma SVM memiliki tingkat akurasi yang lebih tinggi dan tingkat error yang lebih rendah dibangdingkan metode kunci prediksi, harga saham, support vector machine. Abstract[Stock Price Prediction Analysis of PT. Indonesian Telecommunications Using Methods Support Vector Machine] Stock is a form of investment which is a form of securities which is a proof of someone's ownership of a company. The movement of shares from time to time is relatively uncertain, but still predictable. This stock price prediction will be very useful for investors to find out how the flow of investment works at each price on each stock price that changes from time to time. An accurate prediction model of stock price movements can help investors in considering the decision of stock transaction because the stock price movements that tend to be non-linear will make it difficult for investors to make predictions. In this research a prediction of the stock price of PT. Telekomunikasi Indonesia uses the Support Vector Machine algorithm method which is improved in performance using the RBF kernel. From the results of testing with the Support Vector Machine method the accuracy level is and the RMSE is Tests are also carried out using the k-Nearest Neighbors algorithm with an accuracy level of and an RMSE of Therefore, it is known that the SVM algorithm has a higher level of accuracy and a lower error rate than the KNN prediction, stock price, support vector Bank is a business entity that is dealing with money, accepting deposits from customers, providing funds for each withdrawal, billing checks on the customer's orders, giving credit and or embedding the excess deposits until required for repayment. The purpose of this research is to determine the influence of age, gender, country, customer credit score, number of bank products used by the customer, and the activation of the bank members in the decision to choose to continue using the bank account that he has retained or closed the bank account. The data in this research used 10,000 respondents originating from France, Spain, and Germany. The method used is data mining with early stage preprocessing to clean data from outlier and missing value and feature selection to select important attributes. Then perform the classification using three methods, which are Random Forest, Logistic Regression, and Multilayer Perceptron. The results of this research showed that the model with Multilayer Perceptron method with 10 folds Cross Validation is the best model with accuracy. Keywords bank customer, random forest, logistic regression, multilayer perceptron Maxsi AryDyah Ayu Feby RismiatiTujuan dari penelitian ini adalah mengukur tingkat akurasi hasil klasifikasi objek menggunakan algoritma K-Nearest Neighbor dan Backward Elimination. Pengukuran tingkat akurasi diperlukan untuk menentukan tindakan selanjutnya, misalnya dalam menentukan deteksi awal suatu penyakit mesothelioma. Mesothelioma adalah kanker langka yang mempengaruhi dinding sel tipis dari organ dan struktur internal tubuh manusia yang dapat ditemukan di pleura, peritoneum, dan jantung. Pengklasifikasian suatu objek dapat digunakan dengan beberapa metode. Proses klasifikasi data dari suatu objek dapat mempermudah dalam menentukan tindakan selanjutnya. Nilai akurasi pengukuran algoritma K-Nearest Neighbor digunakan sebagai nilai awal penentuan tingkat akurasi setelah dilakukan seleksi fitur backward elimination. Algoritma K-Nearest Neighbor digunakan untuk klasifikasi pada objek. Backward Elimination digunakan untuk memilih atribut yang paling relevan pada proses klasifikasi. Proses seleksi fitur menggunakan Backward Elimination dilakukan bersamaan dengan proses pemodelan menggunakan K-Nearest Neighbor untuk menemukan subset fitur set atribut yang paling relevan. Objek penelitian diperoleh dari machine learning repository dengan nama dataset penyakit mesothelioma. Transformasi data dikelompokkan kedalam data training dan data testing. Hasil yang menarik pada penelitian adalah nilai tingkat akurasi lebih besar dari nilai awal dan set atribut terbaik setelah dilakukan seleksi fitur backward kemahasiswaan adalah fasilitas yang disediakan oleh perguruan tinggi sebagai wadah untuk mengembangkan kemampuan non akademis, minat dan bakat mahasiswa. Namun, dalam kenyataannya banyak mahasiswa yang mengikuti organisasi mengalami penurunan prestasi hingga tidak dapat lulus tepat waktu. Di Universitas Negeri Jakarta belum adanya sistem yang dapat mengklasifikasikan lama masa studi mahasiswa yang mengikuti organisasi. Sebelum membangun sistem pengambilan keputusan, diperlukan penelitian mengenai akurasi suatu algoritma agar sistem keputusan yang dibuat memiliki tingkat akurasi yang tinggi. Penelitian ini menggunakan algoritma data mining yaitu algoritma Classification and Regression Tree CART. CART merupakan metode pohon keputusan biner. CART dikembangkan untuk melakukan analisis klasifikasi pada peubah respon baik yang nominal, ordinal, maupun kontinu. Metode klasifikasi CART terdiri dari dua metode yaitu metode pohon regresi dan pohon klasifikasi. Data mahasiswa yang mengikuti organisasi yang lulus tepat waktu dan tidak lulus tepat waktu akan diolah menggunakan algoritma CART. Setelah diklasifikasikan data tersebut akan dihitung hasil akurasinya menggunakan K-fold Cross Validation dengan nilai K = 5, k = 10, dan K = 20. Berdasarkan hasil contoh data mahasiswa yang mengikuti organisasi menunjukan bahwa hasil perhitungan akurasi algoritma CART terbaik diperoleh ketika nilai K = 20. Algoritma CART telah mampu mengklasifikasikan lama masa studi mahasiswa yang mengikuti organisasi di Universitas Negeri Jakarta. Algoritma CART menghasilkan rata-rata akurasi 80%.Uwe Ligges Martin MächlerScatterplot3d is an R package for the visualization of multivariate data in a three dimensional space. R is a “language for data analysis and graphics”. In this paper we discuss the features of the package. It is designed by exclusively making use of already existing functions of R and its graphics system and thus shows the extensibility of the R graphics system. Additionally some examples on generated and real world data are provided, as well as the source code and the help page of scatterplot3d. Alexandros KaratzoglouAlex J. SmolaKurt Hornikkernlab is an extensible package for kernel-based machine learning methods in R. It takes advantage of R's new S4 ob ject model and provides a framework for creating and using kernel-based algorithms. The package contains dot product primitives kernels, implementations of support vector machines and the relevance vector machine, Gaussian processes, a ranking algorithm, kernel PCA, kernel CCA, and a spectral clustering algorithm. Moreover it provides a general purpose quadratic programming solver, and an incomplete Cholesky decomposition method. Martin MächlerUwe LiggesScatterplot3d is an R package for the visualization of multivariate data in a three dimensional space. R is a "language for data analysis and graphics". In this paper we discuss the features of the package. It is designed by exclusively making use of already existing functions of R and its graphics system and thus shows the extensibility of the R graphics system. Additionally some examples on generated and real world data are ROSE package provides functions to deal with binary classification problems in the presence of imbalanced classes. Artificial balanced samples are generated according to a smoothed bootstrap approach and allow for aiding both the phases of estimation and accuracy evaluation of a binary classifier in the presence of a rare class. Functions that implement more traditional remedies for the class imbalance and different metrics to evaluate accuracy are also provided. These are estimated by holdout, bootstrap, or cross-validation HornikChristian BuchtaAchim ZeileisTwo of the prime open-source environments available for machine/statistical learning in data mining and knowledge discovery are the software packages Weka and R which have emerged from the machine learning and statistics communities, respectively. To make the different sets of tools from both environments available in a single unified system, an R package RWeka is suggested which interfaces Weka’s functionality to R. With only a thin layer of mostly R code, a set of general interface generators is provided which can set up interface functions with the usual “R look and feel”, re-using Weka’s standardized interface of learner classes including classifiers, clusterers, associators, filters, loaders, savers, and stemmers with associated methods. Tobias SingOliver SanderNiko BeerenwinkelThomas LengauerROCR is a package for evaluating and visualizing the performance of scoring classifiers in the statistical language R. It features over 25 performance measures that can be freely combined to create two-dimensional performance curves. Standard methods for investigating trade-offs between specific performance measures are available within a uniform framework, including receiver operating characteristic ROC graphs, precision/recall plots, lift charts and cost curves. ROCR integrates tightly with R's powerful graphics capabilities, thus allowing for highly adjustable plots. Being equipped with only three commands and reasonable default values for optional parameters, ROCR combines flexibility with ease of usage. Availability ROCR can be used under the terms of the GNU General Public License. Running within R, it is platform-independent. Contact kode di bawah ini adalah untuk menghitung luas Area Under the Curve AUC saja. Sehingga pada input kedua bernilaiContoh Penggunaan Sintaks Pertama Adalah Seperti Contoh Di Bawah IniContoh penggunaan sintaks pertama adalah seperti contoh di bawah ini. Tujuan kode di bawah ini adalah untuk menghitung luas Area Under the Curve AUC saja. Sehingga pada input kedua bernilai " auc ". = performance <= setosa <= setosa Read, write, format ExcelAdrian A DragulescuAdrian A. Dragulescu 2014. xlsx Read, write, format Excel 2007 and Excel 97/2000/XP/2003 files. R package version
Semogaini tidak mengurangi semangat kita untuk terus belajar dan berkarya. Terima kasih :) Tutorial cara menginstall Python (menggunakan Anaconda dan PyCharm) [klik di sini] Tutorial install Apache Spark data mining, data science, big data dan machine learning. Hingga saat ini, berikut adalah beberapa revisi minor dalam buku ini, pada
Download Free PDFDownload Free PDFE-Book Belajar Pemrograman Python DasarE-Book Belajar Pemrograman Python DasarE-Book Belajar Pemrograman Python DasarE-Book Belajar Pemrograman Python Dasarchoerul arifin
MempelajariMachine learning, seperti dibahas pada artikel sebelumnya, paling cepat dilakukan dengan cara mengerjakan sebuah project. Rangkaian artikel ini akan memberikan beberapa arahan atau ide untuk anda. Mengapa menggunakan python? Saat ini Python termasuk bahasa pemrograman yang paling banyak digunakan dalam data science dan machine learning.
Free download buku Pengantar Data Science dan Aplikasinya bagi Pemula. Apa itu Data Science Ilmu Data? Apa yang dipelajari pada bidang ilmu ini? Apa kaitan Machine Learning dan big data dengan Data Science? Apa yang dikerjakan para data scientist ilmuwan data? Mengapa data scientist menjadi profesi yang sangat dibutuhkan dan menjadi top job? Skill dan keahlian apa saja yang harus dikuasai data scientist? Dimana dapat belajar Data Science?Buku yang dipaparkan dengan paparan populer disertai contoh aplikasi Data Science dalam kehidupan sehari-hari ini dimaksudkan untuk menjawab pertanyaan-pertanyaan tersebut. Unduh PDF buku di sini Download Penerbit Unpar Press, ISBN 978-623-7879-15-2 E-book tersedia untuk diunduh gratis di sini Download Komentar terhadap bukuStephanus Abednego, kepala sekolah SMAK 1 BPK Penabur, Bandung Menarik sekali membaca berbagai paparan dalam buku ini. Isinya membuka cakrawala kita tentang pentingnya data pada saat ini, apalagi untuk masa yang akan datang. Tidak salah apa yang disampaikan oleh para ahli, ke depan siapa yang menguasai data dialah yang menjadi market leader. Hal ini sejalan dengan apa yang dilaporkan World Economic Forum pada “The Future of Jobs Report 2020”, yang memaparkan bahwa Data Scientist menjadi salah satu pekerjaan yang paling dibutuhkan di masa yang akan datang. Contoh-contoh yang diangkat dalam buku ini menggunakan bahasa yang sederhana sehingga dapat menjadi referensi yang baik, khususnya bagi para siswa-siswi SMA yang akan melanjutkan studi ke jenjang perguruan tinggi di bidang ini. Suryatin Setiawan, Senior Consultant and Coach, Business and Organization Digitalization, Penasihat Yayasan UNPAR, BandungBuku ini adalah produk akademis yang dihasilkan dari kolaborasi yang cantik antara dosen dengan dosen, dan dosen dengan mahasiswa. Ini bukan buku novel untuk dibaca seluruhnya dari awal sampai akhir, lalu selesai. Buku ini lebih menjadi pembuka jalan bagi pembaca yang ingin tahu tentang Data Science dan juga menjadi referensi bagi praktisi, dimana saat dibutuhkan buku bisa dibuka kembali untuk melihat kasus-kasus yang bisa dijawab oleh Data Science. Keunggulan buku ini adalah tidak hanya berisi teori semata tetapi juga praktek penerapan Data Sience pada beragam kasus yang besar maupun kasus kehidupan sehari-hari. Daftar Isi Buku Kata Pengantar v Sambutan Rektor Unviersitas Katolik Parahyangan vii Data Science bagi Indonesia ix Bagian Pertama xii Bab 1 Data Science dan Data Scientist 1 Data Abad 21 1 Apa itu Data Science? 3 Apa saja yang Dikerjakan Data Scientist? 5 Keahlian dan Skill Data Scientist 10 Era Industri dan Data Science 15 Kebutuhan Data Science 17 Informasi Bab-bab Buku 18 Referensi 20 Bab 2 Menjelang Ujian Ngebut Belajar atau Tidur? 21 Pendahuluan 21 Konsep Statistika 24 Pengumpulan Data dari Peserta Kuliah 30 Hasil Analisis Data 31 Kesimpulan 38 Referensi 39 Bab 3 Pengenalan Sistem Rekomendasi pada e-Commerce 41 Pendahuluan 41 Sistem Rekomendasi dan Collaborative Filtering 43 Data e-Commerce 46 Studi Kasus 50 Penutup 54 Referensi 55 Bab 4 Pencarian Keterkaitan Bahan Masakan dengan Teknik Clustering 57 Pendahuluan 57 Teknik Hierarchical Clustering 59 Data Resep Masakan 62 Studi Kasus 65 Penutup 70 Referensi 70 Bab 5 Analisis Data Penginderaan Jauh Satelit, Kasus Prediksi Panen Padi 73 Pendahuluan 73 Data Penginderaan Jauh Satelit 73 Analisis Data Satelit SPOT-4 untuk Prediksi Panen Padi 76 Penutup 84 Referensi 84 Bab 6 Penggalian Insights dari Data COVID-19 dengan Visualisasi, Studi Kasus Data Korea Selatan 85 Pendahuluan 85 Data COVID-19 di Korea Selatan 87 Bentuk-bentuk Visualisasi 88 Penggalian Insights 90 Penutup 107 Referensi 108 Bab 7 Prediksi Kualitas Tidur dari Data Wearable Device 111 Pendahuluan 111 Wearable Device 112 Konsep Dasar 114 Klasifikasi Data Wearable Device 119 Penutup 129 Referensi 129 Bab 8 Rekomendasi Film dengan Fuzzy Collaborative Filtering 131 Pendahuluan 131 User-based Collaborative Filtering 135 Algoritma Clustering Fuzzy c-Means 138 Hasil Penelitian Rekomendasi Film dengan Fuzzy Collaborative Filtering 143 Penutup 145 Referensi 146 Bab 9 Urun Daya Data Kepadatan Lalu Lintas 147 Pendahuluan 147 Pengukuran Kepadatan Lalu Lintas oleh Google Maps 148 Pemanfaatan Google Traffic untuk Penentuan Waktu Pergi dan Pulang 154 Referensi 158 Bagian Kedua 159 Bab 10 Teknologi Big Data 161 Pendahuluan 161 Seputar Big Data 161 Arsitektur Teknologi Big Data 167 Ekosistem Hadoop 169 Teknologi Big Data Komersial 174 Contoh Penggunaan Teknologi Big Data 179 Kesimpulan 180 Referensi 180 Bab 11 Pengumpulan Data Twitter dengan Teknologi Big Data 181 Pendahuluan 181 Studi Literatur 182 Pengumpul Data Twitter dengan Spark Streaming 194 Pengumpul Data Twitter dengan Kafka 199 Kesimpulan 203 Referensi 204 Bab 12 Algoritma Pengelompokan k-Means Paralel untuk Memproses Big Data 205 Pengelompokan Data 205 Manfaat Analisis Klaster 206 Algoritma Pengelompokan k-Means Non-Paralel 207 Algoritma k-Means Paralel untuk Big Data 211 Pengembangan Algoritma k-Means Paralel 217 Penutup 223 Referensi 225 Bab 13 Estimasi Dimensi Tubuh Manusia dengan Kinect 227 Pendahuluan 227 Microsoft Kinect 228 Principal Component Analysis 231 Regresi Linier 232 Metode Estimasi Dimensi Tubuh dan Hasilnya 233 Pembangunan Perangkat Lunak 238 Hasil Eksperimen 239 Kesimpulan 242 Referensi 242 Bab 14 Segmentasi Citra Menggunakan Algoritma Particle Swarm Optimization 245 Pendahuluan 245 Studi Literatur 247 Segmentasi Gambar dengan Algoritma PSO dan K-means 253 Eksperimen Segmentasi Gambar 255 Kesimpulan 260 Referensi 260 Biografi Editor dan Para Pengarang 263 Program Data Science UNPAR 265