Все, що реєструє людина та створені нею машини, може вважатися даними. Фіксуючи нове та переводячи архіви в цифрову форму, ми з кожним днем створюємо все більше даних. Деякі з них є в спеціальних сховищах, готові до використання. Але найчастіше дані розкидані по всій мережі на численних сторінках онлайнових магазинів, нотатках у соціальних мережах, логах серверів тощо. Перш ніж почати працювати з такими даними, їх необхідно зібрати та зберегти в придатному для аналізу вигляді. Розв'язання цих питань і присвячена ця книга. Чому R? Пакет R у буквальному сенсі слова створений статистиками та для статистиків. Тому завдання збору даних у цій мові реалізуються найбільш прямолінійно, що дає змогу швидше досягати результатів, не відвертаючи уваги на тонкощі програмування. Головний матеріал книги поділений на дві частини. У першій частині дано коротке введення в R — опис середовища розроблення, мови та основних пакетів-розширень. Друга частина присвячена безпосередньо зборанню даних: роботі з відкритими даними, вийманню даних із вебсторінок і соціальних мереж. Також розглянути необхідні технічні питання: протокол HTTP, функції імпортування даних різних форматів і регулярні вирази. Наприкінці кожної частини наводяться посилання на літературу та вебресурси. Крім цього, у застосунках міститься: опис середовища розробки RStudio (Застосунок А), команди пошукових сервісів Google і Янекс (Застосунок Б), введення в мову розмітки YouTube (Застосунок В) і склепіння регулярних виразів (Застосунок Г). Завершується оповідання створенням карт на основі зібраних даних. Видання призначене фахівцям з аналізу даних, а також програмістам, які цікавляться збиранням даних в Інтернеті.
Характеристики книги | |
Стан | Нове |