От автора

Довольно спонтанно обзавелась я личным блогом. Жизнь меня, интроверта, к такому не готовила. И вот - я уже подбираю слова. 


Что вы можете ожидать от бложика начинающего аналитика?


Нет, не душераздирающих статистических открытий. Хотя, не зарекаюсь.

В первую очередь - то, что он сам совсем недавно не знал. В начале пути каждая новая задача - испытание. Это грабли, по которым нужно походить или шишки, которые нужно набить. Потому - весь свой опыт отправляю сюда.


Дальше. Согласитесь, зачастую, ты вроде и понимаешь технологию, а объяснить как оно работает не можешь. Может тебе даже удастся ее применить. Но ты так и не понял принципа. Будет ли это твоим скиллом, твоим + к резюме? Увы, нет.

Лучший способ научиться чему-то — это научить другого.

Все верно. Пропустить информацию через себя, изложить простыми словами и показать миру - PROFIT !


И последнее. Я учусь, много. Но стала замечать, что разобравшись в теме пол года назад, я едва могу вспомнить и применить ее, если до этого отвлеклась на что-то другое. И тут меня начинает грызть совесть, а в голове звучат слова ментора:

При изучении данных, важно, чтобы у тебя оставались репорты и код. Во первых как конспект, чтобы потом не забыть, во вторых - новые данные можно легко теми же методами обработать.

Как вы поняли - конспектировать планирую сюда, в бложик.


Бесконечно можно смотреть на три вещи - огонь, воду и карту всех существующих (распространенных) технологий для анализа данных и АИ-шек

Картинка кликабельна.

Пользуясь данной картой, легко можно подобрать себе стэк - ии дерзать, смело :)


На данный момент, мой стэк и собственно блога основан на R, Dataiku DSS и Apache NiFi. 
( Но это пока )

Ну, с R-ом все понятно, непонятно только почему не Python - скажете вы 😏. Начинала я действительно с питона, т.к. у него более широкая область применения, да и быстрее он в разы. Но в один момент, углубляясь в статистику, мне попался курс, в котором использовался R.

Курс крутой, ну посмотрю, хотя бы теорию - подумала я. Задачки же можно и на питоне порешать. 

До этого я изучала основы C/C++, C#, пыталась верстать, трогала тестирование ПО, и даже прожила на ассемблере в универе. Но все было не то и быстро забрасывалось, не в кайф, видите ли. 

Итак, попытавшись решить несколько задачек на питоне, мне стало обидно от того, что у лектора решение в R зачастую занимает одну строчку, а мне на питонах приходиться изворачиваться и бесконечно ставить какие-то либы, чтобы таки получить решение довольно тривиальной задачи.

Получалось что вместо статистики я учу питон. И как-то он мне не шел. Он трудно читаем, особенно если код чужой. Результат написанного мною кода - непредсказуем для меня.

R мне зашел с первой строчки. Чистой, красивой, понятной строки, которая решает проблему (а не создает ее) - и все тут. 

В случае, когда необходимо быстро потрогать (оценить) данные - выручает Dataiku DSS. Если кратко - это платформа для обработки, визуализации и прогнозного анализа бизнес-данных и отличный инструмент для аналитика любого уровня. Импорт, подготовка, анализ и визуализация данных реализуется как кодом (R, Python), так и кликаньем мышки.


Теперь об Apache NiFi. Тулза бесспорно мощная и не для аналитики создавалась. В команде мы ориентируемся на построение ею SaaS архитектуры. Вопросы касающиеся моей сферы не всегда можно решить дефолтными процессорами, но есть возможность подключения скрипта с помощью ExecuteScript. Что это такое и с чем его едят обещаю рассказать позже. Скрипты прикручиваю, естественно на R. 

Это извращения - Apache NiFi и R! - скажет кто-то из вас. А это любовь ❤️ - отвечу я.
Мне в кайф писать на R. И если я в состоянии решить им некую задачу, то почему нет. 

Об уже раскуренных мною процессорах нифая - расскажу, покажу. Другие в случае необходимости подучу и поделюсь.

Как-то так, друзья. Го учиться!

Comments