Naučnik podataka gdje studirati. Data Scientist (Specijalist za obradu, analizu i skladištenje velikih količina podataka). Šta je nauka o podacima?

Sposobnost rada sa Big Data tehnologijama je rijetka i vrijedna vještina koja otvara mogućnost da postanete super traženi i visoko plaćeni specijalisti.

Aleksandar Petrov, CTO E-Contenta i voditelj kursa matematike GoTo Course, govori o tome kako se pridružiti ovoj profesiji.

"Najseksi profesija"

Kao što je Harvard Business Review napisao prije nekoliko godina: “Naučnik podataka je najseksi posao 21. stoljeća.”

Članak je govorio o Jonathanu Goldmanu, fizičaru sa Stanforda, koji je nakon što se zaposlio na društvenoj mreži LinkedIn uradio nešto čudno i neshvatljivo. Dok razvojni tim zbunjuje kako da modernizuje sajt i da se nosi sa prilivom posetilaca, Goldman gradi prediktivni model koji govori vlasniku naloga ko bi mu drugi korisnici sajta mogli biti poznati.

Uvjeravajući rukovodioce LinkedIn-a da isprobaju njegov novi model, Goldman donosi milione novih pregleda na društvenu mrežu i značajno ubrzava njen rast.

Od tada profesija Data Scientist nije postala manje seksi, naprotiv. Godine 2016. bila je na vrhu Glassdoorove liste 25 najboljih poslova u Sjedinjenim Državama. Nećemo se detaljnije zadržavati na tome zašto se danas ovo zanimanje smatra jednim od najplaćenijih, najatraktivnijih i najperspektivnijih na svijetu. Napomenimo samo da broj slobodnih radnih mjesta u ovom smjeru nastavlja eksponencijalno rasti. Prema prognozama McKinsey Global Institutea, samo do 2018. biće potrebno dodatnih 140-190 hiljada stručnjaka za podatke.

U Rusiji raste i potreba za stručnjacima za podatke, iako ih je još uvijek malo na tržištu.

Nije iznenađujuće da danas ima toliko ljudi koji žele da savladaju ovu profesiju. Hajde da shvatimo ko je Data Scientist i koje veštine i znanja treba da poseduje.

Ko je on, Data Scientist?

Zapravo, Data Scientist je profesija okružena raznim mitovima. U očima nekih, Data Scientists su neka vrsta šamana koji su sposobni da „vade naftu“, i od njih se ne traži nikakvo znanje iz oblasti poslovanja. Drugi smatraju da je gotovo svaki programer u ovoj profesiji: ako znate programirati, znate kako raditi s podacima.

Više volim definiciju koju je dao biološki statističar Jeffrey Leak sa Univerziteta Johns Hopkins. Data Scientist je stručnjak sa tri grupe vještina:

  1. IT pismenost - programiranje, izmišljanje i rješavanje algoritamskih problema, poznavanje softvera;
  2. Matematičko i statističko znanje;
  3. Značajno iskustvo u određenoj oblasti - razumijevanje poslovnih potreba vaše organizacije ili zadataka vaše grane nauke.

Štaviše, slobodna radna mjesta koja podrazumijevaju ovu specijalizaciju mogu imati različite nazive. Među najpopularnijim naslovima su analitičar velikih podataka, matematičar ili matematičar programer, menadžer sistemske analize, arhitekta velikih podataka, poslovni analitičar, BI analitičar, analitičar informacija, stručnjak za rudarenje podataka, inženjer mašinskog učenja i mnogi drugi.

Koliko košta naučnik podataka?

Danas se može zadovoljiti samo trećina potražnje za stručnjacima iz nauke o podacima. Nedovoljno zasićeno tržište ne može da obezbedi kompanijama kvalifikovano osoblje u oblasti Data Mininga ili prediktivne analitike, što dovodi do povećanja potražnje i plata.

U SAD-u, prema O’Reilly Media, plate Data Scientists mogu doseći do 138 hiljada dolara godišnje i više, ovisno o nivou njihove vještine. Poređenja radi, prosječna plata programera, prema njihovim procjenama, iznosi 65-80 hiljada dolara godišnje.

Prema istraživačkom centru portala za zapošljavanje Superjob, ponude za plate za stručnjake bez relevantnog radnog iskustva u Moskvi počinju od 70 hiljada rubalja, u Sankt Peterburgu - od 57 hiljada rubalja.

Za sledeći nivo plate, kandidati će morati da imaju dubinsko znanje o metodama statističke analize podataka, veštine u izgradnji matematičkih modela (neuronske mreže, grupisanje, regresijske, faktorske, varijansne i korelacione analize, itd.), kao i iskustvo u radu sa velikim skupovima podataka i sposobnošću identifikovanja obrazaca. Za takve stručnjake, plata može dostići 110 hiljada rubalja u Moskvi i 90 hiljada rubalja u Sankt Peterburgu.

Stručnjaci s iskustvom u izgradnji komercijalno uspješnih složenih modela ponašanja ciljne publike pomoću alata za dubinsko rudarenje podataka mogu računati na maksimalan prihod. Za njih su ponude plata u Moskvi do 220 hiljada rubalja, u Sankt Peterburgu - do 180 hiljada rubalja.

Obrazovanje nauke o podacima: ništa nije nemoguće

Danas, za one koji žele da se razvijaju u oblasti analize velikih podataka, postoji mnogo mogućnosti: razni edukativni kursevi, specijalizacije i programi iz nauke o podacima, neće biti teško pronaći odgovarajuću opciju za sebe. Možete pronaći moje preporuke za kurs.

Po mom mišljenju, najbolja znanja i vještine za rad u ovoj oblasti mogu se steći na visokoškolskim ustanovama u oblastima: „Primijenjena matematika“, „Računarstvo“, „Matematička statistika“.

Zato što je Data Scientist osoba koja zna matematiku. Analiza podataka, tehnologija i Big Data su sve tehnologije i oblasti znanja koje koriste osnovnu matematiku kao svoju osnovu.

Mnogi ljudi vjeruju da matematičke discipline nisu posebno potrebne u praksi. Ali zapravo nije.

Dozvolite mi da vam dam primjer iz našeg iskustva. U E-Contenti se fokusiramo na sisteme preporuka. Programer može znati da se matrične dekompozicije mogu koristiti za rješavanje problema video preporuka, zna biblioteku za svoj omiljeni programski jezik u kojoj se implementira ova matrična dekompozicija, ali nema apsolutno nikakvog razumijevanja kako funkcionira i koja su ograničenja. To dovodi do toga da se metoda primjenjuje na suboptimalan način ili na mjestima gdje se ne bi trebala primjenjivati, smanjujući ukupni kvalitet sistema.

Dobro razumijevanje matematičkih osnova ovih metoda i poznavanje njihovog odnosa sa konkretnim algoritmima iz stvarnog života bi izbjegli takve probleme.

Inače, studiranje na raznim stručnim kursevima i programima o Big Data često zahteva dobru matematičku pripremu.

„Šta ako nisam studirao matematiku ili sam je učio tako davno da se ničega ne sjećam?“ - pitate. „Ovo nije razlog da odustanete od karijere Data Scientist-a i odustanete“, odgovoriću.

Postoji mnogo uvodnih kurseva i alata za početnike koji vam omogućavaju da osvježite ili poboljšate svoje znanje u jednoj od gore navedenih disciplina. Na primjer, posebno za one koji žele steći znanja iz matematike i algoritama ili ih osvježiti, moje kolege i ja smo razvili poseban kurs GoTo Course. Program uključuje osnovni kurs iz više matematike, teorije vjerovatnoće, algoritama i struktura podataka - to su predavanja i seminari iskusnih praktičara. Posebna pažnja posvećena je analizama primjene teorije u praktičnim problemima iz stvarnog života. Kurs će vam pomoći da se pripremite za proučavanje analize podataka i mašinskog učenja na naprednom nivou i rješavanje problema na intervjuima.


U Moskvi će 15. septembra biti održana konferencija o velikim podacima Big Data Conference. Program obuhvata poslovne slučajeve, tehnička rješenja i naučna dostignuća najboljih stručnjaka iz ove oblasti.

Pozivamo sve koji su zainteresovani za rad sa velikim podacima i žele da ih primene u realnom poslovanju.

Pratite Big Data konferenciju na Telegram,on

Da li ste dugo želeli da shvatite kako da postanete analitičar podataka, da proučavate nauku o podacima, ali niste znali odakle da počnete? Onda je ovaj članak za vas.

Ko od nas nije čuo za “velike podatke”? Malo je vjerovatno da će biti barem jedan. Poslednjih godina interesovanje za rad sa podacima značajno je poraslo, jer velike IT kompanije moraju da osmisle nova rešenja za analizu, obradu i naknadno korišćenje podataka. Neki čak pokreću programe obuke zajedno sa univerzitetima. Međutim, većina ljudi nema razumijevanje o tome kakvi su ljudi analitičari podataka. Ako ste jedan od takvih ljudi i imate želju da postanete analitičar podataka, onda je ovaj članak za vas. Odabrali smo samo besplatne alate za obuku koje možete koristiti bez obzira na vašu lokaciju.

Šta rade analitičari podataka?

Takozvani analitičari podataka bave se njihovim informacijama i analizom kako bi dobili vizualne, čovjeku vidljive rezultate. Takvi ljudi obično uključuju stručnjake za velike podatke, rudarenje podataka, mašinsko učenje, analizu sistema i poslovne analitičare.

Šta gledati

Predavanja „Škola analize podataka“ iz Yandexa

SHAD - kursevi o analizi podataka zaposlenih u Yandexu. Prilično je teško ući tamo, minimum potreban za kandidate su osnovni dijelovi više algebre,matematička analiza, kombinatorika, teorija vjerovatnoće, kao i osnove programiranja. Srećom, kursevi se snimaju tako da svi mogu naučiti iz video predavanja.

Kurs mašinskog učenja

Kurs uči kako primijeniti teoriju vjerovatnoće i statistiku, govori o osnovama mašinskog učenja i podučava kako se grade algoritmi

Kurs “Algoritmi i strukture za pretraživanje podataka”

Predavanja obuhvataju algoritme za pretraživanje i sortiranje velikih količina podataka, algoritme i manipulaciju stringovima, teorijske algoritme grafova, konstrukciju i analizu struktura podataka.

Kurs "Paralelno i distribuirano računarstvo"

Za one koji odavno žele da se upoznaju sa višenitnim i paralelnim programiranjem, kao i sa MapReduceom.

Kurs "Diskretna analiza i teorija vjerovatnoće"

Predmet ispituje osnovne koncepte i metode kombinatorne, diskretne i asimptotske analize, teoriju vjerovatnoće, statistiku, te demonstrira njihovu primjenu.

Kurs "Računarska složenost"

Nakon odslušanog kursa, naučićete o klasama verovatnoće složenosti i osnovnim tehnikama za analizu i konstruisanje podataka.

Predavanja Technostream Mail.ru Group

Programi kursa su namenjeni studentima nekoliko moskovskih univerziteta, ali su dostupni svima. Budućim analitičarima preporučujemo sljedeće zbirke predavanja:

Predavanja Big Data University

Big Data University je online kurs kreiran u saradnji sa IBM-om za početnike i ljude bez matematičke pozadine. Predavanja koja vam pomažu da se upoznate sa osnovama rada sa podacima snimaju se na jasnom engleskom jeziku.

Welch Labs

Ovaj kanal sadrži predavanja iz matematike, informatike, programiranja i mašinskog učenja. U tom procesu se daju primjeri primjene stvari koje se proučavaju u stvarnom životu. Predavanja su na engleskom, ali postoje odlični ruski titlovi.

pa " Učenje iz strukturiranih podataka: Uvod u vjerovatnostne grafičke modele"Fakultet računarskih nauka, Nacionalni istraživački univerzitet Visoka ekonomska škola

Predmet je fokusiran na dubinski uvod u teoriju i primjenu jednog od najpopularnijih pristupa rješavanju ovakvih problema današnjice - diskretnih probabilističkih grafičkih modela. Jezik kursa je engleski.

Kanal senddex

Kanal je u potpunosti posvećen radu sa podacima. Štaviše, ne samo oni koje zanima matematika naći će korisne stvari za sebe. Postoje video zapisi o analizi i programiranju za finansijske analitičare i robotiku koristeći Rasperri Pi.

Siraj Raval Channel

Tip govori o modernim tehnologijama i kako raditi s njima. Kursevi dubokog učenja, nauke o podacima i mašinskog učenja će vam pomoći da naučite kako da radite sa podacima.

Kanal škole podataka

Ako ste samo čuli nešto o mašinskom učenju, ali ste već zainteresovani, onda je ovaj kanal za vas. Autor će na razumljivom nivou, uz primjere, objasniti šta je to, kako funkcionira i gdje se koristi.

Gdje vježbati

Za one koji nisu sigurni da su spremni za potpuno samostalno učenje gledajući predavanja, postoje online kursevi sa zadacima sa verifikacijom.

Kursevi nauke o podacima na Courseri

Nema potrebe objašnjavati o kakvoj se platformi radi. Morate odabrati kurs i početi učiti.

Stepik.org

Analiza podataka u R

Prvi dio pokriva sve glavne korake statističke analize u R, čitanje podataka, prethodnu obradu podataka, primjenu osnovnih statističkih metoda i vizualizaciju rezultata. Studenti će naučiti osnovne elemente programiranja u R jeziku, što će im omogućiti da brzo i efikasno rješavaju širok spektar problema koji se javljaju prilikom obrade podataka.

Drugi dio pokriva nekoliko naprednih tema koje nisu bile obrađene u prvom: prethodna obrada podataka pomoću paketa data.table i dplyr, napredne tehnike vizualizacije, rad u R Markdownu.

Uvod u baze podataka

Zaronite u DBMS

Kurs je za one koji imaju iskustva sa relacionim DBMS-om i žele da saznaju više o tome kako oni rade. Kurs obuhvata:

  • dizajn šeme baze podataka;
  • upravljanje transakcijama;
  • optimizacija upita;
  • nove karakteristike relacionog DBMS-a

Hadoop. Sistem za obradu velikih količina podataka

Kurs je posvećen metodama obrade velikih količina podataka pomoću Hadoop sistema. Nakon završenog kursa, steći ćete znanja o osnovnim metodama skladištenja i obrade velikih količina podataka, razumjeti principe distribuiranih sistema u kontekstu Hadoop okvira i savladati praktične vještine razvoja aplikacija koristeći programski model MapReduce.

Radim u automatskoj obradi prirodnog jezika, primjeni nauke o podacima, i često viđam da ljudi pogrešno koriste ove izraze, pa sam htio malo pojasniti. Ovaj članak je za one koji nemaju pojma šta je nauka o podacima i žele razumjeti koncepte.

Hajde da definišemo terminologiju

Počnimo s činjenicom da niko zapravo ne zna šta je nauka o podacima, i ne postoji stroga definicija – to je veoma širok i interdisciplinaran koncept. Stoga ću ovdje podijeliti svoju viziju, koja se ne mora poklapati sa mišljenjima drugih.

Termin nauka o podacima na ruski se prevodi kao „nauka o podacima“, au profesionalnom okruženju često se jednostavno transliterira kao „nauka o podacima“. Formalno, ovo je skup nekih međusobno povezanih disciplina i metoda iz oblasti računarstva i matematike. Zvuči previše apstraktno, zar ne? Hajde da to shvatimo.

Prvi dio: podaci

Prva komponenta nauke o podacima, nešto bez čega je cijeli dalji proces nemoguć, zapravo su sami podaci: kako ih prikupiti, pohraniti i obraditi, kao i izvući korisne informacije iz općeg niza podataka. Stručnjaci posvećuju do 80% svog radnog vremena čišćenju podataka i dovođenju u željeni oblik.

Važan dio ove tačke je kako rukovati podacima za koje standardne metode skladištenja i obrade nisu prikladne zbog njihovog ogromnog obima i/ili raznolikosti - takozvanim velikim podacima. Usput, nemojte se zbuniti: veliki podaci i nauka o podacima nisu sinonimi: prije, prvi je pododjeljak drugog. Istovremeno, analitičari podataka u praksi ne moraju uvijek da rade s velikim podacima – mali također mogu biti korisni.

Zamislite da nas zanima postoji li ikakva veza između toga koliko kafe piju vaše kolege sa posla tokom dana i koliko su spavali prethodne noći. Hajde da zapišemo informacije koje su nam dostupne: recimo da je vaš kolega Gregory danas spavao 4 sata, pa je morao popiti 3 šoljice kafe; Ellina je spavala 9 sati i uopće nije pila kafu; a Polina je spavala svih 10 sati, ali je popila 2,5 šoljice kafe - i tako dalje.

Prikažimo dobijene podatke na grafikonu (vizualizacija je takođe važan element svakog projekta nauke o podacima). Nacrtajmo vrijeme u satima na osi X, a kafu u mililitrima na osi Y. Dobićemo nešto ovako:

Drugi dio: nauka

Imamo podatke, šta sada možemo sa njima? Tako je, analizirajte, izdvojite korisne obrasce i nekako ih koristite. Ovdje će nam pomoći discipline kao što su statistika, strojno učenje i optimizacija.

Oni čine sljedeću i možda najvažniju komponentu nauke o podacima – analizu podataka. Strojno učenje vam omogućava da pronađete obrasce u postojećim podacima tako da možete predvidjeti relevantne informacije za nove objekte.

Hajde da analiziramo podatke

Vratimo se našem primjeru. Oku se čini da su ta dva parametra nekako međusobno povezana: što je osoba manje spavala, to će više kafe popiti sljedećeg dana. Istovremeno, imamo primjer koji se izdvaja iz ovog trenda - Polinu, koja voli spavati i piti kafu. Ipak, možete pokušati aproksimirati rezultirajući uzorak nekom općom ravnom linijom tako da se približi svim tačkama što je bliže moguće:

Zelena linija je naš model strojnog učenja, generalizira podatke i može se opisati matematički. Sada uz pomoć njega možemo odrediti vrijednosti za nove objekte: kada želimo da predvidimo koliko će kafe danas popiti Nikita koji je ušao u kancelariju, pitaćemo koliko je spavao. Dobivši kao odgovor vrijednost od 7,5 sati, zamjenjujemo je u model - odgovara količini popijene kafe u zapremini nešto manjoj od 300 ml. Crvena tačka predstavlja naše predviđanje.

Otprilike ovako funkcionira strojno učenje, čija je ideja vrlo jednostavna: pronaći obrazac i proširiti ga na nove podatke. Zapravo, u mašinskom učenju postoji još jedna klasa zadataka kada ne treba da predviđate neke vrednosti, kao u našem primeru, već podelite podatke u određene grupe. Ali o tome ćemo detaljnije govoriti drugi put.

Primijenimo rezultat

Međutim, po mom mišljenju, nauka o podacima se ne završava identifikacijom obrazaca u podacima. Svaki projekt nauke o podacima je primijenjeno istraživanje, pri čemu je važno ne zaboraviti na stvari kao što su postavljanje hipoteze, planiranje eksperimenta i, naravno, procjena rezultata i njegove podobnosti za rješavanje konkretnog slučaja.

Ovo posljednje je vrlo važno u stvarnim poslovnim problemima, kada trebate razumjeti da li će rješenje koje je pronašla nauka o podacima koristiti vašem projektu ili ne. Koja bi bila korisnost konstruisanog modela u našem primjeru? Možda bismo uz njegovu pomoć mogli optimizirati dostavu kafe u ured. Istovremeno, treba da procenimo rizike i utvrdimo da li bi se naš model bolje nosio sa ovim od postojećeg rešenja – šef kancelarije Mihail, odgovoran za kupovinu proizvoda.

Hajde da nađemo izuzetke

Naravno, naš primjer je maksimalno pojednostavljen. U stvarnosti, bilo bi moguće izgraditi složeniji model koji bi uzeo u obzir neke druge faktore, na primjer, voli li osoba u principu kafu. Ili bi model mogao pronaći veze koje su složenije od onih koje predstavlja prava linija.

Mogli bismo prvo potražiti vanjske vrijednosti u našim podacima - objekte koji se, poput Poline, jako razlikuju od većine drugih. Činjenica je da u stvarnom radu takvi primjeri mogu loše utjecati na proces izgradnje modela i njegovu kvalitetu, te ih ima smisla obraditi na neki drugi način. A ponekad su takvi objekti od primarnog interesa, na primjer, u zadatku otkrivanja anomalnih bankarskih transakcija kako bi se spriječile prijevare.

Osim toga, Polina nam pokazuje još jednu važnu ideju - nesavršenost algoritama za strojno učenje. Naš model predviđa samo 100 ml kafe za osobu koja je spavala 10 sati, dok je u stvari Polina popila čak 500. Kupci rješenja za nauku o podacima nikada neće vjerovati, ali je ipak nemoguće naučiti mašinu da savršeno predvidi sve u svijetu: Bez obzira koliko smo dobri u prepoznavanju obrazaca u podacima, uvijek će postojati nepredvidivi elementi.

Nastavimo priču

Dakle, data science je skup metoda za obradu i analizu podataka i njihovu primjenu na praktične probleme. Istovremeno, morate shvatiti da svaki stručnjak ima svoj pogled na ovu oblast i mišljenja se mogu razlikovati.

Nauka o podacima temelji se na prilično jednostavnim idejama, ali u praksi se često otkrivaju mnoge neočigledne suptilnosti. Kako nas nauka o podacima okružuje u svakodnevnom životu, koje metode analize podataka postoje, od koga se sastoji tim nauke o podacima i koje poteškoće mogu nastati tokom procesa istraživanja – o tome ćemo govoriti u narednim člancima.

Data Scientist- specijalista za obradu, analizu i skladištenje velikih količina podataka, tzv. “Big Data”. Profesija je pogodna za one koje zanimaju fizika, matematika i informatika (pogledajte izbor zanimanja na osnovu interesovanja za školske predmete).

Data Science - nauka o podacima na raskrsnici različitih disciplina: matematike i statistike; informatika i računarstvo; biznis i ekonomija.

(S. Maltseva, Nacionalni istraživački univerzitet V. Kornilov “Viša škola ekonomije”)

Profesija je nova, relevantna i... Sam termin “Big Data” pojavio se 2008. A profesija Data Scientist – “Data Scientist” zvanično je registrovana kao akademska i interdisciplinarna disciplina početkom 2010. Iako je prvo pominjanje pojma “nauka o podacima” zabeleženo u knjizi Petera Naura 1974. godine, ali u drugoj kontekstu.

Potrebu za nastankom takve profesije diktirala je činjenica da se kada su ultra veliki podaci u pitanju ispostavilo da su nizovi podataka preveliki da bi se mogli obraditi standardnim sredstvima matematičke statistike. Svakog dana hiljade petabajta (10 15 bajtova = 1024 terabajta) informacija prolaze kroz servere kompanija širom sveta. Pored ovakvih količina podataka, problem je komplikovan njihovom heterogenošću i velikom brzinom ažuriranja.

Nizovi podataka su podijeljeni u 3 tipa:

strukturirani (npr. podaci iz kasa u trgovini);

polustrukturirane (e-mail poruke);

nestrukturirani (video fajlovi, slike, fotografije).

Većina velikih podataka je nestrukturirana, što znatno otežava njihovu obradu.

Pojedinačno, statističar, sistemski analitičar ili poslovni analitičar ne mogu riješiti probleme s takvim količinama podataka. Za to je potrebna osoba sa interdisciplinarnim obrazovanjem, kompetentna za matematiku i statistiku, ekonomiju i biznis, računarstvo i računarsku tehnologiju.

Glavni zadatak Data Scientist-a je sposobnost da izvuče potrebne informacije iz širokog spektra izvora, koristeći tokove informacija u realnom vremenu; identificirati skrivene obrasce u skupovima podataka i statistički ih analizirati kako bi se donijele pametne poslovne odluke. Radno mjesto takvog stručnjaka nije 1 računar ili čak 1 server, već klaster servera.

Karakteristike profesije

Kada radi s podacima, Data Scientist koristi različite metode:

  • statističke metode;
  • modeliranje baze podataka;
  • metode rudarenja;
  • aplikacije umjetne inteligencije za rad s podacima;
  • metode projektovanja i razvoja baza podataka.

Poslovna zaduženja data naučnika zavise od njegovog polja aktivnosti, ali opšta lista funkcija je sledeća:

  • prikupljanje podataka iz različitih izvora za naknadnu operativnu obradu;
  • analiza ponašanja potrošača;
  • modeliranje baze kupaca i personalizacija proizvoda;
  • analiza efikasnosti internih procesa baze;
  • analiza različitih rizika;
  • identifikovanje moguće prevare proučavanjem sumnjivih transakcija;
  • izrada periodičnih izvještaja sa prognozama i prezentacijom podataka.

Naučnik podataka, kao i pravi naučnik, ne samo da prikuplja i analizira podatke, već ih i proučava u različitim kontekstima i iz različitih uglova, dovodeći u pitanje sve pretpostavke. Najvažniji kvalitet data naučnika je sposobnost da sagleda logičke veze u sistemu prikupljenih informacija i da na osnovu kvantitativne analize razvije efikasna poslovna rešenja. U današnjem kompetitivnom svijetu koji se brzo mijenja, u sve većem protoku informacija, Data Scientist je nezamjenjiv za menadžment u smislu donošenja ispravnih poslovnih odluka.

Prednosti i mane profesije

pros

  • Profesija ne samo da je izuzetno tražena, već postoji akutni nedostatak stručnjaka ovog nivoa. Prema McKinsey Global Instituteu, do 2018. će samo u Sjedinjenim Državama biti potrebno više od 190 hiljada Data Scientists. Zato se fakulteti na najprestižnijim univerzitetima za obuku naučnika podataka tako brzo i široko finansiraju i razvijaju. Potražnja za naučnicima podataka raste iu Rusiji.
  • Visoko plaćena profesija.
  • Potreba za stalnim razvojem, praćenjem razvoja IT tehnologija i stvaranjem novih metoda za obradu, analizu i skladištenje podataka.

Minusi

  • Ne može svaka osoba savladati ovu profesiju, ona zahtijeva poseban način razmišljanja.
  • U procesu rada možda neće raditi poznate metode i više od 60% ideja. Mnoga rješenja neće uspjeti i morate imati puno strpljenja da biste dobili zadovoljavajuće rezultate. Naučnik nema pravo da kaže: "NE!" problem. Mora pronaći način koji će pomoći u rješavanju problema.

Mjesto rada

Data Scientists zauzimaju ključne pozicije u:

  • tehnološke industrije (automobilski navigacijski sistemi, proizvodnja lijekova, itd.);
  • IT sfera (optimizacija za pretraživače, spam filter, sistematizacija vijesti, automatski prijevodi teksta i još mnogo toga);
  • medicina (automatska dijagnostika bolesti);
  • finansijske strukture (donošenje odluka o davanju kredita) i dr.;
  • televizijske kuće;
  • veliki trgovački lanci;
  • izborne kampanje.

Važni kvaliteti

  • Analytical mind;
  • težak posao;
  • upornost;
  • skrupuloznost, tačnost, pažnja;
  • sposobnost dovršetka istraživanja uprkos neuspješnim međurezultatima;
  • komunikacijske vještine;
  • sposobnost objašnjavanja složenih stvari jednostavnim riječima;
  • poslovna intuicija.

Profesionalna znanja i vještine:

  • poznavanje matematike, matematičke analize, matematičke statistike, teorije vjerovatnoće;
  • poznavanje engleskog jezika;
  • poznavanje glavnih programskih jezika koji imaju komponente za rad sa velikim skupovima podataka: Java (Hadoop), C++ (BigARTM, Vowpel Wabbit, XGBoost), Python (Matplotlib, Numpy, Scikit, Skipy);
  • poznavanje statističkih alata - SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • temeljno poznavanje industrije u kojoj radi naučnik podataka; ako se radi o farmaceutskoj industriji, potrebno je poznavanje osnovnih proizvodnih procesa i komponenti lijekova;
  • Glavna osnovna vještina naučnika podataka je organizacija i administracija sistema za skladištenje klastera za velike količine podataka;
  • poznavanje zakona o razvoju poslovanja;
  • ekonomsko znanje.

Univerziteti

  • Moskovski državni univerzitet nazvan po Lomonosov, Fakultet računarske matematike i kibernetike, specijalni obrazovni program Mail.Ru grupe „Tehnosfera“, sa obukom o metodama inteligentne analize velikih količina podataka, C++ programiranju, višenitnom programiranju i tehnologiji za izgradnju sistema za pronalaženje informacija.
  • MIPT, Odsjek za analizu podataka.
  • Fakultet poslovne informatike Visoke ekonomske škole Nacionalnog istraživačkog univerziteta obučava sistem analitičare, dizajnere i implementatore složenih informacionih sistema i organizatore upravljanja korporativnim informacionim sistemima.
  • Škola analize podataka Yandex.
  • Univerzitet u Innopolisu, Univerzitet Dandi, Univerzitet Južne Kalifornije, Univerzitet Okland, Univerzitet Washington: Master programi iz velikih podataka.
  • Imperial College London Business School, MSc Data Science and Management.

Kao iu svakoj profesiji, i ovdje je važno samoobrazovanje, koje će nesumnjivo imati koristi od resursa kao što su:

  • online kursevi vodećih svjetskih univerziteta COURSERA;
  • kanal za mašinsko učenje MASHIN LEARNING;
  • izbor edX kurseva;
  • Udacity tečajevi;
  • Dataquest kursevi, na kojima možete postati pravi profesionalac u nauci o podacima;
  • Datacamp kursevi u 6 koraka;
  • O'Reillyjevi treninzi;
  • screencasts za početnike i napredne Data Origami;
  • tromjesečna konferencija stručnjaka Moskovski Data Scientists Meetup;
  • takmičenja u analizi podataka Kaggle.com

Plata

Plata od 04.07.2019

Rusija 50000—200000 ₽

Moskva 60000—300000 ₽

Profesija Data Scientist je jedna od najplaćenijih. Informacije sa sajta hh.ru - mjesečna plata se kreće od 8,5 hiljada do 9 hiljada dolara.U SAD-u plata takvog specijaliste iznosi 110 hiljada dolara - 140 hiljada dolara godišnje.

Prema istraživanju istraživačkog centra Superjob, plata stručnjaka za Data Scientist zavisi od radnog iskustva, obima odgovornosti i regiona. Specijalista početnik može računati na 70 hiljada rubalja. u Moskvi i 57 hiljada rubalja. u Sankt Peterburgu. Sa do 3 godine radnog iskustva, plata se povećava na 110 hiljada rubalja. u Moskvi i 90 hiljada rubalja. u Sankt Peterburgu. Za iskusne stručnjake sa naučnim publikacijama, plata može doseći 220 hiljada rubalja. u Moskvi i 180 hiljada rubalja. U Petersburgu.

Koraci i izgledi u karijeri

Profesija Data Scientist sama po sebi je visoko dostignuće, koje zahtijeva ozbiljno teorijsko znanje i praktično iskustvo više profesija. U svakoj organizaciji takav stručnjak je ključna figura. Da biste dosegli ovu visinu, potrebno je vrijedno raditi i ciljano i stalno se usavršavati u svim područjima koja čine osnovu profesije.

Postoji vic o Data Scientistu: on je generalista koji programira bolje od bilo kojeg statističara i poznaje statistiku bolje od bilo kojeg programera. I bolje razumije poslovne procese od čelnika kompanije.

ŠTA SE DESILO "BIG PODACI"u stvarnim brojevima?

  1. Svaka 2 dana obim podataka se povećava za količinu informacija koje je stvorilo čovječanstvo od rođenja Krista do 2003. godine.
  2. 90% svih postojećih podataka danas se pojavilo u posljednje 2 godine.
  3. Do 2020. obim informacija će se povećati sa 3,2 na 40 zetabajta. 1 zetabajt = 10 21 bajt.
  4. U roku od 1 minute na Facebook se postavi 200 hiljada fotografija, pošalje 205 miliona pisama i objavi 1,8 miliona lajkova.
  5. U roku od 1 sekunde, Google obrađuje 40 hiljada upita za pretraživanje.
  6. Svake 1,2 godine ukupna količina podataka u svakoj industriji se udvostručuje.
  7. Do 2020. tržište Hadoop usluga će porasti na 50 milijardi dolara.
  8. U Sjedinjenim Državama je 2015. godine otvoreno 1,9 miliona radnih mjesta za stručnjake koji rade na projektima velikih podataka.
  9. Big Data tehnologije povećavaju profit maloprodajnih lanaca za 60% godišnje.
  10. Prema predviđanjima, veličina tržišta velikih podataka će se povećati na 68,7 milijardi dolara u 2020. u poređenju sa 28,5 milijardi dolara u 2014.

Uprkos ovako pozitivnim pokazateljima rasta, postoje i greške u prognozama. Na primjer, jedna od najozloglašenijih grešaka 2016. godine: prognoze u vezi s američkim predsjedničkim izborima nisu se obistinile. Prognoze su dali poznati američki naučnici za podatke Nate Silver, Kirk Bourne i Bill Shmarzo u korist Hillary Clinton. U prethodnim izbornim kampanjama davali su tačne prognoze i nikada nisu pogriješili.

Ove godine je Nate Silver, na primjer, dao tačnu prognozu za 41 državu, ali je pogrešio za 9 država, što je dovelo do Trumpove pobjede. Nakon analize uzroka grešaka iz 2016. godine, zaključili su da:

  1. Matematički modeli objektivno odražavaju sliku u trenutku njihovog nastanka. Ali oni imaju poluživot, do kraja kojeg se situacija može dramatično promijeniti. Prediktivni kvaliteti modela se vremenom pogoršavaju. U ovom slučaju, na primjer, malverzacije, nejednakost prihoda i drugi društveni preokreti su odigrali ulogu. Stoga se model mora redovno prilagođavati kako bi se u obzir uzeli novi podaci. To nije urađeno.
  2. Potrebno je tražiti i razmotriti dodatne podatke koji mogu značajno uticati na prognoze. Tako se prilikom gledanja video zapisa skupova u predizbornim kampanjama Klintonove i Trumpa nije uzimao u obzir ukupan broj učesnika skupova. Radilo se o stotinama ljudi. Ispostavilo se da je na svakom skupu u korist Trampa dolazilo 400-600 ljudi, a u korist Klintonove svega 150-200, što je uticalo na rezultate.
  3. Matematički modeli u izbornim kampanjama baziraju se na demografskim podacima: starosti, rasi, polu, prihodima, statusu u društvu itd. Težina svake grupe određena je načinom na koji su glasali na prošlim izborima. Ova prognoza ima grešku od 3-4% i pouzdano funkcioniše kada postoji veliki jaz između kandidata. Ali u ovom slučaju je jaz između Clintonove i Trumpa bio mali, a ova greška je značajno utjecala na izborne rezultate.
  4. Nije uzeto u obzir iracionalno ponašanje ljudi. Sprovedena istraživanja javnog mnjenja stvaraju iluziju da će ljudi glasati onako kako su odgovorili u anketama. Ali ponekad rade suprotno. U ovom slučaju bilo bi potrebno dodatno sprovesti analizu lica i govora kako bi se identifikovali nepošteni stavovi prema glasanju.

Općenito, predviđanje se pokazalo pogrešnim zbog malog jaza između kandidata. U slučaju velikog jaza, ove greške ne bi bile toliko odlučujuće.

Video: Nova specijalizacija “Big Data” - Mihail Levin

Mnogi poslodavci danas aktivno traže istraživače podataka. Istovremeno su zainteresovani da privuku one „naučnike“ koji imaju odgovarajuće obrazovanje. Istovremeno, morate uzeti u obzir sve dezinformacije kojima je tržište puno. Reći ćemo vam o najvećim zabludama o Data Science i Data Scientists, vještinama koje trebaju posjedovati i ko je zapravo ova rijetka pasmina.

Data Science(Nauka o podacima) je grana računarstva koja proučava probleme analize, obrade i predstavljanja podataka u digitalnom obliku. Nauka o podacima kombinuje metode za obradu podataka u velikim količinama i visokim nivoima paralelizma, statističke metode, metode rudarenja podataka i aplikacije veštačke inteligencije za rad sa podacima, kao i metode za projektovanje i razvoj baza podataka. Tretira se kao akademska disciplina. Od početka 2010-ih pozicioniran je kao praktična međusektorska oblast djelovanja. Od ranih 2010-ih, specijalizacija „naučnik podataka“ se smatra jednom od najbolje plaćenih, atraktivnih i perspektivnih profesija.

Data Science Misconceptions

1. Veliki podaci su statistika i poslovna analitika sa velikom količinom podataka. Nema tu ništa novo

Ovog mišljenja su uglavnom oni ljudi koji imaju ograničeno iskustvo u razvoju softvera, ili uopće nisu opterećeni ikakvim iskustvom. Želite analogiju? Molim te. Uzmimo led kao primjer. Može se nazvati veoma hladnom vodom. Šta ima novo ovdje? Međutim, rashladna voda ne samo da mijenja svoju temperaturu, već radikalno mijenja svoje karakteristike kvaliteta, pretvarajući tekućinu u krutu tvar. Isto se može reći i za velike količine podataka. Velike količine podataka na kraju razbijaju stare paradigme proračuna, proračuna i proračuna. Kada koristite tradicionalne metode poslovne analitike, mogu potrajati godine da se završe određeni proračuni. Paralelizacija i distribuirano računarstvo su očigledni odgovori na pitanje skaliranja. Ali to nije uvijek tako lako, čak i sa statističkim alatom tako jednostavnim kao što je analiza logističke regresije. Distribuirano statističko računanje razlikuje se od tradicionalne poslovne analitike koliko je led od vode.

2. Naučnici za podatke su isti softverski inženjeri nakon rebrendiranja

Ponekad se inženjeri sa velikim iskustvom u razvoju softvera prekvalifikuju i postanu naučnici podataka kako bi povećali svoje plate. Međutim, ova praksa često dovodi do nezadovoljavajućih rezultata. Zaista, u polju velikih podataka, otklanjanje statističkih grešaka čak i na najjednostavnijem nivou izgleda kao prilično težak zadatak. Inženjeri su obučeni da otkriju i poprave softverske greške. Ali bez dobrog poznavanja teorije vjerovatnoće i statistike, malo je vjerovatno da će čak i kul programer moći uspješno eliminisati jednostavnu statističku grešku.


Inženjeri višeg nivoa su u stanju da izgrade jednostavne, diskretne modele zasnovane na pravilima. Ali takvi modeli nisu prikladni za dobijanje nijansiranih uvida iz podataka. Otuda i izgubljena finansijska korist. Stoga je za dobijanje odgovora na „pitanja o velikim podacima“ potrebno visoko kvalifikovano i visoko specijalizovano osoblje, koje će biti temelj sledeće generacije prediktivnog modeliranja.

3. Naučnici za podatke ne moraju razumjeti posao – podaci će im reći sve

Ljudi koji imaju obrazovanje i iskustvo kao programeri često podlegnu ovom iskušenju. I, zaista, zašto oni trebaju razumjeti posao ako imaju tako moćnu bazu? Moćan, ali ne i svemoćan. Pronalaženje svih mogućih korelacija je nevjerovatno naporno i dugotrajno, a da ne spominjemo statistički problematično. Naučnici podataka jednostavno moraju koristiti svoju poslovnu intuiciju kako bi uspješno razlikovali lažne i stvarne korelacije. Nedostatak stručnog znanja u određenoj oblasti može dovesti do neutemeljenih zaključaka. kako ti se ovo sviđa? Povećanje broja policijskih službenika dovodi do porasta kriminala, što znači da je potrebno smanjiti broj policijskih službenika u područjima sa nepovoljnom kriminalističkom situacijom. Konačno, poslovna intuicija je takođe važna za uvjeravanje ključnih dionika: govoreći o korelacijama na jeziku koji poslovni ljudi razumiju, naučnik podataka će biti uspješniji od kolege koji nema poslovnog duha.


Nauka o velikim podacima i podacima je znanje o tome kako izgraditi optimalan model koji kombinuje prave inženjerske, statističke i poslovne vještine. Bez toga, naučnik podataka neće moći da postigne sve što zacrta.

Dakle, ko su naučnici podataka?

Naučnici podataka su proizvod evolucije poslovanja i analitičara podataka. Formalna obuka za takve specijaliste uključuje informatiku, statistiku, analitiku i matematiku. Šta čini vrhunskog naučnika za podatke? Snažna poslovna sposobnost u kombinaciji sa sposobnošću komunikacije sa poslovnim i IT liderima na način koji pomaže u uticaju na rast kompanije. Anjul Bambra, potpredsjednik za velike podatke u IBM-u, kaže da su naučnici podataka "djelomično analitičari, a dijelom umjetnici". To su vrlo radoznali ljudi koji mogu pogledati podatke i uočiti trendove. Mogu se uporediti sa umjetnicima renesanse, koji su željeli ne samo da uče, već i da mijenjaju svijet oko sebe.

Dok tradicionalni analitičar analizira podatke iz jednog izvora (na primjer, CRM sistem), naučnik podataka nužno proučava podatke iz nekoliko različitih izvora. Agresivno će pregledati sve dolazne podatke kako bi otkrio ranije skrivene uvide koji mogu pružiti konkurentsku prednost. Naučnik podataka ne samo da prikuplja i analizira podatke, već ih sagledava iz različitih uglova i analizira u različitim kontekstima, utvrđuje šta ovi ili oni podaci znače za brend, a zatim daje preporuke kako koristiti dostupne informacije.


Naučnici podataka su ljudi koji neprestano istražuju, postavljaju milione pitanja, rade analize „šta ako...“, preispituju postojeće pretpostavke i procese, identifikuju bogate izvore podataka i povezuju ih sa lošim skupovima podataka... U konkurentskom okruženju u kojem su zadaci konstantno promjene, a brzi protok podataka nikada ne prestaje, naučnici podataka pomažu menadžmentu odluke. I to je njihov najvredniji kvalitet.

Zašto "naučnici"?

Mnogi tvrde da je nazivati ​​naučnika podataka "naučnikom podataka" vrlo, vrlo pretenciozno. Međutim, ako pokušate pogledati korijen, onda ova formulacija ima smisla. Na primjer, eksperimentalni fizičari moraju dizajnirati i izgraditi vlastitu opremu, prikupljati podatke, provoditi eksperimente i sažeti sve nalaze u izvještajima. Naučnici podataka rade isto. Stoga se najkvalifikovanijim naučnicima podataka smatraju ljudi sa visokim stepenom fizike ili društvenih nauka.


Najbolji naučnici podataka na planeti su naučnici sa doktoratom iz ezoteričnih oblasti kao što su ekologija i sistemska biologija. Upečatljiv primjer je George Roumeliotis, koji vodi tim naučnika podataka u Intuitu u Silicijumskoj dolini. Doktorirao je astrofiziku. Mnogi naučnici podataka imaju diplome iz računarstva, matematike i ekonomije. Ali kako god bilo, dobar naučnik podataka može doći iz bilo koje oblasti.


Osnovne vještine bez kojih naučnik podataka ne može

Osnovni alati. Bez obzira na misiju kompanije, naučnik podataka mora znati da koristi osnovne alate: R programski jezik za statističku obradu podataka i grafiku, programski jezik Python visokog nivoa koji ima za cilj poboljšanje produktivnosti programera i čitljivosti koda, strukturirani jezik upita, kao što je SQL, koji se koristi za kreiranje, modificiranje i manipulaciju podacima u proizvoljnoj relacijskoj bazi podataka.

Osnovna statistika. Razumijevanje statistike je od vitalnog značaja za naučnika podataka. Nije tajna da mnogi stručnjaci nisu u stanju čak ni odrediti P-vrijednost, vrijednost koja se koristi za testiranje statističkih hipoteza. Naučnik podataka jednostavno mora biti upoznat sa statističkim testovima, distribucijama, procjenom maksimalne vjerovatnoće, itd. Statistika je važna za različite oblasti poslovanja, posebno za kompanije koje se bave podacima


Mašinsko učenje. Ako naučnik podataka radi u velikoj kompaniji sa ogromnim količinama podataka, trebao bi biti upoznat s metodama mašinskog učenja. Naravno, mnoge od ovih metoda mogu se implementirati pomoću R ili Python biblioteka, tako da ne morate biti vodeći svjetski stručnjak da biste razumjeli kako algoritmi rade. Mnogo je važnije razumjeti kada će korištenje određenih metoda biti najprikladnije.

Multivarijantni proračuni i linearna algebra. Ove discipline čine osnovu mnogih metoda mašinskog učenja.

Priprema podataka za analizu. Često su analizirani podaci prilično „prljavi“, što znatno otežava rad s njima. Stoga je vrlo važno znati kako se nositi sa svim nedostacima podataka. Primjer nesavršenih podataka je nedosljedno formatiranje nizova kao što su "New York" - "new york" - "ny", ili datumi "2014-01-01" - "01/01/2014", ili upotreba UNIX sistemsko vrijeme i sekvenca Vremenska oznaka.

Vizualizacija podataka i komunikacija. Ovo su nevjerovatno važne stvari, posebno ako govorimo o mladim kompanijama koje se bave podacima, ili onim kompanijama u kojima se naučnici podataka percipiraju kao ljudi koji pomažu u donošenju odluka zasnovanih na podacima. Poznavanje ggplot-a (proširenja jezika R) i JavaScript biblioteke za obradu i vizualizaciju D3.js podataka biće veoma korisno.

Programiranje. Naučnici podataka su obično odgovorni za rukovanje velikim količinama podataka o registraciji i proizvoda koji se vode podacima.

Razmišljajte kao naučnik podataka. Poslodavac uvijek želi vidjeti naučnika podataka kao rješavača problema. „Naučnik“ uvek mora da zna šta je važno u ovoj fazi, a šta nije od posebne vrednosti. Od njega se traži da komunicira sa dizajnerima i menadžerima odgovornim za razvoj proizvoda.


Harvard Business Review tvrdi da je data naučnik najseksi profesija 21. veka. I teško je ne složiti se sa ovim. Nauka o podacima se tek razvija, a svi savremeni naučnici podataka mogu se sa sigurnošću nazvati pionirima. A ako možete reći da ste najbolji IT stručnjak među statističarima i najbolji statističar među IT stručnjacima, onda ste pravi naučnik podataka.

Materijali korišteni u pripremi ovog članka