Jeg har litt av et problem. Jeg vil lære om Hadoop og hvordan jeg kan bruke den til å håndtere datastrømmer i sanntid. Som sådan vil jeg bygge en meningsfull POC rundt det slik at jeg kan vise frem det når jeg må bevise min kunnskap om det foran noen potensielle arbeidsgivere eller å introdusere det i mitt nåværende firma. Id vil også nevne at jeg er begrenset i maskinvareressurser. Bare min laptop og meg :) Jeg vet det grunnleggende om Hadoop og har skrevet 2-3 grunnleggende MR-jobber. Jeg vil gjøre noe mer meningsfylt eller ekte verden. Takk på forhånd. Jeg liker å peke på noen få ting. Hvis du vil gjøre en POC med bare 1 bærbar PC, er det lite poeng ved å bruke Hadoop. Også, som sagt av andre mennesker, er Hadoop ikke designet for realtime-applikasjon, fordi det er noe overhead i å kjøre MapReduce-jobber. Når det er sagt, lanserte Cloudera Impala som arbeider med Hadoop økosystemet (spesielt Hive metastore) for å oppnå realtime ytelse. Vær oppmerksom på at for å oppnå dette, genererer det ikke MapReduce-jobber, og er for øyeblikket i beta, så bruk det forsiktig. Så jeg vil virkelig anbefale å gå på Impala, så du kan fortsatt bruke et Hadoop økosystem, men hvis du også vurderer alternativer her er noen andre rammer som kan være nyttige: Druid. ble åpnet av MetaMarkets. Ser interessant ut, selv om jeg ikke har brukt det selv. Storm. ingen integrasjon med HDFS, behandler det bare data som det kommer. HStreaming. integreres med Hadoop. Yahoo S4. virker ganske nær storm. Til slutt tror jeg du burde virkelig analysere dine behov, og se om du bruker Hadoop, er det du trenger, fordi det bare kommer i gang i realtime-rommet. Det er flere andre prosjekter som kan hjelpe deg med å oppnå realtidsytelse. Hvis du vil ha ideer om prosjekter som skal vises, foreslår jeg å se på denne linken. Her er noen eksempler: FinanceInsurance Klassifiser investeringsmuligheter så bra eller ikke, f. eks. basert på bransjemessige beregninger, porteføljediversitet og valutarisiko. Klassifiser kredittkorttransaksjoner som gyldige eller ugyldige basert f. eks. plassering av transaksjon og kredittkortinnehaver, dato, beløp, kjøpt vare eller tjeneste, transaksjonshistorie og lignende transaksjoner. BiologiMedicin Klassifisering av proteiner i strukturelle eller funksjonelle klasser Diagnostisk klassifisering, f. eks. kreftvulster basert på bilder Klassifisering og oppdagelse av situasjoner (f. eks. søte flekker eller risikosituasjoner) basert på realtid og historiske data fra sensorer besvart jan 12 13 kl 17:50 Hvis du vil få hendene skitne på et svært lovende streaming rammeverk, kan du prøve BDAS SPARK streaming. Forsiktig, dette er ennå ikke utgitt, men du kan spille rundt i din bærbare datamaskin med github-versjonen (githubmesossparktreestreaming) Det er mange prøver å komme i gang. Også dette har mange fordeler i forhold til eksisterende rammer, 1. Det gir deg mulighet til å kombinere sanntids - og batchberegning i en stabel 2. Det vil gi deg en REPL der du kan prøve dine ad hoc-søk på en interaktiv måte. 3. Du kan kjøre dette i din bærbare datamaskin i lokal modus. Det er mange andre fordeler, men disse tre, tror jeg, vil nok være ditt behov for å komme i gang. Du må kanskje lære Scala å prøve ut REPL :-( Jeg tror du kan ha en POC som kjører, for eksempel en onlinerecursiv algoritme for regresjon i mapreduce. Men husk at dette bare vil bevise at læringsregelen din fungerer. prøvde dette) kan du bruke resultatene i sanntid ved å fortelle reduksjonene dine å skrive dem inn i en midlertidig fil som kan leses av en annen tråd. Også Mahout lar deg sette databasen i flere forskjellige SequenceFile s. Du kan bruke dette til å simulere en online-strøm og klassifiser ditt datasett på nettet. Du kan til og med kopiere deler av data til mappen med de andre dataene før algoritmen begynte å løpe. Mahout in Action beskriver hvordan du gjør det. Se om et av følgende datasett er til din smak: archive. ics. uci. edumldatasets. html svarte Apr 7 13 kl 16:35 Jeg lette etter noe som dette - disse er veldefinerte problemer, mange av dem Big Data problemer. Og noen av dem krever sanntidsbehandling. takk til alle som answere d. besvart jan 13 13 kl 13:16 Kaggle er en fin ressurs It39s innen quotPredictive Analyticsquot og ikke nødvendigvis alle problemer passer bra til Map ReduceHadoopBig Data. Men jeg tror Mahout (en del av hadoop økosystemet) ville være noe jeg ville prøve for relevante konkurranser. ndash parasdoshi Jan 14 13 kl 3:11 Godtatt. Så hva foreslår du ndash Kumar Vaibhav Jan 14 13 kl 4:47 Jeg hadde relatert spørring som du hadde. Jeg ønsket å skape en meningsfull POC også. Jeg lette etter det og landet på denne SO-tråden. La oss håpe noen peker oss på noen ressurs. I mellomtiden personlig har jeg fullført å spille med prøver her: gettingstarted. hadooponazure ndash parasdoshi Jan 14 13 kl 18: 26Jeg fortsetter å finne disse løsningene på nettet, men det virker ikke for meg. Etter å ha kjørt zip - og krukkekommandoene over får jeg fortsatt. Unntak i tråd quotmainquot java. io. IOException: Mkdirs klarte ikke å opprette varfolders9y4dzrwg8n45z7fbhmlqc7bsgc0000gnThadoop-unjazwnj8203r5690365448328571882zwnj8203license ndash alex9311 Jun 19 15 at 15:52 Jeg løp inn i det samme problemet mens jeg bygger MapReduce-jobber på Mac med MacOS Sierra. Den samme koden kjører uten problemer på Ubuntu Linux (14.04 LTS og 16.04 LTS). MapReduce distribusjon var 2.7.3, og ble konfigurert for Single Node, frittstående operasjon. Problemet ser ut til å være relatert til kopiering av lisensfiler til en METAINF-katalog. Problemet mitt ble løst ved å legge til en transformator i Maven Shade plugin-konfigurasjonen, spesielt: ApacheLicenseResourceTransformer. Her er den relevante delen av POM. xml, som går som en del av ltbuildgt-delen: Legg merke til at jeg også bruker ManifestResourceTransformer til å spesifisere hovedklassen for MapReduce Job. Apache Kafka Et raskt, skalerbart, feiltolerant meldingssystem Apache Kafka er et raskt, skalerbart, holdbart og feiltolerant publiseringsabonnement meldingssystem. Kafka brukes ofte i stedet for tradisjonelle meldingsmeglere som JMS og AMQP på grunn av sin høyere gjennomstrømning, pålitelighet og replikasjon. Kafka fungerer i kombinasjon med Apache Storm, Apache HBase og Apache Spark for sanntidsanalyse og gjengivelse av streamingdata. Kafka kan melding geospatial data fra en flåte av langdistanse lastebiler eller sensor data fra oppvarming og kjøling utstyr i kontorbygg. Uansett industri eller brukstilfelle, strekker Kafka meglere massive meldinger for lav latency analyse i Enterprise Apache Hadoop. Hva Kafka støtter Apache Kafka et bredt spekter av brukstilfeller som et generelt meldingssystem for scenarier hvor høy gjennomstrømning, pålitelig levering og horisontal skalerbarhet er viktig. Apache Storm og Apache HBase fungerer begge veldig bra i kombinasjon med Kafka. Vanlige bruksområder inkluderer: Stream Processing Website Activity Tracking Metrics Innsamling og overvåking Log Aggregation Noen av de viktige egenskapene som gjør Kafka til et attraktivt alternativ for disse brukstilfellene, er følgende: Siste utviklinger Rack-bevissthet for økt motstand og tilgjengelighet slik at replikaer er isolert så de er garantert å spore flere rack eller tilgjengelighetssoner. Automatisert kopi leder valg for automatisert, jevn fordeling av ledere i en klynge evne ved å oppdage ujevn distribusjon med noen meglere som serverer flere data sammenlignet med andre og gjør justeringer. Melding Timestamps slik at hver melding i Kafka nå har et tidsstempelfelt som angir tidspunktet da meldingen ble produsert. SASL-forbedringer inkludert eksterne autentiseringsservere og støtte for flere typer SASL-godkjenning på en server Ambari Visninger for visualisering av Kafka-operasjonelle beregninger Kafka Security Kafka-sikkerhet omfatter flere behov 8211 behovet for å kryptere dataene som strømmer gjennom Kafka og hindre rogue agenter fra å publisere data til Kafka, samt muligheten til å administrere tilgang til bestemte temaer på individ - eller gruppnivå. Som et resultat er de nyeste oppdateringene i Kafka-støttetrådskryptering via SSL, Kerberos-basert autentisering og granulære autorisasjonsalternativer via Apache Ranger eller annet pluggbart autorisasjonssystem. Kafka Tutorials Prøv disse opplæringene Lær å innta sanntidsdataene fra bilsensorer med NiFi og send den til Hadoop. Bruk Apache Kafka for å fange opp dataene mellom NiFi og Storm for skalerbarhet og pålitelighet. Distribuere en stormtopologi som trekker dataene fra Kafka og utfører komplekse transformasjoner for å kombinere geolokasjonsdata fra lastebiler med sensordata fra lastebiler og veier. Når alle delprosjektene er fullført, distribuerer du demo webapplikasjonen til sjåførmonitoren for å se driveradferd, spådommer og drools-data i 3 forskjellige kartvisualiseringer. Kafka i bloggen vår Nylig i bloggen Vi har nettopp avsluttet vår svært delte 7-delte Data-In-Motion webinar-serien. Den endelige avgiften var en veldig informativ økt om hvordan Apache NiFi, Kafka og Storm jobber sammen. Lysbilder og QampA nedenfor. Skulle du ha flere spørsmål, anbefaler vi deg når som helst å sjekke datainnsamlingen Amp Streaming spor av Hortonworks Community Connection der hellip 10. november 2016 Vi har nylig vært vert for et webinar på de nyeste funksjonene i Hortonworks DataFlow 2.0-utheving: det nye brukergrensesnittet nye prosessorer i Apache NiFi Apache NiFi multi-tenkning Apache NiFi null master clustering arkitektur Apache MiNiFi En av de første tingene du kanskje har lagt merke til i Hortonworks DataFlow 2.0 er det nye brukergrensesnittet basert på Apache hellip 27. oktober 2016 Vi har nylig vært vert for et webinar på temaet HDF 2.0 og integrasjonen mellom Apache NiFi, Apache Ambari og Apache Ranger. Vi trodde vi ville dele spørsmålene som er forsterket fra webinar, og også samle relevante data til et enkelt sted for å gjøre det enkelt å finne og referere. Skulle du ha noen hellip 17 oktober 2016 En av de mest underholdende delene av jobben min jobber med kunder og partnere som har innovert på Hortonworks Connected Data Platform. Bedrifter som Servient. Heres et godt reelt eksempel på en nylig brukstilfelle for en kunde vi jobbet sammen i i energi vertikal. Ive fjernet det faktiske navnet av åpenbare grunner. hellip Vi har nylig inngått denne webinar serien, med 7 webinarer og 77 spørsmål besvart. Alle websider, lysbilder, QampA og tilhørende informasjon er tilgjengelig nedenfor. Skulle du ha flere spørsmål, anbefaler vi deg når som helst å sjekke datainnsamlingen Amp Streaming spor av Hortonworks Community Connection der et helt fellesskap av folk overvåker og hellip 23. september 2016 Mitt liv som en del av et high performance-team I forrige uke Vi utgav Hortonworks DataFlow HDF 2.0. Det var et flott 1 års jubileumsoppgave for meg 8211 en ny utgivelse av produktet jeg har støttet siden jeg ble med på Hortonworks for et år siden. Ive hadde det privilegium å jobbe med de mest talentfulle, raskt tenkende, hellip 20. september 2016 Enterprise Productivity and Integration av Apache NiFi, Kafka og Storm, sammen med Ambari og Ranger. Vi er glade for å kunngjøre at Hortonworks DataFlow (HDF) versjon 2.0 er nå generelt tilgjengelig for nedlasting Som en del av et Open and Connected Data Platforms-tilbud fra Hortonworks, gir HDF 2.0 et nytt nivå av bedriftsintegrasjon for data hellip 15. september 2016 Streaming analytics for å skape en nøyaktig enkeltkjøperidentitet i sanntid 4. desember og siste demonstrasjon av Data Hacks Amp Demos-sesjonen på Hadoop Summit San Jose, ble gjort av Simon Ball, og det viste hvordan Apache NiFi flyttet parallelle strømmer av streaming data til Spark og deretter kunne mer analyse gjøres av hellip Bruk IoT for å bli ekte - tid tilbakemelding på kundepreferanser og svare på dem Under den tredje demonstrasjonen av Data Hacks amp Demos-økten, på Hadoop Summit San Jose, var det publikums deltakelsestid Kay L erch demonstrerte hvordan man samhandler med publikum, gjennom spesifikke twitter - og sms-meldinger sendt til et bestemt telefonnummer, tilbyr Hellip Hortonworks Dataflow (HDF) en kombinasjon Apache NiFI, Kafka og Storm. HDF 2.0 har betydelige funksjoner for arkitektur og virksomhetsproduktivitet for å gjøre det raskere og enklere å distribuere, administrere og analysere streamingdata. I løpet av de neste ukene vil vi gå inn i flere detaljer, men for nå er det de tre høydepunktene som legger merke til hellip Apache NiFi for å prioritere hvilke bilder som skal sendes til Gnist i skyen for datamaskinens visjon maskininnlæring. Under 2. demonstrasjon av Data Hacks Amp Demos-økten, på Hadoop Summit San Jose, viste Simon Ball hvordan man tar data mottatt fra kanten, og kjører ansiktsgjenkjenning på en kraftigere sky hellip Match bilde til en identifikator, korrelere med data og initiere personlig, sanntid Elektronisk konvo med kunde i butikken Under den første demonstrasjonen i Data Hacks amp Demos-økten, på Hadoop Summit San Jose, modellerte Jeremy Dyer scenariet for en kunde som gikk inn i en butikk, hvor en forhandler kan finne ut hvem de hellip Så, det har vært en måned siden Hadoop-toppmøtet San Jose, hvor over 5000 av de ledende teknologiske nyskaperne i store data kom sammen for å dele sine oppfinnelser, visdom og know-how. En av sesjonene 8211 en powerpoint-fri sone, var Data Hacks amp Demos, en keynote-økt hosted av Joe Witt og starring en internasjonal hellip. I forberedelsen til Hadoop Summit San Jose spurte jeg formannen for Apache Committer Insights-sporet, Andy Feng 8211 VP Arkitektur, Yahoo, som var de 3 beste sesjonene han ville anbefale. Selv om det var vanskelig å velge bare 3, anbefalte han: HDFS: Optimalisering, stabilisering og støttebarhet Høyttalere: Chris Nauroth fra Hortonworks og Arpit Agarwal hellip Apache Hadoop eksisterer innenfor et bredere økosystem for enterprise analytical packages. Dette inkluderer ETL-verktøy, ERP og CRM-systemer, enterprise data warehouses, data mars og andre. Moderne arbeidsbelastninger strømmer fra disse ulike tradisjonelle analytiske kildene til Hadoop og deretter ofte tilbake igjen. Hvilket datasett kom fra hvilket system, når og hvordan endret det over hellip Introduksjon Confluent er glad for å kunngjøre det innledende Kafka Summit 2016 som skal avholdes i San Francisco 26. april. Det opprinnelige Kafka Summit er en hel dagskonferanse som samler Apache Kafka samfunn. På Hortonworks, siden vi er forpliktet til å levere data-i-bevegelse og data-til-resten helt åpen, fortsetter vi å introdusere hellip Vi startet Hortonworks Community Connection i slutten av 2015, og det er noe utrolig innhold at noen data Utvikler eller dataadministrator bør lese og bokmerke. Jeg vil publisere denne bloggen ukentlig og fremheve de beste tekniske artiklene som er på HCC basert på samfunnsaktivitet og stemmer. Topp 3 artikler på nettstedet: Eksempel hellip 16. februar 2016 Vår virksomhet i Europa fortsetter å utvide og I8217m er begeistret for å dele dette gjesteblogg fra Geoff Cleaves, Business Intelligence Manager hos Billy Mobile, en ny Hortonworks-kunde basert i Barcelona, Spania. Denne uken på Billy Mobile flytter vi vår kjerneteknologiske stabel på HDP 2.3 og gutten gleder oss til hellip 19. november 2015 Da YARN driver Hadoops fremkomst som en forretningskritisk dataplatform, krever bedriften strengere datasikkerhetsfunksjoner. Apache Ranger leverer en omfattende tilnærming til sikkerhet for en Hadoop-klynge. Det gir en plattform for sentralisert sikkerhetspolitisk administrasjon på tvers av kjerneverns sikkerhetskrav til autorisasjon, revisjon og databeskyttelse. 10. juni, Hellip I forrige uke lanserte Apache Slider-fellesskapet Apache Slider 0.80.0. Selv om det er mange nye funksjoner i Slider 0.80.0, er få innovasjoner spesielt bemerkelsesverdige: Containerisert applikasjon ombord Seamless null nedetid programoppgradering Legge til samprosessorer til apppakker uten ominstallering Forenklet program ombord uten krav til emballasje Nedenfor finner du noen detaljer om disse viktige egenskaper. For hellip Vi arrangerte en Apache Slider Meetup på vårt Hortonworks Santa Clara kontor den 4. mars, hvor kommittere, bidragsytere og fellesskapsmedlemmer interessert i Apache Slider congregated for å høre hva som skjer. Det var to presentere. For å sette sammen konteksten for publikum, leverte Steve Loughran, teknisk assistent hos Hortonworks, et omfattende høytidsoversikt. Hellip Hortonworks Data Platforms YARN-basert arkitektur gjør det mulig for flere applikasjoner å dele en felles klynge og datasett samtidig som konsekvent responsnivå opprettholdes. muliggjort av en sentralisert arkitektur. Hortonworks ledet arbeidet med å åpne datamaskiner for åpen kildekode databehandling, for eksempel Apache Hive, HBase, Accumulo, Spark, Storm og andre, på Apache Hadoop YARN. I denne helvete 12. februar 2015 Webinars Presentations View Past Webinars Når HP Lovecraft skrev om forbudt kunnskap om ikke-menneskelige guddommer, kunnskap som ville redusere leseren til galskap, antok de fleste at han fant opp en fantasiverden. Faktisk dokumenterte han Kerberos og Hadoop-integrasjonen. Det er noen ting menneskeheten ikke var ment å vite. De fleste er bedre å leve hellip Det er stadig tydeligere at organisasjoner kan realisere den fulle potensielle verdien av deres datafordeler ved å kombinere de strukturerte transaksjonsdataene med halvstrukturert og ustrukturert data. Bedrifter oppdager også at det er fleksibelt og reagerer på situasjoner i sanntid, og tilgang til transaksjonsdata med lav ventetid er viktig. Low-latency transaksjonsdata bringer ytterligere hellip Hortonworks Data Platform 2.2 med Apache Storm og Apache Kafka for å behandle strømdata i Hadoop. Nå går Storm på YARN med Apache Slider og det inkluderer Kerberos-støtte. Den nye Apache Kafka-bolten til Storm støtter sofistikert kjetting for sanntidsanalyse. Bli med Hortonworks, direktør for produktledelse Tim Hall og Taylor Goetz, hellip
No comments:
Post a Comment