Förstår du verkligen kraften och värdet av data?

För närvarande pratar alla om ett ämne - data, vad är "tjusningen" med data, vilket kan få otaliga människor att lägga ner kraft på att studera.

Big data är ett långvarigt hett ämne, och den heta AI är beroende av utvecklingen av big data. Alla pratar om datakapacitet, datakapacitet är ett mycket abstrakt begrepp, så vad är datakapacitet? Hur är det med värdet av data?

Uppgifterna i sig är värdelösa eller försumbara, värdet är givet, precis som guld, är värdet av guld hans applikationsutsikt eller scenario. Värdet av data är fördelen med datakapacitet, eller avkastningen på investeringen.

Idag ska vi prata om datakapacitet och värde.

När det gäller big data måste vi nämna datalagret, utvecklingen av företagets datalager till slutskedet kan bli hjärnans centrala nervsystem, om du vill stödja hela den komplexa hjärnan och nervsystemet, kan du behöver en rad komplexa mekanismer för att samarbeta.

Och denna uppsättning av stödsystem kommer att bilda en länge omtalad datakapacitet på datanivå, och vad är datakapaciteten? Vad är stödsystemet? Så vad är värdet av att ha dessa förmågor och hur kan man använda dem?

 

Först, abstrakt datakapacitetsarkitektur

Jag sammanfattar abstrakt datakapacitet i fyra riktningar: överföringskapacitet, beräkningskapacitet, algoritmisk förmåga och datatillgångsorder, och jag kommer att prata om datatillämpningar och värden generaliserade ovanpå dessa fyra förmågor.

Figur 1.1 Sammansättning av abstrakt datakapacitet

 

1. Dataöverföringsförmåga

De flesta användningsscenarier för data kommer oundvikligen att involvera dataöverföring, och dataöverföringsprestandan avgör implementeringen av vissa applikationsscenarier, realtidsdataanrop, bearbetning, algoritmrekommendationer och förutsägelser, etc.; Stödsystemet som abstraheras från överföringen är den underliggande datalagringsarkitekturen (naturligtvis behöver överföringen av icke-maskinrummet också ta hänsyn till nätverksmiljön. Enkla samtal med små datavolymer involverar i allmänhet inte dessa, utan när datan volymen är stor, hög samtidighet och SLA-kraven är mycket stränga, det är ett test av dataöverföringsförmåga).

Ur produktens perspektiv delar jag upp dataöverföringsmöjligheterna i: den underliggande dataöverföringseffektiviteten och applikationslagrets dataöverföringseffektivitet.

Den underliggande dataöverföringseffektiviteten avser överföringseffektiviteten för förbehandlingssteget efter att datakällan träder in, det vill säga steget före den dataleverans som krävs för bearbetning till produkten.

Figur 2.1 Dataapplikationslänk

Ps: Data i produkten kan användas före en lång period av bearbetning, applikationslagerdataprodukter täcker i princip inte de underliggande databehandlingslänkarna, och dataprodukter kommer att använda de specificerade dataleveranserna (det vill säga överenskomna strukturerade eller standardiserade data) , och användningen av dessa dataleveranser och sedan genom produkten till de faktiska tillämpningsscenarionerna för matchning och bearbetning för att tillhandahålla datatjänster. Även relaterade produkter som involverar underliggande datahantering är anrop till meta-metadata, användningsloggar, skrivna skal, etc.

Överföringseffektiviteten som ingår i den underliggande databehandlingsberäkningen bestämmer direkt kraven på hög prestanda och hög tillförlitlighet för stödjande dataprodukter; Överföringen av applikationslagret påverkar användarupplevelsen och scenimplementeringen. Överföringsmekanismer och system är lika komplexa i hela kroppen som kapillärer, men cirkulationshastigheten avgör direkt om hjärnan är tillräcklig för syre.

 

2. Databeräkningskraft

Databeräkningskraft är som ett hematopoetiskt system, som produceras och bearbetas enligt näringsråvaror från flera källor för att producera blod. Källdata rensas av ETL (extrahering, transformation, loading) genom en högpresterande underliggande multi-lagrings distribuerad teknologiarkitektur för att producera strukturerade dataleveranser som är generaliserade i mellanskiktet av data. Beräkningshastigheten, liksom hastigheten för hematopoiesis, bestämmer tillgången. Beräkningshastigheten avgör direkt aktualiteten och tillämpningsscenarionerna för dataapplikationer.

För närvarande är det vanligaste det offline digitala lagret, det mesta av det offline digitala lagret spelar rollen som efterklokhet, det vill säga det finns inget sätt att säkerställa aktualiteten för data och försenar utmatningen av dataanalys och applikation, vilket resulterar i mer utfällning av erfarenhet och svårt att fatta beslut i realtid. Det digitala realtidslagret, och till och med realtidsbehandlingen av datasjö (datasjö), har gradvis öppnat upp för en mängd olika tillämpningsscenarier. Låt oss inte överväga om de enorma kostnaderna för allt starkare realtidskrav verkligen kan skapa motsvarande fördelar.

Stark realtid kan vara närmare ett "framtida" tillstånd, det vill säga nuet. Detta är mycket mer värdefullt än algoritmens förutsägelse av framtiden, eftersom att förstå nuet är mer värdefullt för ett företag än att konstruera en föränderlig framtid. Det sägs till och med att när dataprocessen är snabbare än överföringen av neuroner, är det drivande resultatet av databearbetning från det ögonblick det erhålls till dina hjärnvågor mycket snabbare än vad nervcellerna överförs till de drivande extremiteterna.

Liknar det scenen där soldaterna och hästarna inte rör sig, och säden och gräset går först? Naturligtvis är detta att se på detta ur perspektivet av databeräkningskraft. Om jag hoppar ur min personliga synvinkel, efter att den övergripande dataförmågan är stark till ett visst stadium, kommer den att förändra individens vilja från den subjektiva, det vill säga genom att vägleda din hjärna att kontrollera eller besluta om individens beteende och kommer inte att låta du uppfattar, så det kan förstås som att man ändrar den personliga viljan från den subjektiva. Ur mänsklig synvinkel vet du inte eller vill intuitivt bestämma dig ur tomma intet vad du ska göra härnäst, eftersom hjärnan är en logisk processor, naturligtvis, detta involverar psykologi, dessa åsikter kommer inte att upprepas här, och sedan kommer en annan sida att användas för att tillämpa data på framtida utsikter och hypoteser.

 

3. Datatillgångsfunktioner

De säger alla "big" data, så är ju högre datanivå, desto bättre? Nej, ur en viss synvinkel är ett stort antal värdelös eller outforskad data en börda, och den enorma resursförlusten vågar inte lätt raderas.

Med den snabba förstärkningen av datastorleken åstadkommer det dataöar: data är okänd, oanslutbar, okontrollerbar och oönskad; Då kan den spridda datan bara värderas bättre om den omvandlas till tillgångar.

Vad är en datatillgång, jag tror att det kan definieras brett som att en direkt användbar leveransdata kan klassificeras som en tillgång, naturligtvis finns det många former av data som kan användas direkt, såsom meta-metadata, funktioner, indikatorer , taggar och ETL-strukturerade eller ostrukturerade data.

För närvarande utökas även användningsscenariot för Data Lake, och trenden att direkt använda och bearbeta Data Lake-data i realtid är ett sätt att utöka omfattningen och tillgångsutnyttjandet av företagens egna datatillgångar. Detta bidrar till att bryta igenom ramarna för databegränsningen för den digitala lagermodellen, och det kommer att finnas mer fantasiutrymme för att förändra hur data används.

Värdet av datatillgångar kan ses i två delar: en del är värdet av direkt realisering av datatillgångar; En annan del är affärsvärdet av att tillhandahålla datatjänster efter att ha bearbetat datatillgångar som resurser.

Den första delen är lättare att förstå, det vill säga utdataförverkligandevärdet för datamängden, såsom etiketter, prover och träningsuppsättningar, etc., matas ut direkt för att utvärdera värdet enligt mängden data; Den andra delen av värdet, såsom värdet av att öka affärsintäkter genom tillämpning av optimerade algoritmer genom sin egen datautbildning eller marknadsföring av reklam baserad på data, etc., och till och med värdet av den snabba datatillgångshanteringsförmågan som en immateriell tillgång av kunskap. Intäktsgenereringen av dessa indirekta dataapplikationer och tjänster är också en återspegling av värdet av datatillgångar och kan fint kvantifieras.

 

4. Dataalgoritmfunktioner

Faktum är att, oavsett om det är överföringskapacitet eller datorkraft, är det en relativt partiell databottenimplementering, och närmast affärsscenariot är algoritmtjänsten som tillhandahålls av algoritmkapaciteten, som är den mest direkt tillämpade på affärsscenariot och är lättare uppfattas av användarens data kapacitet, eftersom för överföring och beräkning av användarens uppfattning är snabb och långsam, från användarens synvinkel är snabb är bör, så att användaren inte vet när och var att beräkna eller överföra.

Algoritmen för affärsapplikationsscenarier är en process från 0 till 1, från grunden. Och algoritmer är baserade på generaliseringen av applikationskapacitet baserad på dataöverföring, beräkning och tillgångskapacitet, eller med andra ord, inkapslingsutvecklingen av de tre grundläggande kapaciteterna.

Algoritmisk förmåga är att konvertera en multivariat datamängd eller så mycket data som möjligt till ett beslutsfattande bedömningsresultat för att tillämpas på affärsscenarier. Styrkan i den algoritmiska förmågan återspeglar om de tre datafunktionerna samarbetar effektivt, om det finns en fateffekt, och ännu mer så gör inte fatet det. Naturligtvis kan enkla algoritmer även tillhandahålla tjänster som enbart kunskapsutfällning av immateriella tillgångar.

För de fyra funktionerna i datakapacitetsarkitekturen är transport, beräkning och tillgångar de grundläggande funktionerna, medan algoritmer är avancerade generaliseringsmöjligheter. Utdata och tillämpning av kapacitet kan återspegla värdet av data, och den maximerade produktionen av datakapacitet testar mångsidigheten och flexibiliteten hos hela dataproduktarkitektursystemet. Eftersom vi måste möta en mängd olika scenarier som utvecklats av olika företag, är efterfrågan på datakapacitet ojämn: den kan vara ensidig, eller så kan det vara en mängd olika funktioner som matchas och koordineras. Detta är en enorm utmaning för produktens mångsidighet, och om du vill hantera detta problem bättre kan du behöva produktmatrisen för hela dataplattformen för att stödja och stärka.

 

För det andra motsvarar datakapaciteten presentationen av datavärdet

Ur datatillämpningens perspektiv kan varje kapacitet vara oberoende öppen eller kombinerad och överlagrad. Om förmågan visualiseras kommer den att härledas till problemet med produktform, vilket är den leverans som spelar roll efter att förmågan har anpassats. På tal om produktform kan vi föreställa oss applikationsscenariot.

Först och främst är det mest grundläggande tillämpningsscenariot direktanrop av data, och användningen av datatillgångar kommer i grunden att baseras på leveransformen av funktioner, indikatorer, etiketter eller kunskap. För användaren kommer dessa data att användas som råmaterial eller bas för sekundär bearbetning av halvfabrikat och tillämpas på affärsscenarier, såsom dataanalys, datautvinning, algoritmträning och verifiering, kunskapsdiagram, personlighetsrekommendation, korrekt leverans ( räckvidd) och riskkontroll. Datatillgångar kan kollektivt grupperas i datamarknadsplatser som möjliggörs genom att bygga några öppna API:er.

För en fabrik är endast bearbetningen av råvaror (ETL) produktion, det vill säga, förutom barriärerna för sina egna råvaror (datatillgångar), kärnkonkurrenskraften är mycket liten, och det är nödvändigt att paketera någon högre nivå bastjänster för att öka konkurrenskraften, då integreras databeräkningsförmågan i den sekundära bearbetningen av råvaror (aggregerad statistik).

Den statistiska aggregeringsförmågan hos beräkningen kan möta stödet för de flesta dataanalysscenarier efter att den lagts till, inte bara produktionen av råvaror utan tekniskt innehåll, utan även datakänsligheten kan undvikas i form av halvfabrikat. För för statistiska värden är detta ett analysresultat eller en slutsats, och involverar inte produktionen av din egen känsliga data, så dina kärntillgångar kommer inte att läcka, och utdatan är bara mervärdet av tillgångarna. Med andra ord, immateriella patent är fortfarande i dina händer, och avkastningen på investeringen görs genom att kontrollera patentens förmåga att generalisera.

Efter integreringen av datorkraft inkluderar några analysscenarier: porträttanalys av folkmassor, multidimensionell korsanalys, affärsstrategianalys och övervakningsanalys.

Med tidens utveckling och ökningen av affärsscenarier fortsätter fabrikerna att behöva industriell förändring, och de måste gradvis överge tillverkningsindustrin och omfattande förbättra mer avancerade datatjänster. Vid denna tidpunkt, tillägg av algoritm kapacitet för att bättre förbättra servicematrisen.

Algoritmer ger en enhetlig bättre förståelse för förutsägelse och identifiering av affärsscenariomål genom att kapsla in överförings-, beräknings- och tillgångskapacitet. Detta gör det lättare för företag att acceptera och använda datatjänster till en låg kostnad utan att involvera databehandlingslänken, utan endast ett målresultat för att vägleda affärsriktningen genom algoritmens beslutsfattande som referens. Liksom den prediktiva analysen av vissa affärsscenarier med algoritmer, och till och med identifieringen eller inlärningstänkandet av vissa scenarier med artificiell intelligens, kan de uppnås genom algoritmförstärkning. För företag är det ett genombrott från grunden, och utvecklingsprocessen för företag kan till och med förbättras under flera år.

Applikationsscenarionerna som går igenom ovanstående funktioner är alla tester av dataöverföringsförmåga.

Figur 3.1 Datakapacitetsarkitektur och applikation

Vad är värdet av en produktchef i detta? Jag tror att det är att abstrahera de allmänna förmågorna, och sedan flexibelt kombinera dem för att bygga produktarkitekturen och systemet, och slutligen bestämma produktformen enligt serviceläget.

Naturligtvis bör allt detta baseras på den etablerade affärs- eller affärsriktningen, och till och med säga att i den okända utforskningen kan den flexibelt anpassas till en mängd olika affärsriktningar eller företag, då är detta inte bara en plattform utan blir en stor mellankontor.

För dessa datafunktioner och applikationsscenarier är hur man bygger ett flexibelt produktsystem och arkitektur nyckeln till anpassningen av möjligheter och scenarier, och denna fråga kommer att diskuteras nästa gång.

Var den första att kommentera

Lämna ett svar

E-postadressen publiceras inte.


*