Näiteks tagastab ülaltoodud taotlus XML-i stringi, milles loetletakse 10 esimest Vikipeedia kategooriat eesliitega 'hollywood'. Rahanduses kasutatakse turumeelsuse mõõtmiseks sotsiaalmeediat ja kauplemiseks uudiste andmeid. Õnneks on tekstilise analüüsi jaoks tohutu hulk tööriistu, alates lihtsatest avatud lähtekoodiga tööriistadest kuni raamatukogude, multifunktsionaalsete kommertslike tööriistakomplektide ja platvormideni. Ehkki see on peamiselt ülevaade, pakub see ka sotsiaalmeedia tööriistade metoodikat ja kriitikat. Lektiinid ehk hemaglutiniinid Lektiine leidub väikestes kogustes paljudes puu- ja köögiviljades, suuremates kogustes kaunviljades.

See tutvustab sotsiaalsete võrgustike meediumide, wikide, tõesti lihtsate sündikaatvoogude, ajaveebide, uudistegruppide, vestluste ja uudistevoogude tarkvarariistade põhjalikku ülevaadet. Terviklikkuse huvides sisaldab see Looduslik keele tootlemise strateegia sissejuhatusi sotsiaalmeedia kraapimisse, salvestamisse, andmete puhastamisse ja sentimentide analüüsi.

Ehkki Looduslik keele tootlemise strateegia on peamiselt ülevaade, pakub see ka sotsiaalmeedia tööriistade metoodikat ja kriitikat. Sotsiaalmeedia, eriti Twitteri kanalite analüüsimine sentimentide analüüsiks on muutunud oluliseks uurimistööks ja äritegevuseks tänu veebipõhiste rakenduste programmeerimisliideste API kättesaadavusele, mida pakuvad Twitter, Facebook ja News teenused.

Looduslik keel - definitsioon ja näited

See on viinud andmeteenuste, kraapimis- ja analüüsitarkvara ning sotsiaalmeedia analüüsi platvormide plahvatuseni. See on ka uurimisvaldkond, kus toimuvad kiired muutused ja areng, mis on tingitud ärilisest survest ja sotsiaalmeedia andmete kasutamise võimalusest arvutuslikes ühiskonnaõpetuses teadusuuringutes.

Kasutades lihtsat taksonoomiat, annab see artikkel ülevaate juhtivatest tarkvaravahenditest ja nende kasutamisest sotsiaalse meedia spektri kraapimiseks, puhastamiseks ja analüüsimiseks. Lisaks arutati sotsiaalmeedia uurimiseks eksperimentaalse arvutuskeskkonna nõuet ja tutvustati illustratsioonina University College Londoni ehitatud sotsiaalmeedia analüütika platvormi süsteemiarhitektuuri.

Selle töö peamine panus on ülevaate sh koodifragmentide pakkumine teadlastele, kes soovivad kasutada sotsiaalmeedia kraapimist ja analüütikat kas oma uurimistöös või ettevõtluses. Selles artiklis esitatud andmete hankimise tehnikad kehtivad selle töö kirjutamise ajal juunikuid need võivad muutuda, kuna sotsiaalmeedia andmete kraapimise API-d on kiiresti muutumas.

Looduslik keele tootlemise strateegia Kuidas mangida aktsiaoptsioone

Sissejuhatus Sotsiaalmeediat määratletakse kui veebipõhiseid ja mobiilipõhiseid Interneti-rakendusi, mis võimaldavad luua, juurde pääseda ja vahetada igakülgselt juurdepääsetavat kasutaja loodud sisu Kaplan ja Haenlein Sotsiaalne meedia on eriti oluline arvutusliku sotsiaalteaduse uurimisel, kus uuritakse küsimusi Lazer jtkasutades kvantitatiivseid tehnikaid nt arvutusstatistika, masinõpe ja keerukus ning nn suurandmeid andmete kaevandamiseks ja simulatsiooni modelleerimiseks Cioffi- Revilla See on viinud arvukate andmeteenuste, tööriistade ja analüüsi platvormideni.

Sotsiaalmeedia andmete lihtne kättesaadavus akadeemiliseks uurimistööks võib aga kaubandussurve tõttu märkimisväärselt muutuda. Lisaks, nagu arutati septembris. Nad kas annavad pealiskaudse juurdepääsu töötlemata andmetele või mittepinnalise juurdepääsu korral nõuavad teadlastelt analüütika programmeerimist keeles, näiteks Java. Uudiste analüüs - tekstiliste struktureerimata andmete uudislugude mitmesuguste kvalitatiivsete ja kvantitatiivsete omaduste mõõtmine. Mõned neist omadustest on: sentiment, asjakohasus ja uudsus.

Kraapimine - sidusandmete kogumine sotsiaalmeediast ja muudelt veebisaitidelt struktureerimata teksti kujul ning tuntud ka kui saidi kraapimine, veebi kogumine ja veebiandmete ekstraheerimine. Sentimentide analüüs - sentimentaalne analüüs tähendab loomuliku keele töötlemise, arvutuslingvistika ja tekstianalüütika kasutamist subjektiivse teabe tuvastamiseks ja eraldamiseks lähtematerjalides. Väljakutsete hulka kuuluvad: Kraapimine - kuigi sotsiaalmeedia andmetele on juurdepääs rakendusliideste kaudu, on andmete ärilise väärtuse tõttu raskendatud enamiku peamiste allikate, näiteks Facebooki ja Google'i kaudu, akadeemikute jaoks üha raskem pääseda juurde nende töötlemata andmetele; väga vähesed Looduslik keele tootlemise strateegia andmete allikad pakuvad akadeemiliste ringkondade esindajatele ja teadlastele taskukohaseid andmeid.

Uudisteenused nagu Thomson Reuters ja Bloomberg võtavad oma andmetele juurdepääsu eest tavaliselt lisatasu. Seevastu Twitter teatas hiljuti Twitter Data Grantsi programmist, kus teadlased saavad taotleda juurdepääsu oma Twitteri avalikele säutsudele ja ajaloolistele andmetele, et saada teadmisi selle massilisest andmestikust Twitteris on päevas üle miljoni säutsu. Andmete puhastamine - struktureerimata tekstiandmete nt teksti normaliseerimineeriti kõrgsageduslike striimitud reaalajas andmete puhastamine tekitab endiselt arvukalt probleeme ja uurimisprobleeme.

Terviklikud andmeallikad - uurijad koondavad ja ühendavad üha enam uudseid andmeallikaid: sotsiaalmeedia andmeid, reaalajas toimivaid turu- ja klientide andmeid ning analüüsimiseks mõeldud georuumilisi andmeid. Andmekaitse - kui olete loonud suurandmete ressursi, tuleb Looduslik keele tootlemise strateegia kaitsta, lahendada omandi- ja intellektuaalomandi probleemid st kraabitud andmete salvestamine on vastuolus enamiku kirjastajate teenusetingimustega ning kasutajatele pakutakse erinevat taset.

Andmeanalüütika - sotsiaalse meedia andmete keerukas analüüs arvamuste koostamiseks nt sentimentide analüüs tekitab endiselt lugematu hulga väljakutseid võõrkeelte, võõrkeelsete sõnade, Looduslik keele tootlemise strateegia, kirjavigade ja keele loomuliku arengu tõttu. Analyticsi armatuurlauad - paljud sotsiaalmeediaplatvormid nõuavad kasutajatelt API-de kirjutamist, et pääseda juurde voogudele või programmi analüüsi mudelitele programmeerimiskeeles, näiteks Java.

Ehkki arvutiteadlaste jaoks on need mõistlikud, on need oskused enamasti enamikul ühiskonnaõpetuse teadlastel väljaspool.

Programmeerimata liidesed on vajalikud selleks, et anda nn sügavale juurdepääsule töötlemata andmetele, näiteks API-de konfigureerimine, sotsiaalmeedia voogude ühendamine, terviklike allikate ühendamine ja analüütiliste mudelite väljatöötamine.

Sotsiaalmeedia analüüs: tehnikate, tööriistade ja platvormide uuring

Andmete visualiseerimine - andmete visuaalne esitus, mille käigus teave on mingil skemaatiliselt kokku võetud eesmärgiga edastada teavet selgelt ja tõhusalt graafiliste vahendite abil. Arvestades kaasatud andmete mahtu, muutub visualiseerimine üha olulisemaks.

Uuenduslikud teadlased ja tööstusespetsialistid leiavad üha enam uudseid viise selle rikkaliku teabe automaatseks kogumiseks, ühendamiseks ja analüüsimiseks. Loomulikult on nende teerajaja sotsiaalse meedia rakenduste õigustamine mõnes lõigus keeruline. Kolm illustreerivat valdkonda on: äri, bioteadus ja ühiskonnaõpetus. Sotsiaalse meedia analüüsi varajased kasutuselevõtjad olid tavaliselt jaekaubanduse ja rahanduse ettevõtted.

Rahanduses kasutatakse turumeelsuse mõõtmiseks sotsiaalmeediat ja kauplemiseks uudiste andmeid. Näitena võib tuua Bollen jt. Wolfram kasutas Twitteri andmeid NASDAQ üksikute aktsiate hindade prognoosimiseks tugivektori regressioonimudeli SVR mudeli koolitamiseks, leides tulevikus 15 minuti hinnaprognoosimisel olulist eelist.

Bioteaduses kasutatakse sotsiaalmeediat andmete kogumiseks suurte kohortide kohta käitumismuutuste algatusteks ja mõju jälgimiseks, näiteks suitsetamise ja rasvumisega võitlemiseks või haiguste jälgimiseks. Näitena võib tuua Penni osariigi ülikooli bioloogid Salathé jtkes on uudiste veebisaitide, ajaveebide ja sotsiaalmeedia abil välja töötanud uuenduslikud süsteemid ja tehnikad nakkushaiguste leviku jälgimiseks. Arvestuslikud ühiskonnaõpetuse rakendused hõlmavad järgmist: avalike reageeringute jälgimine teadaannetele, kõnedele ja sündmustele, eriti poliitilistele kommentaaridele ja algatustele; ülevaade kogukonna käitumisest; raskesti kontakteeruvate rühmade küsitlused sotsiaalmeedias; tekkivate sündmuste varajane avastamine, nagu ka Twitteri puhul.

Looduslik keele tootlemise strateegia Automaatne kauplemisrobot binaarne

Näiteks Lerman jt. Yessenov ja Misailovic kasutavad filmiülevaate kommentaare, uurimaks erinevate lähenemisviiside mõju tekstiomaduste eraldamisel nelja masinõppimismeetodi - Naiivsed Bayes, Otsipuud, Maksimaalne entroopia ja K-Means - klastrite täpsusele. See hõlmab andmekogumeid ja üha olulisemaid reaalajas andmevooge, nagu finantsandmed, klientide tehingute andmed, telekommunikatsioon ja ruumiandmed.

Sotsiaalmeedia programmiline juurdepääs - andmesideteenused ja tööriistad suhtlusvõrgustike, wikide, RSS-kanalite, uudiste jms andmete hankimiseks ja teksti kraapimiseks.

Peamised trikid ja strateegiad läbirääkimiste juhtimiseks

Need võib jaotada järgmiselt: Andmeallikad, teenused ja tööriistad - kui andmetele pääseb juurde tööriistadega, mis kaitsevad algandmeid või pakuvad lihtsat analüütilisi andmeid. Näideteks on Vikipeedia, Twitter ja Facebook.

Teksti puhastus- ja salvestusriistad - tööriistad tekstiliste andmete puhastamiseks ja säilitamiseks. Andmete puhastamiseks on näpunäited Google Täpsusta ja DataWrangler. Tekstianalüüsi tööriistad - üksikisikud või tööriistade teegid sotsiaalmeedia andmete analüüsimiseks, kui need on kraapitud ja puhastatud. Need on peamiselt loodusliku keele töötlemise, analüüsi ja klassifitseerimise Looduslik keele tootlemise strateegia, mida selgitatakse allpool.

Ümberkujundamisriistad - lihtsad tööriistad, mis saavad tekstilisi sisendandmeid teisendada tabeliteks, kaartideks, diagrammideks joon, pirukas, hajumine, riba jneajajooneks või isegi liikumiseks animatsioon Voimalus Kaubandus Osta avatud kohalnäiteks Google Fusion Tables, Zoho Reports, Tableau Avalikud või IBMi paljud silmad.

Analüüsivahendid - täiustatud analüüsivahendid sotsiaalsete andmete analüüsimiseks, ühenduste tuvastamiseks ja võrkude loomiseks, näiteks Gephi avatud lähtekoodiga või Exceli pistikprogramm NodeXL. Sotsiaalmeediaplatvormid - keskkonnad, mis pakuvad põhjalikke sotsiaalmeedia andmeid ja analüütiliste tööriistade raamatukogusid.

Looduskeel

Näited: Thomson Reutersi masinloetavad uudised, Radian 6 ja Lexalytics. Suhtlusvõrgustike meediumiplatvormid - platvormid, mis pakuvad andmete kaevandamist ja analüütilisi andmeid Twitteris, Facebookis ja paljudes teistes sotsiaalsete võrgustike meediaallikates. Enamik sotsiaalmeedia ressursse on kommertslikud ja ettevõtted üritavad loomulikult oma andmeid raha teenida.

Nagu arutatud, on oluline, et teadlastel oleks juurdepääs avatud lähtekoodiga suurte sotsiaalmeedia andmekogumitele ja katsetamise võimalustele.

See tutvustab sotsiaalsete võrgustike meediumide, wikide, tõesti lihtsate sündikaatvoogude, ajaveebide, uudistegruppide, vestluste ja uudistevoogude tarkvarariistade põhjalikku ülevaadet. Terviklikkuse huvides sisaldab see ka sissejuhatusi sotsiaalmeedia kraapimisse, salvestamisse, andmete puhastamisse ja sentimentide analüüsi. Ehkki see on peamiselt ülevaade, pakub see ka sotsiaalmeedia tööriistade metoodikat ja kriitikat.

Vastasel juhul võiks sotsiaalmeediauuringud muutuda suurettevõtete, valitsusasutuste ja eraõiguslike teadlaste privilegeeritud kogumiks, kes juhivad eraandmeid, millest nad koostavad pabereid, mida ei saa kritiseerida ega korrata.

Viimasel ajal on tagasihoidlik reageerimine, kuna Twitter ja Gnip pilootivad uut andmejuurdepääsu programmi, alustades 5 üldkasutatava andmetoetusega taotlejate valimiseks. Avalikud andmed - juurdepääs oluliste avalike andmete kraapimiseks ja arhiveerimiseks; saadaval RSS-kanalite, ajaveebide või avatud valitsuse andmebaaside kaudu. Programmeeritavad liidesed - uurijad vajavad juurdepääsu ka lihtsatele rakenduste programmeerimisliidestele APIet kraapida ja salvestada muid saadaolevaid andmeallikaid, mida ei pruugita automaatselt koguda.

Nagu eespool arutatud, nõuavad teadlased: Analyticsi armatuurlauad - mitte-programmeerimisliidesed on vajalikud selleks, et anda nn sügavale juurdepääsule töötlemata andmetele.

Looduslik keele tootlemise strateegia Aeg binaarsed variandid

Terviklik andmeanalüüs - tööriistu on vaja mitme sotsiaalmeedia ja muu andmekogumi ühendamiseks ja analüüsi läbiviimiseks kogu ulatuses. Andmete visualiseerimine - uurijad vajavad ka visualiseerimisvahendeid, mille abil saab kokku võetud teavet visualiseerida QQQ valikud skemaatilisel kujul eesmärgiga edastada teavet selgelt ja tõhusalt graafiliste vahendite abil.

Salvestamine on vajalik nii peamiste andmeallikate nt Twitter kui ka üksikute projektide kogutud ja teiste teadlaste edaspidiseks kasutamiseks arhiivide jaoks. Arvutusrajatis - ka juurdepääsetavad arvutusrajatised on vajalikud ka: a salvestatud andmetele juurdepääsu kaitsmiseks; b analüüsi- ja visualiseerimisvahendite majutamine; ja c arvutusressursside, näiteks võrkude ja GPU-de pakkumine, mis on vajalikud andmete töötlemiseks rajatises, selle asemel, et neid võrgu kaudu edastada.

Veepoliitika raamdirektiivi ühtse rakendamise strateegia

Nagu arutatud, on suurem osa praegustest sotsiaalmeedia ressurssidest kommertslikud, kallid ja akadeemikutele täieliku juurdepääsu saamise jaoks rasked. Vaadatud andmed - enamus andmeallikaid nt Twitter on oma olemuselt eraldanud teavet, mis muudab teiste andmeallikatega kombineerimise keerukaks. Terviklikud andmed - seevastu on teadlased üha enam huvitatud juurdepääsust uudsetele andmeallikatele, nende säilitamisele ja ühendamisele: sotsiaalmeedia andmetele, reaalajas finantsturu ja kliendi andmetele ning analüüsimiseks mõeldud georuumilistele andmetele.

Praegu on seda isegi arvutiteaduse osakondade jaoks äärmiselt keeruline teha. Samaväärsetest suurematest akadeemilistest teenustest on vähe.

Alustame arutamist nende teenuste loodud andmete ja vormingute üle. Nii et tekstiliste andmete analüüsi kaalumisel peaksime arvestama mitme allikaga nt suhtlusvõrgustikud, RSS-kanalid, ajaveebid ja uudisedmida täiendavad numbrilised rahalised andmed, telekommunikatsiooni andmed, georuumilised andmed ning potentsiaalselt kõne- ja videoandmed.

Looduslik keele tootlemise strateegia Jaga voimalusi hiina keeles

Mitme andmeallika kasutamine on kindlasti analüütika tulevik. Reaalajas kanalid - voogesitatud sotsiaalmeedia, uudisteteenuste, rahavahetuse, telekommunikatsiooniteenuste, GPS-seadmete ja kõne andmevood. Ja arvesse: Algandmed - töötlemata arvutiandmed otse allikast, mis võivad sisaldada vigu või olla analüüsimata. Puhastatud andmed - erinevustest, klahvivigadest, puuduvatest bittidest, väljunditest jne põhjustatud ekslike määrdunud andmete parandamine või eemaldamine Lisandväärtusega andmed - andmed, mida on puhastatud, analüüsitud, sildistatud ja teadmistega täiendatud.

XML - laiendatav märgistuskeel XML - märgistuskeel tekstiliste andmete struktureerimiseks, kasutades elementide määratlemiseks…. CSV - komaeraldusega väärtuste CSV fail sisaldab tabeli väärtusi ASCII-tekstireade seeriana, mis on korraldatud nii, et iga veeru väärtus eraldatakse järgmise veeru väärtusest komaga ja Looduslik keele tootlemise strateegia rida alustab uut rida.

Täielikkuse huvides on HTML ja XML niinimetatud märgistuskeeled märgistus ja sisumis määravad lihtsate süntaktiliste reeglite kogumi dokumentide kodeerimiseks nii inimloetaval kui ka masinloetaval kujul. Märgistus sisaldab algusmärgiseid ntsisuteksti ja lõppsilte nt. Juurdepääs andmetele tööriistade kaudu - allikad, mis pakuvad spetsiaalsete tööriistade kaudu kontrollitud juurdepääsu oma sotsiaalmeedia andmetele, nii hõlbustamaks hõlpsamat ülekuulamist kui ka selleks, et peatada kasutajate kogu hoidlast pärinevate andmete imemine.

Looduslik keele tootlemise strateegia Vaarib binaarseid voimalusi

Näitena võib tuua Google'i trendid. Kommertsallikad - andmete edasimüüjad, kes maksavad juurdepääsu oma sotsiaalmeedia andmetele. Gnip ja DataSift pakuvad partnerluse kaudu kommertsjuurdepääsu Twitteri andmetele ja Thomson Reuters uudiste andmetele. Neid andmebaase saab kasutada peegeldamiseks, andmebaasipäringute tegemiseks ja sotsiaalmeedia analüüsimiseks.

Lisaks pakutakse tööriistu, mis võimaldavad aruandeid kohandada ja kuvada tabeli- diagrammi- või kaardivormingus. Joonis 2 illustreerib, kuidas Google Trends kuvab konkreetse otsingusõna, antud juhul "libor". Google Trendsi abil saate võrrelda kuni viit teemat korraga ja vaadata ka seda, kui sageli on neid teemasid mainitud ja millistes geograafilistes piirkondades on neid teemasid kõige rohkem otsitud.

Ava pilt uues aknas Google Trends 4. Põhjalikuma analüütilise platvormiga platvormid on üle vaadatud 8. Lisaks piiravad sellised ettevõtted nagu Twitter nii oma andmetele vaba juurdepääsu kui ka litsentsivad oma andmeid äriliste andmete edasimüüjatele, näiteks Gnip ja DataSift.

Looduslik keele tootlemise strateegia Valikud kauplemise sissetulek

Gnip on maailma suurim sotsiaalsete andmete pakkuja. Gnip oli esimene, kes tegi Twitteriga koostööd nende sotsiaalsete andmete kättesaadavaks tegemisega, ja sellest ajast peale oli see esimene, kes tegi koostööd Tumblri, Foursquare'i, WordPressi, Disquse, StockTwitsi ja teiste juhtivate sotsiaalsete platvormidega. Gnipi reaalajas andmeid saab edastada iga tegevuse Firehose-vormingus või PowerTracki kaudu.

PowerTracki reeglid saavad andmevooge filtreerida märksõnade, geograafiliste piiride, fraasivaste ja isegi tegevuses sisalduva sisu või meediumi tüübi põhjal. Seejärel pakub ettevõte neile andmevoogudele rikastamist, näiteks Profile Geo Twitteri jaoks oluliselt kasutatavamate geoandmete lisamiseksURL-ide laiendamist ja keeletuvastust, et edastatud andmete väärtust veelgi suurendada.