2012.07.27. 14:26 soobrosa

Július 19-én a Dohány utcai Bazaar-ban zajlott az első magyar Infografika Meetoff. Rövid előadásunkban Balázssal a Tableau-val szerzett dashboard prototipizálási tapasztalatunkról beszéltünk az Information is Beautiful verseny kapcsán.

Kicsit polemizáltunk arról, hogy mennyire bulvár a hasonnevű könyv, amelyből a szervezők egy példányt ki is sorsoltak - annak mindenesetre örülünk, hogy magyar nyelven is hozzáférhető.

A versenyben igen hasznos volt a Tableau gyors prototipizálási képessége, a papírra skiccelt dashboard mind az 5 prototípus irányával ki tudtuk próbálni, hogy mennyire releváns válaszokat tudunk alapvető kérdéseinkre adni. Igyekeztünk actionable nézeteket kidolgozni és így sikerült végül valami egészen másra használni a Tableau-t, mint amire készült, egy egészen webes alkalmazásra hajazó vizualizáció lett a végeredmény. Nem tudtuk eldönteni, hogy a rendelkezésre bocsátott adatforrás figyelmetlenségből vagy szándékosan volt hibás és koszos, mindenesetre más forrásokból (Boxofficemojo és Wikipedia) újabb oszlopokkal dúsítottuk. (Kéménybe korommal: emlékeztessük magunkat mindig, hogy akármilyen kis projekten is dolgozunk, igen hasznos lehet valamilyen elsődleges kulcs, amelynek segítségével akár már az adatforrások lezárta után is tudunk még oszlopokat injektálni, joinolni a tábláinkba.) Az alkalmazássá alakítás igazi hekkeléssé fajult, logika került a táblába, és kapcsolóoszlopok miatt az eredetileg körülbelül 700*17-es tábla 33869*41-es lett. Úgy sejtettük, hogy a verseny nyertesei inkább szépek lesznek, mint okosak - ez a sejtésünk be is igazolódott -, mi azonban erőforrás hiányában csak a végén húztunk be egy dizájnert a projektbe, ebben még biztosan javulnunk kell.

Review: C.J. Date's Database Design and Relational Theory: Normal Forms and All That Jazz Master Class (O’Reilly Media)

2012.06.24. 17:19 soobrosa

It should be my mistake. Once I was interested in a serious look on database design, second I was really curious what could O'Reilly Media do with the "talking head" courseware genre. Boy, was I disappointed. As I started watching I immediately found myself in the Eighties watching BBC in some Wales humdrum town. Expect nodding heads around the table, I can't reflect responsibly on the content as I fell asleep immediately. I believe this is not a proper choice of media for this topic.

Check for yourself at O'Reilly.

Score: 1 of 5.

2012.05.15. 16:59 soobrosa


Kicsit skizoid a viszonyom a treemap-ekkel, mindig izgattak, hasznosnak tartom őket, de a legtöbbször nehezen értelmezhetőek. Még januárban csináltam Excelben a fenti ábrát, ha még egy dimenziót sikerülne érthetően belegyömöszölni, elégedett lennék.

Update: közben rájöttem, hogy a fenti cucc egy mosaic plot, sőt mitöbb egy Marimekko chart

Review: Drew Conway & John Myles White: Machine Learning for Hackers (O’Reilly Media)

2012.04.17. 11:46 soobrosa

As I consider myself a hacker rather than a coder I was delighted to find a title aimed for directly at me as "for Hackers". The topic of machine learning is both generally hot and personally interesting to me as I try to mangle recommendation approaches in the music domain and just finished with all worthwhile heuristics-based methods. I thought that this book could provide me with a good entry and could be a newer, more up-to-date approach than the classic Programming Collective Intelligence by Toby Segaran. Nonetheless I was a bit surprised to realize that the hackers' language should be R instead of Python - so this meant that the book would also serve me as an intro to R. As learning R is also on my long to-do list, I was hoping that I could kill two birds with one stone.

The book has a solid structure, the first quarter is covering basic statistics showcasing the capabilities of R. Typical starter exercises of ML are well versed: Bayesian spam filtering, weighting schemes for ranking, regression, overfitting and optimization is explained and demonstrated with a down-to-earth and hands-on approach. The authors also touch some of the more complex topics: principal components analysis, multidimensional scaling and the k-nearest neighbours algorithm are introduced with real world data. I was really delighted to see a longer chapter dedicated to social graph analysis and I totally give kudos for the inclusion of Gephi, the powerful open source graph visualization and manipulation software that I also enjoy using more and more.

The authors come from a social science background and although this book seems to be avoiding 'programming' or providing code that could be incorporated in a runtime environment, I believe the goal they set, to provide machine learning tools for tinkering, has been reached with great success. It's short, concise and not scary at all. Check for yourself at O'Reilly.

Score: 5 of 5.

The Blockbuster Meter

2012.03.29. 11:09 soobrosa

Krich Balázzsal közös verejtékkel, fedőnéven neveztünk az Information Is Beautiful moziversenyére ezzel a Tableau dashboard-dal. Ez egy mezei 41 oszlopos, 33869 soros adattábla realtime interface-szel. Próbáld ki!

















A nevezés végül shorlistre került, a Tableau örömére is, és az Indexre elkészítettük a magyar nyelvű változatot.

Review: William E. Shotts Jr.: The Linux Command Line – A Complete Introduction (O’Reilly Media)

2012.02.20. 14:44 soobrosa

I approached this book as an aging hacker who started out network computing on DEC VAX and VMS, but spent more than a dozen years in Windows-close business environments, and now gets back to its roots with a programming habit turning serious. My UNIX experience got rusty during the years, and I was surprised to find a complete generation of programmers operating without a slight knowledge of the command line. I wanted to get a practical grasp again to make my day-to-day data crunching toolset wider with all the command line can provide me with – not least compell the youngsters who cannot help themselves starting out with a new JAVA class to solve any problem.

The book is well-written, perhaps a bit too verbose, but it’s easily accessible even for beginners. However, I’m not totally sure how it should be consumed as I found it a bit middle-of-the-road, too detailed for a reference book, but not covering all the razorsharp workhorse approach of UNIX commands. In my case, text cruncing related basics, such as grep or regex is just slightly touched, you can’t even find the word ’greedy’ in the whole book. The back cover states that the target audience of the book is someone who already uses Linux with a GUI, but now wants to look under the hood.

I’m not totally sure that this journey will amaze and show the real strength in the engines, but for me, it’s a keeper, I’ll definitely skim it to refresh my memories building my new Linux coding workstation. Check for yourself at O'Reilly.

Score: 4 of 5.

Lokáció alapú közösségi tevékenységek turisztikai hatása Magyarországon - prezentáció

2012.01.22. 18:20 soobrosa

A héten bemutattam és egyben meg is védtem szakdolgozatom a főiskola szakdolgozatversenyén. Igyekszem mihamarabb megosztani az adatokat és a kódot is.

Lokáció alapú közösségi tevékenységek turisztikai hatása Magyarországon

2011.12.20. 12:12 soobrosa

Nem is értem, miért használ még bárki Scribd-et, hisz jóféle spammer oldal lett. A teljes szakdolgozatomnak is jó gazdája az Issuu.



Lokáció alapú közösségi tevékenységek turisztikai hatása Magyarországon - kivonat

2011.11.15. 10:55 soobrosa

Strata konferencia csemegék

2011.10.12. 18:38 soobrosa

Tavasszal ismét Strata, a 2011-es konferencia számomra legtanulságosabb videói az alábbiak voltak.

Naomi Robbins "Communicating Data Clearly" tutorialja (pdf) azonnal klasszikussá vált.

