Monatsarchive: April 2013

Hadoop with pydoop on CentOS 6.4

Using pydoop instead of the streaming interface and MRJob results in a massive performance boost. I ran a simple wordcount job with a bit of regex matching on ~2GB of text data. Using the streaming interface the job took about … Weiterlesen

Veröffentlicht unter /dev/administration | Hinterlasse einen Kommentar

Spring is coming ;)

Veröffentlicht unter /dev/video | Hinterlasse einen Kommentar