By making available databases of human genomic data, US census records and other data of public interest, the Amazon Public Data Sets are an incredible resource. They're like a 21st century Public Library for robots to patronize. In this emerging era of flourishing data-centric applications, though, the state of the art never stands still.
Forty year old British technology platform Talis (background) announced this week that it now offers free, perpetual storage and keyless API access to semantically marked-up large data sets. The offering is called the Talis Connected Commons and it's the kind of thing that anyone with a geekish imagination can get excited about.
If the current web economy is being rocked by easy publishing systems that make the people formerly known as "consumers" capable of publishing and socializing around content of their own creation - then the next step of internet evolution may come in the form of automated systems able to process meaning and patterns out of large amounts of user-created and other information. When structured, free and available programmatically in bulk - that data is like a big pot of gold for developers.
While Amazon offers free access to data sets, transport of the data is still paid for by users. The Talis Connected Commons also offers an API by default (a SPARQl end point, in particular) and is focused specifically on semantic data. The system is made for public sharing - two variations of Creative Commons licenses are supported for the data stored there. Talis is requesting that data set owners email a short description of their content to the company for approval and inclusion on the site.
In other words, there's no gold in the pot yet. Talis is more than well established and this offering is aimed at such a sweet spot that the only way the Connected Commons won't be filled with good data is if the company totally drops the ball. We don't expect that to happen.
This project is in the same vein as Nova Spivak's forthcoming ontology authoring and hosting service, the vision of open source microblogging as the future of business intelligence and more.
There's a chain of events that news like this helps fill out. First, massive bodies of data are created or gathered, books are scanned, census data is collected, and patients donate their anonymous aggregate medical data to science. Next, the data is semantically analyzed and marked up (through any number of different semantic processing engines). Then, the data is stored and an API is made available (this is where the Talis Connected Commons comes in). Finally, developers build applications that leverage the smart data offered up through the platform, data visualizers find new stories to tell in images built from the marked up data and new relationships between people, organizations and concepts have the mist cleared away from them through systematic analysis of various permutations of previously unavailable structured data.
Amazon Public Datasets include things like human genomic data, US census data, and data parsed from Wikipedia. What will the Talis Connected Commons provide a home and API for? We look forward to finding out.
Comments
Subscribe to comments for this post OR Subscribe to comments for all ReadWriteWeb posts
The big and exciting application may be scientific data, enabling more rapid hard-core innovation. The open data revolution is hitting the scientific journal publishing business just like open source software disrupted the software biz. This looks like one of the enabler for that web of science. That is more useful than yet another social network or shopping experience.
Structured data is just about everywhere on the Web... problem is its not published in structured format. Having a capability to really transform the hetergenous unstructured data into structured format will be the key to next generation of search engines and Web applications.
At Cazoodle, we believe we have a good solution for this problem. As our first product, we are able to understand the structured apartment data from thousands of semistructured web sources to provide first-ever one stop search service to find apartments for rent.
http://apartments.cazoodle.com
Thanks you
Marshall,
I would prefer to frame Talis Commons and Amazon's Public Data Sets as important contributions to the emerging Linked Data Web (or Web of Linked Data).
On the Amazon front, note that they are offerring virtual machine space in the cloud, and the public data sets ultimately enable the construction of linked data meshes within the cloud. For instance, we are adding the complete set of data from the Linked Open Data (LOD) Cloud to Amazon's public data set collective (we are talking 4.5 Billion+ worth of triples and counting). Once loaded, you will simply be able to perform one of the following tasks, on a personal or service-specific basis:
Don't know what happened to my comments above (clearly truncated amongst other issues).
Anyway, my blog post about the LOD Cloud and Amazon Public Data Sets is at: .
Key Points re. what Amazon facilitates:
1. Amazon provides a viable model for service providers seeking agility while exploiting Linked Data (e.g. LOD cloud available in all its glory in minutes via Virtuoso Cluster Edition AMIs [1] or do-it-yourself options)
2. Provides a platform for variable and fixed cost management as integral parts of an "Data as a Service" undertaking (the margin planning starts early and occurs often in line with business model clarity).
Links:
1. http://lod.openlinksw.com -- Virtuoso instance hosting LOD Cloud (you will be able to make your own personal or service-specific variant in about a week or so).
Kingsley
raivo pommer-www.google.ee
raimo1@hot.ee
Dominique Strauss-Kahn machte kein Geheimnis aus seiner Genugtuung über das Ergebnis des Weltfinanzgipfels in London: „Der IWF ist wieder da“, rief der geschäftsführende Direktor des Internationalen Währungsfonds (IWF) den Journalisten in der britischen Hauptstadt zu. Und er fügte hinzu: „Heute sehen Sie den Beweis dafür.“ Kurz zuvor hatten die Staats- und Regierungschefs der 20 führenden Industrie- und Schwellenländer (G 20) beschlossen, die Ressourcen, die dem IWF zur Krisenbewältigung zur Verfügung stehen, mittelfristig zu verdreifachen.
Über 750 Milliarden Dollar wird Strauss-Kahn bald verfügen können, um sie jenen Ländern aus dem Kreis der 185 Mitglieder der Institution zu leihen, die in den Sog einer Wirtschafts- und Finanzkrise geraten und Zahlungsengpässe überwinden müssen.
raivo pommer-www.google.ee
raimo1@hot.ee
Starke Rückgänge im Baltikum
Dabei sank die Industrieproduktion in allen Staaten, für die Daten vorlagen. Die stärksten Rückgänge gab es in Estland (minus 30,2), Lettland (minus 24,2) und Spanien (minus 22 Prozent); auch in Deutschland gab es mit minus 20,6 Prozent einen massiven Einbruch.
Industrieproduktion in Europa
Am besten sah es noch in Griechenland (minus 4,9), den Niederlanden (minus 5,9) und Dänemark (minus 11,8 Prozent) aus. Erfasst wurde die gesamte Industrie ohne das Baugewerbe.
Gegenüber Januar verzeichneten die Statistiker einen saisonbereinigten Rückgang um 2,3 Prozent in der Eurozone und 1,9 Prozent in der gesamten EU. Von den erfassten Staaten verzeichneten 16 eine sinkende Industrieproduktion; nur in Portugal (plus 2,4 Prozent), Griechenland (plus 1,7) und Polen (plus 0,4) sah es gegenüber dem Vormonat besser aus.
Die höchsten Rückgänge gab es in Litauen (minus 4,1), Estland (minus 3,6), Italien (minus 3,5) und Deutschland (minus 3,2 Prozent).
GOOGLE
Der erfolgsverwöhnte Internet-Konzern Google hat der Wirtschaftskrise zum Jahresauftakt weiter getrotzt und seinen Gewinn kräftig gesteigert. Der Überschuss kletterte im ersten Quartal um neun Prozent auf 1,42 Milliarden Dollar (1,08 Mrd Euro).
Der Umsatz wuchs zum Vorjahr um sechs Prozent auf 5,51 Milliarden Dollar, wie Google am Donnerstag nach US-Börsenschluss im kalifornischen Mountain View mitteilte.
«Google hatte ein gutes Quartal angesichts der Schwere der Rezession», sagte Konzernchef Eric Schmidt. Mit den Zahlen übertraf der Suchmaschinen-Riese die Erwartungen der Analysten. Die Aktie legte in einer ersten Reaktion nachbörslich deutlich zu. Wesentliche Einnahmequelle Googles sind bezahlte Werbeanzeigen rund um die Internet-Suche. Der Konzern ist hier mit weitem Abstand Marktführer vor Yahoo! und Microsoft.
raivo pommer-www.google.ee
raimo1@hot.ee
Flowers 21,7%-Verkürzte Frist
Diese verkürzte Frist wird durch eine Sonderregelung des Bankenübernahmegesetzes ermöglicht, auf dessen Grundlage der Staat die HRE übernehmen will.
Der Staat strebt mit seinem Übernahmeangebot den Angaben zufolge den Erwerb aller Anteile an der HRE an. Sollten die Aktionäre in den kommenden zwei Wochen nun nicht auf das Übernahmeangebot eingehen, will der Bund die Bank verstaatlichen - dann aber zum gesetzlichen Mindestpreis von 1,26 Euro.
Fraglich ist insbesondere, ob der US-Finanzinvestor J.C. Flowers, der 21,7 Prozent an der Bank kontrolliert, sich auf das Angebot einlässt.
Mit der Verstaatlichung der HRE sollen bereits geleistete Staatshilfen von mehr als 100 Milliarden Euro abgesichert werden. Die HRE war im Zuge der Finanzkrise in große Schwierigkeiten geraten. Ein Kollaps der Bank würde nach Einschätzung der Regierung zu Erschütterungen im Finanzsystem und zu Schwierigkeiten ganzer Staaten führen.
The big and exciting application may be scientific data, enabling more rapid hard-core innovation. The open data revolution is hitting the scientific journal publishing business just like open source software disrupted the software biz. This looks like one of the enabler for that web of science. That is more useful than yet another social network or shopping experience.
Dominique Strauss-Kahn machte kein Geheimnis aus seiner Genugtuung über das Ergebnis des Weltfinanzgipfels in London: „Der IWF ist wieder da“, rief der geschäftsführende Direktor des Internationalen Währungsfonds (IWF) den Journalisten in der britischen Hauptstadt zu. Und er fügte hinzu: „Heute sehen Sie den Beweis dafür.“ Kurz zuvor hatten die Staats- und Regierungschefs der 20 führenden Industrie- und Schwellenländer (G 20) beschlossen, die Ressourcen, die dem IWF zur Krisenbewältigung zur Verfügung stehen, mittelfristig zu verdreifachen.
Über 750 Milliarden Dollar wird Strauss-Kahn bald verfügen können, um sie jenen Ländern aus dem Kreis der 185 Mitglieder der Institution zu leihen, die in den Sog einer Wirtschafts- und Finanzkrise geraten und Zahlungsengpässe überwinden müssen.
The open data revolution is hitting the scientific journal publishing business just like open source software disrupted the software biz. This looks like one of the enabler for that web of science.
Don't know what happened to my comments above ..
The reason it took you to that page was so that if you came in cold to this page you would be able to find out about Greasemonkey and how we use it. It is from that page you then get a link to the Greasemonkey site.
Reading it again, I already give a link to that page at the start of the text, so I agree with you about where the link in question should take you. I will change it.
There is a general answer to your "Could you get this to work on other sites - can you change the A9 link to point at Amazon.co.uk?" questions. It is: Because Greasemonkey gives you access to the HTML that makes up the page you are viewing, and external access to Web Services, you could make it do almost anything.