早在民國八十四年,台灣出版產業就已經意識到,應該推動產業內商品訊息的電子化資料交換(Electronic Data Interchange,簡稱 EDI)。EDI 的好處不用多說,光是訊息傳遞快速、自動、準確、省去每個環節人工重複建檔這回事,產業就應該敲鑼打鼓熱烈歡迎才是。
可惜二十年過去了,經濟部商業司專案預算也花了,出版業電子交換標準也弄出來了(見圖,影像來源 newCreator.com),但產業上下游之間,書籍資料仍然是人工交換,各自重複建檔。
前幾年,趁著電子書熱,wastemobile 兄有幾篇文章討論到電子書的 EDI 問題:再論電子書的流通,ONIX、OPDS 與三分天下、電子書的詮釋資料,與 ONIX 的重要。
不過這個產業的麻煩是,只要是談到需要確定業界標準,那幾乎什麼都搞不下去。出版業主管機關沒有技術能力,業界自己的行業公會多半功能也停留在爭取預算階段,有利益大家就好說話,無利益大家就一盤沙,誰也不理誰。
即使是經濟部十三年前弄出了相當詳盡的「圖書業 XML 訊息標準」,以中小企業為主的台灣出版業也有心無力,無法採用。
現在看來失敗的關鍵很簡單,技術能力是一個問題,而實際的作業情境更是問題。以經濟部的 XML 標準來說,有標準卻沒有編輯器,每個要實際填寫新書資料卡的編輯或企畫只能搖頭嘆息,計畫沒有考慮實際作業流程,那等於是要每家出版社自己做出 XML 編輯器,簡直是希望每個小學生都能算微積分一樣。
所以當我看見國圖釋出的 ISBN 開放資料,我覺得這裡是一個機會,第一次,我們有機會不用等待業界協調整合,等待一個大家都同意的「產業標準」,或者指望主管機關撥出預算幫忙促成;這些都不用,現在我們可以靠一個擁有技術實力的公司甚至個人,就能做出相當於產業 EDI 的東西出來。
把現狀下出版社要對各大通路自行寄送新書資料的囉嗦過程節省下來,讓一個構想中的「書訊資料交換平台」代辦全部過程。而書店手動接收各出版社送來 Word 檔案書卡的「工人智慧」手續,也可以通通省下來,不再需要請工讀生逐篇打開 Word 檔,逐欄剪貼資料到資料庫。
以下是這個可能性的說明。
※ ※ ※
- 一、理想目標
做出一個「書訊資料交換平台」,它介於出版社(資料生產者)和書店(資料需求者)之間。最終的理想狀態是出版社對此平台送出每月的新書資料,由平台自動生成後端應用的各種格式,供應書店等任何書訊需求者的使用要求。
這些格式可以對各書店專門客製,從資料庫欄位到使用格式都可完全符合需求(如博客來專用 XML、誠品專用 CSV、讀冊專用 JSON 等)。這樣就不需要強制要求產業上下游整合意見,建立共通標準,然後沒有技術能力的人又只能望標準興嘆了。
出版社只要更新一個網站,就可以解決所有通路的不同格式體例需求。而所有書店只要向一個地方呼叫資訊,最新書訊就可以自動匯入己方資料庫,不再需要使用工人智慧。
- 二、短期做法
但短期內出版社不可能平白無故,把每月新書資料送交一個陌生的交換平台。所以這個平台需要一點技術能力,設計機器人在線上抓取資料。所幸我們有國圖書號中心釋出的 ISBN。
ISBN 開放出來的資料欄位不多,但重點不是資料是否完整,重點是 ISBN。有了 ISBN ,我們可以依照這個號碼為前導,在線上搜尋這個號碼的其他資料,從書名、作者、封面圖檔、內容簡介等。
在線上挖掘別人的資料會不會有侵權疑慮呢?為了避免爭議,我們可以把搜尋範圍導向各出版社的自家網站。對出版社而言,有人願意蒐集我們的書訊並加以擴散,歡迎都來不及,更不會有控訴侵權的可能。
以台灣現況來說,城邦、聯經、時報、遠流、天下、圓神、大雁、共和國、皇冠、高寶等,只要是稍具規模的出版社和集團就會有自己的圖書網站,用 ISBN 資料追蹤新書資訊並彙整起來並不困難。
其他小型出版社在聯合、貞德、紅螞蟻、大和、知己等總經銷商網站,也有書訊可以挖掘。這樣算下來,可以取得的新書資料,總量應該在市場實際商業流通數量的七成以上。
有七成的當日即時新書資料,即使是已經把資料鍵入成本都外部化的大連鎖集團,應該也會樂於採用。畢竟資料如果可以自動化,效率、正確性,以及減少廠商抱怨的效益,都是非常划算的。
※ ※ ※
理論上這樣的平台應該是由產業協商組成,不過既然業內討論了二十年而無下文,繼續等待業內有人願意整合意見恐怕不是明智之舉。所以我決定把構想直接丟出來。如果你想做,可以當場就動工,不需要跟誰協調,需求和效益都在那裡,絕對不愁市場。如果你需要我幫忙,歡迎寄信給我。
如果能夠推動出版業「書訊資料交換平台」誕生,這將是我出版生涯裡對產業最好的回報了吧。
(文章轉載自:老貓出版偵查課;圖片來源:libraryman, CC licensed)
Source: techorange.com