SDAM ETL walkthrough

SDAM ETL 导览

A trilogy of guides on how the Aarhus University SDAM project turns ancient Mediterranean inscriptions into open, citable, reproducible data — and how the 2021 Journal of Digital History article uses that data. Pick whichever entry point fits your moment.

三部曲导览:奥胡斯大学 SDAM 项目如何把古地中海铭文变为开放、可引用、可复现的数据,以及 2021 年《数字史学杂志》论文如何使用这些数据。选一个最适合此刻的入口。

Edition 1 · Entry版本一 · 入门

Visual

视觉版

Slideshow · 19 slides · ~10 min幻灯片 · 19 张 · 约 10 分钟

A horizontal slideshow that explains ETL through metaphors (vending machines, scraping a library by hand), button-driven interactives, a click-to-build pipeline puzzle. Code hidden behind toggles.

横向幻灯片,用比喻(自动售货机、逐页通读图书馆)、按钮交互、点击搭建拼图来讲解 ETL。代码隐藏在折叠面板里。

  • Interactive cleaning, merging, dating demos
  • Best for: lectures, demos, intuition
  • 清洗、合并、定年的可交互演示
  • 适用:讲座、演示、建立直觉
Start the slideshow 打开幻灯片
Edition 2 · Advanced版本二 · 进阶

Reference

参考版

Long scroll · sidebar nav · for practitioners长滚动 · 侧栏导航 · 面向实践者

Deep technical companion. Covers all 37 SDAM repositories — every ETL pipeline, the tempun toolkit, helper packages, the analysis ecosystem — with code samples and a sortable interactive index.

深度技术配套。覆盖 SDAM 全部 37 个仓库,每条 ETL 流水线、tempun 工具包、辅助包、分析生态,包含代码示例与可排序的交互索引。

  • Complete pipeline mechanics (E, T, L)
  • Best for: actually working with the data
  • 完整的提取/转换/加载机制
  • 适用:实际使用数据
Open the reference 打开参考版
Edition 3 · The Paper版本三 · 论文导读

Paper

论文版

JDH 2021 article walkthroughJDH 2021 论文导读

Section-by-section walkthrough of the actual JDH 2021 article — the research questions, the seven figures, the methodological argument — with stylized re-renderings of every figure and links to the JDH source.

对 JDH 2021 论文逐节导读,研究问题、七张图、方法论主张,含每张图的风格化重绘与到 JDH 原文的链接。

  • Research-question-by-question reading
  • Best for: scholarly engagement with the paper
  • 按研究问题展开逐节阅读
  • 适用:学术性研读
Read the paper walkthrough 打开论文导读
Edition 4 · Case Study版本四 · 案例研究

Case Study

案例研究

One inscription, five databases一块铭文,五个数据库

A bilingual stonecutter's shop sign from Roman Sicily — ISic000470 — recorded across five major epigraphic databases with conflicting IDs, dates, inventory numbers, transcriptions, and even widths. A concrete case for why the JDH paper's methods are needed.

罗马时代西西里的一块双语石匠铺广告牌,ISic000470,出现在五大铭文数据库中,编号、定年、馆藏号、转写甚至宽度互相冲突。一个具体案例,说明为何 JDH 论文那套方法不可或缺。

  • Side-by-side metadata diff across 5 DBs
  • Best for: appreciating the data-construction problem
  • 5 个数据库元数据并排对比
  • 适用:理解"数据构建"这一难题
Open the case study 打开案例研究
Edition 5 · Database literacy版本五 · 数据库识读

How far from the stone?

离石头有多远?

23 slides · CIL X 7296 across 6 web landings23 张幻灯 · CIL X 7296 在六个落点

A short tutorial on database literacy. Walks the same Sicilian stone across I.Sicily, EDCS, two PHI records, EDR, OSU's photo bank, and the meaningful absence from EDH. Empirical disparity matrix, information-loss ladder, the question of how detached scholarship has become from physical stone evidence.

关于数据库识读的小教程。沿着同一块西西里石头走过 I.Sicily、EDCS、PHI(两条记录)、EDR、OSU 照片库,以及它在 EDH 中"有意义的缺席"。含实证差异矩阵、信息丢失阶梯、与"今日学术距离物理石头有多远"这一问题。

  • 26.3% of EDCS records actually have a photo URL
  • Best for: anyone using inscription databases for analysis
  • EDCS 中实际附照片链接的记录仅 26.3%
  • 适用:所有用铭文数据库做分析的人
Open the tutorial 打开教程
Edition 6 · Databases atlas版本六 · 数据库地图

An atlas of inscription databases

铭文数据库地图

52 slides · 6 families · ~30 projects · case studies52 张幻灯 · 6 大家族 · 约 30 个项目 · 含案例

A guided tour of the major projects publishing ancient-Mediterranean inscriptions on the web — Aggregators, Regional EpiDoc projects (I.Sicily, IRT, IRCyr, IGCyr, IAph, IOSPE…), Text-only Greek (PHI), the EAGLE federation, papyrology cousins (DDbDP, HGV, APIS, Trismegistos), and ML datasets (iPHI / Ithaca). Side-by-side TEI / Leiden / Dublin Core encoding samples, identifier-system map, image conventions, licensing landscape.

古地中海铭文在网络上的主要发布项目导览,聚合器、区域 EpiDoc(I.Sicily、IRT、IRCyr、IGCyr、IAph、IOSPE…)、纯文本希腊(PHI)、EAGLE 联盟、莎草纸学表亲(DDbDP、HGV、APIS、Trismegistos)、ML 数据集(iPHI / Ithaca)。并排呈现 TEI / Leiden / Dublin Core 编码样例,标识符系统地图,图像与授权图景。

  • One TM-ID resolves a papyrus across 4 systems; an inscription rarely
  • Best for: orienting yourself before a corpus-scale analysis
  • 一个 TM-ID 可在 4 套系统中解析一份莎草纸;铭文很少做到
  • 适用:在做语料库级分析前的定向
Open the atlas 打开地图