免费注册 查看新帖 |

Chinaunix

  澳门mgm官网 www.42588.com 澳门美高梅官网注册 文库
12下一页
最近访问板块 发新帖
查看: 25936 | 回复: 10
打印 上一主题 下一主题

[文本处理] 请教高难度 shell脚本 搞定加微信发红包奖励 [复制链接]

www.42588.com徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2018-12-08 10:43 |只看该作者 |倒序浏览


A 表格如下  第22列 第23列(红色为22列)

"232"|"1er"|"eqw"|.......|"OTH"|"WY"|"rr"
"222"|"e6r"|"wqw"|.......|"Citizen"|"WY"|"rr"
"222"|"1er"|"eqw"|.......|"Dual_Citizen"|"WY"|"rr"
"212"|"eer"|"wqw"|.......|"Resident"|"WY"|"rr"
"252"|"e2r"|"eqw"|.......|""|"WY"|"rr"
"252"|"e2r"|"eqw"|.......|"WQC"|"WY"|"rr"

只保留23列 保留规则如下
如果22列的值是  "OTH" 或者 "Resident" 其对应的23列的值保持不变
如果22列的值是  "Citizen"或者"Dual_Citizen" 其对应的23列的值替换为 "US"
如果22列的值 为空 "" 其对应的23列的值替换为 "DKK_US"
如果22列的值 不为空 也不是上面 四个值 其删除改行


改后效果如下

"232"|"1er"|"eqw"|.......|"WY"|"rr"
"222"|"e6r"|"wqw"|.......|"US"|"rr"
"222"|"1er"|"eqw"|.......|"US"|"rr"
"212"|"eer"|"wqw"|.......|"WY"|"rr"
"252"|"e2r"|"eqw"|.......|"DKK_US"|"rr"


哪个大神 搞定的话  请留下 微信号   

www.42588.com徽章:
7
2016科比退役纪念章
日期:2018-10-24 08:24:0115-16赛季CBA联赛之北控
日期:2019-03-12 14:34:562016科比退役纪念章
日期:2019-04-01 10:33:0915-16赛季CBA联赛之山东
日期:2019-04-17 12:46:3215-16赛季CBA联赛之广夏
日期:2019-05-09 16:40:4015-16赛季CBA联赛之广夏
日期:2019-10-10 15:33:4015-16赛季CBA联赛之辽宁
日期:2019-10-15 08:37:06
2 [报告]
发表于 2018-12-10 11:05 |只看该作者
  1. gawk 'BEGIN{FS=OFS="|"}$22 ~"Citizen"{$23=""US""} $4~ """"{$23=""DKK_US""} $22 ~"OTH|Resident|Citizen|"""{print $0}' A.txt
复制代码

试试看。

www.42588.com徽章:
21
程序设计版块每日发帖之星
日期:2016-05-03 06:20:0015-16赛季CBA联赛之深圳
日期:2018-06-15 14:59:3715-16赛季CBA联赛之八一
日期:2018-07-03 16:56:4615-16赛季CBA联赛之八一
日期:2018-07-05 10:34:09黑曼巴
日期:2018-07-06 15:19:5015-16赛季CBA联赛之佛山
日期:2018-08-03 13:19:3315-16赛季CBA联赛之山西
日期:2018-08-07 19:46:2315-16赛季CBA联赛之广夏
日期:2018-08-08 19:31:5015-16赛季CBA联赛之青岛
日期:2018-11-26 15:21:5015-16赛季CBA联赛之青岛
日期:2018-06-08 13:45:2815-16赛季CBA联赛之同曦
日期:2018-06-04 19:42:2015-16赛季CBA联赛之山东
日期:2018-05-30 12:44:59
3 [报告]
发表于 2018-12-10 12:23 |只看该作者
本帖最后由 wh7211 于 2018-12-10 19:47 编辑

回复 1# xin2v

  1. awk 'BEGIN{FS=OFS="|"}{if($22~"OTH|Resident"){NF=NF}else if($22~"Citizen|Dual_Citizen"){$23="042US042"}else if($22~"042042"){$23="042DKK_US042"}else{next}}1' A
复制代码

www.42588.com徽章:
0
4 [报告]
发表于 2018-12-10 17:27 |只看该作者
楼主文本多少行,列?

www.42588.com徽章:
0
5 [报告]
发表于 2018-12-11 12:28 |只看该作者
1 这个不难。
2
======================================================
问:为何不建议大家使用txt,csv保存数据?
答:
好的沙发是宝贝,断腿沙发和它差不多,却是垃圾。
整理好的数据是宝贝,杂乱堆放在txt,log中的未处理数据,却是垃圾。
csv中用单双引号,数据没有相关的类型绑定,没有精度绑定。

如果说raw是,干净的裸数据。

txt不是干净的裸数据,txt是字符串,它含有杂乱格式,空格,tab,分隔符。
大多数情况下,字段顺序也都未整理。

excel就是,干净的裸数据,加富类型。
excel中的数据也不是最好的,也需要整理。



======================================================
问:excel有何好处?
答:
1 excel可以合并单元格。
2 支持图表,公式。
3 单元格内支持单双引号,单元格内的数据有,类型,有精度。
4 有图形软件,操作简单。
等。

3 win + excel + powershell ,测试通过,结果正常。

  1. $输入文件 = 'a:pscode0exceltemp209b.xlsx'



  2. #region main
  3. $excel对象 = New-Object -comobject Excel.Application
  4. $SheetName = "sheet1"
  5. $Excel工作簿 = $excel对象.Workbooks.Open($输入文件)
  6. $Excel工作表 = $Excel工作簿.Worksheets.Item($SheetName)
  7. $excel对象.Visible = $true
  8. $列 = 23
  9. $列2 = 24

  10. $行 = 1
  11. $最大行 = $Excel工作表.UsedRange.rows.count
  12. write-host $最大行

  13. for ($i = $行;$i -le $最大行;$i++)
  14. {
  15.         $单元格 = $($Excel工作表.Cells.Item($i,$列).Value2).ToString()
  16.         switch ($单元格)
  17.         {
  18.                 'OTH' {break}
  19.                 'Resident' {break}
  20.                 'Citizen' {$Excel工作表.Cells.Item($i,$列2).Value2 = "US";break}
  21.                 'Dual_Citizen' {$Excel工作表.Cells.Item($i,$列2).Value2 = "US";break}
  22.                 '' {$Excel工作表.Cells.Item($i,$列2).Value2 = "DKK_US";break}
  23.                 default {[void]$Excel工作表.Cells.Item($i,$列).EntireRow.Delete() }
  24.         }
  25. }
  26. [void]$Excel工作表.Cells.Item($i,$列).EntireColumn.Delete()




  27. $Excel工作簿.save()
  28. #endregion main





  29. #region  扫尾
  30. Start-Sleep 2
  31. $Excel工作簿.close()
  32. Remove-Item  "$homedocumentsresume.xlw" -ErrorAction:SilentlyContinue
  33. Start-Sleep 2
  34. $excel对象.Quit()


  35. Start-Sleep 2
  36. [System.Runtime.InteropServices.Marshal]::ReleaseComObject($Excel工作簿)
  37. [System.Runtime.InteropServices.Marshal]::ReleaseComObject($excel对象)
  38. [System.Runtime.InteropServices.Marshal]::ReleaseComObject($excel对象)
  39. Start-Sleep 2
  40. [System.GC]::Collect()
  41. [System.GC]::WaitForPendingFinalizers()

  42. Remove-Item  "$homedocumentsresume.xlw" -ErrorAction:SilentlyContinue
  43. Write-Host "------------end-------------"
  44. Write-Host "---脚本运行完毕后,输入exit命令退出powershell窗口。或点击右上角的x,关闭powershell窗口,后台excel.exe即可自动退出。---"
  45. exit 0
  46. #endregion  扫尾

复制代码


不知道为啥,最近处理行列表格数据的需求,多起来了。
我打算安利一波 ps + excel 处理表数据。

大家记住,ps (或py)+ excel 是高级的数据处理!

www.42588.com徽章:
0
6 [报告]
发表于 2018-12-11 13:28 |只看该作者
本友会机友会摄友会 发表于 2018-12-11 12:28
1 这个不难。
2
======================================================

大哥 是LINUX 服务器啊

www.42588.com徽章:
0
7 [报告]
发表于 2019-01-03 17:30 |只看该作者
回复 2# cfwyy

如果需求变了原来是
如果22列的值 不为空 也不是上面 四个值 其删除改行
现在是不删除  该如何处理 ?

www.42588.com徽章:
0
8 [报告]
发表于 2019-01-03 17:32 |只看该作者

如果需求变了原来是
如果22列的值 不为空 也不是上面 四个值 其删除改行
现在是不删除  该如何处理 ?

www.42588.com徽章:
0
9 [报告]
发表于 2019-01-03 17:42 |只看该作者
awk 'BEGIN{FS=OFS="|"}{if($4~"OTH|Resident"){NF=NF}else if($4~"Citizen|Dual_Citizen"){$5="042US042"}else if($4~"042042"){$5="042DKK_US042"}}1' A

想通了 谢谢

www.42588.com徽章:
0
10 [报告]
发表于 2019-04-12 09:56 |只看该作者
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

澳门mgm官网



澳门mgm官网——4858澳门美高梅官网注册让你娱乐更简单

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,8.5折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时8.5折扣期:2019年9月30日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP